Valmislahenduste näiteid

Terviseandmete kiire ja täpne otsing

VALMISLAHENDUS: Terviseandmete kiire ja täpne otsing

PROBLEEM

Meie tarkvara arendamist alustati Tarkvara Tehnoloogia Arenduskeskuses (www.stacc.ee), et analüüsida digitaalseid terviseandmeid. Suurtele andmemahtudele ja põnevatele teaduslikele perspektiividele vaatamata on digitaalsed terviselood valdavalt vabatekstilised, mis muudab nende analüüsimise väga keerukaks. Teadustöö efektiivsemaks läbiviimiseks oli tarvis keskkonda, kus saaks kiiresti erinevaid hüpoteese testida ning andmestikega tutvuda.

LAHENDUS

TEXTA Toolkit’i kasutamine aitab STACCi teadlastel ja andmeanalüütikutel surfata miljonites tervisedokumentides, otsida ja tuvastada millisekunditega nende hulgast huvitavaid juhtumeid, analüüsida arendatavate algoritmide tööd jne.

Analüütikateenuse näiteid

Tartu Ülikool

ANALÜÜTIKATEENUS: Duplikaatide tuvastamine

PROBLEEM

Suurtes ülikoolides on tihti probleemiks, et erinevates instituutides loetakse aineid, mis on sisult väga sarnased. Õppetöö efektiivsemaks korraldamiseks on mõistlik sellised ained tuvastada ning vajadusel ühendada.

LAHENDUS

Lõime analüütikule mõeldud tööriista, mis aitab kvantitatiivse analüüsi läbi leida õppeaineid, mida loetakse erinevates instituutides, kuid on kattuva sisuga .Ülikoolile tarnitud tööriist oli graafilise kasutajaliidesega, mille abil analüütik korraga tuhandete õppeainete sarnasust hinnata saab.

Inforegister

ANALÜÜTIKATEENUS: Informatsiooni eraldamine

PROBLEEM

Erinevate eluvaldkondade esindajad vajavad infot vastaspoole juriidilise usaldusväärsuse kohta. Praegu on kõiki avalikke kohtulahendeid võimalik vaadata Justiitsministeeriumi kohtulahendite registri veebilehelt. See aga võimaldab ainult käsitsi (kohtulahendeid ükshaaval läbi töötades) kontrollida ettevõtete ja ettevõtjate juriidilist tausta, mis tähendab, et info kogumiseks tuleb läbi lugeda kõik kohtulahendid, mis antud ettevõtet puudutavad.

LAHENDUS

Projekti tulemiks on kohtulahendite analüüsimootor, mis töötleb regulaarselt kohtulahendite registri dokumente ning tuvastab neist kohtuvaidluse tulemust kirjeldavat informatsiooni, mis on nüüd kliendile hõlpsasti kättesaadav. Ülesande lahendamisel kasutasime informatsiooni eraldamist leidmaks tekstist relevantset teavet - kes olid kohtuvaidluse osapooled ning millega vaidlus lõppes.

Õhtulehe kommentaaride klassifitseerimine

ANALÜÜTIKATEENUS: Jooksva info süstematiseerimine

PROBLEEM

Kommentaariumis on suur hulk kommentaare, mis võivad kommentaariumi lõhestada, kaldudes teemast kõrvale või minna isiklikuks.

LAHENDUS

Ülesande tegi keeruliseks keele rikkus, kommentaaride allumatus keelereeglitele ning keele muutumine ajas. Võtsime kõike seda arvesse ja lõime tarkvaralahenduse, mis analüüsib automaatselt kommentaari ning väljastab seda kirjeldavad märgendid. Lahendus suudab öelda hetkega, kas kommentaaris on midagi solvavat, ähvardavat, roppu või rassistlikku.

Teadusprojektide näiteid

TEXTA programmis Eesti Keeletehnoloogia

RAKENDUSUURINGUD: TEXTA arendustegevus

TEXTA tarkvara arendamine on osaliselt finantseeritud Haridus- ja teadusministeeriumu poolt läbi programmi Eesti Keeletehnoloogia (www.keeletehnoloogia.ee).

TEXTA esimese keeletehnoloogia projekti (EKT68) eesmärk oli luua paindlik keeletehnoloogiline lahendus, mis võimaldaks laiendada eestikeelsete vabatekstiliste andmestike rakendatavust erinevate probleemide lahendamisel. Projekti raames loodud tarkvaraline prototüüp võimaldas tekstikorpustest ekstraheerida korpuses esindatud valdkonnale omast oskussõnavara, koostada selle alusel mõistepõhiseid terminoloogilisi ressursse ning tuvastada tekstidokumentidest mõistetele viitavaid tekstifragmente. Meie loodud tarkvaraprototüüp realiseeriti Terminology EXtraction and Text Analytics (TEXTA) nimelise tööriistakomplektina. Projekt viidi läbi vahemikus 2015-2016.

TEXTA teise keeletehnoloogia projekti (EKT108) eesmärk on laiendada TEXTA tööriistakomplekti funktsionaalsust ning luua uusi integratsioonilahendusi kiiremaks TEXTAga liidestumiseks. Projekt viiakse läbi 2017. aastal.