Detali paieška
Titulinis   /   VU mašininis vertimas   /   Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra

Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra

2012–2014 m. Vilniaus universitetas įvykdė Europos Sąjungos Struktūrinių fondų finansuojamą projektą „Anglų–lietuvių–anglų ir prancūzų–lietuvių–prancūzų kalbų mašininio vertimo, paremto statistiniais metodais, sistemos sukūrimas“. Buvo sukurta mašininio vertimo (MV) sistema ALPMAVIS, ir visuomenei tapo prieinama vieša internetinė statistinio MV paslauga (https://www.versti.eu/), pasiekiama taip pat ir per integruotų lietuvių kalbos ir raštijos išteklių informacinę sistemą „Raštija.lt“ (www.raštija.lt). 2014 m. testų duomenimis, bendro pobūdžio tekstų vertimo kokybė buvo praktiškai tolygi tuometinės Google Translate vertimo sistemos rezultatams (žr. pvz. http://journals.lki.lt/index.php/bendrineKalba/article/download/47/40/).
Mašininio vertimo sistemų kūrimas ir plėtra yra modernus intelektualinis iššūkis, dominantis ne tik akademinius sluoksnius, bet ir visą šiuolaikinėmis informacinėmis technologijomis besinaudojančią visuomenę. 2013 m. mašininiam vertimui (MV) panaudoti dirbtiniai neuroniniai tinklai, idėja neuroninių tinklų skaičiavimui pasitelkti kompiuterių grafinius procesorius atvėrė galimybes spręsti realius uždavinius, tarp jų – atlikti ir mašininį vertimą. Neuroniniam MV realizuoti naudojami milijonai dirbtinių neuronų, mašininis vertimas  vis glaudžiau siejamas su dirbtinio intelekto kūrimu., o vertimo kokybė vis labiau artėja prie žmogiškojo.
Atsivėrusios naujos galimybės paskatino tobulinti Vilniaus universiteto mašininio vertimo sistemą. Šiuo metu projekto komanda, vadovaujama Arūno Samuilio, vykdo naują projektą „Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra“ ir kuria naujos kokybės atvirą ir nemokamą vertimo aplinką. Atliekami arba planuojami atlikti šie darbai:
  1. Kuriamos naujos technologijos ir papildomi lingvistiniai resursai, skirti pagerinti esamų MV sistemų kokybę.
    1. Bus sukurti ir į jau sukurtą Vilniaus universiteto mašininio vertimo infrastruktūrą integruoti sprendimai, kurie suteiks galimybę MV sistemai automatiškai mokytis iš vartotojų redaguojamo vertimo rezultato. Toks funkcionalumas leis gauti geresnį MV rezultatą, kiekvieną kartą atliekant vertimo redakcijas. Ypač svarbu, kad tokio funkcionalumo naudą iš karto galės pajusti vartotojai, verčiantys ir redaguojantys tekstą (nereikės atskirų sistemos apmokymo procesų, kurie trunka labai ilgai).
    2. Kuriami, apdorojami ir tikslinami papildomi lingvistiniai resursai (tekstynai ir žodynai, terminų sąrašai, lietuvių kalbos tezauras bei pirminio redagavimo priemonės, kontroliuojamos kalbos metodais ir kt.), skirti pagerinti esamų MV sistemų kokybę.
    3. Siekiant vertimo sistemos universalumo ir platesnio taikymo (taip pat ir profesionaliam darbui), sklandus teksto vertimas bus papildytas tikslesniu atskirų žodžių/frazių žodyninio vertimo funkcionalumu.
    4. Renkant ir apdorojant lingvistinius resursus, ypatingas dėmesys bus skiriamas medicinos, teisės ir komunikavimo sričių tekstams.
    5. Bus sukurtas MV įskiepis „OpenOffice/LibreOffice“ biuro programų paketui, kuris gebės komunikuoti su www.versti.eu mašininio vertimo sistemomis ir išversti vartotojų tekstus.
    6. Bus panaudotos neuroninių tinklų pagrindu veikiančios technologijos ir sukurtos galimybės jas panaudoti didinant esamų MV sistemų kokybę
  2. Esamoje infrastruktūroje bus įdiegtos papildomos mašininio vertimo kalbų poros. Dabartinės MV sistemos lietuvių-anglų-lietuvių ir lietuvių-prancūzų-lietuvių kalbų poros yra labai svarbios, apima didelę auditorijos dalį ir yra naudingos naudotojams, tačiau atkreiptinas dėmesys, kad tiek didieji pasaulio MV sistemų kūrėjai („Google“, „Microsoft Bing“, „Asia online“, kt.), tiek lokalūs kitų šalių MV sistemų vystytojai neapsiriboja viena ar dviem kalbų poromis. Bus nepamirštos Lietuvos auditorijai tokios svarbios kalbų poros. kaip tautinių mažumų kalbos (lietuvių-lenkų-lietuvių ir lietuvių-rusų-lietuvių) ir vis aktualesnė Lietuvoje lietuvių-vokiečių-lietuvių kalbų pora. Šios kalbų poros buvo atrinktos remiantis realiu visuomenės poreikiu.
  3. Esama MV infrastruktūra pritaikoma elektroninės valdžios paslaugoms teikti, nes MV sprendimai ir įrankiai turi būti ne tik viešai prieinami vartotojams, tačiau ir lengvai adaptuojami e. valdžios paslaugų teikimui. Bus sukurtos kliento kompiuteryje ir/ar serveryje programas veikiančio programos, kurios gebės e. valdžios paslaugas teikiančių institucijų pateiktą informaciją išversti ir pateikti pasirinkta kalba (pvz., „epaslaugos.lt“). Taip pat bus sukurtos ir į teikiamą paslaugą integruotos konkrečiai sričiai pritaikytos MV sistemos. Bus paruošta diegimo infrastruktūra ir atlikti bandomieji diegimai dviem ar daugiau e. paslaugų teikti.
  4. VU projekte „Lietuvių šneka valdomų paslaugų plėtra – LIEPA 2“ sukurti šnekos atpažinimo ir sintezės sprendimai bus įdiegti egzistuojančioje mašininio vertimo platformoje. Tai leis www.versti.eu vartotojams įvesti tekstą balsu, jį koreguoti, išsiversti į norimas kalbas, išgirsti balsu, pakoreguoti išverstą tekstą ir platinti jį kitais komunikacijos kanalais (pvz., perkelti į teksto redagavimo programą, rašyti el. laiškus, platinti socialiniais kanalais). Tekstas taip pat bus redaguojamas bei suteikiama galimybė perklausyti atskirus garsinius fragmentus.
Lokalizavimo paslaugų tobulinimas ir plėtra
Vykdant priemonės „Lietuvių kalba informacinėje visuomenėje“ projektą „Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra" (projekto laikotarpis 2018–2021 m.), tęsiami programinės įrangos lokalizavimo ir priemonių lokalizavimui sukūrimo darbai.
Projekto metu atliekamas visuomenei aktualios programinės įrangos lokalizavimas ir pritaikymas, lokalizuojamos šios atvirosios programos, kurias kiekvienas žmogus galės nemokamai naudoti:
  • Mobiliųjų įrenginių programėlių kūrimo priemonė „App Inventor“;
  • Duomenų statistinio apdorojimo paketas „R“;
  • Interneto svetainių interaktyviojo kūrimo priemonės „Joomla!“;
  • Raštinės paketo „LibreOffice“ (lokalizacijos atnaujinimas ir žinyno lokalizavimas).
Numatoma sukurti programų lokalizavimo automatizavimo ekspertinės lietuvinimo kokybės vertinimo el. paslaugą, sukurti vertimo atmintį ir leksikos bazę.

Lokalizuojamos programos

Mobiliųjų įrenginių programėlių kūrimo priemonė „App Inventor“
Atviroji programa (http://appinventor.mit.edu/), skirta kurti mobiliųjų įrenginių programėles „Android“ operacinei sistemai. Sukurta bendradarbiaujant „Google“ ir Masačiusetso technologijų instituto darbuotojams 2009 metais. Nuo 2012 metų plėtojama tik Masačiusetso technologijų instituto.
Programa sukurta remiantis konstrukcionistine mokymo teorija, kurioje pabrėžiama, kad programavimas gali būti aktyviojo mokymosi priemonė galingoms idėjoms paskatinti. Grafinė vartotojo sąsaja panaši į daugumai moksleivių pažįstamą vizualaus blokinio programavimo kalbos aplinką „Scratch“ ir leidžia dėlioti programą iš siūlomų blokų. Todėl „App Inventor“ naudotis galima jau nuo 5 klasės. Šia programa naudojasi ne tik mokiniai, bet ir programavimo pradmenų neturintys suaugusieji. „App Inventor“ galima kurti „Lego Mindstorms NXT“ robotus valdančias mobiliąsias programėles arba programuoti „Arduino“ mikrovaldiklius.
 
Duomenų statistinio apdorojimo paketas „R“
Statistinių tyrimų priemonės reikalingos įvairių sričių (socialinių, humanitarinių, fizinių, technologinių ir kt.) atstovų darbe. Pagrindiniai žinomi statistiniai komerciniai paketai (pvz., „IBM SPSS“, „SAS“) nemažai kainuoja. Tai reiškia, kad net jei institucija ir yra įsigijusi licenciją, jos darbuotojas ar studentas negali legaliai pasinaudoti tokia pačia programine įranga kitame (pvz., namų) kompiuteryje. Paskutiniu metu pradėjo rastis ir atvirųjų statistinių paketų analogų, nenusileidžiančių komerciniams pagal savo galimybes ir populiarumą. Vienas tokių paketų – „R“ paketas, lokalizuojamas projekto metu.
„R“ veikia įvairiose UNIX platformose, „Windows“ ir „MacOS“, leidžia atlikti visas statistines procedūras: aprašomoji statistika, klasikiniai statistiniai testai, koreliacinė analizė, tiesinė ir netiesinė regresija, dispersinė analizė, faktorinė analizė, klasterinė analizė, laiko eilučių modeliai, ir daugelį kitų.
 
Interneto svetainių interaktyviojo kūrimo priemonės „Joomla!“
Šiuolaikinis internetas charakterizuojamas tuo, kad beveik kiekvienas žmogus pats kuria interneto turinį, dažniausiai pateikiamą saityne svetainės pavidalu. Svetainių kūrimui palengvinti naudojamos turinio valdymo sistemos, kurios leidžia kurti svetaines visiems norintiems: tiek pradedantiesiems, neturintiems gilių ženklinimo ir programavimo žinių, tiek profesionalams programuotojams. Vienos svetainės kūrimo priemonės (pvz., „Weebly“, „Wix“) leidžia kurti svetaines iš karto ir teikia svetainių talpinimo paslaugas, kitos (pvz., „Wordpress“, „Joomla“ ar „Drupal“) – gali būti naudojamos nepriklausomai, pvz., tam tikros organizacijos.
Esamos populiariausių svetainių kūrimo priemonių lokalizacijų kokybė yra nepakankama, dėl to svetainių kūrėjai ir turinio tvarkytojai patiria diskomfortą, investuoja daugiau darbo laiko į turinio tvarkymą, dalis svetaines tvarkančio personalo renkasi angliškas šių sistemų versijas, vertimo klaidos arba tekstai anglų kalba patenka į sukurtos svetainės sąsają, kuri matoma sukurtos svetainės lankytojams.
Rinkoje egzistuoja daugybė svetainių kūrimo priemonių sprendimų, kurie skiriasi savo paskirtimi, teikiamomis funkcijomis, sudėtingumo lygiu ir pan. Tačiau tiek pasaulyje, tiek Lietuvoje dauguma ekspertų pripažįsta, kad „Joomla!“ yra viena iš populiariųjų sistemų. Ją naudoja Lietuvos savivaldybių asociacija ir Lietuvos viešosios bibliotekos, mokyklos mažos ir labai mažos įmonės, Vilniaus universitetas beveik visų kamieninių ir šakinių padalinių svetainėms.
Projekto metu bus atlikta turinio valdymo sistemų specifinės terminijos analizė, susisteminta terminija, atliktas svetainių kūrimo priemonės Joomla!“ lokalizavimas.
 
Raštinės paketas „LibreOffice“
„LibreOffice“ – galingas atvirasis raštinės paketas, kuris visame pasaulyje laikomas komercinio „Microsoft Office“ paketo atvirąja, nemokama alternatyva. „LibreOffice“, kaip ir „Apache OpenOffice“, yra anksčiau populiaraus atvirojo raštinės paketo „OpenOffice.org“ atšaka. Už „Apache OpenOffice“ „LibreOffice“ yra pranašesnis platesniu funkcionalumu, aktyvesne, nepriklausoma bendruomene, kurią remia Vokietijoje registruota ne pelno siekianti organizacija „The Document Foundation“, geresniu suderinamumu su „Microsoft Office“ dokumentų formatais.
Paketo pagrindiniai (didžiausi) komponentai yra 1) tekstų rengimo programa, 2) skaičiuoklė, 3) grafikos programa, 4) pateikčių programa, 5) duomenų bazių tvarkymo programa. Paketas turi integruotą matematikos formulių rašymo komponentą ir galingą diagramų kūrimo modulį, taip pat yra integruotas „LibreLogo“ modulis, kuriuo galima programuoti „Logo“ kalba, naudojama ir Lietuvos mokyklose.
Paketas kaip pagrindinį dokumentų formatą naudoja atvirąjį raštinės ISO/IEC standartą „OpenDocument“. Taip pasiekiamas suderinamumas su kitais raštinės programų paketais, nes daugelis jų taip pat naudoja „OpenDocument“ formatą, taip pat yra lengviau atnaujinti „LibreOffice“ versijas, nes nekyla suderinamumo problemų su ankstesne versija parengtais dokumentais. „LibreOffice“  veikia operacinėse sistemose „Windows“, „Linux“ ir „OS X“.
Projekto metu atnaujinama naujų versijų lokalizacija, lokalizuojami paketo žinynai, sudarant palankias sąlygas paketo diegimui Lietuvoje (švietimo įstaigos, namų kompiuteriai, valstybės institucijos ir pan.).
 
Programinės įrangos lietuvinimo kokybės vertinimo paslauga
Sulietuvintų kompiuterių programų turime vis dar nepakankamai.  Lietuva nuo kitų Europos šalių atsilieka pagal lokalizuotų programų skaičių, tenkantį gyventojų skaičiui, taip pat ir kokybę. Prasta lokalizacijų kokybė stabdo lokalizuotų programų naudojimą.
Sulietuvintų programų kokybė nepakankama ir dėl žemo programų internacionalizacijos lygio, ir dėl nekokybiškai atliktos lokalizacijos. Prasta sulietuvintų programų kokybė daro neigiamą poveikį šalies kultūrai (vartotojai pripranta prie klaidų ir nebelaiko jų klaidomis), vartotojų patyrimui, darbo našumui. Dalis vartotojų pasirenka naudotis angliškomis programomis dėl nekokybiškų atitinkamų programų lokalizacijų lietuvių kalbai.
 
Siekiant pagerinti esamą situaciją, projekto metu rengiama programinės įrangos ekspertinio vertinimo paslauga, kuri padės įvertinti programų lietuvinimo kokybę ir, atsižvelgus į tai, kokybę tobulinti.
Rengiama paslauga skirta ne tik jau lokalizuotų programų kokybei įvertinti, bet bus naudinga visiems lokalizuojantiems programinę įrangą lietuvių kalbai ir projektuojantiems programinę įrangą lietuvių kalba, kadangi padės išvengti dažnai daromų klaidų ir neatitikimų lietuviškos lokalės normoms. Paslauga orientuota į programų sąsajos vertimų ir lokalės elementų kokybės tyrimą.
Ekspertinio vertinimo priemonėje numatomas 2 rūšių ekspertavimas: 1) užbaigto, platinti skirto produkto įvertinimui nesinaudojant ištekliais ir 2) vidiniam vertimo kokybės testavimui (pasitikrinimui) lokalizavimo metu ir naudojantis tik tekstiniais lokalizuojamaisiais ištekliais.
 

Programų lokalizavimo automatizavimo metodų, atspindinčių lietuvių kalbos ypatybes, kūrimas ir plėtojimas

 
Vertimo atmintis
„Raštijos“ svetainėje pateikta vertimo atmintis, kurioje sukaupti dvikalbiai (anglų–lietuvių) lokalizavimo ištekliai, paimti iš įvairių programų ir žodynų, todėl jai būdinga vertimo segmentų įvairovė. „Raštijos“ svetainėje rašoma: „Dažnai segmento reikšmė gali būti ta pati, bet jo tekstas gali šiek tiek skirtis. Kartais vartojami kiti pagalbiniai žodžiai, sinonimai, todėl vertimo atmintyje pateikiami visi panašūs segmentai, atitinkantys paieškos užklausą. Lokalizuotojas turi patikrinti, kuris vertimas tinkamas.“ Daugiavariantiškumas yra naudingas, kai kuriama terminija, vertimo vadovai, lokalizavimo automatizavimo priemonės. Tačiau tai kliūtis eiliniam lokalizuotojui, nes jam kiekvieną kartą reikia pasirinkti. Tai lėtina darbą, didina neapibrėžtumą, atsiranda vieta klaidoms, ypač lokalizuojant didesnes programas.
Vertimo atmintis veikia su vertimo atminties valdymo programa „TinyTM“ programos „Microsoft Word“ aplinkoje.
Projekto metu atliekamas vertimo atminties harmonizavimas su kitomis vertimo automatizavimo priemonėmis ir jose sukauptais lokalizavimo ištekliais: mašininio vertimo ir lokalizuotojams skirtais žodynais: Enciklopediniu kompiuterijos žodynu (EKŽ), Anglų–lietuvių kalbų kompiuterijos žodynu (ALKKŽ), Aiškinamuoju anglų–lietuvių kalbų kompiuterijos žodynu (AALKŽ), taip pat bus pašalinti nemotyvuoti vertimo skirtumai, sinonimai, kita dubliuojanti (perteklinė) informacija, papildyta trūkstama informacija iš naujesnių programų lokalizuojamųjų išteklių. Vertimo atminties segmentai bus papildyti kontekstine informacija, apibūdinančia segmento paskirtį, vartojimo pobūdį, dalykinę sritį, vietą dialogo lange, apibrėžtumą ir pan.
 
Leksikos bazė
Į vertimo atminties vertimo segmentų rinkinį yra įtrauktų ne tik programose sutinkamų tekstų eilučių, bet ir kompiuterijos žodynuose esančių terminų bei kitų dažnai pasikartojančių žodžių junginių (leksikos elementų), kurių nemaža dalis nesudaro viso vertimo segmento, o tik į jį įeina. Tokie žodžių junginiai lokalizacijos procese lieka nepanaudoti dėl didelio Levenšteino atstumo tarp jų ir juos panaudojančių vertimo segmentų. Vertimo atminties programose (pvz., „OmegaT“, „Trados Studio 2015“) yra galimybė pasinaudoti leksikos žodynu, pateikiamu atskiru failu. Tada atskirame nedideliame programos polangyje rodomi į verčiamą segmentą įeinančių leksinių elementų vertimai. Todėl tikslinga tokį failą turėti.
 
Projekto metu formuojamas leksikos bazės turinys, turintis ne mažiau kaip 7000 elementų. Elementą sudaro: 1) leksikos elementas anglų kalba, 2) leksikos elementas lietuvių kalba. Ne mažiau kaip 20 proc. lietuviškų leksikos elementų papildyti trumpomis apibrėžtimis arba komentarais.