29 Oktobrī, Ceturtdiena
IT & zinātne :

Jaunais Tildes Birojs. Latviešu valoda ienāk mākoņskaitļošanā.

IT & zinātne » Tehnoloģijas

Palielināt Samazināt 9 Apr 2011 , 12:24

Jaunais Tildes Birojs. Latviešu valoda ienāk mākoņskaitļošanā.

Tildes Birojs tirgū ir pieejams jau no 90 gadu beigām. Labākais, ko Tilde ir izveidojusi tieši Latvijas lietotājam. Ar katru versiju tiek sasniegts kāds jauns slieksnis, jaunas tehniskas iespējas. Jaunas versijas nāk ar jauniem būtiskiem uzlabojumiem. Kas raksturo jauno versiju?

Tehnoloģiju attīstībā ir zināmi viļņi. Ja atceramies, bija PC ienākšana, interneta vilnis, netbuki un tas, ka datoram kā "dzelzim” mazinās viņa parametru nozīme. Tas ir ekrāns, kas atspoguļo mājas lapas, dokumentus un citas iespējas. Pasaulē ir nobriedusi izpratne, ka labākais risinājums lietotājam ir integrēt labākās interneta iespējas ar labākajām datora iespējām. Jaunais Tildes Birojs integrē lokālās datora jaudas ar mākoņa skaitļošanas jaudām. 

SIA Tilde valdes priekšsēdētājs Andrejs Vasiļjevs sarunā izceļ to, ka Tilde jaunajā produktā izmanto mākoņskaitļošanas iespējas. Cilvēks lokālajā mašīnā raksta tekstu, kas izmanto lokālo datora jaudu, lai sagatavotu materiālu, kas ir jāapstrādā. Mašīntulkošanā ir jaunas paaudzes mašīntulkotājs, kur Tilde izmantojam Amazon mākoņservisus. Kādēļ? Lai iegūtu labu tulkojumu, ir jāanalizē tūkstošiem variantu kā šo teikumu varētu tulkot vai interpretēt. Lokālajam datoram šādas jaudas parasti nepiemīt, tādēļ uzrakstītais teikums tiek nosūtīts uz mākoni, kur tiek veikta apstrāde. 

Kāpēc tieši Amazon? Tilde veica analīzi par pieejamajiem mākoņservisiem. Pirmais kritērijs bija droši pārvaldīti, stabili un mērogojami risinājumi, kur ir atstrādāts modelis, kas ļauj ļoti elastīgi mērogot jaudas. Amazon priekšrocība ir globāls serviss un Tildei domājot par savu produktu attīstību Eiropas mērogā citām valodām, Amazon būs krietni pieejamāks. Lietotājam par to īstenībā nav jāuztraucas, jo no lietotāja viedokļa nav starpības, kur šī apstrāde notiek. 

Jaunās paaudzes mašīntulkošana

Iepriekšējā mašīntulkošanas paaudze bija likumu bāzētā mašīntulkošana, kur valoda tika aprakstīta algoritmiski un piemēroti likumi vārdu grupēšanai. Šī tehnoloģija sasniedza savus griestus, jo valoda patiesībā ir bagātāka un dzīvāka, nekā iespējams aprakstīt pat ar labāko likumu kopu. Šī pieeja ir ierobežota un varēja dot labus rezultātus tikai vienkāršiem teikumiem.

Jaunās paaudzes pieeja ir savādāka. Kā būtu, ja nevis gudri valodnieki rakstītu šos likumus, bet ja mēs mēģinātu ar statistiskās analīzes likumiem vilkt ārā šīs sakarības atkarībā no konteksta? Tas prasa ārkārtīgi lielu jaudu, kas ir pieejama vien salīdzinoši nesen. Piemēram Google ir vieni no pionieriem, kas piesaistot Franku Ohu un citus spējīgus valodniekus, pārvērta to par komerciāli lietojamu un vienkāršu produktu. Citi pētnieki, piemēram Filips Koens palika uzticīgi cita veida risinājumiem. Teksta apjomi ir mērāmi miljonos vārdu, kas ir jāapstrādā un jāanalizē, veidojot statistiskos modeļus, kas pēc tam tiek izmantoti dzīvā laikā mašīntulkojot. Jūs noteikti esat pamanījuši, ka Google tulkošanas rezultāti lielajām valodām ir nesalīdzināmi kvalitatīvāki, nekā mazajām valodām, piemēram latviešu. 

Latviešu valoda

Latviešu valoda ir ļoti bagāta! Mums ir aptuveni 22 miljoni vārdu formu ar visiem locījumiem, deminatīviem, priedēkļiem un visu parējo, ko mēs ikdienā lietojam pat neaizdomājoties. Salīdzinājumam, angļu valoda ir daudz vienkāršāka, tie ir vien 600 - 800 tūkstoši vārdu un vārdformu. Lai aptvertu visu šo latviešu valodas formu bagātību, lai iegūtu tādas pašas statistikas kvalitātes datus, ir nepieciešams milzīgs apjoms tekstu apstrādei un atbilstošs lietotāju apjoms, kas šo lietotu un šo statistiku "mākonī” veidotu, kas mums latviešiem nav. Tāpēc jaunais Tildes birojs izmanto abus - gan jaunās paaudzes statistiskos modeļus, gan arī jau esošās latviešu valodas analīzes algoritmus. Rezultāts ir labākais iespējamais latviešu valodas mašīntulkošanas rīks, par ko arī ir šodienas stāsts.

Jaunā biroja jaunās iespējas

  • Tulkošanas līdzekļi - jauna veida pieeja tulkošanā, apvienojot tradicionālo vārdnīcu ar mākoņskaitļošanas jaudām mašīntulkošanā.
  • Gramatiskā pārbaude - Teikumos atklāj ne tikai burtu gramatikas kļūdas, bet arī sliktu stilu, pieturzīmes. Sarkans pasvītrojums parāda vārdu kļūdas, zaļš pasvītrojums pasvītro stila un teikumu konstrukcijas kļūdas. Tilde veica pētījumu, kas veica atlasi no tekstiem - oficiālie dokumenti, skolēnu darbi, prese, internets un citi normētās leksikas paraugi, neindeksējot, piemēram, komentārus portālos. Statistika norādīja tipiskās kļūdas, kas atklāja visai šokējošu ainu - katrā ceturtajā teikumā bija kāda kļūda. Katrā desmitajā bija ļoti rupjas pamatskolas līmeņa kļūdas. Tā ir mūsdienu laika īpatnība, jo dinamika ir pavisam cita. Šeit Tildes Birojs var palīdzēt, jo norāda lietotājam teikuma līmeņa kļūdas. 
  • Platformu atbalsts - Tildes Birojs nodrošina gan Windows XP, gan 7 versiju, Vistu. Office, gan iepriekšējās versijas, gan 2010, gan arī citas, piemēram OpenOffice un LibreOffice. 

Biroja tests. Aplūkosim produktu tuvāk.

Gramatikas tests

Instalējot Tildes Biroju tas tiek automātiski integrēts gan lietotāja teksta redaktorā, gan citās vidēs, kur mēs rakstām, piemēram rakstot jaunu e-pasta vēstuli. No jauninājumiem noderīgi un interesanti būs pārbaudīt Biroja spēju tikt galā ar sliktu rakstības stilu, tādēļ sāksim tieši ar gramatikas pārbaudi. Pirmais tests ir vienkāršs - "Darba vieta”, ko programma izceļ ar zaļu pasvītrojumu. Kā biju paredzējis, Tildes Birojs norāda, ka "darbavieta” ir rakstāma kopā. Nākamais ir nedaudz sarežģītāks uzdevums - "Latvijas Banka”, kas arī tiek izcelts, jo vārds "banka” šeit ir jāraksta ar mazo burtu. 

Arī rakstot teikumus pilnībā bez garumzīmēm, programma atzīmē teikuma kļūdaino daļu, pēc kuras, piemēram, nepieciešams komats. Programma gaida, kamēr es pabeigšu teikumu vai turpināšu rakstīt nākamajā rindā un tad iezīmē atrastās kļūdas. Tipiskās kļūdas, piemēram pārrakstīšanās vai nepareizas dzimtes lietošana tiek norādītas praktiski nekļūdīgi. Vieta uzlabojumiem ir nevārdu vai citvalodu vārdu lietojumā. Redzu paziņojumus, piemēram "palīgteikums jāatdala ar pieturzīmi” un sāku kaut nedaudz, bet atcerēties skolā mācīto. 

Vārdnīca

Vārdnīcai ir jauns dizains un arī funkcionāla nozīme. Savā būtībā tas jau ir tulkotājs. Programmas ikonā ir redzama "tilde”. Atverot programmu redzam arī jaunumu bloku, kas lietotājiem paziņo aktuālos jauninājumus, augšpusē redzam karodziņus vārdnīcas izvēlei. Līdzīgi kā iepriekšējā versijā, ir 5 vārdnīcas, ieskaitot latviešu sinonīmu vārdnīcu.

Pieejamas divas cilnes (tabi) - vārdnīcas un tulkošana. Vārdnīcas ir papildinātas ar jauniem šķirkļiem (vārdiem), kas šobrīd satur 750000 šķirkļus un 214000 izteicienus. Tilde ir ietvērusi arī iepriekšējās versijas lietotāju iesūtītos ierosinājumus. Rezultāts ir atjaunota, mūsdienu saturam atbilstoša vārdnīca, kas starp citu arī strādā krietni ātrāk nekā iepriekšējā versija. 

Integrēta ir arī mašīntulkošanas iespēja, kas vārdnīcā neatrastos vārdus tulkos ar mākoņskaitļošanas risinājuma iespējām, piemeklējot statistiski līdzīgos gadījumos lietotos vārdus. Tas paver iespēju tulkot krietni garākas un sarežģītākas frāzes, kamēr vārdnīca zemāk rāda tuvāko šķirkli no vārdnīcām. 

Vārdnīcā ir parādījusies arī jauna poga, kas nebija iepriekšējā versijā - "ātrais skatījums”, kas man atver mazu lodziņu, kas meklē gan vārdnīcās, gan automātiski veic tulkošanu. Pārslēdzoties atpakaļ uz aplikāciju, kurā iepriekš strādāju, piemēram pārlūkoju mājas lapu angļu valodā, šis lodziņš paliek puscaurspīdīgs un man ir iespēja vienlaicīgi redzēt, gan mājas lapas, gan tulkoto tekstu. To var piespraust ar mazu "spraužamadatas” ikonu, lai tas paliek virspusē. Vārdnīcai ir papildinātas karsto taustiņu kombinācijas, kas ļauj, piemēram iezīmētam  tekstam nospiežot "Ctrl-Shift-T”, saņemt tulkojumu ātrā skatījuma logā vai lielajā vārdnīcas logā, atkarībā no tā, ko esmu izvēlējies "piespraust”.

Papildus labumi

Kā jau vienmēr, Tildes fonti un tastatūras pianists vai iespēja Outlook kalendārā pievienot Latvijas svinamās dienas un vārda dienas, lai es savā vienmēr aizņemtajā ikdienā neaizmirstu par saviem draugiem. Tās ir labas lietas, ko Tilde ir saglabājusi arī šajā versijā. 

Jaunajā Birojā tika izmantota izdevība atsvaidzināt pašu produkta tēlu, izveidojot mākslas projektus. Indra Sāmīte, Tildes biznesa attīstības vadītāja norāda, ka lielākās Latvijas vērtības ir valoda, kultūra un māksla. Mūsu valoda ir jākopj, līdzīgi kā dārzs, lai tas neaizaug. Valodai pazūdot pasaule kļūst nabadzīgāka, tieši tādēļ radās iespēja pasvītrot ieguldījumu latviešu valodā, Tildes produkti apvienojos tehnoloģijas ar mākslu, kādēļ tika piesaistīti jauni mākslinieki gan produktu, gan produktu marketinga noformēšanai.

Epilogam

Instalācija datorā aizņems 850 Mb, tomēr programma atmiņā paņems vien 16 Mb. Mazākas iespējas - atjaunotas vārdnīcas un citi labumi tiek doti lietotājiem bez maksas kā papildinājumi jau esošajām versijām, pēc abonēšanas principa. 

Šis raksts pēc tā tapšanas tika pārvietots datorā, kurā tika testēts jaunais Tildes Birojs un man par lielu gandarījumu, atrada veselas 11 gramatikas un teikumu kļūdas :) Uzzinu, ka vārds "piemēram” vienmēr abpusēji ir jāliek komatos un vārdu "deminutīvi” es arī nebiju uzrakstījis pareizi. Iespēja sevi izglītot un uzlabot savu rakstību ir vienmēr!






Ja vēlies nobalsot par šo rakstu, sūti SMS ar tekstu

TXT BALSS

uz numuru

1897


Nobalsots 505 reizes


Maksa (0,36 LVL) ir pievienota telefona rēķinam vai atrēķināta no priekšapmaksas kartes.
Atbalsts: +37129469896 | zinuspice@gmail.com | Piedāvā fortumo.lv
IESKATIES!

Materiāls publicēts sadarbībā ar vietni

Ievietots : 09 Aprīlī 2011

Skatīts : 1515 reizes

Avots : http://www.diena.lv/lat/tech/jaunais-tildes-birojs-latviesu-valoda-ienak-makonskaitlosana#p_1

Birkas : biroju, datorā, Tildes, latviešu, dokumentus, skaitļošanas, valoda, Tilde, datora, birojs

(Balsu nav)
"Ziņu Spice" rekomendē
  • Latviete uzvar pasaules skaistumkonkursā

  • Iznāk Andra Grūtupa jaunā grāmata «Maniaks»

  • Holivudas skaistuma ikonas (1.daļa)

Komentāru pagaidām nav. Esi pirmais !
Pievienot komentārus var tikai reģistrētie lietotāji.
[ Reģistrācija | Ieeja ]
Ziņu Spice neatbild par rakstiem pievienotajām lasītāju atsauksmēm, kā arī aicina portāla lasītājus, rakstot atsauksmes, ievērot morāles un pieklājības normas, nekurināt un neaicināt uz rasu naidu, iztikt bez rupjībām. Lūguma neievērošanas gadījumā Ziņu Spice patur tiesības liegt rakstu komentēšanas iespēju, kā arī dzēst neatbilstošos komentārus.
Komentāru noformēšana

Attiecies pret zemākiem tā, kā pats vēlētos, lai pret tevīm attiecas tie, kas ieņem augstāku sabiedrisku stāvokli nekā tu pats.
-- Seneka

"Liepājas brāļi" ar dziesmu pateicas mediķiem

  • Visi aktuālie video
  • 29 Oktobrī vēsturē

    Kam šobrīd visvairāk būtu nepieciešama sociālā palīdzība?
    Atbildes: 50
    Ārstniecības augi Latvijā | Пик известий | Tiek izmantotas uCoz tehnoloģijas | Katalogs | Kinofilm@LV