Valsts valodas komisijas
apakškomisijas
Latviešu valoda jaunajās tehnoloģijās
sastāvs
Maija Baltiņa (Dr. philol., Venstpils Augstskolas asoc. prof.)
Juris Borzovs (Dr. habil. comp. sc., Rīgas Informācijas tehnoloģijas institūta direktors)
Imants Freibergs (LU prof., Latvijas Informācijas tehnoloģijas un telekomunikācijas asociācijas prezidents)
Ilga Jansone (Dr. habil. philol., Latviešu valodas institūta direktora vietniece)
Inguna Skadiņa (Dr. comp. sc., SIA "Tilde" projektu vadītāja)
Andrejs Spektors (Dr. phys., Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijas vadītājs)
Valentīna Skujiņa (Dr. habil. philol, LZA īst. loc., LZA Terminoloģijas komisijas priekšsēdētāja, Liepājas Pedagoģiskās akadēmijas profesore)
Ilze Vancāne (Tulkošanas un terminoloģijas centra galvenā terminoloģe)
Andrejs Vasiļjevs (SIA "Tilde" programmizstrādes direktors)
Andrejs Veisbergs (Dr. habil. philol., LU profesors, LU Sastatāmās valodniecības un tulkošanas nodaļas vadītājs)
Valsts valodas komisijas
apakškomisija
Latviešu valoda jaunajās tehnoloģijās
Mērķi un uzdevumi
Mērķis
Jaunās informācijas tehnoloģijas arvien noteiktāk kļūst par vienu no galvenajiem informācijas uzkrāšanas un savstarpējās saziņas līdzekļiem. Latviešu valodas ilgstpējīgu attīstību lielā mērā noteiks tas, vai un kad latviešu valodai tiks izstrādāts tikpat pilnvērtīgs atbalsts jaunajās tehnoloģijās, kāds tas ir angļu, franču, vācu un citām lielajām valodām.
Bez šāda datoratbalsta latviešu valodas pastāvēšana jau pēc dažiem gadu desmitiem būs nopietni apdraudēta. Lai arī oficiālajā saziņā, pateicoties likumdošanas un normatīvo aktu prasībām latviešu valodas lietošanu var nodrošināt, reālajā ikdienas saskarsmē arvien noteicošāku lomu ieņems citas valodas, galvenokārt angļu valoda.
Apzinoties šo problēmu, VVK apakškomisija Latviešu valoda jaunajās tehnoloģijās par savu galveno mērķi uzskata panākt, ka latviešu valodai tiek nodrošināts pilnvērtīgs datoratbalsts visās izplatītajās tehnoloģijās, tas ir kvalitatīvs, tiek uzturēts un attīstīts reizē ar jauno tehnoloģiju attīstību, ir plaši pieejams un pielietots.
Galvenie uzdevumi
Nosprausto mērķu sasniegšanai apakškomisija kā prioritārus izvirza uzdevumus izstrādāt valodas datortehnoloģijas, nodrošināt šo tehnoloģiju pieejamību un izmantošanu plaša lietojuma sistēmās, izstrādāt normatīvās prasības latviešu valodas lietošanai datorsistēmās, sekmēt informācijas tehnoloģijas un telekomunikācijas terminoloģijas attīstību un ieviešanu.
Apakškomisija kā svarīgu uzdevumu uzskata latvisku datorresursu veidošanas veicināšanu. Latviešu valodas lietojumu jaunajās sistēmās noteiks ne tikai valodas tehnoloģiskais atbalsts, bet arī tas, cik bagāti būs pieejamie satura, informācijas, izziņas, mācību un izklaides resursi latviešu valodā.
Nepieciešams veicināt jauno tehnoloģiju pielietojumu starpvalodu saziņas atvieglošanai ar automatizētās tulkošanas līdzekļu palīdzību, sekmēs valodas apguves sistēmu izstrādi.
Svarīgi panākt, ka latvisks darbs ar datoru kļūst Latvijas datorlietotājiem par pašsaprotamu normu. Vispirms jānodrošina, ka pilnvērtīgs darbs ar datoru latviešu valodā tiek nodrošināts Latvijas izglītības iestādēs.
Apakškomisija sekmēs mūsdienu datortehnoloģijas pielietojumu gan tradicionālajā valodniecībā, gan valodas jautājumu un terminoloģijas izskaidrošanā un popularizēšanā. Tā, piemēram, svarīgs uzdevums ir izveidot vienotu terminoloģijas datubāzi, kurā jebkurš interesents ar interneta starpniecību var atrast sev nepieciešamo latvisko terminu.
Latviešu valodas nodrošināšana jaunajās tehnoloģijās nav vienreizējs pasākums, kas veicams noteiktā laika sprīdī. Tā kā tehnoloģijas nepārtraukti attīstās un pilnveidojas, visu laiku jāattīsta arī latviešu valodas iespējas. Tuvākais uzdevums ir koncentrēt pūliņus, lai novērstu pašreizējo latviešu valodas tehnoloģisko atpalicību. Vienlaikus ir jārada sistēma, kas nodrošina zinātnisko institūciju, augstskolu un uzņēmumu pastāvīgu sadarbību, kuras rezultātā top praktiski lietojamas izstrādes.
Jāveicina kompleksas sistēmas izveidi, kurā nodrošināts valsts atbalsts izvērstiem zinātniskiem pētījumiem, uz kuru pamata var veidot pielietojamas izstrādes. Augstskolu uzdevums ir sagatavot augsti kvalificētus speciālistus starpdisciplinārās jomās. Zinātniskās pētniecības institūcijām jārada publiska pētījumu bāze datorlingvistikas jomā un jāveic eksperimentālas izstrādes teorētisko konceptu pārbaudei. Uzņēmumi uz šīs zinātniskā pamata veidos plaša pielietojuma sistēmas, nodrošinās to ieviešanu, uzturēšanu un attīstību.
Šos uzdevumus var iedalīt divās pamatgrupās: uzdevumi, kas saistīti ar zinātniskās bāzes radīšanu latviešu valodas ieviešanai jaunajās tehnoloģijās, un uzdevumi, kas nodrošina praktisku latviešu valodas ieviešanu un jauno tehnoloģiju pielietojumu valodas attīstībā.
Latviešu valodas ieviešana jaunajās tehnoloģijās
Normatīvo prasību sagatavošana, lai nodrošinātu latviešu valodas lietošanu datorsistēmās, kas ietver prasības pret sistēmu saskarnes, dokumentācijas un palīga valodu, nosaka Latvijas kultūrinformācijas lietošanu datorsistēmās.
Darbs ar pasaules vadošajiem informācijas tehnoloģiju uzņēmumiem, lai panāktu latviešu valodas atbalsta un latviskas saskarnes ieviešanu to produktos.
Latvisku informācijas resursu izveides veicināšana internetā un multivides formātā.
Datortehnoloģiju pielietojums valodniecībā un valodas jautājumu popularizēšanā, kas citu uzdevumu starpā ietver Valsts valodas komisijas interneta lapas izveidi un uzturēšanu, tehnoloģisko atbalstu jaunu vārdnīcu, piemēram, latviešu igauņu latviešu vārdnīcas izstrādē.
Latviešu terminoloģijas attīstīšana un popularizēšana, kur svarīgākais ir radīt vienotu, internetā pieejamu terminoloģijas datubāzi. Tāpat nepieciešams veicināt informācijas tehnoloģiju un telekomunikāciju terminoloģijas izstrādi, kas ir pamats latviskas saskarnes izveidei.
Zinātniskās bāzes attīstība
Bāzes tehnoloģiju izstrāde, kas nodrošina vārdu un teikumu sintaktisko un semantisko analīzi, vārdu morfoloģisko analīzi un sintēzi. Šīs tehnoloģijas nepieciešamas visdažādāko valodas rīku izstrādē, sākot no pareizrakstības pārbaudes sistēmām un beidzot ar automatizētas tulkošanas līdzekļiem.
Latviešu valodas mūsdienu leksikona izstrāde, kas kalpos par pamatu gan valodas tehnoloģiju veidošanai, gan jaunu vārdnīcu sagatavošanai.
Apjomīgu tekstu un runas korpusu sagatavošana, kas nepieciešami datorlingvistiskiem pētījumiem un izstrādēm.
Meklēšanas sistēmu izstrāde, kas ņem vērā latviešu vārdu formas un locījumus un tālākā perspektīvā arī analizē teksta jēgu, piemeklējot meklēšanas nosacījumiem visatbilstošākos rezultātus. Automatizētu kopsavilkumu radīšanas sistēmas ļaus atlasīt un vienā rindkopā ietvert būtiskāko raksta informāciju, kas atvieglo liela informācijas apjoma analīzes un apstrādes procesu.
Teikumu pareizrakstības pārbaudes līdzekļu izstrāde, kas pārbauda gan pieturzīmju lietojumu, gan vārdu locījumu saskaņotību.
Mutvārdu runas tehnoloģiju izstrāde, kas nodrošinās dialogu ar datoru balsī. Tās ietver balss sintēzes sistēmas un tehnoloģijas balss atpazīšanai un pārvēršanai tekstā.
Starpvalodu saziņas tehnoloģiju izstrāde, lai atvieglotu tekstu tulkošanu un saskarsmi starp dažādās valodās runājošajiem. Tās ietver automatizētās tulkošanas sistēmas un starpvalodu informācijas meklēšanas līdzekļus.
Valsts valodas komisijas
apakškomisija
Latviešu valoda jaunajās tehnoloģijās
Darba plāns 2002. gadam
VVK apakškomisija Latviešu valoda jaunajās tehnoloģijās 2002. gadā plāno izstrādāt detalizētu programmu, kas sniegs izvērstu pamatojumu, kāpēc nepieciešams īpašu vērību pievērst latviešu valodas datoratbalsta izstrādei un ieviešanai, kādi mērķi ir izvirzāmi ilgākā termiņā un tuvākajos trīs gados, kādi uzdevumi realizējami, lai šos mērķus sasniegtu. Programmas sagatavošanas laikā tiks izstrādāts nepieciešamā finansējuma pamatojums, tā sadalījums pa gadiem, piešķiršanas un izlietošanas principi un mehānismi. Ceram, ka šī programma kalpos par pamatu ne tikai apakškomisijas tālākajam darbam, bet Izglītības un zinātnes ministrijas, augstāko mācību iestāžu, institūtu, sabiedrisko organizāciju, uzņēmumu un citu institūciju mērķtiecīgai sadarbībai.
Programmas sagatavošanā un apspriešanā nozīmīga loma ir apakškomisijas plānotajai starptautiskajai datorlingvistikas konferencei, kas sniegs ieskatu pašreizējā latviešu valodas situācijā citu Baltijas un Eiropas valstu valodu kontekstā un ļaus apzināt sadarbības iespējas.
Apakškomisija uzskata par iespējamu un nepieciešamu jau šogad, pirms sagatavota izvērstā programma, uzsākt darbu pie latviešu valodas datorfonda, leksikona un terminoloģijas datubāzes izstrādes projektiem.
Tāpat apakškomisija ierosina izveidot Valsts valodas komisijas interneta lapu, kas var pāraugt par nozīmīgāko informācijas apkopojumu par visiem ar latviešu valodu saistītajiem jautājumiem.
Tālāk sniegts izvērstāks projektu apraksts un 2002. gadā nepieciešamā finansējuma novērtējums.
Starptautiskā datorlingvistikas konference
Baltijas valstu datorlingvistikas speciālisti pagaidām kopā ir pulcējušies tikai vienu reizi - 1994. gada novembrī, kad notika Eiropas Savienības atbalstīts informatīvs seminārs Valoda un Tehnika 2000. Pēc 8 gadiem būtu lietderīgi salīdzināt šajā laikā padarīto un skaidri apzināties pašreizējo stāvokli nozarē, kā arī iepazīt kaimiņu valstu jaunākos kolēģus, kas strādā šajā jomā. Nepieciešams arī veicināt informātikas un valodniecības speciālistu savstarpējo sadarbību. Konferences programma un darba mērķi būtu jāizsludina pēc iespējas plašākai sabiedrībai un jāaicina piedalīties arī tie dažādie entuziasti, kas saviem spēkiem un savām vajadzībām ir izveidojuši dažādus datorlingvistikas resursus, lai turpmāk varētu apvienot spēkus un intereses.
Lai pilnvērtīgi apzinātu visus darbus, kas Latvijā tiek veikti datorlingvistikas jomā, īpaši resursu sagatavošanā elektroniskā formā, un noformulētu turpmāko uzdevumu izpildes sadalījumu, nepieciešams organizēt plašu publisku problēmu un perspektīvu apspriešanu, piedaloties ne tikai šauram speciālistu lokam, bet arī dažādiem sabiedrības pārstāvjiem. Diskusijās īpaši būtu nepieciešams iesaistīt Latvijas skolu skolotājus un bibliotēku darbiniekus, kas varētu arī daļēji veikt datorlingvistikas resursu sagatavošanas darbu.
Latviešu valodas datorfonda izveide
Latviešu valodas datorlingvistiskās infrastruktūras izveidei un mūsdienīgu datorlingvistikas rīku izstrādei vispirms ir nepieciešams izveidot valodas resursus elektroniskā formā, pirmkārt tekstu krājumu veidā. Citu valodu pieredze rāda, ka dabīgās valodas datoranalīzei vajadzīgs tekstu krājums elektroniskā formā, kas satur vismaz 150 miljonus vārdlietojumu. Šāda apjoma tekstu krājuma izveide, protams, nav iespējama vienā gadā, bet ir absolūti nepieciešams tūlīt uzsākt esošo elektronisko tekstu krājumu elementāru marķēšanu, lai šos tekstus varētu izmantot datorsistēmās, kā arī papildināt esošos tekstu krājumus. Nepieciešams nodrošināt šo tekstu krājumu glabāšanu datoru tīklos visiem speciālistiem pieejamā veidā. Izveidotie latviešu valodas tekstu krājumi nākotnē kalpos arī par pamatfondu automatizētai zināšanu sintēzei, tādējādi radot nepieciešamos priekšnosacījumus mākslīgā intelekta sistēmu (t.sk. mašīntulkošanas) attīstībai latviešu valodā. Mūsdienīga latviešu valodas datorfonda radīšana ietver vismaz trīs atšķirīgus aspektus: pirmkārt, vajadzīgs tehniskais un programmatūru nodrošinājums, otrkārt, vajadzīga šī fonda valodnieciskā aprūpe, un, treškārt, datorfondam ir jāatspoguļo gan valodas vēsturiskā attīstība, gan arī mūsdienu reālā pasaule, tāpēc tā satura izvēle ir arī kultūrsocioloģiska problēma.
Pašreiz elektroniskā formā ir izveidots aptuveni 20 miljonu vārdlietojumu liels tekstu krājums un izstrādāta latviešu valodas tekstu SGML (Standard Generalized Markup Language) marķēšanas metodika. Uzsākta arī latviešu valodas tekstu morfosintaktiskās marķēšanas metodikas izstrāde un veikta aptuveni 14 000 vārdlietojumu liela teksta marķēšana.
Līdzekļu piešķiršanas gadījumā būtu iespējams izveidot aptuveni 40 miljonu vārdlietojumu lielu SGML marķētu latviešu valodas tekstu korpusu un izstrādāt morfosintaktiskās marķēšanas metodiku, kas atļautu nākotnē izstrādāt programmrīkus latviešu valodas tekstu morfosintaktiskās marķēšanas daļējai automatizācijai.
Latviešu valodas leksikona datubāzes izveide
Latviešu valodas leksikona datubāzes izveide ir iecerēta kā pilotprojekts Latviešu valodas tēzaura izstrādei. Jau 1933. gadā prof. J. Endzelīns norādīja uz nepieciešamību izveidot Thesaurus linguae letticae - latviešu valodas klēti, kur būtu savākti visi latviešu valodas vārdi ir no tautas mutes, ir no tekstiem. Mūsdienās valodas tēzaurs ir nepieciešams arī intelektuālu datorsistēmu izstrādei, kā lingvistiskā bāze informācijas apstrādei konkrētajā valodā. Deviņdesmito gadu sākumā Literatūras, folkloras un mākslas institūtā Dr. Jura Baldunčika vadībā tika uzsākta Latviešu valodas vēsturiskās vārdnīcas izstrāde, bet nepietiekamā finansējuma dēļ tā nav turpināta. LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā datoros ir ievadītas vairākas latviešu valodas vārdnīcas, t. sk. Mīlenbaha Endzelīna Latviešu valodas vārdnīcas pamatsējumi. Apvienojot šos, jau izveidotos leksikogrāfiskos resursus, ievadot datoros vēl vairākas citas lielas latviešu valodas skaidrojošās vārdnīcas un izstrādājot vienotu metodiku šķirkļu izveidei, tiks radīta nepieciešamā bāze latviešu valodas tēzaura tālākai izstrādei. Vienlaikus šķirkļu paraugi radīs publiskas diskusijas iespējas, kas kalpos par pamatu tēzaura izstrādes metodikas un satura pilnveidei.
Terminoloģijas datubāzes izstrāde
Latviešu valodas terminoloģijas attīstību un ieviešanu plašā lietojumā būtiski kavē LZA Terminoloģijas komisijas un tās 22 apakškomisiju ļoti vājais tehniskais nodrošinājums. Apakškomisija par svarīgu uzdevumu uzskata apkopot dažādās publikācijās, vārdnīcās un kartotēkās sadrumstalotos dažādu nozaru terminus vienotā datubāzē un padarīt šo datubāzi pieejamu jebkuram interesentam internetā. Šis uzdevums nav veicams viena gada laikā, jo daudzi terminoloģiskie resursi ir pieejami tikai drukātā veidā, tāpēc priekšā stāv apjomīgs to digitalizācijas process. Apakškomisija uzskata, ka šis darbs uzsākams pēc iespējas ātrāk un tā pirmajam posmam jāatvēl līdzekļi jau šogad.
Valsts valodas komisijas interneta lapas izveide (valodas vortāls)
Valsts valodas komisijas Datorlingvistikas apakškomisija par vienu no savas darbības uzdevumiem uzskata atspoguļot Valsts valodas komisijas darbu, izmantojot informācijas tehnoloģijas. Tāpēc apakškomisija plāno izveidot Valsts valodas komisijas interneta lapu, kurā operatīvi tiktu atspoguļots VVK darbs, kas būtu pieejama un ērti izmantojama Latvijas iedzīvotājiem un ļautu ikvienam izteikt viedokli par valsts valodas politiku un Valodas komisijas darbu. Interneta lapa būs vieta, kur, no vienas puses, sabiedrība varēs iepazīties ar komisijas darbu un, no otras puses, tā būs darba vide, kas komisijai ļaus lietot jaunās tehnoloģijas tās darba atvieglošanai.
Valsts valodas komisijas interneta lapā plānotas vairākas sadaļas:
Informācija par Valsts valodas komisiju Sadaļā iecerēts sniegt vispārīgu informāciju par komisiju komisijas mērķi un uzdevumi, un paveiktais.
Informācija par apakškomisijām Sadaļa sīkāk informēs par katru komisijas apakškomisiju apakškomisijas sastāvs, darba plāns, paveiktais.
Komisijas un apakškomisijas darba sadaļa Šī sadaļa būtu pieejama tikai komisijas un atbilstošo apakškomisiju locekļiem šeit tiktu uzkrāti un regulāri atjaunoti darba dokumenti, komisijas un apakškomisijas locekļi varētu neklātienē iesniegt priekšlikumus, papildināt, labot un komentēt sagatavošanā esošos dokumentus.
Likumdošana Sadaļā paredzēts ietvert likumdošanas aktus, kas reglamentē latviešu valodas lietojumu Latvijā.
Jaunumi Sadaļā paredzēts atspoguļot nesenos un gaidāmos notikumus Valsts valodas komisijā.
Viedokļi Vortālā ne tikai tiks atspoguļots komisijas darbs, bet arī paredzēta iespēja Latvijas iedzīvotājiem izteikt viedokli par komisijas darbu un priekšlikumus, kā veicināt latviešu valodas ilgspējīgu attīstību.
Saites uz institūcijām, kas darbojas valodas kopšanas jomā Sadaļā iecerēts apkopot saites uz valstiskām un nevalstiskām organizācijām, kas rūpējas par latviešu valodas saglabāšanu un attīstību. Tāpat sadaļa paredzēts iekļaut saites, kas atspoguļo citu valstu līdzīgu institūciju darbu.
Informācija (saites) par valodas resursiem Latvijā un arī pasaulē jau tagad ir izveidotas vairākas nozīmīgas latviešu valodas un literatūras resursu krātuves. Šajā sadaļā plānots apkopot saites uz šiem resursiem.
Datoratbalsts latviešu valodai Šī sadaļa atspoguļos Datorligvistikas apakškomisijas darba praktiskos rezultātus. Tā kā Apakškomisijas mērķis ir panākt, lai latviešu valodai tiktu nodrošināts pilnvērtīgs datoratbalsts un tas būtu plaši pieejams, tad sadaļā tiks apkopota informācija par tehnoloģijām latviešu valodas atbalstam datoros, kā arī ietvertas publiski pieejamās izstrādes. Kā vienu no pirmajām šajā sadaļā iecerēts iekļaut vienoto terminoloģijas datu bāzi. |