Latviešu valoda jaunajās tehnoloģijās
Valsts valodas komisijas apakškomisijas Latviešu valoda jaunajās tehnoloģijās paredzētie mērķi un uzdevumi, kā arī darba plāns
 

Valsts valodas komisijas

apakškomisijas

Latviešu valoda jaunajās tehnoloģijās

sastāvs

  

Maija Baltiņa (Dr. philol., Venstpils Augstskolas asoc. prof.)

Juris Borzovs (Dr. habil. comp. sc., Rīgas Informācijas tehnoloģijas institūta direktors)

Imants Freibergs (LU prof., Latvijas Informācijas tehnoloģijas un telekomunikācijas asociācijas prezidents)

Ilga Jansone (Dr. habil. philol., Latviešu valodas institūta direktora vietniece)

Inguna Skadiņa (Dr. comp. sc., SIA "Tilde" projektu vadītāja)

Andrejs Spektors (Dr. phys., Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijas vadītājs)

Valentīna Skujiņa (Dr. habil. philol, LZA īst. loc., LZA Terminoloģijas komisijas priekšsēdētāja, Liepājas Pedagoģiskās akadēmijas profesore)

Ilze Vancāne (Tulkošanas un terminoloģijas centra galvenā terminoloģe)

Andrejs Vasiļjevs (SIA "Tilde" programmizstrādes direktors)

Andrejs Veisbergs (Dr. habil. philol., LU profesors, LU Sastatāmās valodniecības un tulkošanas nodaļas vadītājs)

Valsts valodas komisijas

apakškomisija

Latviešu valoda jaunajās tehnoloģijās

 

Mērķi un uzdevumi
Mērķis

Jaunās informācijas tehnoloģijas arvien noteiktāk kļūst par vienu no galvenajiem informācijas uzkrāšanas un savstarpējās saziņas līdzekļiem. Latviešu valodas ilgstpējīgu attīstību lielā mērā noteiks tas, vai un kad latviešu valodai tiks izstrādāts tikpat pilnvērtīgs atbalsts jaunajās tehnoloģijās, kāds tas ir angļu, franču, vācu un citām lielajām valodām.

Bez šāda datoratbalsta latviešu valodas pastāvēšana jau pēc dažiem gadu desmitiem būs nopietni apdraudēta. Lai arī oficiālajā saziņā, pateicoties likumdošanas un normatīvo aktu prasībām latviešu valodas lietošanu var nodrošināt, reālajā ikdienas saskarsmē arvien noteicošāku lomu ieņems citas valodas, galvenokārt angļu valoda.

Apzinoties šo problēmu, VVK apakškomisija Latviešu valoda jaunajās tehnoloģijās par savu galveno mērķi uzskata panākt, ka latviešu valodai tiek nodrošināts pilnvērtīgs datoratbalsts visās izplatītajās tehnoloģijās, tas ir kvalitatīvs, tiek uzturēts un attīstīts reizē ar jauno tehnoloģiju attīstību, ir plaši pieejams un pielietots.

 

Galvenie uzdevumi

Nosprausto mērķu sasniegšanai apakškomisija kā prioritārus izvirza uzdevumus izstrādāt valodas datortehnoloģijas, nodrošināt šo tehnoloģiju pieejamību un izmantošanu plaša lietojuma sistēmās, izstrādāt normatīvās prasības latviešu valodas lietošanai datorsistēmās, sekmēt informācijas tehnoloģijas un telekomunikācijas terminoloģijas attīstību un ieviešanu.

Apakškomisija kā svarīgu uzdevumu uzskata latvisku datorresursu veidošanas veicināšanu. Latviešu valodas lietojumu jaunajās sistēmās noteiks ne tikai valodas tehnoloģiskais atbalsts, bet arī tas, cik bagāti būs pieejamie satura, informācijas, izziņas, mācību un izklaides resursi latviešu valodā.

Nepieciešams veicināt jauno tehnoloģiju pielietojumu starpvalodu saziņas atvieglošanai ar automatizētās tulkošanas līdzekļu palīdzību, sekmēs valodas apguves sistēmu izstrādi.

Svarīgi panākt, ka latvisks darbs ar datoru kļūst Latvijas datorlietotājiem par pašsaprotamu normu. Vispirms jānodrošina, ka pilnvērtīgs darbs ar datoru latviešu valodā tiek nodrošināts Latvijas izglītības iestādēs.

Apakškomisija sekmēs mūsdienu datortehnoloģijas pielietojumu gan tradicionālajā valodniecībā, gan valodas jautājumu un terminoloģijas izskaidrošanā un popularizēšanā. Tā, piemēram, svarīgs uzdevums ir izveidot vienotu terminoloģijas datubāzi, kurā jebkurš interesents ar interneta starpniecību var atrast sev nepieciešamo latvisko terminu.

Latviešu valodas nodrošināšana jaunajās tehnoloģijās nav vienreizējs pasākums, kas veicams noteiktā laika sprīdī. Tā kā tehnoloģijas nepārtraukti attīstās un pilnveidojas, visu laiku jāattīsta arī latviešu valodas iespējas. Tuvākais uzdevums ir koncentrēt pūliņus, lai novērstu pašreizējo latviešu valodas tehnoloģisko atpalicību. Vienlaikus ir jārada sistēma, kas nodrošina zinātnisko institūciju, augstskolu un uzņēmumu pastāvīgu sadarbību, kuras rezultātā top praktiski lietojamas izstrādes.

Jāveicina kompleksas sistēmas izveidi, kurā nodrošināts valsts atbalsts izvērstiem zinātniskiem pētījumiem, uz kuru pamata var veidot pielietojamas izstrādes. Augstskolu uzdevums ir sagatavot augsti kvalificētus speciālistus starpdisciplinārās jomās. Zinātniskās pētniecības institūcijām jārada publiska pētījumu bāze datorlingvistikas jomā un jāveic eksperimentālas izstrādes teorētisko konceptu pārbaudei. Uzņēmumi uz šīs zinātniskā pamata veidos plaša pielietojuma sistēmas, nodrošinās to ieviešanu, uzturēšanu un attīstību.

Šos uzdevumus var iedalīt divās pamatgrupās: uzdevumi, kas saistīti ar zinātniskās bāzes radīšanu latviešu valodas ieviešanai jaunajās tehnoloģijās, un uzdevumi, kas nodrošina praktisku latviešu valodas ieviešanu un jauno tehnoloģiju pielietojumu valodas attīstībā.

Latviešu valodas ieviešana jaunajās tehnoloģijās

Normatīvo prasību sagatavošana, lai nodrošinātu latviešu valodas lietošanu datorsistēmās, kas ietver prasības pret sistēmu saskarnes, dokumentācijas un palīga valodu, nosaka Latvijas kultūrinformācijas lietošanu datorsistēmās.

Darbs ar pasaules vadošajiem informācijas tehnoloģiju uzņēmumiem, lai panāktu latviešu valodas atbalsta un latviskas saskarnes ieviešanu to produktos.

Latvisku informācijas resursu izveides veicināšana internetā un multivides formātā.

Datortehnoloģiju pielietojums valodniecībā un valodas jautājumu popularizēšanā, kas citu uzdevumu starpā ietver Valsts valodas komisijas interneta lapas izveidi un uzturēšanu, tehnoloģisko atbalstu jaunu vārdnīcu, piemēram, latviešu – igauņu – latviešu vārdnīcas izstrādē.

Latviešu terminoloģijas attīstīšana un popularizēšana, kur svarīgākais ir radīt vienotu, internetā pieejamu terminoloģijas datubāzi. Tāpat nepieciešams veicināt informācijas tehnoloģiju un telekomunikāciju terminoloģijas izstrādi, kas ir pamats latviskas saskarnes izveidei.

Zinātniskās bāzes attīstība

Bāzes tehnoloģiju izstrāde, kas nodrošina vārdu un teikumu sintaktisko un semantisko analīzi, vārdu morfoloģisko analīzi un sintēzi. Šīs tehnoloģijas nepieciešamas visdažādāko valodas rīku izstrādē, sākot no pareizrakstības pārbaudes sistēmām un beidzot ar automatizētas tulkošanas līdzekļiem.

Latviešu valodas mūsdienu leksikona izstrāde, kas kalpos par pamatu gan valodas tehnoloģiju veidošanai, gan jaunu vārdnīcu sagatavošanai.

Apjomīgu tekstu un runas korpusu sagatavošana, kas nepieciešami datorlingvistiskiem pētījumiem un izstrādēm.

Meklēšanas sistēmu izstrāde, kas ņem vērā latviešu vārdu formas un locījumus un tālākā perspektīvā arī analizē teksta jēgu, piemeklējot meklēšanas nosacījumiem visatbilstošākos rezultātus. Automatizētu kopsavilkumu radīšanas sistēmas ļaus atlasīt un vienā rindkopā ietvert būtiskāko raksta informāciju, kas atvieglo liela informācijas apjoma analīzes un apstrādes procesu.

Teikumu pareizrakstības pārbaudes līdzekļu izstrāde, kas pārbauda gan pieturzīmju lietojumu, gan vārdu locījumu saskaņotību.

Mutvārdu runas tehnoloģiju izstrāde, kas nodrošinās dialogu ar datoru balsī. Tās ietver balss sintēzes sistēmas un tehnoloģijas balss atpazīšanai un pārvēršanai tekstā.

Starpvalodu saziņas tehnoloģiju izstrāde, lai atvieglotu tekstu tulkošanu un saskarsmi starp dažādās valodās runājošajiem. Tās ietver automatizētās tulkošanas sistēmas un starpvalodu informācijas meklēšanas līdzekļus.

Valsts valodas komisijas

apakškomisija

Latviešu valoda jaunajās tehnoloģijās

Darba plāns 2002. gadam

VVK apakškomisija Latviešu valoda jaunajās tehnoloģijās 2002. gadā plāno izstrādāt detalizētu programmu, kas sniegs izvērstu pamatojumu, kāpēc nepieciešams īpašu vērību pievērst latviešu valodas datoratbalsta izstrādei un ieviešanai, kādi mērķi ir izvirzāmi ilgākā termiņā un tuvākajos trīs gados, kādi uzdevumi realizējami, lai šos mērķus sasniegtu. Programmas sagatavošanas laikā tiks izstrādāts nepieciešamā finansējuma pamatojums, tā sadalījums pa gadiem, piešķiršanas un izlietošanas principi un mehānismi. Ceram, ka šī programma kalpos par pamatu ne tikai apakškomisijas tālākajam darbam, bet Izglītības un zinātnes ministrijas, augstāko mācību iestāžu, institūtu, sabiedrisko organizāciju, uzņēmumu un citu institūciju mērķtiecīgai sadarbībai. 

Programmas sagatavošanā un apspriešanā nozīmīga loma ir apakškomisijas plānotajai starptautiskajai datorlingvistikas konferencei, kas sniegs ieskatu pašreizējā latviešu valodas situācijā citu Baltijas un Eiropas valstu valodu kontekstā un ļaus apzināt sadarbības iespējas.

Apakškomisija uzskata par iespējamu un nepieciešamu jau šogad, pirms sagatavota izvērstā programma, uzsākt darbu pie latviešu valodas datorfonda, leksikona un terminoloģijas datubāzes izstrādes projektiem.

Tāpat apakškomisija ierosina izveidot Valsts valodas komisijas interneta lapu, kas var pāraugt par nozīmīgāko informācijas apkopojumu par visiem ar latviešu valodu saistītajiem jautājumiem.

Tālāk sniegts izvērstāks projektu apraksts un 2002. gadā nepieciešamā finansējuma novērtējums.

Starptautiskā datorlingvistikas  konference

 Baltijas  valstu  datorlingvistikas  speciālisti  pagaidām  kopā  ir  pulcējušies  tikai  vienu  reizi  -  1994. gada  novembrī,  kad  notika  Eiropas  Savienības  atbalstīts  informatīvs  seminārs  “Valoda  un  Tehnika  2000”.   Pēc  8  gadiem  būtu  lietderīgi  salīdzināt  šajā  laikā  padarīto  un  skaidri  apzināties  pašreizējo  stāvokli  nozarē,  kā  arī  iepazīt  kaimiņu  valstu  jaunākos  kolēģus,  kas  strādā  šajā  jomā.  Nepieciešams  arī  veicināt  informātikas  un  valodniecības  speciālistu  savstarpējo  sadarbību.  Konferences  programma  un  darba  mērķi  būtu  jāizsludina  pēc  iespējas  plašākai  sabiedrībai  un  jāaicina  piedalīties  arī  tie  dažādie  entuziasti,  kas  saviem  spēkiem  un  savām  vajadzībām  ir  izveidojuši  dažādus  datorlingvistikas  resursus,  lai  turpmāk  varētu  apvienot  spēkus  un  intereses. 

Lai  pilnvērtīgi  apzinātu  visus  darbus,  kas  Latvijā  tiek  veikti  datorlingvistikas  jomā,  īpaši  resursu  sagatavošanā  elektroniskā  formā,  un  noformulētu  turpmāko  uzdevumu  izpildes  sadalījumu,  nepieciešams  organizēt  plašu  publisku  problēmu  un  perspektīvu  apspriešanu,  piedaloties  ne  tikai  šauram  speciālistu  lokam,  bet  arī  dažādiem  sabiedrības  pārstāvjiem.  Diskusijās īpaši  būtu  nepieciešams  iesaistīt  Latvijas  skolu  skolotājus  un  bibliotēku  darbiniekus,  kas  varētu  arī  daļēji  veikt  datorlingvistikas  resursu  sagatavošanas  darbu.

Latviešu  valodas  datorfonda  izveide

 Latviešu valodas datorlingvistiskās infrastruktūras izveidei un mūsdienīgu  datorlingvistikas  rīku  izstrādei  vispirms  ir  nepieciešams  izveidot  valodas  resursus  elektroniskā  formā,  pirmkārt  tekstu  krājumu  veidā.  Citu  valodu  pieredze  rāda,  ka  dabīgās  valodas  datoranalīzei  vajadzīgs  tekstu  krājums  elektroniskā  formā,  kas  satur  vismaz  150  miljonus  vārdlietojumu.  Šāda apjoma tekstu krājuma izveide, protams, nav iespējama vienā gadā, bet ir absolūti nepieciešams tūlīt uzsākt esošo elektronisko tekstu krājumu elementāru marķēšanu, lai šos tekstus varētu izmantot datorsistēmās,  kā  arī  papildināt  esošos  tekstu  krājumus.  Nepieciešams  nodrošināt  šo  tekstu  krājumu  glabāšanu  datoru  tīklos  visiem  speciālistiem  pieejamā  veidā.  Izveidotie  latviešu  valodas  tekstu  krājumi  nākotnē  kalpos  arī  par  pamatfondu  automatizētai  zināšanu  sintēzei,  tādējādi  radot  nepieciešamos  priekšnosacījumus  mākslīgā  intelekta  sistēmu  (t.sk.  mašīntulkošanas)  attīstībai  latviešu  valodā.  Mūsdienīga  latviešu  valodas  datorfonda  radīšana  ietver  vismaz  trīs  atšķirīgus  aspektus:  pirmkārt,  vajadzīgs  tehniskais  un  programmatūru  nodrošinājums,  otrkārt,  vajadzīga  šī  fonda  valodnieciskā  aprūpe,  un,  treškārt,  datorfondam  ir  jāatspoguļo  gan  valodas  vēsturiskā  attīstība,  gan  arī  mūsdienu  reālā  pasaule,  tāpēc tā  satura  izvēle  ir  arī kultūrsocioloģiska  problēma. 

Pašreiz  elektroniskā  formā  ir  izveidots  aptuveni  20  miljonu  vārdlietojumu  liels  tekstu  krājums  un  izstrādāta  latviešu  valodas  tekstu  SGML  (Standard  Generalized  Markup Language)  marķēšanas  metodika.  Uzsākta  arī  latviešu  valodas  tekstu  morfosintaktiskās  marķēšanas  metodikas  izstrāde  un  veikta  aptuveni  14 000  vārdlietojumu  liela  teksta  marķēšana. 

Līdzekļu  piešķiršanas  gadījumā  būtu  iespējams  izveidot  aptuveni  40  miljonu  vārdlietojumu  lielu  SGML  marķētu  latviešu  valodas  tekstu  korpusu  un  izstrādāt  morfosintaktiskās  marķēšanas  metodiku,  kas  atļautu  nākotnē  izstrādāt  programmrīkus  latviešu  valodas  tekstu  morfosintaktiskās  marķēšanas  daļējai  automatizācijai. 

Latviešu valodas leksikona datubāzes izveide

 Latviešu  valodas  leksikona  datubāzes izveide  ir  iecerēta  kā  pilotprojekts  Latviešu  valodas  tēzaura  izstrādei.  Jau 1933. gadā prof. J. Endzelīns  norādīja  uz  nepieciešamību  izveidot  “Thesaurus  linguae  letticae  -  latviešu  valodas  klēti,  kur  būtu  savākti  visi  latviešu  valodas  vārdi  ir  no  tautas  mutes,  ir  no  tekstiem.”  Mūsdienās  valodas  tēzaurs  ir  nepieciešams  arī  intelektuālu  datorsistēmu  izstrādei,  kā  lingvistiskā  bāze  informācijas  apstrādei  konkrētajā  valodā.  Deviņdesmito gadu  sākumā  Literatūras,  folkloras  un  mākslas   institūtā  Dr. Jura  Baldunčika  vadībā  tika  uzsākta  Latviešu  valodas  vēsturiskās  vārdnīcas  izstrāde,  bet  nepietiekamā  finansējuma  dēļ  tā  nav  turpināta.  LU  Matemātikas  un  informātikas  institūta  Mākslīgā  intelekta  laboratorijā  datoros  ir  ievadītas  vairākas  latviešu  valodas  vārdnīcas, t. sk. Mīlenbaha – Endzelīna  Latviešu  valodas  vārdnīcas  pamatsējumi.  Apvienojot  šos,  jau  izveidotos  leksikogrāfiskos  resursus,  ievadot  datoros  vēl  vairākas  citas  lielas  latviešu  valodas  skaidrojošās  vārdnīcas  un  izstrādājot  vienotu  metodiku  šķirkļu  izveidei,  tiks  radīta  nepieciešamā  bāze  latviešu  valodas  tēzaura  tālākai  izstrādei.  Vienlaikus  šķirkļu  paraugi  radīs  publiskas   diskusijas  iespējas,  kas  kalpos  par  pamatu  tēzaura  izstrādes  metodikas  un  satura  pilnveidei.

Terminoloģijas datubāzes izstrāde

Latviešu valodas terminoloģijas attīstību un ieviešanu plašā lietojumā būtiski kavē LZA Terminoloģijas komisijas un tās 22 apakškomisiju ļoti vājais tehniskais nodrošinājums. Apakškomisija par svarīgu uzdevumu uzskata apkopot dažādās publikācijās, vārdnīcās un kartotēkās sadrumstalotos dažādu nozaru terminus vienotā datubāzē un padarīt šo datubāzi pieejamu jebkuram interesentam internetā. Šis uzdevums nav veicams viena gada laikā, jo daudzi terminoloģiskie resursi ir pieejami tikai drukātā veidā, tāpēc priekšā stāv apjomīgs to digitalizācijas process. Apakškomisija uzskata, ka šis darbs uzsākams pēc iespējas ātrāk un tā pirmajam posmam jāatvēl līdzekļi jau šogad.

Valsts valodas komisijas interneta lapas izveide (valodas vortāls)

 Valsts valodas komisijas Datorlingvistikas apakškomisija par vienu no savas darbības uzdevumiem uzskata atspoguļot Valsts valodas komisijas darbu, izmantojot informācijas tehnoloģijas. Tāpēc apakškomisija plāno izveidot Valsts valodas komisijas interneta lapu, kurā operatīvi tiktu atspoguļots VVK darbs, kas būtu pieejama un ērti izmantojama Latvijas iedzīvotājiem un ļautu ikvienam izteikt viedokli par valsts valodas politiku un Valodas komisijas darbu. Interneta lapa būs vieta, kur, no vienas puses, sabiedrība varēs iepazīties ar komisijas darbu un, no otras puses, tā būs darba vide, kas komisijai ļaus lietot jaunās tehnoloģijas tās darba atvieglošanai.

Valsts valodas komisijas interneta lapā plānotas vairākas sadaļas:

Informācija par Valsts valodas komisiju
Sadaļā iecerēts sniegt vispārīgu informāciju par komisiju – komisijas mērķi un uzdevumi, un paveiktais.

Informācija par apakškomisijām
Sadaļa sīkāk informēs par katru komisijas apakškomisiju – apakškomisijas sastāvs, darba plāns, paveiktais.

Komisijas un apakškomisijas darba sadaļa
Šī sadaļa būtu pieejama tikai komisijas un atbilstošo apakškomisiju locekļiem – šeit tiktu uzkrāti  un regulāri atjaunoti darba dokumenti, komisijas un apakškomisijas locekļi varētu neklātienē iesniegt priekšlikumus, papildināt, labot un komentēt sagatavošanā esošos dokumentus.

Likumdošana
Sadaļā paredzēts ietvert likumdošanas aktus, kas reglamentē latviešu valodas lietojumu Latvijā.

Jaunumi
Sadaļā paredzēts atspoguļot nesenos un gaidāmos notikumus Valsts valodas komisijā.

Viedokļi
Vortālā ne tikai tiks atspoguļots komisijas darbs, bet arī paredzēta iespēja Latvijas iedzīvotājiem izteikt viedokli par komisijas darbu un priekšlikumus, kā veicināt latviešu valodas ilgspējīgu attīstību.

Saites uz institūcijām, kas darbojas valodas kopšanas jomā
Sadaļā iecerēts apkopot saites uz valstiskām un nevalstiskām organizācijām, kas rūpējas par latviešu valodas saglabāšanu un attīstību. Tāpat sadaļa paredzēts iekļaut saites, kas atspoguļo citu valstu līdzīgu institūciju darbu.

Informācija (saites) par valodas resursiem
Latvijā un arī pasaulē jau tagad ir izveidotas vairākas nozīmīgas latviešu valodas un literatūras resursu krātuves. Šajā sadaļā plānots apkopot saites uz šiem resursiem.

Datoratbalsts latviešu valodai
Šī sadaļa atspoguļos Datorligvistikas apakškomisijas darba praktiskos rezultātus. Tā kā Apakškomisijas mērķis ir panākt, lai latviešu valodai tiktu nodrošināts pilnvērtīgs datoratbalsts un tas būtu plaši pieejams, tad sadaļā tiks apkopota informācija par tehnoloģijām latviešu valodas atbalstam datoros, kā arī ietvertas publiski pieejamās izstrādes. Kā vienu no pirmajām šajā sadaļā iecerēts iekļaut vienoto terminoloģijas datu bāzi.