Latviešu valodas seno tekstu korpuss (www.ailab.lv/SENIE)
Informācija par internetā pieejamo latviešu valodas seno tekstu korpusu.
 

Latviešu valodas seno tekstu korpuss www.ailab.lv/SENIE

2003. gadā internetā tika ievietota virkne latviešu valodas 17. gs. tekstu, tādējādi taustāmus rezultātus ir ieguvis darbs pie latviešu valodas seno tekstu korpusa izveides. 80. gadu beigās LU Matemātikas un informātikas institūta (MII) Mākslīgā intelekta laboratorijā sāka ievadīt senos tekstus datorā M. Baltiņas un A. Spektora vadībā. 90. gadu sākumā ar Sorosa fonda – Latvija atbalstu tika elektroniski uzkrāti vairāki 17. gs. iespiedteksti. Pēc tam darbs ar seno tekstu datorizētu apstrādi uz laiku apstājās. Korpusa nozīme valodas pētījumos ir apzināta jau sen, bet tieši pēdējos gados darbu pie latviešu valodas seno tekstu korpusa veicināja Prof. T. G. Fennella aicinājums izveidot veclatviešu valodas vārdnīcu.

2002. gadā LU Filoloģijas fakultātes Baltu valodu katedras un LU MII Mākslīgā intelekta laboratorijas speciālisti* uzsāka darbu pie 17. gs. latviešu valodas datorvārdnīcas, kas guva atbalstu LU Pētniecības projektu konkursā. Internetā tika ievietoti svarīgākie 17. gs. iespieddarbu pirmpublicējumi: http://www.ailab.lv/SENIE/.

LU MII Mākslīgā intelekta laboratorijā tika izstrādāta konkordances programma, kas sniedz iespēju aplūkot meklējamo vārdu kontekstā. Konkordances programma izmanto t.s. KWIC (key word in the centre) principu: meklējamais vārds (vai tā daļa) tiek parādīts ekrāna vidū ar izvēlēta apjoma (noteikts simbolu skaits) kontekstu.

Šobrīd korpusā ir iekļauti vairāk nekā 20 avotu, kuru vārdlietojumu skaits pārsniedz 800 000 (sīkāk par to skatīt mājas lapas nodaļu "Kopējā statistika"). Par katru no avotiem ir pieejama šāda informācija:

1)      bibliogrāfija (izmantots LNB kopkatalogs "Seniespiedumi latviešu valodā 1525 – 1855", Rīga, 1999);

2)      transliterēts teksts;

3)      lietotie apzīmējumi;

4)      vārdformu indeksi (ņemot un neņemot vērā reģistrjutību);

5)      vārdformu biežuma indeksi (ņemot un neņemot vērā reģistrjutību).

Neliela apjoma avotiem ir pieejams arī interaktīvs indekss ar konteksta apkaimi (piem., G. Elgera "Garīgām katoļu dziesmām, labsirdīgu kristiešu pārceltām no latīņu, vācu un poļu psalmiem un baznīcas dziedājumiem nevācu valodā", 1615. g. “Enhiridijam. Mazajam katehismam jeb kristīgajai audzināšanai parastajiem mācītājiem un sprediķotājiem, arī mājastēviem u.c.”, kā arī Jaunās Derības grāmatām). Interaktīvs indekss ļauj, izvēloties attiecīgo vārdformu, iegūt visas “adreses”, uz kurām uzklikšķinot, var lasīt attiecīgo teksta vietu.

Dažiem avotiem (piem., baznīcas rokasgrāmatai “Lettisch Vade mecum”) ir pieejams arī oriģināla faksimils JPG formātā. Nākotnē korpusu papildinās ar citiem pieejamiem oriģinālu faksimila attēliem.

Ir iespēja strādāt gan ar katra atsevišķa avota indeksu, gan arī ar visu avotu kopējo indeksu, kā arī izmantot meklēšanas iespējas gan indeksā, gan konkordances programmā.

Papildinot esošos tekstus ar jauniem avotiem (tiek pievienoti 16. gs. teksti (Lutera “Enhiridijs” (1586), “Evaņģēliji un epistulas” (1587) un “Nevācu psalmi un garīgas dziesmas” (1587)), var domāt par diahroniska korpusa izveidi, kas aptvertu ilgāka perioda latviešu valodas tekstus un sniegtu iespēju skatīt valodas attīstības procesus plašāk.

Senie teksti tagad ir pieejami plašākam interesentu lokam. Var teikt, ka latviešu valodas seno tekstu korpuss ir labs sākums turpmākiem darbiem. 

* Projekta dalībnieki: M. Baltiņa, N. Grūzītis, L. Leikuma, E. Milčonoka, A. Spektors, A. Trumpa, E. Trumpa un P. Vanags.