Datoru izmantošana valodas pētījumos pavēra jaunas iespējas arī seno tekstu valodas analīzē. Sākotnējais nolūks (1988. gadā) bija ļoti konkrēts nozīmīgāko 16. un 17. gs. tekstu ievadīšana datorā. Pēdējo gadu laikā paralēli šim datu bāzes veidošanas darbam aktuāli kļuvuši arī citi uzdevumi ievadīto tekstu vienoto formātu izveide, tekstu lingvostatistiska apstrāde, seno tekstu automatizēta analīze. [1]
Izveidotā 16. un 17. gs. latviešu seno tekstu datu bāze aptver apmēram 2 milj. vārdlietojumu. Jāapzinās, ka tuvākajā laikā nav paredzama šīs datu bāzes papildināšana ar rokrakstu tekstiem, un ideāli pilnīgas seno tekstu datu bāzes izveide paliek nākotnes darbs, bet arī šobrīd uz ievadīto iespiesto tekstu pamata veidotā datu bāze kopā ar aizsāktajām datoranalīzes programmām kļūst par pamatu citu, ar tradicionālājām metodēm maz pētītu, valodas resp. vārdu vēstures jautājumu aprakstam. [2]
Seno tekstu datu bāzei piemīt vairākas būtiskas iezīmes, kuras to atšķir no līdzīgām, arī elektroniski veidotām valodas materiālu kopām. Pirmkārt, seno tekstu datu bāze ir sava veida ideāls valodas vākums. Tai nepiemīt tās nepilnības, kuras raksturīgas tām materiālu kopām, kas veidotas kā tekstu kolekcijas.
Jāatceras N.Čomska viedoklis [3], ja tekstus vāc pēc izlases principa un datu bāzi veido kā teksta kolekciju, tad bieži vien, pat vienmēr, datu bāze ir nepilnīga. Nepilnīgu to padara pats darbs pie datu bāzes un apjomīgās kartotēkas veidotājs. Datu bāze, kas sākotnēji iecerēta kā pietiekama, darba gaitā kļūst nepilnīga. Tās veidotājs gan vārdus, gan vārdu formas un lietojumus intuitīvi izvērtē pēc vairākām pazīmēm:
1) tie ir pārāk pašsaprotami;
2) veidotāja izpratnē tie ir pārāk kļūdaini un var radīt šķēršļus iecerētajā analīzē;
3) tie neatbilst normai, tie ir neliterāri un bieži vien arī stilistiski nepieņemami.
Ja pēc datu bāzes veidotāja ieskatiem vārds vai vārda lietojums atbilst kādai no šīm pazīmēm, tad datu bāzē tas vienkārši neparādās.
Otrkārt, seno tekstu datu bāzes būtiska pazīme ideālajā variantā kā iespiesto un rokraksta tekstu kopums tā ir galīgs lielums, jo tā aptver visuskāda noteikta perioda tekstus. Treškārt, ja šie teksti tiek arī pēc vienotas metodikas analizēti, iegūstams korekts un pilnīgs priekšstats par vairākām rakstu valodas resp. teksta veidošanās likumībām, t.i., kādas ir tās likumības, kuru rezultātā runātās valodas vārds rakstu valodas sākotnē kļūst par teksta veidotājvienību. Darbā pie seno tekstu datu bāzes var runāt par trim darba posmiem:
1) datu bāzes veidošana;
2) datu bāzes apstrāde;
3) programmatūras izveide.
Šobrīd darbs aizsākts pie visiem trim uzdevumiem, tiek meklēti paņēmieni, kā aizsāktās iestrādes - vārdu rādītājus, vārdformu statistiskos rakstorojumus, vārformu gramatiskos raksturojumus - pilnīgot datoranalīzes aspektā un tad uz iegūto rezultātu pamata pietuvoties vispārīgākiem jautājumiem par valodā pastāvošajām likumsakarībām.
Seno tekstu datu bāzi veido vairākas nozīmīgas sastāvdaļas. Tās ir:
1) pati tekstu datu bāze resp. tekstu kopums elektroniskā formā;
2) uzziņu fonds jeb paralēlās datu bāzes;
3) programmatūra.
Katrai sastāvdaļai sastāvdaļai ir ieskicēts tās saturs un galvenās rakturotājpazīmes.
Tekstu datu bāze. Būtiska pazīme ir tās elektroniskā forma, t.i., pēc ievadīšanas vai tieši teksta ievadīšanas laikā teksti tiek apstrādāti pēcīpašas marķēšanas programmas. Šo procedūru varētu salīdzināt ar to, kā tradicionāli vāktajā materiālā tiek veidota kartotēka, kartotēkas vienību pieraksts, apkopojums vai grupējumi.
Programmatūra. Šis bloks aptver programmrīkus un programmlīdzekļus, kas nodrošina darbu ar senajiem tekstiem to elektroniskajā formā [4]. (Sīkāk skat. programmatūras bloku Latvijas Universitātes Matemātikas un informātikas institūtā.) Ir pamats domāt, ka mērķtiecīgi izveidota programmatūra ir tas nepieciešamais nosacījums, lai analizētu vairākas valodas vēsturiskās attīstības pazīmes, piemēram:
1) vārdu krājuma pieauguma un noturības likumsakarības;
2) valodas elementu optimāls lietojums noteikta satura, stila, perioda, autora tekstā;
3) vārda vērtības jēdziens un tā saturs.
Senās tekstu datu bāzes materiālus var izmantot šādu jautājumu risināšanā, jo datu bāzē iekļautajiem tekstiem piemīt nepieciešamie papildus nosacījumi.
Vārdu krājuma pieauguma un noturības likumsakarību izpētē labvēlīgs nosacījums ir teksta tulkošanas un sacerēšanas ilgums. Lielākajiem senajiem tekstiem šī pazīme piemīt pirmais Bībeles tulkojums (1685 1694) tapa deviņus gadus, pie tam teksta tulkošana tika sākta ilgi pirms iespiešanas var runāt par apmēram 14 vai 15 gadus garu teksta tapšanas periodu. Ilgā laikā darbs ritējis arī pie citiem 17. gs. tekstiem.
Valodas elementu optimālā lietojuma izpētē būtiska nozīme ir šo tekstu stilistiskajai piederībai. 16. un 17. gs. teksti pārsvarā ir kanoniski teksti, un plašākas izpētes jautājumu loks saistīts gan ar šo tekstu analīzi kultūrvides, kultūrpriekšstatu u.c. kontekstā, gan ar to, kā kanoniskā teksta iezīmes veidojušās, respektējot teksta elementu statistiskos parametrus. Tieši lielu tekstu masīvos ar datoranalīzes paņēmieniem iespējams pievērsties kvantitātīvo un kvalitatīvo pazīmju savstarpējās saistības un atkarības izpētei dažādos līmeņos hronoloģiskajā, gramatiskajā, stilistiskajā utt.
Vārda vērtības izpētē, izmantojot seno tekstu datu bāzes materiālus, iespējams papildināt priekšstatu par tām pazīmēm, kuru ietekmē veidojas un pastāv pats vārda vērtības jēdziens, kādi ir konkrētie statistiskie raksturojumi, kuri veido vārda vērtības saturu un kādas ir tās statistiskās pazīmes, kuru ietekmē mainās priekšstats par vārda vērtību [5].
Šie skatījumi uz valodu, izmantojot seno tekstu datu bāzes materiālus, ir tikai ieskicēti un šobrīd aplūkojami atsevišķu paraugu veidā. Tuvākajā laikā šie bloki nebūs arī vienlīdz vispusīgi un detalizēti izstrādāti, bet ir pamats domāt, ka arī uz nelielām iestrādēm veidoti secinājumi varētu papildināt priekšstatus par procesiem rakstu valodas vēsturē un mūsdienās.
Uzziņu bloks jeb paralēlās datu bāzes. Šajā blokā tiek apkopoti jau iegūtie, kā arī plānotie datoranalīzes rezultāti. Iespējamās paralēlās datu bāzes, kas veido uzziņu fondu, ir vairākas:
1) lingvostatistisko anotāciju datu bāze;
2) vēsturisko anotāciju datu bāze;
3) gramatisko anotāciju datu bāze;
4) semantisko anotāciju datu bāze;
5) stilistisko anotāciju datu bāze;
6) sintaktisko anotāciju datu bāze.
Šīs paralēlās datu bāzes ir dažādā darba nobeigtības pakāpē, un tuvākajā laikā šie bloki nebūs vienlīdz vispusīgi un detalizēti izstrādāti.
Balstoties uz lielākām iestrādēm, pilnīgāk un pārskatāmāk šobrīd izstrādāti divi - lingvostistisko un gramatisko anotāciju bloks.
Lingvostatistisko anotāciju bloks. Tā izveide ir teksta automatizētās apstrādes pamats. Tas tiek veidots teksta trīspakāpju automatizētās analīzes ceļā. 1. pakāpē tiek veikta teksta segmentēšana vārdformās ar lappuses un rindas norādi. Bībeles tekstā attiecīgi ar nodaļas nosaukumu, numuru un panta numuru. 2. pakāpē notiek vienādo vārdformu apvienošana un vārdformu indeksa izveide ar biežuma norādi. 3. pakāpē vārdformu indeksa tabula tiek papildināta ar vārdu pamatformu un vārdformu alfabētiskā un biežuma vārdnīca.
Lingvostatististiskajā blokā galvenā vērtība tiek veltīta tām pazīmēm, kas atklāj vārda kvalitatīvo un kvantitatīvo pazīmju savstarpējās attieksmes.
Pakāpeniski seno tekstu datu bāze sevi sāk attaisnot divos pētniecības virzienos - rakstu valodas vēstures un kultūrtekstu tulkošanas vēstures un mūsdienu prakses aspektā. Tiek meklēts vārdformu datorapstrādes veids, lai varētu papildināt esošos priekšstatus par to, kā veidojusies un kā gadsimtu gaitā pastāv rakstu valodas resp. teksta struktūra. Lingvostatistiskās anotācijas var būtiski papildināt gan pētījumu teorētiskos, gan praktiskos aspektus.
Rakstu valodas vēstures pētniecībā seno tekstu datorizētais materiāls ļauj detalizētāk aplūkot variantuma problēmu [6]. Rakstu valodā, it īpaši tās sākotnē, variantumu raksturo:
1) attieksmes starp pastāvošajiem variantiem runātajā valodā un rakstu valodai izraudzītajiem, t.i., rakstu valodai vēlamajiem variantiem;
2) attieksmes starp variantiem tikai rakstu valodā.
Variantums valodā leksikas, morfoloģijas, vārddarināšanas sintakses, stilistiskajā līmenī ir cieši saistīts ar citu rakstu valodai piemītošu, mazāk pētītu, pazīmi valodas standartizāciju. Seno tekstu datu bāze rāda, ka standartizācijai pakļautie rakstu valodas elementi, piem., morfoloģiskie, vārddarināšanas, sintaktiskie, sasniedzot noteiktu kvantitatīvo masu, iegūst jaunas un tikai rakstu valodai piemītošas kvalitatīvas pazīmes.
Kūltūrtekstu tulkošanas vēstures pētniecībā seno tekstu datu bāzes materiāli ļauj izprast vai pietuvoties valodas jaunrades parādībām. Ir pamats runāt par vairākām valodas jaunradi veicinošām pazīmēm. Tās ir:
1) valodas elementu simetrijas likums;
2) valodas elementu svārstību likums;
3) valodas elementu izkliedētības likums.
Šo pazīmju apjaušana palīdz izprast tās kultūrtekstu tulkošanas problēmas, kuras rodas, piem., darbā pie Bībeles teksta jaunā tulkojuma latviešu valodā.
Gramatisko anotāciju bloks. Šis bloks tuvākajā laikā tiks vispilnīgāk izstrādāts un būs viens no plašākajiem, uz kura pamata aizsākta teksta vienību resp. vārdformu datoranalīze. Tas ir mēģinājums ar datoranalīzes palīdzību paplašināt priekšstatu par vārda pastāvēšanas likumībām tekstā, arī par valodas vēsturē dažādos aspektos skatītajiem gramatiskās sistēmas elementu un veidotājvienību variēšanās jautājumiem. Šāds uzdevums iekļauts arī 17. gs. tekstu analīzē, izmantojot gramatisko anotāciju bloka informāciju. Vārddraināšanas varianti to rašanās, noturība, mainīgums gan vārddarināšanas paņēmienu, gan vārddarināšanas modeļu līmenī tiek skaitīti vārdsavienojumu un vārdkopu savstarpējās attieksmēs.
Izplatīta vārddarināšanas sistēmas vienība 17. gs. tekstos ir vārdsavienojumi ar biedru zīmi un to morfoloģiskie resp. derivatīvie varianti, piemēram,
Ahda = Trauks / Ahdas = Trauks; Debbes = Stiprumi / Debesso = Stiprumi; Meezchu = Maize / Meezcha = Maize; Raksta = Zihme/Rakstu = Zihme/ Raksto = Zīhme u.c.
Piemēram, Glika Bībeles tulkojuma Jaunās Derības tekstā var atrast apmēram 800 šādas uzbūves vārdsavienojumu resp. vārdformu. (Visa šo vārdsavienojumu ar biedru zīmi datorkartotēka aplūkojama LU Matemātikas un informātikas institūtā).
Šo Glika tekstā sastopamo vārdsavienojumu produktivitātes iemesli ir vairāki:
1) sekošana autoritatīviem paraugiem konktrētajā gadījumā G. Manceļa iedibinātajam vārdsavienojumu un salikteņu pieraksta paņēmienam;
2) grieķu un vācu valodā sastopamo stabilo vārdsavienojumu un gramatisko konstrukciju tulkošana;
3) teksta stilistiskās standartizēšanas un stilistiskās inerces parādību iespaids.
Datorapstrādes ceļā mēģināts izsekot divām pazīmēm vārdsavienojumu dinamikai un derivatīvo variantu rašanās un pastāvēšanas mehānismam. Tekstu līmenī salīdzinājumam tiek izmantoti G. Manceļa teksti, Glika Bībeles tulkojuma Jaunās un Vecās Derības teksts (skat. augstāk norādi par teksta tapšanas ilgumu!), un analogās teksta vietas turpmāko gadsimtu tulkojumos.
Daži piemēri. Ja pievēršam uzmanību tādai parādībai, kā parauga autoritāte, tad, salīdzinot vārdsavienojumu ar biedru zīmi lietojumu Manceļa un Glika tekstā, redzams, ka Glika tulkojumā autoritatīvais paraugs Manceļa iedibinātais vārdsavienojumu pieraksts pakāpeniski tiek pārskatīts un notiek atteikšanās no Manceļa tekstiem raksturīgās iezīmes pieturēšanās pie kāda noteikta vārddarināšanas formas parauga katra konkrētā vārdsavienojuma pierakstā, t.i., vārdavienojuma pirmā komponenta gramatiskās formas izvēlē piemēram,
Aca = Mirklis/Aca = Sahpes/Aca = Wahks; Aujo = Dzirkalas/Aujo = Gans/Aujo = Kuhts u.c.
Līdzīgas resp. tādas pašas uzbūves vārdsavienojumu lietojums Glika tekstā rāda sekošanu Manceļa paraugam un šī parauga respektēšanu vārddarināšanas formas izvēlē, bet vienlaikus jau jūtama arī zināma dinamika Glika tekstā parādās vārdsavienojumu pirmā komponenta morfoloģiskās formas svārstības, piemēram, Acco=Zahles/Accu=Zahles u.c.
Pakāpeniski notiek atteikšanās no pārņemtā vārddarināšanas formas parauga. Tiek respektēta vārdsavienojuma nozīme un saistībā ar to tiek izvēlēta arī vārddarināšanas forma.
Vārdsavienojumu lietojums rakstu valodā apliecina arī to, ka tie ar savu svārstīgo vārddarināšanas formu vārdsavienojuma pirmajā komponentā ir raksturīgs teksta veidotājs elements ne vien rakstu valodas sākotnē, bet ļoti ilgā periodā. Tādi ir vārdsavienojumi ar vairākiem pirmā komponenta variantiem, piemēram, Dzirna = Akmins/Dzirnu = Akmins/Dzirno = Akmins u. c. (Detalizētāk materiālu skat. LU Matemātikas un informātikas institūta Seno tekstu datu bāzes sadaļā Gramatisko anotāciju datu bāze!) Šāds vārddarināšanas modelis ar vārdsavienojuma pirmā komponenta svārstīgu formu rakstu valodā sastopami ilgā laika periodā. Piemēram, varianti: dzirnu akmens/dzirnakmens/ dzirnavu akmens, atrodami analogās teksta vietās vēl 20. gs. pirmajā pusē. Variantu rinda sarūk astoņdesmitajos gados, piemēram, 1982. gadā izdotā tulkojuma analogās teksta vietās atrodams tikai viens variants dzirnakmens. Minētie piemēri raksturo parādības tekstā . Ir pamats domāt, ka tieši valodas runas formā pastāvošie vārdsavienojumu formas varianti ir bijuši sava veida paralēlie paraugi, kas veicinājuši atteikšanos no Manceļa iedibinātās vārdsavienojumu pieraksta formas. Vārdsavienojumu ar biedru zīmi variantās formas liek domāt, ka ne vien nianses runas līmenī ir veicinājušas šāda modeļa arādīšanos rakstu valodā, bet arī par to, ka pats variants, sasniedzot zināmu kvantitatīvu masu, kļūst par rakstu valodas būtisku veidotāju pazīmi.
Vārddarināšanas dinamikas izpētē tiek salīdzināti vārdsavienojumi, kuru pirmie komponenti ir adverbi, verbi un prievārdi. Salīdzinājums rāda, ka šajās grupās ātrāk notiek vārdsavienojumu pāriešana salikteņu kategorijā. Bieži vien viena, ilgākā laikā sacerēta, teksta ietvaros. Tādu parādību var vērot Glika Bībeles tulkojumā, ja salīdzina vārdsavienojumu lietojumu Jaunās un Vecās Derības tekstā, kur laika posms starp abu tekstu iespiešanu ir deviņi gadi, un visa teksta tulkošanas laiks ir apmēram 14, 15 gadus garš. Šādā laika periodā sacerēta vai tulkota viena teksta ietvaros sastopamās pārmaiņas tiek uzlūkotas par objektīvām rakstu valodas attīstības pazīmēm.
Stilistisko anotāciju datu bloks. Šīs paralēlās datu bāzes virsuzdevums ir vārdu krājuma un vārdu optimālā lietojuma likumsakarību izpēte Tiek veidoti sinonīmu pāru un sinonīmu rindu saraksti apjomīgu tekstu ietvaros, par tādiem izvēlēts Glika Bībeles tulkojums un Manceļa Sprediķu grāmata, kā arī sinonīmu sarakstu salīdzinājums analogos dažādu laikaposmu, piemēram 17. gs. un 20. gs. tekstos. Paveras iespēja izsekot tam, kādas ir leksisko vienību variēšanas iespējas, lai izteiktu vienu un to pašu saturu konkrētā laika posmā, kā arī iegūt pilnīgāku priekšstatu par to, kā šīs iespējas rakstu valodā atklājas gadsimtu gaitā. Sinonīmu pāru un sinonīmu rindu salīdzinājums dažādu laika posmu tekstos, kā šķiet, signalizēs arī par zināmām iespēju robežām viena un tā paša satura teksta resp. tulkojuma ietvaros. Konkrētie uzdevumi sinonīmijas izpētē ir divi kādi valodā pastāvošie sinomīmiskie sakari vārdu starpā parādās 17. gs. tekstos un kādi sinonīmiskie sakari atklājas vārdu atsevišķo nozīmju līmenī. Sinonīmisko sakaru aplūkojumā leksēmu līmenī tiek veidotas atsevišķas apakšgrupas, lai varētu aplūkot, piemēram, derivatīvās sinonīmijas, sintaktiskās sinonīmijas u. c. jautājumus. Leksisko nozīmju līmenī tiek ņemta vērā tāda pazīme, kā teksta resp. tulkojuma saturiskā precizitāte, teksta vai tulkojuma saderība ar pastāvošajām vai vēlamajām stila prasībām, arī autora vai tulkotāja valodiskā gaume un valodas izjūta.
Stilistiskā sistēmas attīstības pētniecībā, balstoties uz seno tekstu datu bāzes faktiem, iespējams aplūkot vairāku, valodai resp. vārdam piemītošo stilistisko pazīmju darbības mehānismu. Šīs pazīmes ir:
1) vārda ekspresīvā spēja;
2) vārda elastības spēja;
3) vārda piemērošanās spēja videi un apstākļiem [7].
Valodā notiekošie kvantitatīvā rakstura procesi pēc to vēsturiskā raksturojuma ir vērā ņemami arī mūsdienās, ne tikai vārdu krājuma analīzē, bet arī prognozēšanā.
Seno tekstu datu bāze jau esošajā materiālu analīzes pakāpē apstiprina atzinumu, ka valodas vārdu krājuma veidošanā, pastāvēšanā un plānošanā ir vairāki līmeņi vai posmi, kuri savā starpā ir gan diahroniski, gan sinhroni saistīti. Tie ir:
1) posms, kad vārdu krājums tiek mērķtiecīgi veidots;
2) posms, kas vārdu krājums mainās stihiski;
3) posms, kas vārdu krājumu veido spēcīgas personības.
Raksta nobeigumā dažas pārdomas par terminiem, kurus sastopam pētījumos par valodas datorizēto analīzi - datu bāze, paralēlā datu bāze, datorfonds, korpuss [8].
Datu bāze, vai konkrētāk, seno tekstu datu bāze ir visu datorā ievadīto tekstu kopums. Datu bāzes būtiska pazīme, kas to atšķir no vienkāršas tekstu kolekcijas, ir vienotais formāts. Pēc izstrādātā parauga teksti, kas ir hronoloģiski sakārtoti, tiek ,t.i., marķēti. Šīs procedūras jēga ir izveidoto un izvēlēto programmatūru ērts pielietojums un datu bāzes pārredzamība analīzes procesā.
Datorfonds. Šī termina lietojums saistībā ar seno tekstu datu bāzi neskaidrības nerada, jo pats par sevi saprotams, ka izveidotā 16. 17. gs. tekstu datu bāze automātiski kļūst par latviešu valodas datorfonda nozīmīgu sastāvdaļu. Latviešu valodas datorfonds top vairāku projektu ietvaros, par tālākās nākotnes uzdevumu varētu kļūt visa datorfonda un tā atsevišķu daļu vienotu formātu izveide, jo datorfonds tā ir vesela kompleksa sistēma, kas nodrošina teorētiskus un praktiskus pētījumus. Kā rāda līdzšinējā datorlingvistikas prakse, terminu datorfonds mēdz lietot divējādās nozīmēs attiecinot gan uz visu latviešu valodas datorfondu, gan uz atsevišķu, apjomīgu tā daļu. Zināms pamats šādai jēdzienu datu bāze, datorfonds sinonīmijai ir, jo tajā brīdī, vai precīzāk, darba posmā, kad aizsākās darbs pie ievadīto tekstu automatizētas analīzes, rodas nepieciešamība definēt uz datu bāzes pamata radītos rzultātus resp. materiālus, kuri paši kļūst par nozīmīgām un neatkarīgām vienībām, bieži vien ļoti apjomīgām. Šīs jaunveidotās vienības tiek nosauktas par jaunām datu bāzēm. Pamatdatu bāze it kā automātiski tiek pārdēvēta par datorfondu. Pastāv iespēja izvairīties no termina datorfonds divējādā lietojumā.
Paralēlās datu bāzes. Šāds darba termins radies darbā ar seno tekstu datu bāzi, kad tekstu datorapstrādes rezultātā tapa apjomīgi materiālu masīvi (sīkāk skat.augstāk!).
Korpuss. Datorlingvistikā šis termins sāk nostiprināties pēc 1959. gada. To ievieš Randolfs Kvirks (Randolph Quirk), veidojot ļoti lielas datu bāzes runāts un rakstīts britu angļu (British English) valodas korpusa The Survey of English Usage Corpus (SEU) projektu [9].
Ar šo jēdzienu aptverto parādību loks detalizētāk šajā rakstā netiks skatīts, bet ir pamats izteikt viedokli, ka, arī latviešu valodas datoranalīzē un apstrādē tuvākā vai tālākā nākotnē varēs runāt par īpašu datorlingvistikas atzaru korpusa lingvistiku.
*Raksta pamatā izmantots II Pasaules latviešu zinātnieku kongresā (Rīga, 2001. gada 14. un 15. augusts) nolasītais referāts.
Atsauces
[1] Baltiņa M., Spektors A. Project "Analysis, Computer Aided Processing and Devevopment of Data Base for Latvian Historical Texts" / Language & Technology in Europe 2000. Awareness Campaign, Seminar 10-11 November, Latvia, 1994 Rīga: LU Matemātikas un informātikas institūts, 1994. 38. 39. lpp.
[2] Rūķe V. Turpmākie uzdevumi latviešu valodas pētīšanā / Ceļi, Rakstu krājums X Lunda, 1961.
[3] Chomsky N. Syntactic structures / Language. Vol. 33, Nr. 3., 1957.
[4] Ozoliņa A. 17. gs. tekstu datorfonda izveides programmlīdzekļi / Linguistica Lettica, Nr. 1, 1997. Rīga: Latviešu valodas institūts, 1997, 219. 221. lpp.
[5] Baltiņa M. Vārda vērtības izpēte / Valodas pētīšanas metodes. Prof. A. Ozola atceres zinātniskās konfernces tēzes. 1997. gada 18. marts. Rīga: LU, 1998, 10. 11. lpp.
[6] Baltiņa M. Vārddarināšanas varianti 17. gs. tekstos / Baltistica VII. Starptautiskais baltistu kongress. Rīgā, 13. 15. jūnijā. Rīga: Latviešu valodas institūts, 1995, 136. lpp.
[7] Baltiņa M. Tulkojuma, teksta un stilistiskās paradigmas attieksmes / Interpreting and translation as intercultural communication: theory, practice, instruction methods. Ventspils: Ventspils Augstskola, 1999, 75. 79. lpp.
[8] Go"rlach M. Some Reflexions on Corpus Linguistics / Linguistica Lettica, Nr. 7, 2000. Rīga: Latviešu valodas institūts, 2000, 149. 164. lpp.
[9] Leech G. Recent Developments in the Use of Computer Corpora in Engisch Language Research, Amsterdam, 1984.