|
Ilze Vancāne, Valērijs Krugļevskis (Rīga)
Vārdkopterminu struktūra un datorizēta meklēšana tekstos
Vārdkoptermini ir nozīmīga terminu kopuma sastāvdaļa. Vārdkopterminiem nepiemīt vēlamais izteiksmes īsums, tādēļ ir vērojama tendence aprakstošus vai vairākos vārdos izteiktos terminus aizstāt ar salikteņterminiem vai veidot jaunvārdus. Tomēr vārdkoptermini parasti skaidri iezīmē saistību starp virsjēdzienu un apakšjēdzienu. Šajā darbā analizētajā materiālā termini, kas sastāv no viena komponenta, veido apmēram vienu trešdaļu no visa kopuma. Ņemot vērā vārdkopterminu strukturālās īpatnības, šādu terminu meklēšana tekstos ir daudz sarežģītāka nekā vienkomponenta terminu meklēšana.
Terminu meklēšana ir aktuāla tulkošanas procesā. Mūsdienu datorizētās tulkošanas atbalsta sistēmas parasti ir saistītas ar terminu datubāzi. Ja tulkojamajā tekstā parādās datubāzē iekļautie termini, tulkotājs datorekrānā redz attiecīgā termina ekvivalentus tulkojuma valodā. Šādas sistēmas, kā, piemēram, TRADOS MultiTerm (MT) un Translators Workbench (TWB), apmierinoši uzrāda terminus, kam locījumos nav līdzskaņu mijas. Taču meklēšana var darboties nepareizi, ja locījumos lietvārdam ar īsu sakni ir vairāku līdzskaņu mija, piemēram, alnis aļņa. Datorprogramma parasti neatšķir sintaktiski nesaistītus vārdus no vārdkoptermina komponentiem. Ja vienkomponenta termins ir lietvārds, to var atrast vārdu morfoloģiskās analīzes datorprogramma, bet datubāzes vārdkopterminu pareiza un droša identifikācija tekstā ir iespējama tikai tad, ja programma spēj veikt vismaz daļēju teikumu sintaktisko analīzi.
Tulkošanas datortehnoloģijas var nosacīti iedalīt trijās grupās:
1) tulkotāju darbs ar datora atbalstu (MAHT Machine Aided Human Translation);
2) tulkošanas interaktīva datortehnoloģija (HAMT Human Aided Machine Translation);
3) augstas kvalitātes pilnīgi automatizētā mašīntulkošana (FAHQMT Fully Automatic High Quality Translation).
Vārdkopterminu meklēšana tekstos arī MAHT procesos nav iespējama, neizmantojot HAMT un FAHQMT līmeņa programmatūras elementus.
Pēdējos gados strauji attīstās pētījumi, kuru mērķis ir noteikt tekstā terminus, kā arī vārdus, kas varētu būt termini pēc to leksiskām vai sintaktiskām pazīmēm (term candidates). Šādos pētījumos uzmanība tiek veltīta arī vārdkopterminiem, jo īpaši tādiem vārdsavienojumiem, kas tekstā atkārtojas bieži [1; 2]. Šī darba mērķis ir šaurāks identificēt tekstā vārdkopterminus no konkrētas datubāzes.
Vispārējos latviešu valodas vārdkopterminu sintaktiskos aspektus ir pētījusi V. Skujiņa [3, 105. 115. lpp.], analizējot komponentu sintaktiskā saistījuma veidus, komponentu secību un iespējamo skaitu. Pētījuma rezultāti ņemti par pamatu arī šajā darbā, veidojot vārdkopterminu meklēšanas algoritmus. Tie palīdz noteikt arī vārdkopas komponenta vārdšķiru homonīmijas gadījumā.
Vārdkopterminu analīzē izmantotas divas TRADOS MultiTerm tipa terminoloģijas datubāzes Tulkošanas un terminoloģijas centra (TTC) lokālā terminu datubāze un TTC izveidotā interneta datubāze.
TTC lokālajā terminu datubāzē ir apmēram 45000 šķirkļu. Tajā ir uzkrāti termini (arī standartfrāzes, tulkošanas problēmas), kas ekscerpēti, tulkojot Eiropas Savienības tiesību aktus latviešu valodā un Latvijas Republikas tiesību aktus angļu valodā.
Interneta terminu datubāzē apkopota 23 nozaru vārdnīcu terminoloģija (ap 115000 šķirkļiem). Šajā pētījumā aplūkotā interneta datubāze ir viendabīgāka par lokālo datubāzi, jo tajā šķirkļiem ar grūti tulkojamiem izteicieniem vai standartfrāzēm ir samērā mazs īpatsvars. Tomēr ne mazāk svarīga ir arī lokālās datubāzes vārdkopterminu izpēte un meklēšana tekstos, jo terminus, kas parādās tulkošanas procesā, vispirms ievada TTC lokālajā datubāzē, un tieši šo bāzi piesaista TWB sistēmai. Atšķirībā no interneta datubāzes tajā atrodas tikai tādu nozaru termini, kas ir raksturīgas TTC tulkojumu tematikai. Turklāt, jāņem vērā, ka interneta datubāzes izmantošanu TWB sistēmā kavē lielais terminu skaits, kas būtiski palēnina sistēmas darbību.
Terminu struktūru terminu datubāzēs ilustrē šāda tabula:
Komponentu skaits |
Lokālā terminu datubāze |
Interneta terminu datubāze |
Terminu skaits |
% |
Terminu skaits |
% |
1 |
13677 |
27,24 |
51173 |
38,47 |
2 |
22507 |
44,82 |
62689 |
47,13 |
3 |
8461 |
16,85 |
11039 |
8,30 |
4 |
2528 |
5,03 |
1692 |
1,27 |
5 |
888 |
1,77 |
336 |
0,25 |
6 |
327 |
0,65 |
105 |
0,08 |
7 |
124 |
0,24 |
22 |
0,02 |
8 |
74 |
0,15 |
17 |
0,01 |
9 |
39 |
0,08 |
7 |
0,01 |
10 |
14 |
0,03 |
1 |
0,00 |
11 |
4 |
0,01 |
|
|
12 |
2 |
0,01 |
|
|
13 |
1 |
0,00 |
|
|
14 |
1 |
0,00 |
1 |
0,00 |
15 |
2 |
0,00 |
|
|
16 |
2 |
0,00 |
|
|
1. tabula Vārdkopterminu skaits terminu datubāzēs
Abās terminu datubāzēs vislielākais īpatsvars ir terminoloģijas vienībām, ka sastāv no diviem komponentiem (44, 82 % lokālajā datubāzē un 47, 13 % interneta datubāzē). Lokālajā datubāzē parādās arī konvenciju un citu vienošanos nosaukumi, un maksimālais vārdkoptermina komponentu skaits ir 14 (viens šķirklis).
Tabulā neparādās šķirkļi ar ķīmisko vielu nosaukumiem, kuros nav precīzi definēti komponentu atdalītāji. Komponentu skaits ir tikai viens no vārdkopterminu gramatiskās struktūras raksturotājiem. Terminu meklēšanas programmatūras izveidē noteicoša ir komponentu sintaktiskā saistība un loma. Šajā darbā analizēti tikai nominālie vārdsavienojumi, lai gan vārdkopterminu statistikā ietilpst arī verbālas frāzes.
Visvairāk analizētajā materiālā ir divkomponentu vārdkoptermini, un to raksturīgākās gramatiskās struktūras ir šādas:
No(g) No(n ) |
zemes reforma |
Ad(n)No(n) |
juridiskā atbildība |
Vp(n)No(n) |
apķīlājams īpašums, visaptverošie noteikumi |
At(0)No(n) |
daudzrisku pieeja, neto alga, ISO alga |
No(n)No(n) |
līgumslēdzējs subjekts |
No(n)Ve(i) |
pienākums pierādīt |
Visbiežāk divkomponentu vārdkoptermini sastāv no pamatvārda (terminu datubāzē lietvārds nominatīvā) un apzīmētāja, kas ir izteikts ar lietvārdu ģenitīvā, īpašības vārdu, lokāmu divdabi, vai salikto īpašības ģenitīvu.
Ja vārdkopterminā ir vairāk nekā divi komponenti, pamatvārdam (lietvārdam) var būt divi vai vairāki apzīmētāji:
No(g)Ad(n)No(n) |
dominances ļaunprātīgā izmantošana |
Ad(G) No(G)No(n) |
administratīvo izdevumu tāme |
No(n)Pp(0)No(a) |
apgāde ar pārtiku |
Av(0)Vp(n)No(n) |
droši uztveramas zonas |
Apzīmētāji, kas atrodas pirms apzīmējamā vārda, parasti ir izteikti ar īpašības vārdu, lokāmo divdabi, lietvārdu ģenitīvā vai salikto īpašības ģenitīvu, bet pamatvārdam parasti seko lietvārds datīvā vai lietvārds ar prievārdu atributīvajā nozīmē.
Vārdkopterminu struktūru analīze, kas ir nepieciešama, konstruējot šādu terminu meklēšanas algoritmu, datubāzes šķirkļos palīdz konstatēt terminoloģijā mazāk vēlamas struktūras, piemēram, divkomponentu vārdkopterminus ar apzīmētāju, kas ir izteikts ar darāmās kārtas tagadnes lokāmo divdabi vai vārdkopterminus ar postpozitīvu apzīmētāju lietvārdu datīvā vai lietvārdu ar prievārdu.
Ja termins ir triju vai vairāku komponentu vārdsavienojums, tajā nereti konstatējams arī sakārtojuma saiklis, piemēram:
No(n)Co(0)No(n) |
aktīvi un pasīvi |
No(g)Co(0)No(g)No(N) |
braukšanas un atpūtas periodi |
No(g)Co(0)No(G)No(n) |
mutes un nagu sērga |
At(0)Vp(G)No(g)No(n) |
gāzveida kurināmo dedzināšanas iekārta |
Terminoloģijas teorijā [3, 121. lpp.] ir aprakstīti divkomponentu termini, kas sastāv no diviem ar sakārtojuma saikli savienotiem lietvārdiem, bet izsaka vienu jēdzienu (piemēram, mutes un nagu sērga). Tomēr, ja katram komponentam ir patstāvīga definīcija un to apvienojums neveido jaunu plašāku jēdzienu, būtu jāuzskata, ka šķirklī ir nevis vārdkoptermins, bet divu patstāvīgu terminu apvienojums.
Vārdkopterminos, kas sastāv no daudziem komponentiem (5 un vairāk) mēdz būt vairākas apzīmētāju grupas pirms pamatvārda vai arī pēc tā, piemēram:
No(n)No(l)PpAd(D)CoVp(D)No(D) |
izmete gaisā no kustīgiem un stāvošiem avotiem |
Īpaši jāatzīmē, ka datubāzēs ir sastopami aprakstoši termini, kur vārdkopas pamatvārdu paskaidro apzīmētāja palīgteikums, piemēram, atkritumi, kas radušies izmantotās kodoldegvielas reģenerēšanas procesā.
Teorētiski, identificējot vārdkopterminus tekstā, būtu jāanalizē to morfoloģiskā un sintaktiskā uzbūve, salīdzinot ar vārdkopterminu komponentu struktūru datubāzes šķirklī. Tomēr praksē situācija ir ievērojami sarežģītāka, jo terminu datubāzēs parasti nav paredzētas visas meklēšanai vajadzīgās gramatiskās norādes, jo datubāzu lietotājiem tās nav būtiskas. Tāpēc uz esošās terminu datubāzes pamata veido terminu komponentu datubāzi, kurā pamatvienība nav termins, bet termina komponents. Katram termina komponentam datubāzē piekārto šādus datus:
1) dati par to, vai attiecīgais vārdkoptermina komponents ir lokāms (pamatvārds vai tā saskaņotie apzīmētāji) vai nav lokāms (apzīmētājs, kas izteikts ar lietvārdu ģenitīvā vai salikto īpašības ģenitīvu), t. i., vai vārdkopas komponents var parādīties tekstā ar dažādām galotnēm;
2) komponenta vārdšķira;
3) locījums vai locījumu grupa (ja viena un tā pati galotne atbilst vairākiem locījumiem), skaitlis, dzimte un galotnes noteiktība īpašības vārdiem un lokāmajiem divdabjiem;
4) veids resp. vārdšķiras kategorija, ar kuru, ievērojot komponenta sintaktisko un semantisko funkciju, definē komponenta pamatformu, piemēram, par īpašības vārda vai lokāmā divdabja pamatformu uzskatāma tā salīdzināmā pakāpe, kādā tas parādās datubāzē. Darbības vārdam ir vairāki veidi, kas uzskatāmi par pamatformu atkarībā no tā sintaktiskās funkcijas, piemēram, (a) personas formas un nenoteiksme, (b) darāmās kārtas tagadnes lokāmie divdabji un (c) ciešamās kārtas tagadnes lokāmie divdabji, tomēr atsevišķi jāaplūko darāmas kārtas un ciešamās kārtas pagātnes divdabji, kas pieder veidam (a), veidojot personas formu saliktos laikus, vai uzskatāmi par patstāvīgiem veidiem (d) un (e), ja vārdkopterminā tiem ir atributīva nozīme;
5) celma numurs, kas raksturo attiecīgās vārdšķiras celmu vārdkopterminā;
6) komponenta kārtas numurs vārdkopterminā;
7) vārdkoptermina šķirkļa numurs datubāzē;
8) pilna vārdkopa.
Izstrādāto metodiku praksē var izmantot tikai tad, ja datubāzes pārveides process būtu vismaz daļēji automatizēts. Terminu komponentus Multiterm datubāzē analizē TTC izveidotā datorprogramma, kuras pamatā ir algoritmi, kas veidoti, izmantojot I. Greitānes [4] darbā izstrādātos morfoloģiskās analīzes principus. TTC izveidota arī morfoloģiskā datubāze, kuras pamatā ir inversā vārdnīca [5], kas attiecīgi paplašināta.
Veidojot komponentu datubāzi ar datorprogrammu, parādās vairākas tehniskas problēmas:
1) neprecīza datubāzes lauku aizpilde, ja termini, veidojot terminu datubāzi, ir ievadīti no datora tastatūras, nevis ar ievades programmu;
2) neskaidri definēti vārdu atdalītāji (jo īpaši ķīmisko vielu nosaukumos ar iekavām, skaitļiem, punktiem, komatiem un tukšumzīmēm);
3) formāla komponentu homonīmija (piemēram, vārdu vienots var interpretēt kā darbības vārda formu, adjektivētu lokāmo divdabi vai īpašības vārdu);
4) homonīmija, ko var atrisināt vārdkopas sintaktiskā analīze (piemēram, vārdkopa gaisa satiksme, kur pirmais komponents varētu būt darbības vārds pagātnē vai lietvārds ģenitīvā, tomēr, ja vārdkopā nav palīgteikumu, pirmais vārds viennozīmīgi ir lietvārda ģenitīvs);
5) homonīmija, ko nevar atrisināt vārdkopas sintaktiskā analīze (piemēram, viegli vārdkopterminā viegli uzliesmojoši šķidrumi var būt gan apstākļa vārds, gan īpašības vārds daudzskaitlī);
6) terminu komponenti, kas nav atrodami gramatiskajā datubāzē. Iespēju robežās tie analizējami pēc formālām pazīmēm un ievadāmi gan morfoloģiskajā datubāzē, gan pārveidotajā terminu komponentu datubāzē.
Algoritms pārbaudīts, atrisinot modeļa uzdevumu. Dokumenta datnē tika aizzīmēti termini un ievadīti atsevišķā MultiTerm datubāzē. Šai datubāzei saskaņā ar iepriekš izklāstīto tika izveidota vārdkopterminu komponentu datubāze. Ar terminu meklēšanas programmu sastādīts terminu saraksts, kurā latviešu vārdkopterminiem ir dotas angļu atbilsmes no datubāzes.
Pašreiz ir grūti novērtēt programmas ātrdarbību, jo tā ir atkarīga no datubāzes apjoma, kas modeļa uzdevuma gadījumā nebija liels.
Lai gan modeļa uzdevumā ar datorprogrammu tika atrasti visi datubāzes termini, analizējot tekstu, jāparedz arī tas, ka dažos vārdkopterminos var būt vārdu secības varianti (piemēram, var mainīties apzīmētāju secība) un ka tulkotājam var noderēt informācija par daļēju vārdkopterminu sakritību tekstā un datubāzē. Šāda informācija uzkrājama atsevišķā datnē.
Literatūra
- ARPPE A. Term Extraction from Unrestricted Text. Papers of the 10th Nordic Conference of Computational Linguistics (NoDaLiDa), Helsinki, Department of General Linguistics University of Helsinki, 1995.
- VOUTILAINEN A. NPtool. A detector of English noun phrases. Proceedings of the Workshop on Very Large Corpora, Columbus, Ohio State University, 1993.
- SKUJIŅA V. Latviešu terminoloģijas izstrādes principi. Rīga, 1993
- GREITĀNE I. Latviešu valodas lokāmo vārdšķiru locīšanas algoritmi. Latvijas Zinātņu akadēmijas Vēstis. 1994. Nr. 1. 32 39. lpp
- SOIDA E., KĻAVIŅA S. Latviešu valodas inversā vārdnīca. 2. izdevums. Rīga, 2000.
Saīsinājumi
No lietvārds
Ad īpašības vārds
Ve darbības vārds (personas formas un nenoteiksme),
Vp lokāmais divdabis
Av apstākļa vārds,
Pp prievārds
Co saiklis
At saliktais īpašības ģenitīvs
Iekavās aiz nominālo vārdšķiru simboliem norāda locījuma pirmo burtu, turklāt lielais burts apzīmē attiecīgo locījumu daudzskaitlī, bet mazais burts locījumu vienskaitlī, aiz nelokāmiem lietvārdiem iekavās raksta nulli.
i infinitīvs
The structure and computerised search of multiword terms in the texts
Summary
One of the options of the modern computeraided translation support systems is the retrieval of terms from the database connected to the translation system. (e.g. for the consistency of translation and terminology TRADOS translation tools are used at the Translation and Terminology Centre (TTC): Translators Workbench which is connected to a MultiTerm terminology database). However, such systems are usually unable to perform morphological or syntactical analysis of the text, and therefore, in some cases they do not find multiword terms in the databases or even simple terms characterised by interchange of consonants.
In the present paper the structure of multiword terms has been investigated in two terminological databases of the Translation and Terminology Centre (TTC). The largest database comprises the terminology from more than 20 specialised dictionaries approved by Latvian Academy of Science Terminology Commission. In the second database the terminology from TTC translations is stored.
The multiword terms usually are nominal phrases, i.e. they consist of a noun with modifiers having various structures. Most frequently the nominal phrases are formed by a noun with a modifier which is a noun in the genitive. Such a modifier may have other modifiers expressed by adjectives or nouns in the genitive. Less frequent are nominal phrases where the noun preceded by a preposition or a noun in the dative appears as a postmodifier. In the documents to be translated there are specific nominal phrases such as names of institutions, laws or titles of other documents. Such units are also stored in the database.
An exact identification of existing syntactic structures makes it possible to develop an algorithm for search of multiword terms which are stored in the database and appear in the text to be translated. The programme implementing such an algorithm will retrieve only syntactically related components of multiword terms. The retrieval of nominal phrases is facilitated by the typical word order in the Latvian nominal phrases where, for instance, a noun in the genitive precedes the modified word, but the noun in other cases usually appears as a postmodifier.
Two auxiliary databases are used for reference by the term search programme: a term component database (a modification of the TRADOS MultiTerm database) and a grammatical reference database where part of speech, number of roots and set of endings can be found for the Latvian words. The output of the programme is a list of Latvian terms found in the text and their English equivalents. |
|