2010. augusztus 5., csütörtök

A leggyakoribb orosz szavak – a szógyakoriság rejtelmei

Nemrég írtam arról, hogy a leggyakoribb orosz szavak 10-20 százaléka könnyedén megérthető, ha ismerünk más nyelveket (jövevényszavak, nemzetközi szavak, etc.).

További érdekes adatra bukkantam: a leggyakoribb ezer orosz szó lefedi a szövegek 64 százalékát, 2000 szó ismeretével elméletileg 71 százalékot értünk meg egy átlagos szövegből, 3000 szó 76%-ra, míg 5000 szó 82%-ra tornássza fel ezt az arányt. Ezek az adatok egyrészt bíztatóak, hisz már egy alapfokú nyelvtudással is (elméletileg) 1000-1500 szó (pontosabban: lexikai elem) birtokában vagyunk. Másrészt viszont az is látható, hogy a lexikai bázis növelése egy bizonyos pont után egyre kisebb „haladást” eredményez: ha 3000 szóhoz hozzátanulunk még 2000-ret, azzal csak 6 százalékkal nagyobb részt hasítunk ki a potenciálisan előforduló lexikából.


Persze ez nem túl nagy felismerés: a nyelvtanulás kezdetben mindig nagy lépésekkel halad, a későbbi szakaszokban pedig már kisebb, finomabb dolgokkal foglalkozunk inkább (és ez nem is kifejezetten csak a szótanulásra vonatkozik).

Na de: ha az első ezer szó ismerete lefedi egy átlagos orosz szöveg hetven százalékát, miért nem tudunk az alapfokú lexikával labdába rúgni Dosztojevszkijnél vagy egy cikk elolvasásakor? És valójában ugyanezt mondhatjuk el még középfokon is (2-3000 szó), ahol már ismerni illik majd’ a teljes nyelvtant?

Erre én nem fogok tudni választ adni, de miután rábukkantam az orosz nemzeti korpusz alapján készült, „Az orosz lexika új szógyakorisági szótára” c. műre, elkezdett derengeni egy-két dolog. A szógyakoriság-elemzés, ugyanis, komoly tudomány, és az elmúlt évtizedekben sokat fejlődött, hisz’ az addigi minden bizonnyal kínkeserves emberi munkát felváltotta a számítógépes szövegfeldolgozás. Az elemzendő szövegmennyiség a szó szoros értelmében ezerszeresére nőtt: a nyomtatott szótárak 100.000-400.000 szón alapuló korpuszait lecserélték már csak géppel feldolgozható százmilliós korpuszokra.

Adatbázissal sokkal több dolgot lehet csinálni, mint szótárral: például ki lehet deríteni a szavak gyakorisága mellett a koncentráltságukat is. A nyelv ugyanis sajnos olyan, hogy nem egyenletesen oszlanak el benne a szavak: a ritka szavak jellemzően gyakran fordulnak elő olyan szövegekben, amelyek valamilyen szempontból sajátosak (ez lehet téma vagy műfaj, például). Így hiába tudunk nagyon jól oroszul, lehet, hogy katonai vagy üzleti témájú szövegeket nem értünk meg. Azt is megfigyelhető az adatbázis segítségével, hogy különböző típusú és műfajú szövegek is alapvetően más lexikával dolgoznak. Teljesen más szavak számítanak gyakorinak a beszélt nyelvben, a sajtóban, vagy a szépirodalomban. Ez eléggé megnehezíti a nyelvkönyvírók dolgát, amikor ki kell találniuk: mely szavakra szűkítsék le a „megtanulandó” szavak körét?

Érdekességként kimásolom a leggyakoribb 50 főnevet (a többi itt van); érdekes lenne összehasonlítani, vajon más nyelvekben ez melyek? De ezt majd máskor…


1          год      év
2          человек          ember
3          время  idő
4          дело    dolog
5          жизнь élet
6          день    nap     
7          рука     kéz
8          работа munka 
9          слово  szó      
10        место  hely     
11        вопрос            kérdés 
12        лицо   arc
13        глаз     szem   
14        страна ország 
15        друг     barát   
16        сторона          oldal    
17        дом     ház      
18        случай            eset
19        ребенок          gyerek 
20        голова fej       
21        система          rendszer          
22        вид      kinézet
23        конец  vég
24        отношение viszony    
25        город  város   
26        часть   rész     
27        женщина        nő       
28        проблема       probléma        
29        земля  föld     
30        решение         megoldás        
31        власть hatalom           
32        машина          gép, autó         
33        закон   törvény
34        час      óra      
35        образ   alak
36        отец    apa
37        история          történelem       
38        нога    láb
39        вода    víz       
40        война  háború
41        возможность lehetőség         
42        компания       társaság
43        результат        eredmény        
44        дверь  ajtó     
45        бог      isten    
46        народ  nép     
47        область           terület  
48        число  szám
49        голос   hang
50        развитие        fejlődés

1 megjegyzés:

  1. Szia Péter!

    Nagyon hasonlóak más nyelvekben is a főnévlisták. Ami viszont az eltéréseket illeti, érdemes elgondolkozni, hogy pl. az oroszban a lico minek köszönheti a jó helyezést? Gyanítom, nem az emberi arcot emlegetik olyan sűrűn. Te ismered a nyelvet, ha belegondolsz, nyilván tudni fogod, milyen kontextusban fordul elő nagyon gyakran ez a szó.

    Itt találod a magyar listákat, ez itt a főnevekre a lemmás beállítás összesítettben:

    https://corpus.nytud.hu/cgi-bin/mnszgyak?mode=lemma&ppos=N&focus=&context=c0&sort=total

    VálaszTörlés