További érdekes adatra bukkantam: a leggyakoribb ezer orosz szó lefedi a szövegek 64 százalékát, 2000 szó ismeretével elméletileg 71 százalékot értünk meg egy átlagos szövegből, 3000 szó 76%-ra, míg 5000 szó 82%-ra tornássza fel ezt az arányt. Ezek az adatok egyrészt bíztatóak, hisz már egy alapfokú nyelvtudással is (elméletileg) 1000-1500 szó (pontosabban: lexikai elem) birtokában vagyunk. Másrészt viszont az is látható, hogy a lexikai bázis növelése egy bizonyos pont után egyre kisebb „haladást” eredményez: ha 3000 szóhoz hozzátanulunk még 2000-ret, azzal csak 6 százalékkal nagyobb részt hasítunk ki a potenciálisan előforduló lexikából.
Persze ez nem túl nagy felismerés: a nyelvtanulás kezdetben mindig nagy lépésekkel halad, a későbbi szakaszokban pedig már kisebb, finomabb dolgokkal foglalkozunk inkább (és ez nem is kifejezetten csak a szótanulásra vonatkozik).
Na de: ha az első ezer szó ismerete lefedi egy átlagos orosz szöveg hetven százalékát, miért nem tudunk az alapfokú lexikával labdába rúgni Dosztojevszkijnél vagy egy cikk elolvasásakor? És valójában ugyanezt mondhatjuk el még középfokon is (2-3000 szó), ahol már ismerni illik majd’ a teljes nyelvtant?
Erre én nem fogok tudni választ adni, de miután rábukkantam az orosz nemzeti korpusz alapján készült, „Az orosz lexika új szógyakorisági szótára” c. műre, elkezdett derengeni egy-két dolog. A szógyakoriság-elemzés, ugyanis, komoly tudomány, és az elmúlt évtizedekben sokat fejlődött, hisz’ az addigi minden bizonnyal kínkeserves emberi munkát felváltotta a számítógépes szövegfeldolgozás. Az elemzendő szövegmennyiség a szó szoros értelmében ezerszeresére nőtt: a nyomtatott szótárak 100.000-400.000 szón alapuló korpuszait lecserélték már csak géppel feldolgozható százmilliós korpuszokra.
Adatbázissal sokkal több dolgot lehet csinálni, mint szótárral: például ki lehet deríteni a szavak gyakorisága mellett a koncentráltságukat is. A nyelv ugyanis sajnos olyan, hogy nem egyenletesen oszlanak el benne a szavak: a ritka szavak jellemzően gyakran fordulnak elő olyan szövegekben, amelyek valamilyen szempontból sajátosak (ez lehet téma vagy műfaj, például). Így hiába tudunk nagyon jól oroszul, lehet, hogy katonai vagy üzleti témájú szövegeket nem értünk meg. Azt is megfigyelhető az adatbázis segítségével, hogy különböző típusú és műfajú szövegek is alapvetően más lexikával dolgoznak. Teljesen más szavak számítanak gyakorinak a beszélt nyelvben, a sajtóban, vagy a szépirodalomban. Ez eléggé megnehezíti a nyelvkönyvírók dolgát, amikor ki kell találniuk: mely szavakra szűkítsék le a „megtanulandó” szavak körét?
Érdekességként kimásolom a leggyakoribb 50 főnevet (a többi itt van); érdekes lenne összehasonlítani, vajon más nyelvekben ez melyek? De ezt majd máskor…
1 год év
2 человек ember
3 время idő
4 дело dolog
5 жизнь élet
6 день nap
7 рука kéz
8 работа munka
9 слово szó
10 место hely
11 вопрос kérdés
12 лицо arc
13 глаз szem
14 страна ország
15 друг barát
16 сторона oldal
17 дом ház
18 случай eset
19 ребенок gyerek
20 голова fej
21 система rendszer
22 вид kinézet
23 конец vég
24 отношение viszony
25 город város
26 часть rész
27 женщина nő
28 проблема probléma
29 земля föld
30 решение megoldás
31 власть hatalom
32 машина gép, autó
33 закон törvény
34 час óra
35 образ alak
36 отец apa
37 история történelem
38 нога láb
39 вода víz
40 война háború
41 возможность lehetőség
42 компания társaság
43 результат eredmény
44 дверь ajtó
45 бог isten
46 народ nép
47 область terület
48 число szám
49 голос hang
50 развитие fejlődés
Szia Péter!
VálaszTörlésNagyon hasonlóak más nyelvekben is a főnévlisták. Ami viszont az eltéréseket illeti, érdemes elgondolkozni, hogy pl. az oroszban a lico minek köszönheti a jó helyezést? Gyanítom, nem az emberi arcot emlegetik olyan sűrűn. Te ismered a nyelvet, ha belegondolsz, nyilván tudni fogod, milyen kontextusban fordul elő nagyon gyakran ez a szó.
Itt találod a magyar listákat, ez itt a főnevekre a lemmás beállítás összesítettben:
https://corpus.nytud.hu/cgi-bin/mnszgyak?mode=lemma&ppos=N&focus=&context=c0&sort=total