2010. augusztus 7., szombat

Szógyakoriság – magyar/orosz összevetési játék

A legutóbbi posztban azt írtam, hogy érdekes lenne a leggyakoribb magyar/orosz szavakat összehasonlítani. Ez persze nyelvészeknek való, komoly munka, de egy kis kutakodás a neten is érdekes dolgokat hoz fel. Például azt, hogy a rendelkezésre álló magyar szógyakoriság lista elég kutyaütő. Először is, láthatólag nem építettek be semmiféle morfológiai elemzést, így sajnos a Magyarország és a Magyarországon két szónak van véve. A másik probléma a korpusz összetétele: mindent-bele elven készült, ami leginkább az internetet jelenti. Erősen túlreprezentált a számítógépes lexika és még angol szavak is akadnak (láthatólag csak gépi munkára támaszkodtak a készítők). Az orosz korpusz ehhez képest kifinomultabb: pontosan megadja, milyen arányban szerepelnek benne különböző műfajú szövegek. A fentiek ellenére mégis jó játék egymás mellé illeszteni a két szólistát, mert olyan dolgokra derül fény, hogy az oroszban a , a magyarban pedig a férfi gyakoribb; mindkét nyelvben számos a lehetőség és probléma, azonban az eredmény a magyarban ritkábban fordul elő; vagy hogy a munka az oroszban jóval gyakoribb, mint nálunk.





orosz szó magyar fordítás magyar szó
1 год év kft
2 человек ember ember
3 время idő rendszer
4 дело dolog nap
5 жизнь élet emberek
6 день nap semmi
7 рука kéz világ
8 работа munka isten
9 слово szó idő
10 место hely dolog
11 вопрос kérdés jog
12 лицо arc cég
13 глаз szem törvény
14 страна ország élet
15 друг barát oldal
16 сторона oldal Budapest
17 дом ház ország
18 случай eset film
19 ребенок gyerek has
20 голова fej október
21 система rendszer város
22 вид kinézet kérdés
23 конец vég kormány
24 отношение viszony
Péter
25 город város munka
26 часть rész óra
27 женщина lehetőséget
28 проблема probléma férfi
29 земля föld hét
30 решение megoldás Magyarországon
31 власть hatalom Magyarország
32 машина gép, autó linux
33 закон törvény kép
34 час óra József
35 образ alak este
36 отец apa felhasználó
37 история történelem jelen
38 нога láb felhasználók
39 вода víz vezető
40 война háború neve
41 возможность lehetőség forint
42 компания társaság Ferenc
43 результат eredmény internet
44 дверь ajtó szervezet
45 бог isten játék
46 народ nép csapat
47 область terület elnöke
48 число szám napja
49 голос hang minden
50 развитие fejlődés jövő
51

ideje
52

betű
53

Gábor
54

iskola
55

Sándor
56

könyv
57

probléma
58

név
59

személy
60

szervezetek
61

György
62

fórum
63

Jézus
64

társadalom
65

szeptember
66

információk
67

tanár
68

Zoltán
69

anyag
70

század
71

király
72

látogató
73

család
74

támogatás
75

válasz
76

programok
77

eljárás
78

nevét
79

képet
80

vendég
81

víz
82

november
83

feladat
84

lány
85

múlt
86

dolgot
87

tér
88

önkormányzat
89

lap
90

ára
91

állam
92

otthon
93

reggel
94

vezetője
95

olasz
96

Tamás
97

termék
98

hónap
99

intézmény
100

Pál

2010. augusztus 5., csütörtök

A leggyakoribb orosz szavak – a szógyakoriság rejtelmei

Nemrég írtam arról, hogy a leggyakoribb orosz szavak 10-20 százaléka könnyedén megérthető, ha ismerünk más nyelveket (jövevényszavak, nemzetközi szavak, etc.).

További érdekes adatra bukkantam: a leggyakoribb ezer orosz szó lefedi a szövegek 64 százalékát, 2000 szó ismeretével elméletileg 71 százalékot értünk meg egy átlagos szövegből, 3000 szó 76%-ra, míg 5000 szó 82%-ra tornássza fel ezt az arányt. Ezek az adatok egyrészt bíztatóak, hisz már egy alapfokú nyelvtudással is (elméletileg) 1000-1500 szó (pontosabban: lexikai elem) birtokában vagyunk. Másrészt viszont az is látható, hogy a lexikai bázis növelése egy bizonyos pont után egyre kisebb „haladást” eredményez: ha 3000 szóhoz hozzátanulunk még 2000-ret, azzal csak 6 százalékkal nagyobb részt hasítunk ki a potenciálisan előforduló lexikából.


Persze ez nem túl nagy felismerés: a nyelvtanulás kezdetben mindig nagy lépésekkel halad, a későbbi szakaszokban pedig már kisebb, finomabb dolgokkal foglalkozunk inkább (és ez nem is kifejezetten csak a szótanulásra vonatkozik).

Na de: ha az első ezer szó ismerete lefedi egy átlagos orosz szöveg hetven százalékát, miért nem tudunk az alapfokú lexikával labdába rúgni Dosztojevszkijnél vagy egy cikk elolvasásakor? És valójában ugyanezt mondhatjuk el még középfokon is (2-3000 szó), ahol már ismerni illik majd’ a teljes nyelvtant?

Erre én nem fogok tudni választ adni, de miután rábukkantam az orosz nemzeti korpusz alapján készült, „Az orosz lexika új szógyakorisági szótára” c. műre, elkezdett derengeni egy-két dolog. A szógyakoriság-elemzés, ugyanis, komoly tudomány, és az elmúlt évtizedekben sokat fejlődött, hisz’ az addigi minden bizonnyal kínkeserves emberi munkát felváltotta a számítógépes szövegfeldolgozás. Az elemzendő szövegmennyiség a szó szoros értelmében ezerszeresére nőtt: a nyomtatott szótárak 100.000-400.000 szón alapuló korpuszait lecserélték már csak géppel feldolgozható százmilliós korpuszokra.

Adatbázissal sokkal több dolgot lehet csinálni, mint szótárral: például ki lehet deríteni a szavak gyakorisága mellett a koncentráltságukat is. A nyelv ugyanis sajnos olyan, hogy nem egyenletesen oszlanak el benne a szavak: a ritka szavak jellemzően gyakran fordulnak elő olyan szövegekben, amelyek valamilyen szempontból sajátosak (ez lehet téma vagy műfaj, például). Így hiába tudunk nagyon jól oroszul, lehet, hogy katonai vagy üzleti témájú szövegeket nem értünk meg. Azt is megfigyelhető az adatbázis segítségével, hogy különböző típusú és műfajú szövegek is alapvetően más lexikával dolgoznak. Teljesen más szavak számítanak gyakorinak a beszélt nyelvben, a sajtóban, vagy a szépirodalomban. Ez eléggé megnehezíti a nyelvkönyvírók dolgát, amikor ki kell találniuk: mely szavakra szűkítsék le a „megtanulandó” szavak körét?

Érdekességként kimásolom a leggyakoribb 50 főnevet (a többi itt van); érdekes lenne összehasonlítani, vajon más nyelvekben ez melyek? De ezt majd máskor…


1          год      év
2          человек          ember
3          время  idő
4          дело    dolog
5          жизнь élet
6          день    nap     
7          рука     kéz
8          работа munka 
9          слово  szó      
10        место  hely     
11        вопрос            kérdés 
12        лицо   arc
13        глаз     szem   
14        страна ország 
15        друг     barát   
16        сторона          oldal    
17        дом     ház      
18        случай            eset
19        ребенок          gyerek 
20        голова fej       
21        система          rendszer          
22        вид      kinézet
23        конец  vég
24        отношение viszony    
25        город  város   
26        часть   rész     
27        женщина        nő       
28        проблема       probléma        
29        земля  föld     
30        решение         megoldás        
31        власть hatalom           
32        машина          gép, autó         
33        закон   törvény
34        час      óra      
35        образ   alak
36        отец    apa
37        история          történelem       
38        нога    láb
39        вода    víz       
40        война  háború
41        возможность lehetőség         
42        компания       társaság
43        результат        eredmény        
44        дверь  ajtó     
45        бог      isten    
46        народ  nép     
47        область           terület  
48        число  szám
49        голос   hang
50        развитие        fejlődés