SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Microsegment Corpus
(Hungarian - Magyar)
01.30
2010.10.31
2010.11.03. www.microsegment.hu 2
Korpusz
 http://hu.wikipedia.org/wiki/Korpusz:
– A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó
szövegek összessége.
– A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt.
– A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése.
– Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban
használt (új, és régies) formája.
– Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok
létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok
egy adott köre is (pl. sajtó).
 http://corpus.nytud.hu/mnsz/:
– A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen
szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a
szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az
MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.
2010.11.03. www.microsegment.hu 3
Microsegment Corpus
 Első (legfontosabb) forrás:
– Webcorpus:
http://mokk.bme.hu/resources/webcorpus/
Halácsy Péter, Kornai András, Németh László, Rung András,
Szakadát István, Trón Viktor Creating open language resources for
Hungarian In Proceedings of the 4th international conference on
Language Resources and Evaluation (LREC2004), 2004 ps pdf
Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density
languages In: Proceedings of the 2nd International Workshop on Web as Corpus,
edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf
 Második legfontosabb forrás
– Magyar wikipedia szövegei (2010. Április)
 További források
– www.fn.hu
– www.hvg.hu
– www.mti.hu
– Stb.
2010.11.03. www.microsegment.hu 4
Hogyan készül
Forrás szöveg
…
…
…
Jelenleg több fajta
(szöveg, szótár) és
néhány formátumú
(txt, pdf, cvs, stb.)
fogadására képes
Feldolgozás
Helyesírás ellenőrzés
tokenizálás és
egyéb
feldolgozás
Tárolás
Utólagos
Feldolgozás
Statisztikák
Keresztvizsgálatok
„Auto-Tag”-elés
2010.11.03. www.microsegment.hu 5
Mire használjuk
 Szövegbányászati projektekhez
 Adattisztítás (Data Improver 2.0)
 Egyéb elemzések (közösségi elemzések, témák, szinonimák, trendek)
 Saját tudástárunk keresőmotorja
2010.11.03. www.microsegment.hu 62010.11.03. www.microsegment.hu 6
Tokenek forrásonkénti darabszáma
Microsegment Corpus 01.00 (alap)
2010.11.03. www.microsegment.hu 72010.11.03. www.microsegment.hu 7
Microsegment Corpus bővítése
Verzió Dátum Tartalom Struktúra Módszer
01.00 2010.04.10.
Webcorpus, Wiki címszavak, BM
utcanevek, Trágár szavak,
Közterületek, Magyar keresztnevek,
Magyar településnevek, Magyar
vezetéknevek
Lemma Hunspell alkalmazása
01.15 2010.08.10.
Wiki Hun 2010.04,
eBooks,
www.mti.hu 2004-2010
01.20 2010.10.10
www.fn.hu
Amerikai keresztnevek
Leíró statisztikák
tokenekre és
lemmákra
NER
Huntoken alkalmazása
01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek
2010.11.03. www.microsegment.hu 82010.11.03. www.microsegment.hu 8
Tokenek forrásonkénti keresztelőfordulásai
Microsegment Corpus 01.30
Microsegment
Corpus 1.0
Arab
számok
Római
számok
Amerikai női
keresztnevek
Amerikai férfi
keresztnevek
eBooks www.fn.hu www.mti.hu
Wiki Hun -
2010.04
Microsegment
Corpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806
Arab számok
713 2 999 387 50 242 387 50 77 242
Római számok
160 387 3 999 3 468 783 100 30 51 163
Amerikai női
keresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279
Amerikai férfi
keresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096
eBooks
864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783
www.fn.hu
72 757 50 30 328 281 59 026 79 283 31 191 64 486
www.mti.hu
75 303 77 51 484 398 61 970 31 191 80 773 69 541
Wiki Hun
2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 283
2010.11.03. www.microsegment.hu 92010.11.03. www.microsegment.hu 9
Új tokenek forrásonkénti darabszámai
Microsegment Corpus 01.30
Dátum Új token (db)
Microsegment Corpus 1.0 2010.04.10 5 600 791
Wiki Hun - 2010.04 2010.08.10 201 477
eBooks 2010.08.27 389 673
mti.hu 2010.08.31 2 592
Amerikai férfi keresztnevek 2010.10.10 113
Amerikai női keresztnevek 2010.10.10 1 851
fn.hu 2010.10.17 4 584
Arab számok 2010.10.20 2 207
Római számok 2010.10.20 3 770
2010.11.03. www.microsegment.hu 10
Tokenek kezdőbetűnkénti darabszáma (6 207 058 db)
Lemmák kezdőbetűnkénti darabszáma (1 352 386 db)
2010.11.03. www.microsegment.hu 11
Lemmák kezdőbetűnkénti súlyozott darabszáma (5 716 022 db)
2010.11.03. www.microsegment.hu 122010.11.03. www.microsegment.hu 12
Sorrend Lemma Előfordulás (db)
1 én 858
2 ezer 717
3 egy 645
4 három 540
5 négy 520
6 láb 491
7 öt 491
8 maga 471
9 éves 468
10 hat 462
11 hét 445
12 kettő 437
13 oldal 411
14 száz 392
15 jó 380
16 kar 376
17 szív 359
18 nyolc 358
19 év 356
20 barát 353
21 fej 344
22 tíz 344
23 fog 344
24 millió 342
25 szó 342
26 ház 339
27 nagy 336
28 szem 334
29 szomszéd 330
30 mag 330
31 tag 326
32 szín 326
33 tér 324
A leggyakoribb lemmák
Sorrend Lemma Előfordulás (db)
34 nyelv 324
35 nap 319
36 gyermek 318
37 út 316
38 társ 313
39 kilenc 312
40 ember 311
41 apa 309
42 sok 308
43 kor 308
44 föld 306
45 tanár 306
46 testvér 305
47 óra 304
48 fal 303
49 csapat 302
50 anya 302
51 sejt 299
52 levél 295
53 szint 294
54 város 294
55 állat 294
56 ár 292
57 anyag 291
58 vár 288
59 kéz 287
60 ér 286
61 él 285
62 saját 285
63 szer 284
64 lélek 284
65 atya 280
66 test 279
Sorrend Lemma Előfordulás (db)
67 méret 279
68 szám 277
69 áll 277
70 érték 275
71 falu 275
72 szülő 272
73 rokon 271
74 isten 271
75 előd 271
76 lány 271
77 mű 269
78 nő 269
79 tesz 267
80 ország 266
81 világ 265
82 család 265
83 jegy 265
84 sor 264
85 kerék 264
86 cél 264
87 hely 263
88 rész 263
89 lépés 262
90 arc 262
91 gyerek 261
92 név 261
93 úr 261
94 adat 260
95 nyom 259
96 munka 259
97 nemzet 259
98 ügy 259
99 mondat 258
2010.11.03. www.microsegment.hu 13
Kérdések
csaba.kiss[at]microsegment.hu

Weitere ähnliche Inhalte

Andere mochten auch

Meet Wojtek (pub)
Meet Wojtek (pub)Meet Wojtek (pub)
Meet Wojtek (pub)Csaba Kiss
 
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyarNIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyarCsaba Kiss
 
NIA 2010 Q1-R00.91 - datasheet - english
NIA 2010 Q1-R00.91 - datasheet - englishNIA 2010 Q1-R00.91 - datasheet - english
NIA 2010 Q1-R00.91 - datasheet - englishCsaba Kiss
 
Nia 2012 q1-r01.01 - tier2 datasheet - magyar
Nia 2012 q1-r01.01 - tier2 datasheet - magyarNia 2012 q1-r01.01 - tier2 datasheet - magyar
Nia 2012 q1-r01.01 - tier2 datasheet - magyarCsaba Kiss
 
Activity-Based Advertising: Techniques and Challenges
Activity-Based Advertising:Techniques and ChallengesActivity-Based Advertising:Techniques and Challenges
Activity-Based Advertising: Techniques and Challengesbo begole
 
Nemzeti Infrastruktúra Adatbázis
Nemzeti Infrastruktúra AdatbázisNemzeti Infrastruktúra Adatbázis
Nemzeti Infrastruktúra AdatbázisCsaba Kiss
 
Meet Linda And Mark Microsegment E20
Meet Linda And Mark Microsegment E20Meet Linda And Mark Microsegment E20
Meet Linda And Mark Microsegment E20Csaba Kiss
 
Nia 2010 q4-r00.98 - tier2 datasheet - magyar
Nia 2010 q4-r00.98 - tier2 datasheet - magyarNia 2010 q4-r00.98 - tier2 datasheet - magyar
Nia 2010 q4-r00.98 - tier2 datasheet - magyarCsaba Kiss
 
National Infrastructure Database
National Infrastructure DatabaseNational Infrastructure Database
National Infrastructure DatabaseCsaba Kiss
 
"Kapcsolat" Concert - "Relationship" Concert
"Kapcsolat"  Concert - "Relationship" Concert"Kapcsolat"  Concert - "Relationship" Concert
"Kapcsolat" Concert - "Relationship" ConcertCsaba Kiss
 
20130128 contextual intelligence v5_5
20130128 contextual intelligence v5_520130128 contextual intelligence v5_5
20130128 contextual intelligence v5_5bo begole
 
Version 5 mcp jua2013 - public
Version 5   mcp jua2013 - publicVersion 5   mcp jua2013 - public
Version 5 mcp jua2013 - publicCsaba Kiss
 
Long Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSSLong Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSSCsaba Kiss
 

Andere mochten auch (16)

Meet Wojtek (pub)
Meet Wojtek (pub)Meet Wojtek (pub)
Meet Wojtek (pub)
 
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyarNIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
 
NIA 2010 Q1-R00.91 - datasheet - english
NIA 2010 Q1-R00.91 - datasheet - englishNIA 2010 Q1-R00.91 - datasheet - english
NIA 2010 Q1-R00.91 - datasheet - english
 
Nia 2012 q1-r01.01 - tier2 datasheet - magyar
Nia 2012 q1-r01.01 - tier2 datasheet - magyarNia 2012 q1-r01.01 - tier2 datasheet - magyar
Nia 2012 q1-r01.01 - tier2 datasheet - magyar
 
Activity-Based Advertising: Techniques and Challenges
Activity-Based Advertising:Techniques and ChallengesActivity-Based Advertising:Techniques and Challenges
Activity-Based Advertising: Techniques and Challenges
 
OpenShop
OpenShopOpenShop
OpenShop
 
Nemzeti Infrastruktúra Adatbázis
Nemzeti Infrastruktúra AdatbázisNemzeti Infrastruktúra Adatbázis
Nemzeti Infrastruktúra Adatbázis
 
Meet Linda And Mark Microsegment E20
Meet Linda And Mark Microsegment E20Meet Linda And Mark Microsegment E20
Meet Linda And Mark Microsegment E20
 
NIA-2010Q2
NIA-2010Q2NIA-2010Q2
NIA-2010Q2
 
Nia 2010 q4-r00.98 - tier2 datasheet - magyar
Nia 2010 q4-r00.98 - tier2 datasheet - magyarNia 2010 q4-r00.98 - tier2 datasheet - magyar
Nia 2010 q4-r00.98 - tier2 datasheet - magyar
 
National Infrastructure Database
National Infrastructure DatabaseNational Infrastructure Database
National Infrastructure Database
 
"Kapcsolat" Concert - "Relationship" Concert
"Kapcsolat"  Concert - "Relationship" Concert"Kapcsolat"  Concert - "Relationship" Concert
"Kapcsolat" Concert - "Relationship" Concert
 
20130128 contextual intelligence v5_5
20130128 contextual intelligence v5_520130128 contextual intelligence v5_5
20130128 contextual intelligence v5_5
 
Version 5 mcp jua2013 - public
Version 5   mcp jua2013 - publicVersion 5   mcp jua2013 - public
Version 5 mcp jua2013 - public
 
Algorithms
AlgorithmsAlgorithms
Algorithms
 
Long Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSSLong Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSS
 

Ähnlich wie Microsegment Corpus 01.30

A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszok
A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszokA szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszok
A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszokMiklós Péter Hubay
 
A petőfi irodalmi múzeum portálrendszere v1
A petőfi irodalmi múzeum portálrendszere v1A petőfi irodalmi múzeum portálrendszere v1
A petőfi irodalmi múzeum portálrendszere v1t.zsuzsi17
 
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...Gábor Mikulás
 
Drótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladatDrótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladatAmbrus Attila József
 
Drótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladatDrótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladatAmbrus Attila József
 
Forráskódtárak gráfalapú statikus analízise
Forráskódtárak gráfalapú statikus analíziseForráskódtárak gráfalapú statikus analízise
Forráskódtárak gráfalapú statikus analíziseDániel Stein
 

Ähnlich wie Microsegment Corpus 01.30 (6)

A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszok
A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszokA szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszok
A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszok
 
A petőfi irodalmi múzeum portálrendszere v1
A petőfi irodalmi múzeum portálrendszere v1A petőfi irodalmi múzeum portálrendszere v1
A petőfi irodalmi múzeum portálrendszere v1
 
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
 
Drótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladatDrótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladat
 
Drótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladatDrótos László: Az internet archiválása, mint könyvtári feladat
Drótos László: Az internet archiválása, mint könyvtári feladat
 
Forráskódtárak gráfalapú statikus analízise
Forráskódtárak gráfalapú statikus analíziseForráskódtárak gráfalapú statikus analízise
Forráskódtárak gráfalapú statikus analízise
 

Microsegment Corpus 01.30

  • 1. Microsegment Corpus (Hungarian - Magyar) 01.30 2010.10.31
  • 2. 2010.11.03. www.microsegment.hu 2 Korpusz  http://hu.wikipedia.org/wiki/Korpusz: – A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összessége. – A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt. – A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése. – Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban használt (új, és régies) formája. – Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok egy adott köre is (pl. sajtó).  http://corpus.nytud.hu/mnsz/: – A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.
  • 3. 2010.11.03. www.microsegment.hu 3 Microsegment Corpus  Első (legfontosabb) forrás: – Webcorpus: http://mokk.bme.hu/resources/webcorpus/ Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor Creating open language resources for Hungarian In Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004), 2004 ps pdf Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf  Második legfontosabb forrás – Magyar wikipedia szövegei (2010. Április)  További források – www.fn.hu – www.hvg.hu – www.mti.hu – Stb.
  • 4. 2010.11.03. www.microsegment.hu 4 Hogyan készül Forrás szöveg … … … Jelenleg több fajta (szöveg, szótár) és néhány formátumú (txt, pdf, cvs, stb.) fogadására képes Feldolgozás Helyesírás ellenőrzés tokenizálás és egyéb feldolgozás Tárolás Utólagos Feldolgozás Statisztikák Keresztvizsgálatok „Auto-Tag”-elés
  • 5. 2010.11.03. www.microsegment.hu 5 Mire használjuk  Szövegbányászati projektekhez  Adattisztítás (Data Improver 2.0)  Egyéb elemzések (közösségi elemzések, témák, szinonimák, trendek)  Saját tudástárunk keresőmotorja
  • 6. 2010.11.03. www.microsegment.hu 62010.11.03. www.microsegment.hu 6 Tokenek forrásonkénti darabszáma Microsegment Corpus 01.00 (alap)
  • 7. 2010.11.03. www.microsegment.hu 72010.11.03. www.microsegment.hu 7 Microsegment Corpus bővítése Verzió Dátum Tartalom Struktúra Módszer 01.00 2010.04.10. Webcorpus, Wiki címszavak, BM utcanevek, Trágár szavak, Közterületek, Magyar keresztnevek, Magyar településnevek, Magyar vezetéknevek Lemma Hunspell alkalmazása 01.15 2010.08.10. Wiki Hun 2010.04, eBooks, www.mti.hu 2004-2010 01.20 2010.10.10 www.fn.hu Amerikai keresztnevek Leíró statisztikák tokenekre és lemmákra NER Huntoken alkalmazása 01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek
  • 8. 2010.11.03. www.microsegment.hu 82010.11.03. www.microsegment.hu 8 Tokenek forrásonkénti keresztelőfordulásai Microsegment Corpus 01.30 Microsegment Corpus 1.0 Arab számok Római számok Amerikai női keresztnevek Amerikai férfi keresztnevek eBooks www.fn.hu www.mti.hu Wiki Hun - 2010.04 Microsegment Corpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806 Arab számok 713 2 999 387 50 242 387 50 77 242 Római számok 160 387 3 999 3 468 783 100 30 51 163 Amerikai női keresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279 Amerikai férfi keresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096 eBooks 864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783 www.fn.hu 72 757 50 30 328 281 59 026 79 283 31 191 64 486 www.mti.hu 75 303 77 51 484 398 61 970 31 191 80 773 69 541 Wiki Hun 2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 283
  • 9. 2010.11.03. www.microsegment.hu 92010.11.03. www.microsegment.hu 9 Új tokenek forrásonkénti darabszámai Microsegment Corpus 01.30 Dátum Új token (db) Microsegment Corpus 1.0 2010.04.10 5 600 791 Wiki Hun - 2010.04 2010.08.10 201 477 eBooks 2010.08.27 389 673 mti.hu 2010.08.31 2 592 Amerikai férfi keresztnevek 2010.10.10 113 Amerikai női keresztnevek 2010.10.10 1 851 fn.hu 2010.10.17 4 584 Arab számok 2010.10.20 2 207 Római számok 2010.10.20 3 770
  • 10. 2010.11.03. www.microsegment.hu 10 Tokenek kezdőbetűnkénti darabszáma (6 207 058 db) Lemmák kezdőbetűnkénti darabszáma (1 352 386 db)
  • 11. 2010.11.03. www.microsegment.hu 11 Lemmák kezdőbetűnkénti súlyozott darabszáma (5 716 022 db)
  • 12. 2010.11.03. www.microsegment.hu 122010.11.03. www.microsegment.hu 12 Sorrend Lemma Előfordulás (db) 1 én 858 2 ezer 717 3 egy 645 4 három 540 5 négy 520 6 láb 491 7 öt 491 8 maga 471 9 éves 468 10 hat 462 11 hét 445 12 kettő 437 13 oldal 411 14 száz 392 15 jó 380 16 kar 376 17 szív 359 18 nyolc 358 19 év 356 20 barát 353 21 fej 344 22 tíz 344 23 fog 344 24 millió 342 25 szó 342 26 ház 339 27 nagy 336 28 szem 334 29 szomszéd 330 30 mag 330 31 tag 326 32 szín 326 33 tér 324 A leggyakoribb lemmák Sorrend Lemma Előfordulás (db) 34 nyelv 324 35 nap 319 36 gyermek 318 37 út 316 38 társ 313 39 kilenc 312 40 ember 311 41 apa 309 42 sok 308 43 kor 308 44 föld 306 45 tanár 306 46 testvér 305 47 óra 304 48 fal 303 49 csapat 302 50 anya 302 51 sejt 299 52 levél 295 53 szint 294 54 város 294 55 állat 294 56 ár 292 57 anyag 291 58 vár 288 59 kéz 287 60 ér 286 61 él 285 62 saját 285 63 szer 284 64 lélek 284 65 atya 280 66 test 279 Sorrend Lemma Előfordulás (db) 67 méret 279 68 szám 277 69 áll 277 70 érték 275 71 falu 275 72 szülő 272 73 rokon 271 74 isten 271 75 előd 271 76 lány 271 77 mű 269 78 nő 269 79 tesz 267 80 ország 266 81 világ 265 82 család 265 83 jegy 265 84 sor 264 85 kerék 264 86 cél 264 87 hely 263 88 rész 263 89 lépés 262 90 arc 262 91 gyerek 261 92 név 261 93 úr 261 94 adat 260 95 nyom 259 96 munka 259 97 nemzet 259 98 ügy 259 99 mondat 258