2. 2010.11.03. www.microsegment.hu 2
Korpusz
http://hu.wikipedia.org/wiki/Korpusz:
– A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó
szövegek összessége.
– A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt.
– A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése.
– Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban
használt (új, és régies) formája.
– Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok
létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok
egy adott köre is (pl. sajtó).
http://corpus.nytud.hu/mnsz/:
– A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen
szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a
szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az
MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.
3. 2010.11.03. www.microsegment.hu 3
Microsegment Corpus
Első (legfontosabb) forrás:
– Webcorpus:
http://mokk.bme.hu/resources/webcorpus/
Halácsy Péter, Kornai András, Németh László, Rung András,
Szakadát István, Trón Viktor Creating open language resources for
Hungarian In Proceedings of the 4th international conference on
Language Resources and Evaluation (LREC2004), 2004 ps pdf
Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density
languages In: Proceedings of the 2nd International Workshop on Web as Corpus,
edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf
Második legfontosabb forrás
– Magyar wikipedia szövegei (2010. Április)
További források
– www.fn.hu
– www.hvg.hu
– www.mti.hu
– Stb.
4. 2010.11.03. www.microsegment.hu 4
Hogyan készül
Forrás szöveg
…
…
…
Jelenleg több fajta
(szöveg, szótár) és
néhány formátumú
(txt, pdf, cvs, stb.)
fogadására képes
Feldolgozás
Helyesírás ellenőrzés
tokenizálás és
egyéb
feldolgozás
Tárolás
Utólagos
Feldolgozás
Statisztikák
Keresztvizsgálatok
„Auto-Tag”-elés
5. 2010.11.03. www.microsegment.hu 5
Mire használjuk
Szövegbányászati projektekhez
Adattisztítás (Data Improver 2.0)
Egyéb elemzések (közösségi elemzések, témák, szinonimák, trendek)
Saját tudástárunk keresőmotorja
7. 2010.11.03. www.microsegment.hu 72010.11.03. www.microsegment.hu 7
Microsegment Corpus bővítése
Verzió Dátum Tartalom Struktúra Módszer
01.00 2010.04.10.
Webcorpus, Wiki címszavak, BM
utcanevek, Trágár szavak,
Közterületek, Magyar keresztnevek,
Magyar településnevek, Magyar
vezetéknevek
Lemma Hunspell alkalmazása
01.15 2010.08.10.
Wiki Hun 2010.04,
eBooks,
www.mti.hu 2004-2010
01.20 2010.10.10
www.fn.hu
Amerikai keresztnevek
Leíró statisztikák
tokenekre és
lemmákra
NER
Huntoken alkalmazása
01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek
8. 2010.11.03. www.microsegment.hu 82010.11.03. www.microsegment.hu 8
Tokenek forrásonkénti keresztelőfordulásai
Microsegment Corpus 01.30
Microsegment
Corpus 1.0
Arab
számok
Római
számok
Amerikai női
keresztnevek
Amerikai férfi
keresztnevek
eBooks www.fn.hu www.mti.hu
Wiki Hun -
2010.04
Microsegment
Corpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806
Arab számok
713 2 999 387 50 242 387 50 77 242
Római számok
160 387 3 999 3 468 783 100 30 51 163
Amerikai női
keresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279
Amerikai férfi
keresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096
eBooks
864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783
www.fn.hu
72 757 50 30 328 281 59 026 79 283 31 191 64 486
www.mti.hu
75 303 77 51 484 398 61 970 31 191 80 773 69 541
Wiki Hun
2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 283
9. 2010.11.03. www.microsegment.hu 92010.11.03. www.microsegment.hu 9
Új tokenek forrásonkénti darabszámai
Microsegment Corpus 01.30
Dátum Új token (db)
Microsegment Corpus 1.0 2010.04.10 5 600 791
Wiki Hun - 2010.04 2010.08.10 201 477
eBooks 2010.08.27 389 673
mti.hu 2010.08.31 2 592
Amerikai férfi keresztnevek 2010.10.10 113
Amerikai női keresztnevek 2010.10.10 1 851
fn.hu 2010.10.17 4 584
Arab számok 2010.10.20 2 207
Római számok 2010.10.20 3 770
12. 2010.11.03. www.microsegment.hu 122010.11.03. www.microsegment.hu 12
Sorrend Lemma Előfordulás (db)
1 én 858
2 ezer 717
3 egy 645
4 három 540
5 négy 520
6 láb 491
7 öt 491
8 maga 471
9 éves 468
10 hat 462
11 hét 445
12 kettő 437
13 oldal 411
14 száz 392
15 jó 380
16 kar 376
17 szív 359
18 nyolc 358
19 év 356
20 barát 353
21 fej 344
22 tíz 344
23 fog 344
24 millió 342
25 szó 342
26 ház 339
27 nagy 336
28 szem 334
29 szomszéd 330
30 mag 330
31 tag 326
32 szín 326
33 tér 324
A leggyakoribb lemmák
Sorrend Lemma Előfordulás (db)
34 nyelv 324
35 nap 319
36 gyermek 318
37 út 316
38 társ 313
39 kilenc 312
40 ember 311
41 apa 309
42 sok 308
43 kor 308
44 föld 306
45 tanár 306
46 testvér 305
47 óra 304
48 fal 303
49 csapat 302
50 anya 302
51 sejt 299
52 levél 295
53 szint 294
54 város 294
55 állat 294
56 ár 292
57 anyag 291
58 vár 288
59 kéz 287
60 ér 286
61 él 285
62 saját 285
63 szer 284
64 lélek 284
65 atya 280
66 test 279
Sorrend Lemma Előfordulás (db)
67 méret 279
68 szám 277
69 áll 277
70 érték 275
71 falu 275
72 szülő 272
73 rokon 271
74 isten 271
75 előd 271
76 lány 271
77 mű 269
78 nő 269
79 tesz 267
80 ország 266
81 világ 265
82 család 265
83 jegy 265
84 sor 264
85 kerék 264
86 cél 264
87 hely 263
88 rész 263
89 lépés 262
90 arc 262
91 gyerek 261
92 név 261
93 úr 261
94 adat 260
95 nyom 259
96 munka 259
97 nemzet 259
98 ügy 259
99 mondat 258