Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

1.317 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

  1. 1. PPKE ITK Nyelvtechnológiai Labor http://nlpg.itk.ppke.hu/ Miháltz Márton <mihaltz.marton@itk.ppke.hu>
  2. 2. Bemutatkozás • Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar • Nyelvtechnológiai Labor: – PPKE ITK Nyelvtechnológiai Csoport – MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport • Vezető: Prószéky Gábor • 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti- Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz Márton) • Oktatás: nyelvtechnológia szakirány, mérnökinformatikus BSc és MSc; PhD képzés
  3. 3. Kutatási területek • Morfológiai elemzés és egyértelműsítés • Szintaktikai és szemantikai elemzés • Orvosi szövegek feldolgozása • Helyesírási hibák automatikus javítása • Statisztikai gépi fordítás és alkalmazásai
  4. 4. Projektek • Információkinyerés klinikai szövegekből • Magyar nyelvi elemző • PurePos: nyílt forrású morfológiai elemző és egyértelműsítő • (…)
  5. 5. Információkinyerés klinikai szövegekből • Kezelőlapok, zárójelentések stb. – strukturálatlanság, rövidítések, helyesírási hibák, elírások, latin-magyar keveredés, szaknyelv stb. • Feldolgozás: domain-adaptáció – Szegmentálás, tokenizálás: szabályok, gépi tanulás – Helyesírási hibák automatikus javítása: javaslat- generálás + SMT rendszer – Rövidítésfelismerés és –feloldás: szabályok, lexikon • Információkinyerés – Ontológiaépítés, adatbányászat, döntéstámogatás stb.
  6. 6. Magyar nyelvi elemző (2012-2016) • Mély nyelvi elemzés, teljes szintaxis, szemantika – Pszicholingvisztikai indíttatás: emberi feldolgozás! – Performancia alapú, “rosszulformáltság” is OK – Szigorúan balról jobbra elemzés – Párhuzamos szintek (vs. kaszkád modell) – Mondathatárokon átívelő diskurzusegységek – Gráfreprezentáció: szintaktikai és szemantikai szerepek • Erőforrások – Korpuszépítés: 1G szó, magyar web, folyamatos update – Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret – Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel • Példaalkalmazás: üzleti rövidhírek elemzése – Automatikus “szövegértés”: ki, mit, hol, mikor?
  7. 7. Morfológiai elemzés, egyértelműsítés • PurePos – Statisztikai egyértelműsítő (PoS-tagger) • TnT implementáció (HMM) • Tanítás: Szeged Korpusz – Humor morfológiai elemző, szótövesítő – Guesser • Java, Python API • Nyílt forrású (LGPL) https://github.com/ppke-nlpg
  8. 8. Köszönjük a figyelmet! http://nlpg.itk.ppke.hu/ Kód: http://github.com/ppke-nlpg

×