SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
Varjú Zoltán, Precognox
2015.11.17.
"Every time I fire a linguist, the
performance of the speech recognizer
goes up"
(Frederick Jelinek)
Zoli nagyon örül,mert Nóri elvitte végre krumplilángost enni.A krumplilángos Zoli
számára a legfinomabb kaja a világon és reméli,hogy Nórinak is ízlett.Zoli és Nóri
legközelebb nem krumplilángost fog enni,hanem elmennek megnézni az új Avengers
filmet.
zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára
a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos
fog enni hanem menni nézni az új avengers film
 zoli nagyon örül
 nagyon örül mert
 örül mert nóri
 stb.
 zoli - nagyon
 zoli - örül
 nagyon - örül
 nagyon - mert
 örül - mert
 mert - nóri
 stb.
 SZTAKI Wikipedia dump egy szelete
 463409 szó, 46096 egyedi szótári elem
Csak az 1500 leggyakoribb
elemet tartalmazó trigram
1500 csomópont
87749 él
Magyar WordNet
42359 csomópont
38335 él
Átlagos utak hossza: 2.35
Átmérő: 13
Agykapocs
8049 csomópont
13635 él
Átlagos utak hossza: 4.36
Átmérő: 353
Mihalcea – Tarau:TextRank: Bringing Order
Into Texts
PageRank alapján rangsorolja a
csomópontokat
Felügyelet nélküli módszer
Precision: 31.2%, Recall: 43.1%
Figyelembe veszi a nyelvi struktúrát (pl. A-N
nagyobb súlyt kap mint N-A)
Fokszám alapján rangsoroljuk a csomópontokat
Kulcsszókinyerés esetén alacsony kb. 10%
precision, elfogadható, 35% recall kulcsszókinyerés
esetén angol és magyar korpuszokon tesztelve
 Szövegkivonatolás esetén 35% precision, 29%
recall
Az előre adott kulcsszavakon túl lehetnek más, releváns
kulcsszavak?
Online kérdőívvel értékeltük ki mennyire relevánsak a
PrecoRank kulcsszavai magyar szövegek esetében
A PrecoRank által adott kulcsszavak és kulcskifejezések
7.6% inkább releváns, 46.4% releváns, 32.4% valamennyire
releváns, 13.2% inkább irreleváns, 0.4% teljesen irreleváns
zvarju@precognox.com
@zoltanvarju / @varjuzoli
http://kereses.blog.hu/

Weitere ähnliche Inhalte

Andere mochten auch

隨園食單及序補充
隨園食單及序補充隨園食單及序補充
隨園食單及序補充sophiya
 
7 Tips for Design Teams Collaborating Remotely
7 Tips for Design Teams Collaborating Remotely7 Tips for Design Teams Collaborating Remotely
7 Tips for Design Teams Collaborating RemotelyFramebench
 
The salvation army red kettle run
The salvation army red kettle runThe salvation army red kettle run
The salvation army red kettle runwilliam timperley
 
Letter to my great-grandfather on his 18th birthday
Letter to my great-grandfather on his 18th birthdayLetter to my great-grandfather on his 18th birthday
Letter to my great-grandfather on his 18th birthdayRoss Mayfield
 
Первая помощь
Первая помощьПервая помощь
Первая помощьelasyschool
 
Je Suis Charlie
Je Suis CharlieJe Suis Charlie
Je Suis Charlieguimera
 
בריאות הציבור
בריאות הציבורבריאות הציבור
בריאות הציבורdannydoron
 
梯田上的音符 哈尼
梯田上的音符 哈尼梯田上的音符 哈尼
梯田上的音符 哈尼honan4108
 
DigitalShoreditch: The gamification of customer service
DigitalShoreditch: The gamification of customer serviceDigitalShoreditch: The gamification of customer service
DigitalShoreditch: The gamification of customer serviceGuy Stephens | @guy1067
 

Andere mochten auch (14)

Zaragoza turismo 211
Zaragoza turismo 211Zaragoza turismo 211
Zaragoza turismo 211
 
隨園食單及序補充
隨園食單及序補充隨園食單及序補充
隨園食單及序補充
 
7 Tips for Design Teams Collaborating Remotely
7 Tips for Design Teams Collaborating Remotely7 Tips for Design Teams Collaborating Remotely
7 Tips for Design Teams Collaborating Remotely
 
The salvation army red kettle run
The salvation army red kettle runThe salvation army red kettle run
The salvation army red kettle run
 
Letter to my great-grandfather on his 18th birthday
Letter to my great-grandfather on his 18th birthdayLetter to my great-grandfather on his 18th birthday
Letter to my great-grandfather on his 18th birthday
 
Первая помощь
Первая помощьПервая помощь
Первая помощь
 
Je Suis Charlie
Je Suis CharlieJe Suis Charlie
Je Suis Charlie
 
EPA DROE Email 6.30.03
EPA DROE Email 6.30.03EPA DROE Email 6.30.03
EPA DROE Email 6.30.03
 
בריאות הציבור
בריאות הציבורבריאות הציבור
בריאות הציבור
 
梯田上的音符 哈尼
梯田上的音符 哈尼梯田上的音符 哈尼
梯田上的音符 哈尼
 
quality control of food and drugs
quality control of food and drugsquality control of food and drugs
quality control of food and drugs
 
DigitalShoreditch: The gamification of customer service
DigitalShoreditch: The gamification of customer serviceDigitalShoreditch: The gamification of customer service
DigitalShoreditch: The gamification of customer service
 
Zaragoza turismo-60
Zaragoza turismo-60Zaragoza turismo-60
Zaragoza turismo-60
 
Zaragoza turismo 237
Zaragoza turismo 237Zaragoza turismo 237
Zaragoza turismo 237
 

Mehr von Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetZoltan Varju
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakZoltan Varju
 

Mehr von Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Felhívás
FelhívásFelhívás
Felhívás
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 

Kisvilágunk, a nyelv

  • 2. "Every time I fire a linguist, the performance of the speech recognizer goes up" (Frederick Jelinek)
  • 3. Zoli nagyon örül,mert Nóri elvitte végre krumplilángost enni.A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli,hogy Nórinak is ízlett.Zoli és Nóri legközelebb nem krumplilángost fog enni,hanem elmennek megnézni az új Avengers filmet. zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film
  • 4.  zoli nagyon örül  nagyon örül mert  örül mert nóri  stb.  zoli - nagyon  zoli - örül  nagyon - örül  nagyon - mert  örül - mert  mert - nóri  stb.
  • 5.
  • 6.  SZTAKI Wikipedia dump egy szelete  463409 szó, 46096 egyedi szótári elem
  • 7. Csak az 1500 leggyakoribb elemet tartalmazó trigram 1500 csomópont 87749 él
  • 8.
  • 9.
  • 10.
  • 11. Magyar WordNet 42359 csomópont 38335 él Átlagos utak hossza: 2.35 Átmérő: 13
  • 12.
  • 13.
  • 14.
  • 15. Agykapocs 8049 csomópont 13635 él Átlagos utak hossza: 4.36 Átmérő: 353
  • 16.
  • 17.
  • 18.
  • 19.
  • 20. Mihalcea – Tarau:TextRank: Bringing Order Into Texts PageRank alapján rangsorolja a csomópontokat Felügyelet nélküli módszer Precision: 31.2%, Recall: 43.1%
  • 21. Figyelembe veszi a nyelvi struktúrát (pl. A-N nagyobb súlyt kap mint N-A) Fokszám alapján rangsoroljuk a csomópontokat Kulcsszókinyerés esetén alacsony kb. 10% precision, elfogadható, 35% recall kulcsszókinyerés esetén angol és magyar korpuszokon tesztelve  Szövegkivonatolás esetén 35% precision, 29% recall
  • 22. Az előre adott kulcsszavakon túl lehetnek más, releváns kulcsszavak? Online kérdőívvel értékeltük ki mennyire relevánsak a PrecoRank kulcsszavai magyar szövegek esetében A PrecoRank által adott kulcsszavak és kulcskifejezések 7.6% inkább releváns, 46.4% releváns, 32.4% valamennyire releváns, 13.2% inkább irreleváns, 0.4% teljesen irreleváns