Detekcia a sledovanie spravodajských tém na
Webe inšpirované sociálnym hmyzom
Štefan Sabo
školiteľ: prof. Pavol Návrat
sab...
Prehľad
• Metóda na dynamickú identifikáciu a sledovanie spravodajských
príbehov, ktoré sa momentálne odvíjajú na Webe.
• ...
Motivácia
• Dynamická identifikácia príbehov umožňuje identifikovať
spravodajské príbehy a sledovať ich zároveň s tým, ako...
Výzvy
• Problematickou oblasťou je reprezentácia príbehu vhodná
pre dynamické sledovanie.
• Bežne využívané postupy detekc...
Inšpirácia sociálnym hmyzom
5 / 15
• Populárny prístup k riešeniu optimalizačných /
vyhľadávacích problémov.
• Prevažne st...
Včelí tanec
6 / 15
• decentralizovaný
• koordinovaný na
systémovej úrovni
• umožňuje dynamickú
reakciu
Príbehové slová
• Spravodajské príbehy je často možné reprezentovať
jednoduchými výrazmi, ktoré vystihujú podstatu príbehu...
Metóda – získavanie príbehových slov
• Príbehové slovo predstavuje výraz relevantný k určitej
skupine článkov, ktorý tieto...
Metóda – získavanie príbehových slov
• Agenti sa presúvajú medzi článkami a snažia sa v nich
identifikovať význačné príbeh...
Stratégia výberu príbehových slov
• Každý agent nesie nanajvýš jedno príbehové slovo
• Tri činnosti, ktorým sa agenti môžu...
Metóda – identifikácia príbehu
• Využíva grafovú reprezentáciu získaných údajov, pričom
články a príbehové slová predstavu...
Metóda – identifikácia príbehu
• Graf je dynamicky konštruovaný agentmi počas toho, ako
sú články skúmané.
• Články sú zos...
príbeh príbehových slov článkov presnosť [%]
Bombové útoky v Bostone 18 64 96.88
Investičné správy 4 16 93.75
Cyperský dlh...
14
14 / 15
Zhrnutie
• Navrhovaný prístup využíva agentov na identifikáciu
príbehových slov pre skupinu spravodajských článkov.
• Člán...
Nächste SlideShare
Wird geladen in …5
×

Searching Sessions 2013

249 Aufrufe

Veröffentlicht am

Presentation in Searching Sessions 2013, National Library of Technology, Prague, 8th October

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Searching Sessions 2013

  1. 1. Detekcia a sledovanie spravodajských tém na Webe inšpirované sociálnym hmyzom Štefan Sabo školiteľ: prof. Pavol Návrat sabo@fiit.stuba.sk
  2. 2. Prehľad • Metóda na dynamickú identifikáciu a sledovanie spravodajských príbehov, ktoré sa momentálne odvíjajú na Webe. • Používame skupinu agentov inšpirovaných správaním sa včiel medonosných pri zbere potravy v prírode. • Súvislosti medzi článkami vyhodnocujeme postupne, na základe jednotlivých príbehových slov, pričom najsľubnejšie príbehové slová, ktoré umožňujú identifikovať prepojenia medzi článkami sú propagované, menej vhodné slová sú opúšťané. • Výsledkom činnosti agentov je graf súvislostí medzi článkami, ktorý následne analyzujeme za účelom získania jednotlivých spravodajských príbehov. 2 / 15
  3. 3. Motivácia • Dynamická identifikácia príbehov umožňuje identifikovať spravodajské príbehy a sledovať ich zároveň s tým, ako sa odvíjajú. • Identifikácia príbehu je výzvou, keďže je náročné definovať, čo spravodajský príbeh predstavuje. • Využiteľné pre záujemcu o aktuálne dianie, ale aj pre potreby spravodajskej analýzy. 3 / 15
  4. 4. Výzvy • Problematickou oblasťou je reprezentácia príbehu vhodná pre dynamické sledovanie. • Bežne využívané postupy detekcie a sledovania tém (TDT) sa spoliehajú na globálu analýzu článkov, napríklad term frequency – inverse document frequency. • Korpus všetkých článkov nie je za behu k dispozícii. • Na zaznamenávanie nových aktuálnych článkov a sledovanie zmien v článkoch starších je potrebný dynamický systém. 4 / 15
  5. 5. Inšpirácia sociálnym hmyzom 5 / 15 • Populárny prístup k riešeniu optimalizačných / vyhľadávacích problémov. • Prevažne stochastické systémy. • Dôraz na jednoduchosť agentov, komplexita systému vyplýva z interakcií, nie zo správania jednotlivcov. • Okrem včiel využívané aj mravce, termity, svätojánske mušky a mnohé iné.
  6. 6. Včelí tanec 6 / 15 • decentralizovaný • koordinovaný na systémovej úrovni • umožňuje dynamickú reakciu
  7. 7. Príbehové slová • Spravodajské príbehy je často možné reprezentovať jednoduchými výrazmi, ktoré vystihujú podstatu príbehu, alebo slúžia ako krátky popis príbehu. • Tieto príbehové slová sú zaujímavé z pohľadu navigácie v priestore spravodajských príbehov. • Slúžia nám ako zdroje, ktoré je individuálne možné jednoducho sledovať pomocou agentov. 7 / 15
  8. 8. Metóda – získavanie príbehových slov • Príbehové slovo predstavuje výraz relevantný k určitej skupine článkov, ktorý tieto články prepája na základe ich relevancie k spoločnému spravodajskému príbehu. • Namiesto priamej identifikácie príbehov relevantných k danému článku sa snažíme pre daný článok identifikovať len skupinu relevantných príbehových slov. • Výhoda tohto prístupu spočíva v tom, že určiť relevanciu dvoch článkov vzhľadom na zvolené príbehové slovo môžeme aj bez znalosti širšieho kontextu. • Príbehy získavame ako výsledok emergentného správania sa roja agentov. 8 / 15
  9. 9. Metóda – získavanie príbehových slov • Agenti sa presúvajú medzi článkami a snažia sa v nich identifikovať význačné príbehové slová. • Ak je jedno príbehové slovo súčasne relevantné k viacerým článkom, medzi týmito článkami vzniká väzba na základe tohto príbehového slova. • Porovnanie všetkých možných dvojíc článkov vzhľadom na každé potenciálne príbehové slovo by bolo nepraktické, preto využívame stratégiu výberu založenú na správaní sa včiel medonosných. 9 / 15
  10. 10. Stratégia výberu príbehových slov • Každý agent nesie nanajvýš jedno príbehové slovo • Tri činnosti, ktorým sa agenti môžu venovať:  Zber potravy  Včelí tanec  Sledovanie • Pri zbere potravy agenti príbehové slová vyhodnocujú. • Počas včelieho tanca agenti príbehové slová propagujú. • Sledovanie agenti zahajujú v prípade, že opustili svoje príbehové slovo a chcú si vybrať nové. 10 / 15
  11. 11. Metóda – identifikácia príbehu • Využíva grafovú reprezentáciu získaných údajov, pričom články a príbehové slová predstavujú uzly a relácie relevancie predstavujú hrany. 11 / 15
  12. 12. Metóda – identifikácia príbehu • Graf je dynamicky konštruovaný agentmi počas toho, ako sú články skúmané. • Články sú zoskupené do príbehov pomocou Louvainovho algoritmu na detekciu komunít. • Po prvotnej identifikácii príbehov je možné nové články klasifikovať za behu bez nutnosti prepočítavať komunity od základu. • Detekciu komunít je potrebné vykonávať jedine v prípade, že chceme aktualizovať celú sadu príbehov. 12 / 15
  13. 13. príbeh príbehových slov článkov presnosť [%] Bombové útoky v Bostone 18 64 96.88 Investičné správy 4 16 93.75 Cyperský dlh 10 56 89.29 Zrážky v Egypte 2 9 88.89 Bank of Japan 10 26 88.46 Voľby v Taliansku 11 37 83.78 Dlhová kríza 5 24 83.33 Napätie v Severnej Kórei 13 71 74.65 Voľby v Iraku 4 12 58.33 Zbrojné zákony v USA 11 49 55.10 Zemetrasenie v Iráne 12 37 18.92 Spolu 100 401 75.56 Výsledky – presnosť identifikácie 13 / 15
  14. 14. 14 14 / 15
  15. 15. Zhrnutie • Navrhovaný prístup využíva agentov na identifikáciu príbehových slov pre skupinu spravodajských článkov. • Články sú porovnávané a ich príbuznosť je vyhodnocovaná na základe rôznych príbehových slov, pomocou stratégie založenej na správaní sa včiel medonosných. • Dynamická povaha tohto procesu umožňuje agentom flexibilne reagovať na nové články, alebo na zmeny v článkoch už spracovaných. • Príbehy sú identifikované za behu na základe identifikácie komunít v grafe článkov. • Tento prístup nevyžaduje natrénovanie agentov, alebo globálnu analýzu korpusu. 15 / 15

×