Vincze Veronika: Korpuszok az információkinyerésben
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
1. {Politika a sorok között}
Politikai témájú szövegelemzések
2015.11.16., Politikai kommunikáció
Balogh Kitti – statisztikus, adatelemző, Precognox
2. {Tartalom}
» Szövegbányászat, tartalom-, diskurzuselemzés
» Politikai szövegelemzés példák:
» Főpolgármester-választással kapcsolatos tweetek elemzése
predikciós céllal
» Romák médiareprezentációja egy szélsőjobboldali
hírportálon
» A magyar politikai blogszféra az érzelmek hálójában
3. {Szövegbányászat}
» Szöveges elektronikus adatok feldolgozása és elemzése
» Adatok közötti eligazodás, keresés, rejtett
összefüggések feltárása, kinyerése
» Egyre növekvő elektronikus adatmennyiség
kb. 85% strukturálatlan adat (pl. emailek, hírek,
weboldalak, közösségi média tartalmak)
4. {Hagyományos szövegelemzés}
» Tartalomelemzés
» Szavak, nyelvi kategóriák gyakorisága, együttes megjelenése
» Kvantitatív elemzés
» Diskurzuselemzés
» Több megközelítés, pl. narratívaelemzés (Propp),
konverzációelemzés (Goffman, Garfinkel), kritikai
diskurzuselemzés (van Dijk, Wodak, Fairclough)
» A szöveg formai, tartalmi elemzésével társadalmi,
kulturális, politikai összefüggések feltárása
» Hagyományosan kvalitatív
5. {Szövegbányászat és hagyományos
szövegelemzés}
» Szövegbányászat vs. hagyományos szövegelemzés
» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg
» Automatikus vs. sok emberi erőforrást, időt igénylő
» Szubjektivitás csökkentése vs. szubjektivitás veszélye
» Reprodukálhatóság javítása vs. Reprodukálhatóság
nehézsége/lehetetlensége
6. {Főpolgármester-választás előrejelzése}
» Módszertan
» Főpolgármester-jelöltek neveit tartalmazó tweetek leszedése
» R twitteR package
» 462 tweet
» választás előtti este (2014.10.11.)
» Tweetek szentiment- és emócióelemzése
» Szentiment- és emóciószótárak
» Gyakoriságok elemzése
» Relatív gyakoriságok szentimentenként, emóciónként
» Összehasonlítás közvélemény-kutatási adatokkal, majd az eredménnyel
7. {Főpolgármester-választás előrejelzése}
» Elmélet
» DiGrazia, McKelevy, Bollen és Rojas (2010): More Tweets, More
Votes: Social Media as a Quantitative Indicator of Political Behavior
» Szentiment- és emócióelemzés
» Szövegek által közvetített vélemények, attitűdök,
érzések detektálása pl. termékekkel, személyekkel,
eseményekkel, témákkal kapcsolatban
» Szentiment: ált. 3 (negatív, semleges, pozitív)
vagy 5 (nagyon negatív, negatív, semleges,
pozitív, nagyon pozitív) kategória
» Emóció: ált. 6 alapérzelem (bánat, düh, undor,
félelem, meglepődés, öröm)
» Pollyanna-hipotézis vs. negatív: több info
20. {A magyar politikai blogszféra}
» Módszertan
» Magyar politikai blogok összegyűjtése
» Kb. 70 politikai blog
» Szövegek begyűjtése
» Összegyűjtött listából kiindulva
» Szövegekben lévő linkeken továbbhaladva weboldalak hálózata
» Csúcs: weboldal, él: link
» 12.121 db egyedi url, 22.542 él
» Hálózat normalizálása, tisztítása
» 1.441 db csomópont (pay-level url), 2.472 él
» Oldalakhoz kötődő szövegek emócióelemzése
21. {A magyar politikai blogszféra}
» Elmélet
» Hálózatelemzés
» Barabási Albert-László: Behálózva
» Gráfelmélet
» Kolaczyk – Csárdi: Statistical Analysis of Network Data with R
» Emóció-, szentimentelemzés
» Bing, Liu: Sentiment Analysis and Opinion Mining
22. {A magyar politikai blogszféra}
» Csúcsok közötti
átlagos úthossz: 3.342
» Átmérő: 9
» Kép: csúcsméret
PageRank szerint
32. {A magyar politikai blogszféra}
» További tervek
» Gyűlöletbeszéd terjedése a hálózatban
» Csomópontok csoportosítása, visszaadja-e a politikai
blokkokat, csoportokat
» Bizonyos témák vizsgálata szentiment-, ill.
emócióelemzéssel