SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Bedeutung von Text Mining am
Beispiel der
Sozialwissenschaften
Philipp Mayr
Text und Data Mining (TDM) – Trier
21.06.2018
Text Mining
2
Text Mining in den
Sozialwissenschaften
 Politikwissenschaft: Analyse von
Wahlkampfreden/-programmen; …
 Wirtschaftswissenschaft: Einfluss von Sozial
Media Sentiments auf Börsenentwicklungen; …
 Bibliometrie/Scientometrie: Analyse von
einflußreichen Themen innerhalb einer
wissenschaftlichen Community; Zitationskontexte
– Bedeutung von Zitationen; …
 …
3
Statement
 Text Mining in den Sozialwissenschaften
 Starker Anstieg an Text Mining-Aktivitäten
 Typische autom. Analyseverfahren: Natural Language
Processing, Information Retrieval, Named Entity
Recognition, Machine Learning, …
 TM - Noch kein Standardwerkzeug der quantitativen
Sozialforschung
4
Beispiel 1: Auswertung von offenen
Fragen
 Analyse von Open-ended
questions in Paneldaten
(SOEP)
 Bisherige Analyseverfahren:
einfache Keywordsuche,
Wortlisten
 Methode: Topic Modelle – data-
driven
 Ergebnisse: Erkennung von
relevanten Themen und
Verbindung der Freitext-Analyse
mit geschlossenen Fragen
(soziodemographische)
5
Beispiel 2: Variablen-Erkennung in
Volltexten
 Erkennung von
Umfragevariablen
in Volltexten
 Bisherige Analyseverfahren:
manuell/intellektuell; Verlinkung
von Publikation zu
Variablendaten einer Studie
 Methode: Supervised Machine
Learning mit Linguistische
Analyse
 Ergebnisse: große
Trainingsdatensätze für die
Classifier notwendig
6Proceedings of the Second Workshop on Natural Language Processing and
Computational Social Science, 2017 Association for Computational Linguistics
V39: Belief in life after death or V40: Believ
in Heaven from the ISSP 1998 study
Diskussion
 Warum ist Text Mining noch kein
Standardwerkzeug in der Sozialforschung?
 Verfügbarkeit und Beschaffenheit von Corpora sind ein
Problem!
 Erstellung von Trainingsdatensätzen und
Goldstandards z.T. sehr aufwendig!
 Erweiterte Methodenkenntnisse notwendig!
 Weniger rechtliche Hürden als technisch-
methodische Probleme!
 Publikation von Twitter Tweets lediglich als Tweet-ID
Listen
7
Exemplarische Projekte bei GESIS
 OpenMinTeD - Open Mining Infrastructure for
Text and Data http://openminted.eu/
 InFoLiS - Integration von Forschungsdaten
und Literatur in den Sozialwissenschaften
http://infolis.github.io/
 EXCITE - Extraktion von Zitationen aus PDF-
Dokumenten http://excite.west.uni-
koblenz.de/
8
References
 Rohrer, J. M., Brümmer, M., Schmukle, S. C., Goebel,
J., & Wagner, G. G. (2017). ‘What else are you
worried about?’ – Integrating textual responses into
quantitative social science research. PLOS ONE,
12(7), e0182156.
https://doi.org/10.1371/journal.pone.0182156
 Zielinski, A., & Mutschke, P. (2017). Mining Social
Science Publications for Survey Variables. In
Proceedings of the Second Workshop on NLP and
Computational Social Science. ACL 2017.
http://aclweb.org/anthology/W17-29
9
Kontakt
Dr. Philipp Mayr
Email: philipp.mayr@gesis.org
Web: http://www.gesis.org
@philipp_mayr
10
41st European Conference on Information Retrieval
in Cologne, Germany, on 14th April to 18th April 2019
http://ecir2019.org/
http://ssoar.info

Weitere ähnliche Inhalte

Ähnlich wie Bedeutung von Text Mining am Beispiel der Sozialwissenschaften

Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...
Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...
Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...Christiane Behnert
 
Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...
Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...
Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...Tina Guenther
 
Twitter-Daten in der sozialwissenschaftlichen Forschung
Twitter-Daten in der sozialwissenschaftlichen ForschungTwitter-Daten in der sozialwissenschaftlichen Forschung
Twitter-Daten in der sozialwissenschaftlichen ForschungKatrin Weller
 
Anything goes!? Ethische Dimensionen der Onlineforschung
Anything goes!? Ethische Dimensionen der OnlineforschungAnything goes!? Ethische Dimensionen der Onlineforschung
Anything goes!? Ethische Dimensionen der OnlineforschungNele Heise
 
»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...
»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...
»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...Nele Heise
 
Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.
Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.
Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.Benjamin Jörissen
 
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Cornelius Puschmann
 
Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...
Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...
Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...Bernhard Rieder
 
Unsere forschungskultur neu denken
Unsere forschungskultur neu denkenUnsere forschungskultur neu denken
Unsere forschungskultur neu denkenMareike König
 
Wege zum lokalen Medien- und ICT-Konzept
Wege zum lokalen Medien-  und ICT-KonzeptWege zum lokalen Medien-  und ICT-Konzept
Wege zum lokalen Medien- und ICT-KonzeptJürg Fraefel
 
Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...
Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...
Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...Benjamin Jörissen
 
Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...
Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...
Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...Richter Thomas
 
Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...
Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...
Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...Christian Heise
 
Neue Räume - neue Regeln? Ethische Herausforderungen des Forschens im Netz
Neue Räume - neue Regeln? Ethische Herausforderungen des Forschens im NetzNeue Räume - neue Regeln? Ethische Herausforderungen des Forschens im Netz
Neue Räume - neue Regeln? Ethische Herausforderungen des Forschens im NetzNele Heise
 
VO PAED Medienkulturforschung
VO PAED MedienkulturforschungVO PAED Medienkulturforschung
VO PAED MedienkulturforschungAxel Maireder
 
Ubiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible InformationssystemeUbiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible InformationssystemeMartin Böhringer
 

Ähnlich wie Bedeutung von Text Mining am Beispiel der Sozialwissenschaften (20)

Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...
Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...
Entwicklung eines Nutzermodells zur Relevanzbewertung von Surrogaten im akade...
 
Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...
Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...
Das macht bei uns die Hilfskraft. Über Potenziale des Web 2.0 für die Sozialw...
 
Forschungszugänge und -methoden im interdisziplinären Feld des technologieges...
Forschungszugänge und -methoden im interdisziplinären Feld des technologieges...Forschungszugänge und -methoden im interdisziplinären Feld des technologieges...
Forschungszugänge und -methoden im interdisziplinären Feld des technologieges...
 
Twitter-Daten in der sozialwissenschaftlichen Forschung
Twitter-Daten in der sozialwissenschaftlichen ForschungTwitter-Daten in der sozialwissenschaftlichen Forschung
Twitter-Daten in der sozialwissenschaftlichen Forschung
 
Anything goes!? Ethische Dimensionen der Onlineforschung
Anything goes!? Ethische Dimensionen der OnlineforschungAnything goes!? Ethische Dimensionen der Onlineforschung
Anything goes!? Ethische Dimensionen der Onlineforschung
 
»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...
»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...
»Big data – small problems?« - Ethische Perspektiven auf Forschung unter Zuhi...
 
Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.
Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.
Digitalisierte Zukünfte gestalten: Digitalisierung als kultureller Prozess.
 
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
 
Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...
Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...
Digitale Methoden und soziale Netzwerkplattformen. Zwischen Mediumspezifizitä...
 
Unsere forschungskultur neu denken
Unsere forschungskultur neu denkenUnsere forschungskultur neu denken
Unsere forschungskultur neu denken
 
Wege zum lokalen Medien- und ICT-Konzept
Wege zum lokalen Medien-  und ICT-KonzeptWege zum lokalen Medien-  und ICT-Konzept
Wege zum lokalen Medien- und ICT-Konzept
 
Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...
Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...
Code, Design, Subjekt. Kritischer Designdiskurs und Critical Software Studies...
 
Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...
Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...
Kulturspezifische Untersuchungen in der gestaltungsorientierten Wirtschaftsin...
 
Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...
Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...
Offenheit als Grundlage für gesellschaftliche Entwicklungen und Treiber für d...
 
Neue Räume - neue Regeln? Ethische Herausforderungen des Forschens im Netz
Neue Räume - neue Regeln? Ethische Herausforderungen des Forschens im NetzNeue Räume - neue Regeln? Ethische Herausforderungen des Forschens im Netz
Neue Räume - neue Regeln? Ethische Herausforderungen des Forschens im Netz
 
Science2.0 bcg10
Science2.0 bcg10Science2.0 bcg10
Science2.0 bcg10
 
Science2.0 bcg10
Science2.0 bcg10Science2.0 bcg10
Science2.0 bcg10
 
VO PAED Medienkulturforschung
VO PAED MedienkulturforschungVO PAED Medienkulturforschung
VO PAED Medienkulturforschung
 
Ubiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible InformationssystemeUbiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible Informationssysteme
 
Forschungsarbeit
ForschungsarbeitForschungsarbeit
Forschungsarbeit
 

Mehr von GESIS

10th BIR Workshop @ECIR 2020: introduction
10th  BIR Workshop @ECIR 2020: introduction10th  BIR Workshop @ECIR 2020: introduction
10th BIR Workshop @ECIR 2020: introductionGESIS
 
From closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journalsFrom closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journalsGESIS
 
Highly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over timeHighly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over timeGESIS
 
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...GESIS
 
Bibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with BibliometricsBibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with BibliometricsGESIS
 
Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”GESIS
 
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...GESIS
 
Searching beyond datasets in the Social Sciences
Searching beyond datasets in the Social SciencesSearching beyond datasets in the Social Sciences
Searching beyond datasets in the Social SciencesGESIS
 
Contextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living LabContextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living LabGESIS
 
41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)GESIS
 
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...GESIS
 
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...GESIS
 
Challenges in Extracting and Managing References
Challenges in Extracting and Managing ReferencesChallenges in Extracting and Managing References
Challenges in Extracting and Managing ReferencesGESIS
 
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...GESIS
 
Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...GESIS
 
Recent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information RetrievalRecent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information RetrievalGESIS
 
Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...GESIS
 
Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016GESIS
 
Recent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization SystemsRecent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization SystemsGESIS
 
Using co-authorship networks for author name disambiguation
Using co-authorship networks for author name disambiguationUsing co-authorship networks for author name disambiguation
Using co-authorship networks for author name disambiguationGESIS
 

Mehr von GESIS (20)

10th BIR Workshop @ECIR 2020: introduction
10th  BIR Workshop @ECIR 2020: introduction10th  BIR Workshop @ECIR 2020: introduction
10th BIR Workshop @ECIR 2020: introduction
 
From closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journalsFrom closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journals
 
Highly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over timeHighly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over time
 
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
 
Bibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with BibliometricsBibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
 
Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”
 
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
 
Searching beyond datasets in the Social Sciences
Searching beyond datasets in the Social SciencesSearching beyond datasets in the Social Sciences
Searching beyond datasets in the Social Sciences
 
Contextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living LabContextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living Lab
 
41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)
 
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
 
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
 
Challenges in Extracting and Managing References
Challenges in Extracting and Managing ReferencesChallenges in Extracting and Managing References
Challenges in Extracting and Managing References
 
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
 
Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...
 
Recent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information RetrievalRecent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information Retrieval
 
Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...
 
Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016
 
Recent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization SystemsRecent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization Systems
 
Using co-authorship networks for author name disambiguation
Using co-authorship networks for author name disambiguationUsing co-authorship networks for author name disambiguation
Using co-authorship networks for author name disambiguation
 

Bedeutung von Text Mining am Beispiel der Sozialwissenschaften

  • 1. Bedeutung von Text Mining am Beispiel der Sozialwissenschaften Philipp Mayr Text und Data Mining (TDM) – Trier 21.06.2018
  • 3. Text Mining in den Sozialwissenschaften  Politikwissenschaft: Analyse von Wahlkampfreden/-programmen; …  Wirtschaftswissenschaft: Einfluss von Sozial Media Sentiments auf Börsenentwicklungen; …  Bibliometrie/Scientometrie: Analyse von einflußreichen Themen innerhalb einer wissenschaftlichen Community; Zitationskontexte – Bedeutung von Zitationen; …  … 3
  • 4. Statement  Text Mining in den Sozialwissenschaften  Starker Anstieg an Text Mining-Aktivitäten  Typische autom. Analyseverfahren: Natural Language Processing, Information Retrieval, Named Entity Recognition, Machine Learning, …  TM - Noch kein Standardwerkzeug der quantitativen Sozialforschung 4
  • 5. Beispiel 1: Auswertung von offenen Fragen  Analyse von Open-ended questions in Paneldaten (SOEP)  Bisherige Analyseverfahren: einfache Keywordsuche, Wortlisten  Methode: Topic Modelle – data- driven  Ergebnisse: Erkennung von relevanten Themen und Verbindung der Freitext-Analyse mit geschlossenen Fragen (soziodemographische) 5
  • 6. Beispiel 2: Variablen-Erkennung in Volltexten  Erkennung von Umfragevariablen in Volltexten  Bisherige Analyseverfahren: manuell/intellektuell; Verlinkung von Publikation zu Variablendaten einer Studie  Methode: Supervised Machine Learning mit Linguistische Analyse  Ergebnisse: große Trainingsdatensätze für die Classifier notwendig 6Proceedings of the Second Workshop on Natural Language Processing and Computational Social Science, 2017 Association for Computational Linguistics V39: Belief in life after death or V40: Believ in Heaven from the ISSP 1998 study
  • 7. Diskussion  Warum ist Text Mining noch kein Standardwerkzeug in der Sozialforschung?  Verfügbarkeit und Beschaffenheit von Corpora sind ein Problem!  Erstellung von Trainingsdatensätzen und Goldstandards z.T. sehr aufwendig!  Erweiterte Methodenkenntnisse notwendig!  Weniger rechtliche Hürden als technisch- methodische Probleme!  Publikation von Twitter Tweets lediglich als Tweet-ID Listen 7
  • 8. Exemplarische Projekte bei GESIS  OpenMinTeD - Open Mining Infrastructure for Text and Data http://openminted.eu/  InFoLiS - Integration von Forschungsdaten und Literatur in den Sozialwissenschaften http://infolis.github.io/  EXCITE - Extraktion von Zitationen aus PDF- Dokumenten http://excite.west.uni- koblenz.de/ 8
  • 9. References  Rohrer, J. M., Brümmer, M., Schmukle, S. C., Goebel, J., & Wagner, G. G. (2017). ‘What else are you worried about?’ – Integrating textual responses into quantitative social science research. PLOS ONE, 12(7), e0182156. https://doi.org/10.1371/journal.pone.0182156  Zielinski, A., & Mutschke, P. (2017). Mining Social Science Publications for Survey Variables. In Proceedings of the Second Workshop on NLP and Computational Social Science. ACL 2017. http://aclweb.org/anthology/W17-29 9
  • 10. Kontakt Dr. Philipp Mayr Email: philipp.mayr@gesis.org Web: http://www.gesis.org @philipp_mayr 10 41st European Conference on Information Retrieval in Cologne, Germany, on 14th April to 18th April 2019 http://ecir2019.org/ http://ssoar.info

Hinweis der Redaktion

  1. we (1) analyzed characteristics of respondents that determined whether they answered the open-ended question, (2) used the textual data to detect relevant topics that were reported by the respondents, and (3) linked the features of the respondents to the worries they reported in their textual data.