2. Curriculum Vitae
강태영
minvv23@underscore.kr
Education
2019.03-2020.08. M.S. 경영공학 (KAIST)
2014.03.-2019.02 B.A. 사회학/정치학 (서강대학교)
Job & Activities
〮 2018.04.- 데이터 분석 & 미디어 컨텐츠 스타트업 <언더스코어>
〮 2020.09.- KAIST D.LAB Visiting Researcher
〮 2021.04.- MyMusicTaste Data Analyst
〮 2020.10.- KoreaPDS Statistician
Research Interest
〮 전산사회과학 (Computational Social Science)
- 온라인 미디어에서의 여론 형성과 유저 의사 결정
- 데이터 기반 인사(HR) 관리
〮 양적연구방법론 (Quantitative Research Methodology)
- 자연어처리 응용 연구
- 온라인 데이터 유저 텍스트 분석
18. Data & Methods
다음 뉴스 크롤러
- 제목
- 언론사
- 댓글
네이버 뉴스 크롤러
- 제목
- 언론사
- 댓글
네이버 검색 API
1-1. BigKinds 뉴스 제목으로 검색
1-2. 다음 뉴스 제목으로 검색
2. 네이버 뉴스 크롤러 사용
다음 검색 API
1. BigKinds 뉴스 제목으로 검색
2. 다음 뉴스 크롤러 사용
BigKinds 뉴스DB
최종 데이터
(35,536개 뉴스)
- BigKinds 뉴스 제목
- 네이버 뉴스 제목
- 네이버 뉴스 댓글
- 다음 뉴스 제목
- 다음 뉴스 댓글
23. Data & Methods
왜 문제인가?
- 단순히 오래되어서가 아니라 ‘잘못된 방식’이어서 문제
- 언어가 표현(representation) 되는 방식을 적절히 보여주지 못하는 방법
- 어휘의 사용 빈도가 특정 문서의 언어적 특징들을 충분히 설명할 수 있는가?
- 어휘들 간의 네트워크가 특정 문서가 언어적 특징들을 충분히 설명할 수 있는가?
- 시각적으로 화려해(?) 보이기는 하니 효용감을 위해 자주 사용되고 있음
- 그러나 ‘해석‘이 실질적으로 불가능하기에 결국 분석가의 자의적인 해석이 분석/
시각화의 결과와는 무관해지는 문제가 발생
25. Data & Methods
- 2019.01.-2021.07. 포털 뉴스 섹션 및 주요 온라인 커뮤니티에서 댓글 약 3.5만 건 수집
- 레이블링 완전 일치율 53.11% / 일관성 Krippendorff’s Alpha 0.713
- 분류 정확도(Label Ranking Average Precision) 0.914