SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
Appendix
nltk basic tutorial
무영인터내쇼날 | 김용범
Token
Token
Tokenizing
(Regex)
Stemming/
Tagging WordCloud
Document StopWord Tf-idf
불용어 처리
(Stop Word)
Stop Words
1. 분석목적과 연관성이 낮은 단어들을 제외
2. 작업의 난이도가 낮다
3. 목적에 맞는 불용어 선별을 위한 다양한 기준이
활용가능하다
Jupyter Notebook 실습
>> 02-3.Stopwords.ipynb
1. 불용어 처리 실습
2. nltk 모듈의 활용
한글의 경우
Stop Words 사용자 정의 방법
1. 분야별(주식,리포트,연설문) 각기 다른 내용을 필요로 한다
2. 모집단 성격 및 분석목적에 따라 수집기준이 달라진다
3. 가장 쉬운 방법으로는 모집단의 범위를 특정한다
Tf-idf
-실수값 임베딩-
추가로 뒤로넘기기
문제 제기해보기
파이썬 책을 분석한 결과
for, if, import, return
토큰 갯수가 많이 등장한 경우,
이들 단어의 실제 중요도는?
문제의 답
case1) 그 Token 은 원래 많이 등장해서
변별력이 없어..
case 2) 그 Token 은 거의 등장하지 않는
단어인데, 여기선 많아 특이하네?
1. Token 의 중요도를 실수로 계산 (값이 클수록 중요)
2. TF는 해당 문서만 있으면 바로 연산이 가능하지만
3. IDF는 모집단의 Token 별 통계 데이터가 필요
상대빈도분석 - Term Frequency
Inverse Document Frequency
출처 : https://www.bloter.net/archives/264262
1. 문서의 내용을 쉽게 벡터로 표현하는 고전적 방식
2. Term Frequency : 해당 문서내 Token 발생빈도
>> (특정 Token 출현 수) / (문서 전체 Token 갯수)
3. Inverse Document Frequency : 전체문서 빈도 역
>> log (전체 문서 Token 수 / 특정 Token 수)
상대빈도분석 - Term Frequency
Inverse Document Frequency
tf-idf 벡터
출처 : https://www.youtube.com/watch?v=bPYJi1E9xeM
Jupyter Notebook 실습
>> 02-4.Tf-idf_sklearn.ipynb
1. scikit-learn 모듈을 활용
2. konlpy, nltk 와 같이
scikit-learn의 자료를 활용
분야별 / 내용별 tf-idf 기준값
Jupyter Notebook 실습
>> Project2-Tfidf_user.ipynb
1. scikit-learn 에 자료가 없는경우
2. 한글의 Token들을 비교시
3. 문서의 모집단의 범위를 특정

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
 
자연어4 | 1차강의
자연어4 | 1차강의자연어4 | 1차강의
자연어4 | 1차강의
 
파이썬과 자연어 4 | word/doc2vec
파이썬과 자연어 4 | word/doc2vec파이썬과 자연어 4 | word/doc2vec
파이썬과 자연어 4 | word/doc2vec
 
파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
02_1_변수와친해지기
02_1_변수와친해지기02_1_변수와친해지기
02_1_변수와친해지기
 
04 2 함수와매개변수
04 2 함수와매개변수04 2 함수와매개변수
04 2 함수와매개변수
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
 
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
딥러닝 논문 리뷰 Learning phrase representations using rnn encoder decoder for stati...
 
20170227 파이썬으로 챗봇_만들기
20170227 파이썬으로 챗봇_만들기20170227 파이썬으로 챗봇_만들기
20170227 파이썬으로 챗봇_만들기
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
Ropasaurusrex
RopasaurusrexRopasaurusrex
Ropasaurusrex
 

Ähnlich wie 파이썬을 활용한 자연어 분석 - 추가분

2011 ecad al(2)팀빌딩
2011 ecad al(2)팀빌딩2011 ecad al(2)팀빌딩
2011 ecad al(2)팀빌딩
Sanghyeok Park
 

Ähnlich wie 파이썬을 활용한 자연어 분석 - 추가분 (8)

Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
[FEConf 2018] Front-End 프로젝트의 Test code 작성경험기
[FEConf 2018] Front-End 프로젝트의 Test code 작성경험기[FEConf 2018] Front-End 프로젝트의 Test code 작성경험기
[FEConf 2018] Front-End 프로젝트의 Test code 작성경험기
 
Automatic generation of Hangul font
Automatic generation of Hangul fontAutomatic generation of Hangul font
Automatic generation of Hangul font
 
2011 ecad al(2)팀빌딩
2011 ecad al(2)팀빌딩2011 ecad al(2)팀빌딩
2011 ecad al(2)팀빌딩
 
텍스트 마이닝 기본 정리(말뭉치, 텍스트 전처리 절차, TF, IDF 기타)
텍스트 마이닝 기본 정리(말뭉치, 텍스트 전처리 절차, TF, IDF 기타)텍스트 마이닝 기본 정리(말뭉치, 텍스트 전처리 절차, TF, IDF 기타)
텍스트 마이닝 기본 정리(말뭉치, 텍스트 전처리 절차, TF, IDF 기타)
 

파이썬을 활용한 자연어 분석 - 추가분