SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
NHN
 NEXT
 보안스터디
 /
 정윤성
Security From Internet Crawling Robot
이미지출처 : http://www.dailygalaxy.com/my_weblog/internet/
그전에..
검색
 web
 Crawler의
 동작원리
Web Crawler가 주기적으로 수집하는 결과를 (내용, xml, html 등)
내부적으로 저장, 사용자에게 빠르게 제공
@Chache
검색
 Web
 Crawler의
 동작원리
Robot.txt
 파일을
 참조
접근권한, 접근가능한 경로 등을 분석해서 수집해도 되는 컨텐트만을 수집
http://www.HomePage.com/robot.txt.
검색
 Web
 Crawler의
 동작원리
robots.txt
this is called The
 
Robots
 Exclusion
 Protocol
Web site owners use the /robots.txt file
to give instructions about their site to web robots;
로봇
 배제
 표준
의미
출처 : http://ko.wikipedia.org/wiki/로봇_배제_표준
로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.
이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.
robots.txt
서술방법
http://www.robotstxt.org/ 을 통해 자세한 내용을 확인해할 수 있다
1. 웹사이트의 최상위 Root에 robot.txt 파일이 존재해야 한다.
2. 파일이름은 공백이 없는 소문자로 작성해야 한다.
3. User-agent는 bot을 명시한다.
.
.
.

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기
 
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기
 
Node.js를 활용한 웹 크롤링(Crawling)
Node.js를 활용한 웹 크롤링(Crawling)Node.js를 활용한 웹 크롤링(Crawling)
Node.js를 활용한 웹 크롤링(Crawling)
 
스프링 데이터 레디스 엘라스틱 발표자료
스프링 데이터 레디스 엘라스틱 발표자료스프링 데이터 레디스 엘라스틱 발표자료
스프링 데이터 레디스 엘라스틱 발표자료
 
검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민
 
안드로이드 DB, 서버 연동하기
안드로이드 DB, 서버 연동하기안드로이드 DB, 서버 연동하기
안드로이드 DB, 서버 연동하기
 
플라스크 템플릿
플라스크 템플릿플라스크 템플릿
플라스크 템플릿
 
Google Hacking
Google HackingGoogle Hacking
Google Hacking
 
Parse.com 맛보기
Parse.com 맛보기Parse.com 맛보기
Parse.com 맛보기
 
장고로 웹서비스 만들기 기초
장고로 웹서비스 만들기   기초장고로 웹서비스 만들기   기초
장고로 웹서비스 만들기 기초
 
휴봇-슬랙 OSX 설치
휴봇-슬랙 OSX 설치휴봇-슬랙 OSX 설치
휴봇-슬랙 OSX 설치
 
Fiddler 피들러에 대해 알아보자
Fiddler 피들러에 대해 알아보자Fiddler 피들러에 대해 알아보자
Fiddler 피들러에 대해 알아보자
 
HTTP 완벽 가이드 9~10장
HTTP 완벽 가이드 9~10장HTTP 완벽 가이드 9~10장
HTTP 완벽 가이드 9~10장
 
아라한사의 스프링 시큐리티 정리
아라한사의 스프링 시큐리티 정리아라한사의 스프링 시큐리티 정리
아라한사의 스프링 시큐리티 정리
 
Django in Production
Django in ProductionDjango in Production
Django in Production
 
PHP로 Slack Bot 만들기
PHP로 Slack Bot 만들기PHP로 Slack Bot 만들기
PHP로 Slack Bot 만들기
 
Go revel 컨셉_정리
Go revel 컨셉_정리Go revel 컨셉_정리
Go revel 컨셉_정리
 
Node.js에서 공공API를 활용해서 개발하기
Node.js에서 공공API를 활용해서 개발하기Node.js에서 공공API를 활용해서 개발하기
Node.js에서 공공API를 활용해서 개발하기
 

Andere mochten auch

(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
INSIGHT FORENSIC
 
Understanding complicated complex and chaos
Understanding complicated complex and chaosUnderstanding complicated complex and chaos
Understanding complicated complex and chaos
Thomas Vander Wal
 
세션4.손상영
세션4.손상영세션4.손상영
세션4.손상영
gojipcap
 
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
aRchie WS. Kim
 
구글
구글구글
구글
zerk87
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링
Chanil Kim
 
01 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 14030801 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 140308
csr_hope
 
Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)
DaeMyung Kang
 
git, git flow
git, git flowgit, git flow
git, git flow
eva
 

Andere mochten auch (20)

이슈관리 및 브랜치관리
이슈관리 및 브랜치관리이슈관리 및 브랜치관리
이슈관리 및 브랜치관리
 
Microservice Architecture
Microservice ArchitectureMicroservice Architecture
Microservice Architecture
 
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
(Ficon2015) #5 보안담당자가 겪는 실무적 이슈와 법률적 검토
 
Understanding complicated complex and chaos
Understanding complicated complex and chaosUnderstanding complicated complex and chaos
Understanding complicated complex and chaos
 
세션4.손상영
세션4.손상영세션4.손상영
세션4.손상영
 
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
[아키브레인 오픈리포트] 서울디지털재단 컨셉 & 오프라인 공간전략 제안
 
[Week5]R_scraping
[Week5]R_scraping[Week5]R_scraping
[Week5]R_scraping
 
[TechDIY.org]The workbook of "Woops! Robot"(Korean)
[TechDIY.org]The workbook of "Woops! Robot"(Korean) [TechDIY.org]The workbook of "Woops! Robot"(Korean)
[TechDIY.org]The workbook of "Woops! Robot"(Korean)
 
구글
구글구글
구글
 
Updating Legacy Systems: Making the Financial Case for a Modernization Project
Updating Legacy Systems: Making the Financial Case for a Modernization Project Updating Legacy Systems: Making the Financial Case for a Modernization Project
Updating Legacy Systems: Making the Financial Case for a Modernization Project
 
머신 러닝(Machine Learning)
머신 러닝(Machine Learning)머신 러닝(Machine Learning)
머신 러닝(Machine Learning)
 
Using the KVMhypervisor in CloudStack
Using the KVMhypervisor in CloudStackUsing the KVMhypervisor in CloudStack
Using the KVMhypervisor in CloudStack
 
Change Requirement
Change RequirementChange Requirement
Change Requirement
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링
 
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
2015 SW마에스트로 100+ 컨퍼런스_오픈스택 Swift로 시작하는 오픈소스 분석 삽질기
 
Selenium for XE
Selenium for XESelenium for XE
Selenium for XE
 
01 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 14030801 페이스북특강 (daum it pro bono) 140308
01 페이스북특강 (daum it pro bono) 140308
 
SW Maestro 1-1 Project Keynote PDF
SW Maestro 1-1 Project Keynote PDFSW Maestro 1-1 Project Keynote PDF
SW Maestro 1-1 Project Keynote PDF
 
Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)Refactoring(inline class, Hide delegate, remove middle man)
Refactoring(inline class, Hide delegate, remove middle man)
 
git, git flow
git, git flowgit, git flow
git, git flow
 

Ähnlich wie robot.txt와 meta tag를 이용한 크롤링 설정

Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
yongwoo Jeon
 
Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!
Sue Hyun Jung
 
HTML5 스펙 소개
HTML5 스펙 소개HTML5 스펙 소개
HTML5 스펙 소개
Toby Yun
 
3.web의역사와browser
3.web의역사와browser3.web의역사와browser
3.web의역사와browser
cheonsu park
 

Ähnlich wie robot.txt와 meta tag를 이용한 크롤링 설정 (20)

Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
Html5 앱과 웹사이트를 보다 빠르게 하는 50가지
 
Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!Daum5강 당신도 파워블로거가 될 수 있어요!
Daum5강 당신도 파워블로거가 될 수 있어요!
 
SEO_GETCHA_HANJUNG
SEO_GETCHA_HANJUNGSEO_GETCHA_HANJUNG
SEO_GETCHA_HANJUNG
 
REST API 설계
REST API 설계REST API 설계
REST API 설계
 
웹표준 교육
웹표준 교육웹표준 교육
웹표준 교육
 
Network path reference
Network path referenceNetwork path reference
Network path reference
 
Daejeon IT Developer Conference Struts2
Daejeon IT Developer Conference Struts2Daejeon IT Developer Conference Struts2
Daejeon IT Developer Conference Struts2
 
Polymer따라잡기
Polymer따라잡기Polymer따라잡기
Polymer따라잡기
 
2-2. html5
2-2. html52-2. html5
2-2. html5
 
REST Ovewview
REST OvewviewREST Ovewview
REST Ovewview
 
HTML5 스펙 소개
HTML5 스펙 소개HTML5 스펙 소개
HTML5 스펙 소개
 
portfolio-subtitle-convert-김남운
portfolio-subtitle-convert-김남운portfolio-subtitle-convert-김남운
portfolio-subtitle-convert-김남운
 
Seo
SeoSeo
Seo
 
구글 검색엔진 최적화(Seo) 정리
구글 검색엔진 최적화(Seo) 정리구글 검색엔진 최적화(Seo) 정리
구글 검색엔진 최적화(Seo) 정리
 
Code_The_Web_150524_HTML_CSS
Code_The_Web_150524_HTML_CSSCode_The_Web_150524_HTML_CSS
Code_The_Web_150524_HTML_CSS
 
Code_The_Web_1
Code_The_Web_1Code_The_Web_1
Code_The_Web_1
 
XE3 SEO를 다루기 - XE Open seminar #2
XE3 SEO를 다루기 - XE Open seminar #2XE3 SEO를 다루기 - XE Open seminar #2
XE3 SEO를 다루기 - XE Open seminar #2
 
3.web의역사와browser
3.web의역사와browser3.web의역사와browser
3.web의역사와browser
 
Social Tutorial Platform: Webbles
Social Tutorial Platform: Webbles Social Tutorial Platform: Webbles
Social Tutorial Platform: Webbles
 
JSP 프로그래밍 2014-2018년 기말시험 기출문제
JSP 프로그래밍 2014-2018년 기말시험 기출문제JSP 프로그래밍 2014-2018년 기말시험 기출문제
JSP 프로그래밍 2014-2018년 기말시험 기출문제
 

robot.txt와 meta tag를 이용한 크롤링 설정