5. 검색엔진의 동작원리
Web
Web Crawler
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
6. 사이트 운영자 관점
Web
사용자에게 최적화된
정보 전달
사이트 개방
인덱싱 허용 Web Crawler
SEO를 고려한 사이트
관리 및 구축
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
7. 웹사이트의 개방 및 공유
• 관련 Issues
o 보안 및 개인 정보 관리
o 브라우저 및 다양한 플랫폼 지원
o 사용자의 정보 습득
o SEO
o 서버 및 네트웍 관리 및 비용
o 사이트 관리
• 가장 민감할 수 있는 부분
o 보안 및 개인 정보 유출 문제
이미지 출처: http://www.almightydad.com/
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
8. 웹사이트의 개방 경로
• 디렉토리 서비스(또는 사이트 검색)
o Yahoo! 초창기(1997년~2003년) Style의 검색서비스
o 유료 등록, 검색회사의 웹서퍼들에 의해 사이트 관리
o 글자그대로 "사이트", 즉 홈페이지의 노출
• 검색엔진
o Web Robot에 의한 Crawling
o 검색 알고리즘에 의해 Rank되어 검색결과로서의 노출
o 사이트 및 사이트 내의 웹페이지(Web Document) 단위의 검색
• 기타
o 광고, 링크, ...
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
9. 웹 사이트의 개방 관점 - 아직도 10년전?
• robots.txt로 crawling 차단
• 디렉토리 서비스 통해서 국내외 유명 사이트 등록 신청
• 1차원적인 방법, 그러나 현재도 수많은 사이트들이 이렇게 하고 있다.
• 특히 많은 정부 사이트는 사이트가 왜 막혀있는지, 지금 어떤 상태인지조차
알지 못함. 막혀 있다면 그걸 열기 위한 결정은 실무자의 권한 밖의 일. 책임
질 일 만들지 말자.
• 문제점
o 우물안 개구리
o 노출 경로 제한
o 몇 개 대형 포털 사이트에 등록하는 것이 전부
o 그러면서 내 사이트는 안전하다고 생각
• 최근들어 개인정보 정책 및 Active X문제 얘기되면서 같이 공유/개방 문제도
많이 진전. 특히 대표적인 관련 정부 부서 및 정부 사이트들에서 인식 변화
시작.
• Robots.txt 외에 사이트 구축에서부터 체계적인 접근. -> 이번 서울시의 사이
트 개편은 이 관점에서 아주 대단한 시도!
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
10. 개방 vs. 개인정보
• 개인정보에 노출 가능성 배제
o 개인정보를 xls또는 hwp파일에 저장
o 개인정보가 있는 파일을 웹서버를 통해 access할 수 있는 경우.
o 개인정보를 저장한 파일을 암호화 하지 않고 저장하는 경우
o ...
• 사이트 구조 파악
• 사이트 오픈!
이미지 출처: http://news.donga.com/
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
11. 검색엔진 활용
• 내가 검색엔진을 제어한다!
o 검색엔진에게 내 사이트의 Crawling/Indexing에 대한 정보 제공 -> 검색
엔진에서의 개방 정도를 웹 사이트 운영자가 직접 결정을 할 수 있다.
• robots.txt
o 강제성이 있는 것은 아니나 약속이다.
o 막기 위한 방법이 아니고 잘 노출하기 위한 방법이다.
o Crawling을 허용하고 안하고의 수단
o "User-agent"와 "Disallow"를 설정
o 예제)
모든 웹로봇에 사이트 전체를 차단
User-agent: *
Disallow: /
특정 웹로봇에 특정 디렉토리만 차단
User-agent: Googlebot-Image
Disallow: /my_private_images/
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
12. 또다른 사이트 개방 장벽
• 웹방화벽 차단/네트워크 차단http://www.museum.go.kr/
• Flash 또는 이미지로만 되어 있는 사이트
http://superjunior.smtown.com/
• Meta tag
o 웹마스터가 검색엔진에 사이트에 대한 정보를 제공할 수 있는 방법
o <META NAME="robots"
CONTENT="noindex,nofollow">http://blog.naver.com/PostList.nhn?blo
gId=gjpension&widgetTypeCall=true&categoryNo=1
• POST만 지원하여 수집안되는 사이트온라인 표준국어대사전
(http://stdweb2.korean.go.kr/search/View.jsp)
• ActiveX/Java 설치후에만 볼 수 있는 사이트http://www.kri.go.kr/
• Cloakingsite:www.cocoms.go.kr "Error Page"
• 브라우저 제한, Internet Explorer에서만 볼 수 있는 사이트
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
13. 사용자를 배려한 사이트 구축
• 표준을 따르자.
o 특정 브라우저에 제한하지 말자.
• 멀티 플랫폼을 지원하자.
o 요즘은 모바일이 대세! 태블릿도,,
o Input device, 화면, 사용환경, 네트워크, 등등... 다 다르다.
o 전달하고자 하는 정보를 최적화 한 presentation하는 것이 필요. 보여주
는 방식만이 아니고 Document Writing까지 고려.
• 사용자는 속도에 그다지 관대하지 않다.
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
14. SEO
• Beautiful Look != 검색에 유리
• Meta 정보
o 제목, Description, ...
• URL 스트링 생성
• 사이트 구성 (depth)
• Text는 Text로, 이미지 No. (예, 주소, 전화번호)
• 마크업(Mark up) : microformat, RDFa, ...
• 지식그래프 (Knowledge Graph)
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
16. 독도 공식 홈페이지
• dokdo.go.kr (2011년)
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
17. 독도 공식 홈페이지
• 2011년 'dokdo' 검색 결과(google.com)
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
18. 독도 공식 홈페이지
http://www.dokdo.go.kr/robots.txt (2011년)
User-agent: *
Disallow: /
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
19. 독도 공식 홈페이지
• 현재 'dokdo' 검색 결과(google.com)
www.dokdo.go.kr
en.dokdo.go.kr
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
20. 독도 공식 홈페이지 - 2% 부족...
• 모바일 환경
• Flash
• www.ulleung.go.kr (울릉도)
o 여전히 roboted
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
21. 또 다른 최근 개방한 사례)
www.korean.go.kr (국립국어원 www.cha.go.kr (문화재청)
)
www.nl.go.kr (국립중앙도서
관)
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
22. 하지만 아직도 ...
• www.mapo.go.kr (마포구청)
• www.gangnam.go.kr (강남구청)
• www.gimhae.go.kr (김해시청)
• www.seogwipo.go.kr (서귀포시청)
• www.egov.go.kr (www.minwon.go.kr) (대한민국 전자정부)
• www.koreapost.go.kr (우정사업본부)
• www.work.go.kr (노동부 한국고용정보원)
• www.1365.go.kr (행안부 자원봉사포털)
• www.nts.go.kr (국세청)
• www.2013sopoc.org (평창 스페셜 동계 올림픽)
• www.police.go.kr (경찰청)
• korea.assembly.go.kr (대한민국 국회 영문 사이트)
• www.moj.go.kr (법무부)
• www.imigration.go.kr (출입국, 외국인정책본부)
• www.hikorea.go.kr (외국인을 위한 전자정부)
• 국내 사용자를 위한 정부 웹사이트는 절대 다수!
• 특히 외국인을 위한 정부 웹사이트의 영문 웹사이트!
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
23. 정리
• 웹은 한국만의 한국안에서만의 것이 아니다. 웹이란 것을 다시 한번 생각해
보자. 웹을 이해하면 뭘 하는 것이 최선인지 명확해진다.
• 사이트 개발 및 개방은 웹 생태계에서 그 첫번째 단추이다.
• 검색은 웹에서 개방을 의미있게 하고 공유를 쉽고 빠르게 할 수 있는 중요한
수단이다.
• 사용자에서 최적화된 환경을 제공하는 것은 그 사이트를 더 의미있고 가치
를 부여하는 것이다는 것을 생각하자.
• 개인정보 유출이 무서워서 사이트를 막는다면 개인정보를 우선 안전하게 관
리/보관하자. 그리고 사이트는 개방하자.
• 중앙정부부처는 큰 방향은 인지하고 있는듯 보이나 아직 그 실질적인 행동
은 크지 않아 보인다.
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
24. 참고자료
• Google 웹마스터 도구
o http://support.google.com/webmasters/bin/answer.py?hl=ko&answer=1
56449 (robots.txt를 사용하여 페이지 차단 또는 삭제)
o http://support.google.com/webmasters/bin/answer.py?hl=ko&answer=9
9170(리치 스니펫)
o http://support.google.com/webmasters/bin/answer.py?hl=ko&answer=7
9812 (메타 태그)
o http://support.google.com/webmasters/bin/answer.py?hl=ko&answer=3
5291 (SEO)
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유
25. 질의응답
junyounglee@google.com
서울 웹 컨퍼런스 웹의 개방과 공
2012 - - 유