SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Downloaden Sie, um offline zu lesen
Silent running

   KAZUHirO FUJIE
Silent Running

Crying In The Rain

     Kazuhiro Fujie
 ITOCHU TECHNO-SCIENCE Corporation
            2006/06/21
Silent Running
• 「Web2.0と呼称される周辺について」
  – 後編。
• エジソンさんからの質問。検索エンジンに
  ついて。
• 「はじめのおわり」最近の様子。
• Yahoo!, eBay, Amazon, Google …
  – トーナメントを勝ち抜いた猛者達。
• 決勝戦はMicrosoftと。
Crying In The Rain
• Search Engine
• Interesting Site
• Google v.s. Yahoo!
• Search Economy
• Microsoft
• Latest News
Edison’s Question
• Googleでのサービスに対抗出来る様な、
  サービスはどのようなものでしょうか?
• 例えば、特化したジャンルでの検索エンジ
  ンを創ってサービスするのは如何?
• もっと正確な検索が出来るのでは?
• 回答の際、前提知識に理解の食い違いが
  あった様に思えます。なので、まず検索エ
  ンジンについて説明します。
Search Engine
• インターネットで公開されている情報をキー
  ワードなどを使って検索できるWebサイト
  のこと。
• ユーザーからの検索要求に対してリアルタ
  イムにWebを巡回してキーワードを含んだ
  Webページを探しているわけではない。
Composition Elements of
     Search Engine
• Crawl, Crawler (or Spider)
  – Searchbot
• Index
  – and Indexer
• Runtime System
  – or Query Processor
Mr. Crowley
• Crawler, Spider, Bot …
  – 出不精で自分のサーバーに胡坐をかき膨大
    なリクエストをインターネットのページに送りつ
    けている。
  – 持ち帰ったウェブページを、胡坐をかいたまま
    インデックス作成プログラム(インデクサー)に
    送りつける。
  – 見つけたウェブページをリクエストの待ち行列
    に加え続ける。それの繰り返し。
The Crawler Transporter
The Crawler Transporter
Saturn V
Morphology of Spider
Internal Anatomy of
       Spider
Lycosidae
Spider-man
Mr. Crawler
• Crawler, Spider, Bot …
  – ウェブページ全体の情報をインデックス化する。
  – Crawlerは、Indexと呼ばれる巨大なデータ
    ベースに収集したデータを送り込む。
  – URLと関連する単語をリスト化する。
Index
• Index, Huge Database
  – ウェブサイトに関する巨大なデータベース。
  – 統計的なパターンやアルゴリズムを駆使して
    クエリーに適切な結果を提供するのが目的。
  – 分析過程はタグで構成され、それはメタデータ
    である。
  – インデックス化するとランタイムインデックスに
    出力する。
Runtime System
• Query Server, SERP
  – ユーザのインターフェースからユーザの検索
    クエリを取得する。
  – 検索クエリをランタイムインデックスに運ぶ。
  – 検索結果(SERP)をユーザのインターフェース
    に送り返す。
Search Engine Result Page
• SERPとは、検索エンジンによる検索結果が表示された
  Webページのことである。検索ツールバーなどに表示さ
  れた検索用フォームにキーワードを入力し、検索ボタンを
  クリックするなどして検索を実行すると、結果として返って
  きたSERPが表示される。
• SERPでは検索条件に合致するWebページへのリンクが
  関連度の高い順に列挙される。その関連度の算出には、
  検索キーワードの含まれる数や密度、リンクされている
  数の多さなどが主となるが、根底的には各エンジン独自
  のアルゴリズムがはたらいている。検索結果の他にも、
  SERPの多くには、検索条件に関連するとされた広告や、
  新たに検索を行なうための入力フォームなどが備えられ
  ている。
Query Box in Google
SERP in Google
SERP in Ask.com
Mechanism of
         Search Engine
• Back End.
  – Crawler, Index
• Intermediate.
  – Runtime Index.
  – Memory Dump
  – Search Results Database
• Front End.
  – Query Server, User Interface
Island

Internet World is Virtual
Island
Infinite Space
Existence
• link
  – 誰からもリンクされていなければ孤島。
  – 検索されなければ、存在していないのと同じ。
• infinite space
  – 際限なく増え続ける空間は、まるで宇宙。
  – 膨大な空間の中から検索され見てもらえなけ
    れば意味がない。
Along Comes A Spider
AltaVista
• Alpha Processor
  – Web全体のIndexを作成するためには、並
    列に動作するCrawlerを作成し一挙に作成す
    る必要がある。
  – Alpha Processor 64 bit memoryのお陰
    で1000個のCrawlerを解き放つという離れ
    業で今まで見たこともない何十億という単語
    の1000万ものドキュメントからなる完全な
    Web Indexが出来た。
Googlebot
• Deepbot
  – 月に1回程度Webサイトに訪れるGooglebot
  – PageRank更新
• Freshbot
  – ニュースサイトや日記など更新頻度の高いWebペー
    ジにほぼ毎日訪れるGooglebot
  – PageRank更新はなし。
• New Freshbot
  – ページ収集とPageRank更新
My Answer

Tentative My Thoughts
Quality of
            Search Engine
• Crawler
  – Advanced Crawler
  – Many many spider
• Huge Index
  – Innovation Algorithm and Statistical pattern
  – Huge Databases.
• Query
  – Tag, Accurate Metadata.
  – Google has over 100 factors.
Essential point
• (2003年12月時点で)33億を超えるWeb
  ページをほぼ0.5秒以下の時間で検索で
  きる。
• (2003年12月時点で) Googleは33億
  のWebページを対象に,インデックスおよ
  びPageRank値をほぼ毎日更新している。
Essential point
• (予測では)Googleは現在推定20万台の
  サーバを保有している。
 – 2006年3月現在での予想。
 – 写真は2006年後半に採用が予定されているDELL製の
   Google Search Appliance 「GB-1001」
Digression
• (2005.09.21付け資料より)170台+5台
  /月らしいので現在は200台強と推測。
• 「はてな」は2006年6月15日、日本自然エ
  ネルギーと契約し、年間30万kWhの電力
  を風力で発電するよう委託すると発表した。
Answer to Edison’s
       Question
• 現在からGoogleと検索エンジンで争うの
  は、無駄かもしれません。頑張ってクダサイ。
• 特化したジャンルでの情報提供は、サーチ
  の外側に存在し特定ジャンルに専科した
  SNSなどを創るのが得策かもしれません。
• 正確な検索に関しては、それを可能にする
  仕組みがインターネットに必要です。セマ
  ンティックWebに期待しましょう。
Silent Running

Continue to The Next Pages

Weitere ähnliche Inhalte

Was ist angesagt?

【13-B-3】 企業システムをマッシュアップ型に変えるには
【13-B-3】 企業システムをマッシュアップ型に変えるには【13-B-3】 企業システムをマッシュアップ型に変えるには
【13-B-3】 企業システムをマッシュアップ型に変えるにはdevsumi2009
 
Terraform features(kr)
Terraform features(kr)Terraform features(kr)
Terraform features(kr)규석 이
 
Namo Web Solution
Namo Web SolutionNamo Web Solution
Namo Web Solutionbenson56
 
Sentokyo Kansai(20070126)
Sentokyo Kansai(20070126)Sentokyo Kansai(20070126)
Sentokyo Kansai(20070126)真 岡本
 
インフラエンジニアになろう!
インフラエンジニアになろう!インフラエンジニアになろう!
インフラエンジニアになろう!Toshiaki Baba
 
Streaming of Huxley
Streaming of HuxleyStreaming of Huxley
Streaming of HuxleySungkyun Kim
 
クロスレビュー
クロスレビュークロスレビュー
クロスレビュー武 河野
 
はてなブックマークのシステムについて
はてなブックマークのシステムについてはてなブックマークのシステムについて
はてなブックマークのシステムについてNaoya Ito
 
Web技術勉強会10回目(Slideshare用)
Web技術勉強会10回目(Slideshare用)Web技術勉強会10回目(Slideshare用)
Web技術勉強会10回目(Slideshare用)龍一 田中
 
Perlで圧縮
Perlで圧縮Perlで圧縮
Perlで圧縮Naoya Ito
 

Was ist angesagt? (20)

S8
S8S8
S8
 
S19
S19S19
S19
 
【13-B-3】 企業システムをマッシュアップ型に変えるには
【13-B-3】 企業システムをマッシュアップ型に変えるには【13-B-3】 企業システムをマッシュアップ型に変えるには
【13-B-3】 企業システムをマッシュアップ型に変えるには
 
MathSciNet20090526
MathSciNet20090526MathSciNet20090526
MathSciNet20090526
 
Terraform features(kr)
Terraform features(kr)Terraform features(kr)
Terraform features(kr)
 
Namo Web Solution
Namo Web SolutionNamo Web Solution
Namo Web Solution
 
Sentokyo Kansai(20070126)
Sentokyo Kansai(20070126)Sentokyo Kansai(20070126)
Sentokyo Kansai(20070126)
 
インフラエンジニアになろう!
インフラエンジニアになろう!インフラエンジニアになろう!
インフラエンジニアになろう!
 
S21
S21S21
S21
 
MW Snap
MW SnapMW Snap
MW Snap
 
Streaming of Huxley
Streaming of HuxleyStreaming of Huxley
Streaming of Huxley
 
クロスレビュー
クロスレビュークロスレビュー
クロスレビュー
 
Ext Ncs 20081029
Ext Ncs 20081029Ext Ncs 20081029
Ext Ncs 20081029
 
Life In Whatever 2.0
Life In Whatever 2.0Life In Whatever 2.0
Life In Whatever 2.0
 
S24
S24S24
S24
 
はてなブックマークのシステムについて
はてなブックマークのシステムについてはてなブックマークのシステムについて
はてなブックマークのシステムについて
 
Penglue ver.2.1
Penglue ver.2.1Penglue ver.2.1
Penglue ver.2.1
 
Web技術勉強会10回目(Slideshare用)
Web技術勉強会10回目(Slideshare用)Web技術勉強会10回目(Slideshare用)
Web技術勉強会10回目(Slideshare用)
 
About OSGeo.JP
About OSGeo.JPAbout OSGeo.JP
About OSGeo.JP
 
Perlで圧縮
Perlで圧縮Perlで圧縮
Perlで圧縮
 

Andere mochten auch

Copy (1)Inspired Interiors
Copy (1)Inspired InteriorsCopy (1)Inspired Interiors
Copy (1)Inspired Interiorssallieelliott
 
Presentation1
Presentation1Presentation1
Presentation1pepetete
 
Thinking Big - Value Families At Work
Thinking Big - Value Families At WorkThinking Big - Value Families At Work
Thinking Big - Value Families At Workwbboyd
 
Home Made Christmas Decorations
Home Made Christmas DecorationsHome Made Christmas Decorations
Home Made Christmas DecorationsPR.LUCIAN
 
Silent Running Prevue Trailer
Silent Running Prevue TrailerSilent Running Prevue Trailer
Silent Running Prevue TrailerShunsaku Kudo
 
Silent Running Side C
Silent Running Side CSilent Running Side C
Silent Running Side CShunsaku Kudo
 
Eden Pps6 Workshop Agenda
Eden Pps6 Workshop AgendaEden Pps6 Workshop Agenda
Eden Pps6 Workshop Agendah2portugal
 
Silent Running Side E Appendix
Silent Running Side E AppendixSilent Running Side E Appendix
Silent Running Side E AppendixShunsaku Kudo
 
Silent Running Side B
Silent Running Side BSilent Running Side B
Silent Running Side BShunsaku Kudo
 
Silent Running Side D
Silent Running Side DSilent Running Side D
Silent Running Side DShunsaku Kudo
 
Where The Cloud Things Are
Where The Cloud Things AreWhere The Cloud Things Are
Where The Cloud Things AreShunsaku Kudo
 

Andere mochten auch (16)

Holy Bible
Holy BibleHoly Bible
Holy Bible
 
Copy (1)Inspired Interiors
Copy (1)Inspired InteriorsCopy (1)Inspired Interiors
Copy (1)Inspired Interiors
 
Presentation1
Presentation1Presentation1
Presentation1
 
Thinking Big - Value Families At Work
Thinking Big - Value Families At WorkThinking Big - Value Families At Work
Thinking Big - Value Families At Work
 
Presentation
PresentationPresentation
Presentation
 
Home Made Christmas Decorations
Home Made Christmas DecorationsHome Made Christmas Decorations
Home Made Christmas Decorations
 
CMM Report
CMM ReportCMM Report
CMM Report
 
Presentacion Comunicacion
Presentacion ComunicacionPresentacion Comunicacion
Presentacion Comunicacion
 
Silent Running Prevue Trailer
Silent Running Prevue TrailerSilent Running Prevue Trailer
Silent Running Prevue Trailer
 
Silent Running Side C
Silent Running Side CSilent Running Side C
Silent Running Side C
 
Eden Pps6 Workshop Agenda
Eden Pps6 Workshop AgendaEden Pps6 Workshop Agenda
Eden Pps6 Workshop Agenda
 
Silent Running Side E Appendix
Silent Running Side E AppendixSilent Running Side E Appendix
Silent Running Side E Appendix
 
Silent Running Side B
Silent Running Side BSilent Running Side B
Silent Running Side B
 
Silent Running Side D
Silent Running Side DSilent Running Side D
Silent Running Side D
 
Where The Cloud Things Are
Where The Cloud Things AreWhere The Cloud Things Are
Where The Cloud Things Are
 
What is an Ansible?
What is an Ansible?What is an Ansible?
What is an Ansible?
 

Mehr von Shunsaku Kudo

Mehr von Shunsaku Kudo (8)

Revisited
RevisitedRevisited
Revisited
 
Reloaded
ReloadedReloaded
Reloaded
 
Reification
ReificationReification
Reification
 
Revolutions The Appendix
Revolutions The AppendixRevolutions The Appendix
Revolutions The Appendix
 
Revolutions Side D
Revolutions Side DRevolutions Side D
Revolutions Side D
 
Revolutions Side C
Revolutions Side CRevolutions Side C
Revolutions Side C
 
Revolutions Side B
Revolutions Side BRevolutions Side B
Revolutions Side B
 
Revolutions Side A
Revolutions Side ARevolutions Side A
Revolutions Side A
 

Silent Running Side A

  • 1. Silent running KAZUHirO FUJIE
  • 2. Silent Running Crying In The Rain Kazuhiro Fujie ITOCHU TECHNO-SCIENCE Corporation 2006/06/21
  • 3. Silent Running • 「Web2.0と呼称される周辺について」 – 後編。 • エジソンさんからの質問。検索エンジンに ついて。 • 「はじめのおわり」最近の様子。 • Yahoo!, eBay, Amazon, Google … – トーナメントを勝ち抜いた猛者達。 • 決勝戦はMicrosoftと。
  • 4. Crying In The Rain • Search Engine • Interesting Site • Google v.s. Yahoo! • Search Economy • Microsoft • Latest News
  • 5. Edison’s Question • Googleでのサービスに対抗出来る様な、 サービスはどのようなものでしょうか? • 例えば、特化したジャンルでの検索エンジ ンを創ってサービスするのは如何? • もっと正確な検索が出来るのでは? • 回答の際、前提知識に理解の食い違いが あった様に思えます。なので、まず検索エ ンジンについて説明します。
  • 6. Search Engine • インターネットで公開されている情報をキー ワードなどを使って検索できるWebサイト のこと。 • ユーザーからの検索要求に対してリアルタ イムにWebを巡回してキーワードを含んだ Webページを探しているわけではない。
  • 7. Composition Elements of Search Engine • Crawl, Crawler (or Spider) – Searchbot • Index – and Indexer • Runtime System – or Query Processor
  • 8. Mr. Crowley • Crawler, Spider, Bot … – 出不精で自分のサーバーに胡坐をかき膨大 なリクエストをインターネットのページに送りつ けている。 – 持ち帰ったウェブページを、胡坐をかいたまま インデックス作成プログラム(インデクサー)に 送りつける。 – 見つけたウェブページをリクエストの待ち行列 に加え続ける。それの繰り返し。
  • 16. Mr. Crawler • Crawler, Spider, Bot … – ウェブページ全体の情報をインデックス化する。 – Crawlerは、Indexと呼ばれる巨大なデータ ベースに収集したデータを送り込む。 – URLと関連する単語をリスト化する。
  • 17. Index • Index, Huge Database – ウェブサイトに関する巨大なデータベース。 – 統計的なパターンやアルゴリズムを駆使して クエリーに適切な結果を提供するのが目的。 – 分析過程はタグで構成され、それはメタデータ である。 – インデックス化するとランタイムインデックスに 出力する。
  • 18. Runtime System • Query Server, SERP – ユーザのインターフェースからユーザの検索 クエリを取得する。 – 検索クエリをランタイムインデックスに運ぶ。 – 検索結果(SERP)をユーザのインターフェース に送り返す。
  • 19. Search Engine Result Page • SERPとは、検索エンジンによる検索結果が表示された Webページのことである。検索ツールバーなどに表示さ れた検索用フォームにキーワードを入力し、検索ボタンを クリックするなどして検索を実行すると、結果として返って きたSERPが表示される。 • SERPでは検索条件に合致するWebページへのリンクが 関連度の高い順に列挙される。その関連度の算出には、 検索キーワードの含まれる数や密度、リンクされている 数の多さなどが主となるが、根底的には各エンジン独自 のアルゴリズムがはたらいている。検索結果の他にも、 SERPの多くには、検索条件に関連するとされた広告や、 新たに検索を行なうための入力フォームなどが備えられ ている。
  • 20. Query Box in Google
  • 23. Mechanism of Search Engine • Back End. – Crawler, Index • Intermediate. – Runtime Index. – Memory Dump – Search Results Database • Front End. – Query Server, User Interface
  • 27. Existence • link – 誰からもリンクされていなければ孤島。 – 検索されなければ、存在していないのと同じ。 • infinite space – 際限なく増え続ける空間は、まるで宇宙。 – 膨大な空間の中から検索され見てもらえなけ れば意味がない。
  • 28. Along Comes A Spider
  • 29. AltaVista • Alpha Processor – Web全体のIndexを作成するためには、並 列に動作するCrawlerを作成し一挙に作成す る必要がある。 – Alpha Processor 64 bit memoryのお陰 で1000個のCrawlerを解き放つという離れ 業で今まで見たこともない何十億という単語 の1000万ものドキュメントからなる完全な Web Indexが出来た。
  • 30. Googlebot • Deepbot – 月に1回程度Webサイトに訪れるGooglebot – PageRank更新 • Freshbot – ニュースサイトや日記など更新頻度の高いWebペー ジにほぼ毎日訪れるGooglebot – PageRank更新はなし。 • New Freshbot – ページ収集とPageRank更新
  • 32. Quality of Search Engine • Crawler – Advanced Crawler – Many many spider • Huge Index – Innovation Algorithm and Statistical pattern – Huge Databases. • Query – Tag, Accurate Metadata. – Google has over 100 factors.
  • 33. Essential point • (2003年12月時点で)33億を超えるWeb ページをほぼ0.5秒以下の時間で検索で きる。 • (2003年12月時点で) Googleは33億 のWebページを対象に,インデックスおよ びPageRank値をほぼ毎日更新している。
  • 34. Essential point • (予測では)Googleは現在推定20万台の サーバを保有している。 – 2006年3月現在での予想。 – 写真は2006年後半に採用が予定されているDELL製の Google Search Appliance 「GB-1001」
  • 35. Digression • (2005.09.21付け資料より)170台+5台 /月らしいので現在は200台強と推測。 • 「はてな」は2006年6月15日、日本自然エ ネルギーと契約し、年間30万kWhの電力 を風力で発電するよう委託すると発表した。
  • 36. Answer to Edison’s Question • 現在からGoogleと検索エンジンで争うの は、無駄かもしれません。頑張ってクダサイ。 • 特化したジャンルでの情報提供は、サーチ の外側に存在し特定ジャンルに専科した SNSなどを創るのが得策かもしれません。 • 正確な検索に関しては、それを可能にする 仕組みがインターネットに必要です。セマ ンティックWebに期待しましょう。
  • 37. Silent Running Continue to The Next Pages