SlideShare a Scribd company logo
1 of 46
Hadoop ~ Yahoo! JAPAN の活用について~ 2011/01/15 ヤフー株式会社  R&D 統括本部 角田直行、吉田一星
自己紹介 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
自己紹介 ,[object Object],[object Object],[object Object],[object Object],[object Object]
Agenda ,[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Introduction Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
有名なネットサービス Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  月間   496 億 7100 万 PV   1 日   5000 万   のつぶやき 商品数   6800 万 月間ユーザ数   5 億 人 各サービスとも日々成長を続けています
莫大なデータ量との闘い ,[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  毎日処理しなければならない
Yahoo! JAPAN が扱うデータ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  ,[object Object],[object Object]
解決策としての Hadoop ,[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  この発表では、 Yahoo! JAPAN が Hadoop をどう活用しているか について事例を交えて解説します
Hadoop とは Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Hadoop とは ,[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Hadoop とは ,[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  ( 出典元 :Wikipedia)
Hadoop とは Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  大きく MapReduce と HDFS ( 分散ファイルシステム ) に分かれる
Hadoop MapReduce Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・
Hadoop HDFS Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  ・巨大なファイルを複数台に分割 ・複数サーバの各 HDD を 1 つの HDD のように扱える
Hadoop 関連プロダクト Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  大規模データ処理用スクリプト言語 Pig Hive Facebook が開発 扱いが一般データベースに似ている A = load 'passwd' using PigStorage(':'); B = foreach A generate $0 as id;  dump B;  CREATE TABLE pokes (foo INT, bar STRING);  SELECT a.foo FROM pokes a;
Hadoop 関連プロダクト Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  Hadoop 上に構築された列指向データベース Google BigTable のクローン HBase 機械学習ライブラリ Hadoop でスケール可 Mahout 複数の MapReduce ジョブなどを 実行制御するワークフロー Oozie
Hadoop の事例紹介 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Hadoop を活用している会社 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  など・・・ 増え続けています!
Yahoo! Inc. での事例紹介 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Hadoop at Yahoo! Inc ,[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Yahoo! Inc  トップページ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Yahoo! Inc  トップページ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  広告最適化 検索 インデックス
Yahoo! Inc  トップページ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  広告最適化 コンテンツ 最適化 検索 インデックス スパムフィルター コンテンツ 管理 コンテンツ 最適化
サーチアシスト ,[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  Hadoop 使用前 Hadoop 時間 26 日 20 分 言語 C++ Python 開発期間 2 ~ 3 週間 2 ~ 3 日
Yahoo! JAPAN での事例 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
検索ログプラットフォーム ,[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Yahoo! 検索 ,[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Yahoo! 検索ランキング ,[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
レコメンデーションプラットフォーム ,[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
検索プラットフォーム( ABYSS ) ,[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
地図検索 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
その他の事例 ,[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
事例まとめ ,[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Hadoop のメリット・デメリット Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
Hadoop のメリット・デメリット ,[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
HDFS の特性 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
HDFS の特性 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
リアルタイム処理には? ,[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  使い分けが重要!
[object Object],使い分けの例 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  Hadoop 検索インデックス 検索インデックスの元データ 数分~数時間かかる 検索インデックスのバッチ更新
[object Object],使い分けの例 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  Hadoop 検索インデックス バッチ更新 クローラなど リアルタイム更新 ユーザ トランザクション
まとめ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
まとめ ,[object Object],[object Object],[object Object],[object Object],Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止
TechBlog Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  http://techblog.yahoo.co.jp/
Hadoop Hack Night Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止  2010 年 3 月、 8 月に開催
ご静聴ありがとうございました! Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved.  無断引用・転載禁止

More Related Content

What's hot

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用Yoshikazu Suganuma
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポートYou&I
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA HadoopセミナーIchiro Fukuda
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術Yahoo!デベロッパーネットワーク
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...MapR Technologies Japan
 
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Yuki Gonda
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いRyuji Tamagawa
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 

What's hot (20)

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 
マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
Webdb2011 hadoop
Webdb2011 hadoopWebdb2011 hadoop
Webdb2011 hadoop
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
Yahoo! JAPAN の Ambari 活用事例 #yjdsnight
Yahoo! JAPAN の Ambari 活用事例 #yjdsnightYahoo! JAPAN の Ambari 活用事例 #yjdsnight
Yahoo! JAPAN の Ambari 活用事例 #yjdsnight
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreadingApache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
 
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 

Viewers also liked

Virtual Marking
Virtual MarkingVirtual Marking
Virtual MarkingOceanTomo
 
Building and deploying PHP applications with Phing
Building and deploying PHP applications with PhingBuilding and deploying PHP applications with Phing
Building and deploying PHP applications with PhingMichiel Rook
 
Watson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニングWatson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニングHori Tasuku
 
HRM (Human Resource Managment)
HRM (Human Resource Managment)HRM (Human Resource Managment)
HRM (Human Resource Managment)Ghulam Hasnain
 
Poisoned Talk (Quiz Show)
Poisoned Talk (Quiz Show)Poisoned Talk (Quiz Show)
Poisoned Talk (Quiz Show)Miz Malinz
 
15 ideas on how to generate new ideas
15 ideas on how to generate new ideas15 ideas on how to generate new ideas
15 ideas on how to generate new ideasHarish
 
Triage In Emergency Department
Triage In Emergency DepartmentTriage In Emergency Department
Triage In Emergency DepartmentFrank Smith
 
Central Nervous System.ppt
Central Nervous System.pptCentral Nervous System.ppt
Central Nervous System.pptShama
 
The Sales Funnel
The Sales FunnelThe Sales Funnel
The Sales Funnelshewmakt
 

Viewers also liked (9)

Virtual Marking
Virtual MarkingVirtual Marking
Virtual Marking
 
Building and deploying PHP applications with Phing
Building and deploying PHP applications with PhingBuilding and deploying PHP applications with Phing
Building and deploying PHP applications with Phing
 
Watson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニングWatson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニング
 
HRM (Human Resource Managment)
HRM (Human Resource Managment)HRM (Human Resource Managment)
HRM (Human Resource Managment)
 
Poisoned Talk (Quiz Show)
Poisoned Talk (Quiz Show)Poisoned Talk (Quiz Show)
Poisoned Talk (Quiz Show)
 
15 ideas on how to generate new ideas
15 ideas on how to generate new ideas15 ideas on how to generate new ideas
15 ideas on how to generate new ideas
 
Triage In Emergency Department
Triage In Emergency DepartmentTriage In Emergency Department
Triage In Emergency Department
 
Central Nervous System.ppt
Central Nervous System.pptCentral Nervous System.ppt
Central Nervous System.ppt
 
The Sales Funnel
The Sales FunnelThe Sales Funnel
The Sales Funnel
 

Similar to Hadoop~Yahoo!Japanの活用について

Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはKimihiko Kitase
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会伊藤 孝
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介griddb
 

Similar to Hadoop~Yahoo!Japanの活用について (20)

Hadoop~Yahoo! JAPANの活用について~
Hadoop~Yahoo! JAPANの活用について~Hadoop~Yahoo! JAPANの活用について~
Hadoop~Yahoo! JAPANの活用について~
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
Hadoop~Yahoo! JAPANの活用について~
Hadoop~Yahoo! JAPANの活用について~Hadoop~Yahoo! JAPANの活用について~
Hadoop~Yahoo! JAPANの活用について~
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
 
MapReduceによる大規模データ処理 at Yahoo! JAPAN
MapReduceによる大規模データ処理 at Yahoo! JAPANMapReduceによる大規模データ処理 at Yahoo! JAPAN
MapReduceによる大規模データ処理 at Yahoo! JAPAN
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
 
大規模HDFS & ErasureCoding#yjdsw3
大規模HDFS & ErasureCoding#yjdsw3大規模HDFS & ErasureCoding#yjdsw3
大規模HDFS & ErasureCoding#yjdsw3
 

Hadoop~Yahoo!Japanの活用について

  • 1. Hadoop ~ Yahoo! JAPAN の活用について~ 2011/01/15 ヤフー株式会社 R&D 統括本部 角田直行、吉田一星
  • 2.
  • 3.
  • 4.
  • 5. Introduction Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 6. 有名なネットサービス Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 月間 496 億 7100 万 PV 1 日 5000 万 のつぶやき 商品数 6800 万 月間ユーザ数 5 億 人 各サービスとも日々成長を続けています
  • 7.
  • 8.
  • 9.
  • 10. Hadoop とは Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 11.
  • 12.
  • 13. Hadoop とは Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 大きく MapReduce と HDFS ( 分散ファイルシステム ) に分かれる
  • 14. Hadoop MapReduce Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・
  • 15. Hadoop HDFS Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ・巨大なファイルを複数台に分割 ・複数サーバの各 HDD を 1 つの HDD のように扱える
  • 16. Hadoop 関連プロダクト Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 大規模データ処理用スクリプト言語 Pig Hive Facebook が開発 扱いが一般データベースに似ている A = load 'passwd' using PigStorage(':'); B = foreach A generate $0 as id; dump B; CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a;
  • 17. Hadoop 関連プロダクト Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 Hadoop 上に構築された列指向データベース Google BigTable のクローン HBase 機械学習ライブラリ Hadoop でスケール可 Mahout 複数の MapReduce ジョブなどを 実行制御するワークフロー Oozie
  • 18. Hadoop の事例紹介 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 19. Hadoop を活用している会社 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 など・・・ 増え続けています!
  • 20. Yahoo! Inc. での事例紹介 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 21.
  • 22. Yahoo! Inc トップページ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 23. Yahoo! Inc トップページ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 広告最適化 検索 インデックス
  • 24. Yahoo! Inc トップページ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 広告最適化 コンテンツ 最適化 検索 インデックス スパムフィルター コンテンツ 管理 コンテンツ 最適化
  • 25.
  • 26. Yahoo! JAPAN での事例 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35. Hadoop のメリット・デメリット Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42. まとめ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 43.
  • 44. TechBlog Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 http://techblog.yahoo.co.jp/
  • 45. Hadoop Hack Night Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2010 年 3 月、 8 月に開催
  • 46. ご静聴ありがとうございました! Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止