SlideShare ist ein Scribd-Unternehmen logo
1 von 43
リクルートライフスタイルの
データを支える技術
〜TreasureDataとAWSと私〜
Treasure Data Tech Talk
03/30 2016
山田 雄
ネットビジネス本部
データ基盤チーム
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ
■山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
データ基盤T
Twitter:@nii_yan
Blog:イクジニアブログ
・以前はフリーランスエンジニア
縁があってリクルートライフスタイルにお世話になることになった。
ビックデータ、Ruby、ビールが好き。
自己紹介
会社紹介
Engineering
for data
Business
with data
技術でビジネスを
ドライブする
Stable Infrastructure Continual Innovation+
リクルートライフスタイルにおけるエンジニアの役割
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ
約300人の分析者
データサイエンティスト
IBM Netezza
Amazon Redshift
TreasureData
ETLフレームワーク
リクルートライフスタイルのデータ基盤
ETLフレームワーク
フレームワークで出来ること
データの活用方法
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ
TreasureData以前の環境
スケールアウトしたいけど・・・
アップデートつらたん・・・
Hiveじゃ遅い・・・
それ全部解決します
スケールアウト(オンプレの場合)
サーバ何買えばいいですか?
ラックが空いてない・・・
ディスク容量が他のサーバと合わない・・・
スケールアウト(オンプレの場合)
サーバ何買えばいいですか?
ラックが空いてない・・・
ディスク容量が他のサーバと合わない・・・
辛い・・・
楽しい
スケールアウト(Treasureの場合)
アップデート(オンプレの場合)
もう1つ検証用クラスタ用意する?
データの同期どうしよう?distcpしてもmetaデータは・・・
アップデート後のselect結果が違う・・・ToT
アップデート(オンプレの場合)
もう1つ検証用クラスタ用意する?
データの同期どうしよう?distcpしてもmetaデータは・・・
アップデート後のselect結果が違う・・・ToT
辛い・・・
楽しい
アップデート(オンプレの場合)
http://www.slideshare.net/yuyamada777/cdh45-update
アップデート(Treasureの場合)
検証手伝いますよー!
データの同期は必要ないですよー!
ダウンタイムないですよー!
Hiveじゃ遅い(オンプレの場合)
Tezにしましょう
パーケットファイルにしましょう
10%早くなりました!! ToT
Hiveじゃ遅い(オンプレの場合)
Tezにしましょう
パーケットファイルにしましょう
10%早くなりました!! ToT
辛い・・・
楽しい
Hiveじゃ遅い(Treasureの場合)
About Presto
• in memoryのクエリエンジンでとにかく早い
• クエリによってはHiveの100倍とか
• with句やwindow関数使えて便利
• ANSI基準のSQL書けるがお作法がある
• count(distinct)ダメ絶対
• order_byダメ絶対
• joinは大きいテーブルを最初に
Prestoを自力で運用しようとすると・・・
• アップデートが早い
• coordinatorがSPOF
• 1つのクエリでクラスタ全体を殺せる
• アップデートにより突如クエリが動かなくなる
• Bug?デグレ?
• とあるアップデートでMySQLのDB見えなく
なったことあり
なかなか辛い・・・
Treasureへのデータ移行方法
Seque
nceFile
Seque
nceFile
TSV
distcp HIVEで変換
Treasureに今後期待すること
• UDF
• HBase
• SqoopなどのHadoopエコシステム
• PrestoでHive以外のデータソースへの連携
守りから攻めへ
• Treasureによって守り(運用工数減)は固めら
れた
• 次は攻め(開発)だ!
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ
荒野で生き抜くために
DynamoDB Lambda
API
Gateway
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
Grand Design
DynamoDB Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka
データハブ基盤
Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka DynamoDB
ストリーム処理基盤
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
DynamoDB Lambda
API
Gateway
データ提供部分(API)
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ
Kafkaを共通データハブとして活用
Kafka Redshift
Kafka,Redshift間のデータ連携に
はcamus,blueshiftを使用
td-ios-sdkを利用したデータ取得
DynamoDB Lambda
API
Gateway
Kafka
ラムダアーキテクチャに向けて
Redshift
1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
6.番外編
本日のアジェンダ
OSS
WE ARE HIRING!
ご清聴ありがとうございました

Weitere ähnliche Inhalte

Was ist angesagt?

リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方Yu Yamada
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Katsunori Kanda
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
HadoopことはじめKatsunori Kanda
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)Atsushi Kurumada
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquetRyuji Tamagawa
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術Yahoo!デベロッパーネットワーク
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-Makoto SHIMURA
 
niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例Makoto SHIMURA
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCYahoo!デベロッパーネットワーク
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
20170221 cnet live講演資料
20170221 cnet live講演資料20170221 cnet live講演資料
20170221 cnet live講演資料Retrieva inc.
 
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みデータテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みYahoo!デベロッパーネットワーク
 

Was ist angesagt? (20)

リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
 
データ利活用を促進するメタデータ
データ利活用を促進するメタデータデータ利活用を促進するメタデータ
データ利活用を促進するメタデータ
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例
 
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiC
 
大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題
 
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreadingApache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
 
20170221 cnet live講演資料
20170221 cnet live講演資料20170221 cnet live講演資料
20170221 cnet live講演資料
 
WebDB Forum 2013
WebDB Forum 2013 WebDB Forum 2013
WebDB Forum 2013
 
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みデータテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
 

Andere mochten auch

Tdtechtalk20160330myui
Tdtechtalk20160330myuiTdtechtalk20160330myui
Tdtechtalk20160330myuiMakoto Yui
 
Using Embulk at Treasure Data
Using Embulk at Treasure DataUsing Embulk at Treasure Data
Using Embulk at Treasure DataMuga Nishizawa
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例Amazon Web Services Japan
 
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤Recruit Lifestyle Co., Ltd.
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Yifeng Jiang
 
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群Yu Ishikawa
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)NTT DATA OSS Professional Services
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)NTT DATA OSS Professional Services
 
リクルートライフスタイルにおけるUX領域の取り組み
リクルートライフスタイルにおけるUX領域の取り組みリクルートライフスタイルにおけるUX領域の取り組み
リクルートライフスタイルにおけるUX領域の取り組みRecruit Lifestyle Co., Ltd.
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方Hisahiko Shiraishi
 
ナレッジを共有する文化をつくるために
ナレッジを共有する文化をつくるためにナレッジを共有する文化をつくるために
ナレッジを共有する文化をつくるためにRecruit Lifestyle Co., Ltd.
 
Software architectural design patterns(MVC, MVP, MVVM, VIPER) for iOS
Software architectural design patterns(MVC, MVP, MVVM, VIPER) for iOSSoftware architectural design patterns(MVC, MVP, MVVM, VIPER) for iOS
Software architectural design patterns(MVC, MVP, MVVM, VIPER) for iOSJinkyu Kim
 

Andere mochten auch (20)

Tdtechtalk20160330myui
Tdtechtalk20160330myuiTdtechtalk20160330myui
Tdtechtalk20160330myui
 
tdtechtalk20160330johan
tdtechtalk20160330johantdtechtalk20160330johan
tdtechtalk20160330johan
 
Using Embulk at Treasure Data
Using Embulk at Treasure DataUsing Embulk at Treasure Data
Using Embulk at Treasure Data
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
 
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
 
20150723AWS startup tech_meetup
20150723AWS startup tech_meetup20150723AWS startup tech_meetup
20150723AWS startup tech_meetup
 
Apache Kylinについて #hcj2016
Apache Kylinについて #hcj2016Apache Kylinについて #hcj2016
Apache Kylinについて #hcj2016
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
 
JIRA meets Tableau & AWS
JIRA meets Tableau & AWSJIRA meets Tableau & AWS
JIRA meets Tableau & AWS
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
 
HTrace: Tracing in HBase and HDFS (HBase Meetup)
HTrace: Tracing in HBase and HDFS (HBase Meetup)HTrace: Tracing in HBase and HDFS (HBase Meetup)
HTrace: Tracing in HBase and HDFS (HBase Meetup)
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
 
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
 
リクルートライフスタイルにおけるUX領域の取り組み
リクルートライフスタイルにおけるUX領域の取り組みリクルートライフスタイルにおけるUX領域の取り組み
リクルートライフスタイルにおけるUX領域の取り組み
 
Spark Security
Spark SecuritySpark Security
Spark Security
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
 
ナレッジを共有する文化をつくるために
ナレッジを共有する文化をつくるためにナレッジを共有する文化をつくるために
ナレッジを共有する文化をつくるために
 
Software architectural design patterns(MVC, MVP, MVVM, VIPER) for iOS
Software architectural design patterns(MVC, MVP, MVVM, VIPER) for iOSSoftware architectural design patterns(MVC, MVP, MVVM, VIPER) for iOS
Software architectural design patterns(MVC, MVP, MVVM, VIPER) for iOS
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 

Ähnlich wie リクルートライフスタイルのデータを支える技術

データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングRecruit Lifestyle Co., Ltd.
 
セキュアモバイルコネクト&sakura.ioと高火力コンピューティング
セキュアモバイルコネクト&sakura.ioと高火力コンピューティングセキュアモバイルコネクト&sakura.ioと高火力コンピューティング
セキュアモバイルコネクト&sakura.ioと高火力コンピューティングさくらインターネット株式会社
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方Recruit Lifestyle Co., Ltd.
 
CS Young Meetup Vol.3(さくらインターネット株式会社 天野)
CS Young Meetup Vol.3(さくらインターネット株式会社 天野)CS Young Meetup Vol.3(さくらインターネット株式会社 天野)
CS Young Meetup Vol.3(さくらインターネット株式会社 天野)knowledge_sakura
 
Jazug信州 クラウドとデータ解析
Jazug信州  クラウドとデータ解析Jazug信州  クラウドとデータ解析
Jazug信州 クラウドとデータ解析Tsubasa Yoshino
 
車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール
車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール
車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴールNat Sakimura
 
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro YokoyamaInsight Technology, Inc.
 
jaws-ug kansai-special_kinesis_20150207
jaws-ug kansai-special_kinesis_20150207jaws-ug kansai-special_kinesis_20150207
jaws-ug kansai-special_kinesis_20150207Toshiyuki Konparu
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポートRyoma Nagata
 
[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]エンジニアな僕の情報収集法[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]エンジニアな僕の情報収集法Takahiro Moteki
 
クラウドおじさんに聞く、わくわくIT活用法
クラウドおじさんに聞く、わくわくIT活用法クラウドおじさんに聞く、わくわくIT活用法
クラウドおじさんに聞く、わくわくIT活用法Sakae Saito
 
Career - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D eventCareer - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D eventMiya Kohno
 
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみようさくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみよう法林浩之
 
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみようさくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみよう法林浩之
 
リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話
リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話
リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話Yuji Sakurai
 
Markezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawaMarkezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawaShinya Nakazawa
 
101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure Databricks101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure DatabricksMasaki Imura
 

Ähnlich wie リクルートライフスタイルのデータを支える技術 (20)

データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 
セキュアモバイルコネクト&sakura.ioと高火力コンピューティング
セキュアモバイルコネクト&sakura.ioと高火力コンピューティングセキュアモバイルコネクト&sakura.ioと高火力コンピューティング
セキュアモバイルコネクト&sakura.ioと高火力コンピューティング
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方
 
CS Young Meetup Vol.3(さくらインターネット株式会社 天野)
CS Young Meetup Vol.3(さくらインターネット株式会社 天野)CS Young Meetup Vol.3(さくらインターネット株式会社 天野)
CS Young Meetup Vol.3(さくらインターネット株式会社 天野)
 
Jazug信州 クラウドとデータ解析
Jazug信州  クラウドとデータ解析Jazug信州  クラウドとデータ解析
Jazug信州 クラウドとデータ解析
 
Azureでデータ解析
Azureでデータ解析Azureでデータ解析
Azureでデータ解析
 
車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール
車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール
車輪は丸くなったか?~デジタル・アイデンティティの標準化動向とそのゴール
 
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
 
jaws-ug kansai-special_kinesis_20150207
jaws-ug kansai-special_kinesis_20150207jaws-ug kansai-special_kinesis_20150207
jaws-ug kansai-special_kinesis_20150207
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]エンジニアな僕の情報収集法[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]エンジニアな僕の情報収集法
 
クラウドおじさんに聞く、わくわくIT活用法
クラウドおじさんに聞く、わくわくIT活用法クラウドおじさんに聞く、わくわくIT活用法
クラウドおじさんに聞く、わくわくIT活用法
 
Career - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D eventCareer - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D event
 
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみようさくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
 
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみようさくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
 
リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話
リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話
リクルートライフスタイル分析基盤チーム2年目が世話するデータ連携bot達のお話
 
StreamPaaSのご紹介
StreamPaaSのご紹介StreamPaaSのご紹介
StreamPaaSのご紹介
 
Markezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawaMarkezine day 2012 gdo nakazawa
Markezine day 2012 gdo nakazawa
 
101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure Databricks101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure Databricks
 

Kürzlich hochgeladen

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Kürzlich hochgeladen (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

リクルートライフスタイルのデータを支える技術

Hinweis der Redaktion

  1. 1年前のデータなので少し古いです じゃらんやホットペッパーなどのサービスを持っていて、そこそこ売り上げあって3000人くらい従業員いて、かわいいお姉さんのいる会社です。 弊社のサービス使ったことある方? 我々のミッションは赤枠で囲われたことです。 これを叶えるためのデータ基盤を構築しています。
  2. 弊社の特徴として、エンジニアがビジネスのとても近くにいるというのがあります。 図のようにエンジニアの役割は技術によってビジネスをドライブさせることになります。 エンジニアからビジネス側へ提案することが多くある。 あとは、毎年エンジニアがビジネスプランを発表するコンテストもありますし、技術とビジネス両方学べる良い環境だと思います。 リクルートライフスタイルとエンジニアが結びつかない人も多数いるとは思いますが、技術でビジネスをドライブしてる実績が認められ最近はエンジニアを増やすことに注力しています。
  3. ----- 会議メモ (16/03/24 19:38) ----- 弊社のデータ基盤を紹介します
  4. こちらが、現在の共通分析基盤となります。 RawデータをTreasureに入れている サイカタのデータはでかすぎて入らないのでHadoopに入れていた。 全てのデータをredshiftに入れるとコスト的に辛い Tresureのデータは現在2000億件以上。毎月100億件増えている
  5. ETLフレームワークを独自実装
  6. 様々な部署からの要望に応えられるよう構築
  7. OneToOneメールの配信 サイト表示順の最適化 検索結果の最適化 BIツールでのvisualization、営業レポート
  8. オンプレのMapRで運用していた
  9. EMRも考えたが、コスト的にTREASUREだった
  10. Zip,シーケンスファイルなので、TDにcopyできず オンプレのデータをdistcpでS3にコピー EMRでファイルフォーマット修正 TDへbulkimport PrestoでHive以外のデータソースへの連携
  11. Hadoopに対する知見は付かないので、Treasureも一つの選択肢として、オンプレ、EMRなどとも比較して選ぶと良いと思います。
  12. トレジャーで防御を固めつつ、攻めをする準備が整った KinesisじゃなくてkafkaやEMRじゃなくてEC2は色々知れるために。基礎を知るために。  荒野に投げ出されても大丈夫なように
  13. 突然の荒野なのですが、弊社でストリーム基盤を構築するにあたっての選定基準として、荒野でも生き抜ける技術力というのがありました。 弊社ではAWSを使用しています。 AWSと言うとkinesis使えばすぐストリーム処理出来るとは思うのですが、先ほどオンプレとの比較でもあったようにありものを使いすぎると楽なのですが、ですがその環境でないと生き延びれなくなってしまいます。 なので、あえてkinesisではなくてkafkaを選択しました。 また、Sparkの環境はEMRじゃなくてEC2を選択しています。
  14. Waterプロジェクトで実現したいことをグランドデザインとして検討しました 作らない技術 構成管理にはANSIBLE SparkなどのmonitoringにはGrafana InfluxDB
  15. まず、データハブ基盤です。 オンプレミス環境にあるデータはFluentdを介してAWSクラウド上に送られます。 Fluentdから送られたデータはKafkaに保存され、ここがデータハブとして機能しています。 Kafka 0.8 SSL対応してないため、publisherとaggrigator用意 今後は0.9を使ってsslで通信
  16. 次にKafkaに保存されたデータを、Spark Streamingが取り出し、データを加工・集計します。 ここがストリーム処理基盤として機能しています。
  17. Spark-Streamingが加工・集計したデータは、DynamoDBに保存され、Key-Valueの形で保存されます。 エンドユーザーとなるデータ利用者は、APIゲートウェイ・Lambdaを介して取得することで リクエストに対するキャパシティを担保した状態でデータを提供することが可能となります。
  18. Sdk使用してiOSのデータをほぼリアルタイムに取得しています。
  19. Iphoneのログはsdk使ってリアルタイムで取れてきている。 データハブをkafkaに集中させる ----- 会議メモ (16/03/23 15:00) ----- スライドを時系列に分ける。 リアルタイムと、バッチを分けれるように ユーザが自由にアドホックとリアルを選べる環境に
  20. 弊社のエンジニアのコンセプト