2. 2
1.
Introduc:on
1) 会社概要
2) 製品概要
2.
Data
Collec:on
3.
Data
Storage
4.
Data
Management
5.
Data
Processing
1) バッチクエリ
2) アドホッククエリ(TQA)
6.
Data
Mart
7.
Data
Visualiza:on
1) Metric
Insights
2) Tableau
アジェンダ
5.
Data
Processing
7.
Data
Visualiza5on
3.
Data
Storage
2.
Data
Collec5on
Data
Source
6.
Data
Mart
5. Big
Dataの収集・保存・分析を一手に行う、業界初の
クラウドデータサービスを提供
• すぐ利用可能なクラウドサービスとしての提供を行う
• シンプルな機能セット,手厚いサポート
• 日米大手企業中心に、現在百数十社の企業顧客(メディア・広告、ゲーム、
自動車、小売等幅広い利用事例)
大手調査企業、メディアも注目
• “Cool
Vendors
in
Big
Data”
2014
(米最大手IT調査会社Gartnerが選定する世界4社中1社*)
• “Trend
SeSng
Products”
(Database
Trends
and
Applica:ons)
• “5
Hot
Big
Data
Startups”
(Enterprise
Apps
Today)
*出典:ガートナー 「Cool
Vendors
in
Big
Data,
2014」 堀内秀明 他共著、2014年4月28日
ガートナーは、ガートナー・リサーチの発行物に掲載された特定のベンダー、製品またはサービスを推奨するものではありません。また、
最高の評価を得たベンダーのみを選択するようテクノロジの利用者に助言するものではありません。ガートナー・リサーチの発行物は、
ガートナー・リサーチの見解を表したものであり、事実を表現したものではありません。ガートナーは、明示または黙示を問わず、本リ
サーチの商品性や特定目的への適合性を含め、一切の保証を行うものではありません。
5
会社概要
芳川裕誠 –
CEO
Open
source
business
veteran
太田一樹 –
CTO
Founder
of
world’s
largest
Hadoop
Group
Jeff
Yuan
–
Director,
Engineering
LinkedIn,
MIT
/
Michale
Stonebraker
Lab
Rich
Ghiossi
–
VP
Marke:ng
VP
Marke:ng,
ParAccel
and
HP
主要投資家概要
Bill
Tai
Charles
River
Ventures,
Twiderなどに投資
まつもとゆきひろ
Ruby言語開発者
James
Lindenbaum
Heroku創業者
Sierra
Ventures
–
(Tim
Guleri)
企業向けソフト・データベース領域での有力VC
2011年12月、米Mountain
Viewにて創業
• 従業員約50名(著名データベース技術者が多数所属)、
東京丸の内に日本支社
• Yahoo!
Inc.創業者Jerry
Yang氏を含む有力投資家・VCより約800万米
ドルを資金調達済
• 2012年後半に商用サービス提供開始
主要メンバー概要
Jerry
Yang
Yahoo!
Inc.
創業者
古橋貞之 –
Sofware
Engineer
MessagePack,
Fluentd開発者
6. 6
ガートナーの
“Cool
Vendor
in
Big
Data”
に選ばれました
“Why Cool: トレジャーデータは、データの取得、保存、分析に対応するクラウド型ビッグ
データソリューションをエンドツーエンドのマネージドサービスとして提供しています。 トレ
ジャーデータのユニークな特徴の一つはデータ収集ソリューションです。”
!
“Who should care: 大量のデータを管理するリソースやスキルが十分確保できない企業は
このベンダーからの提案を検討するとよいでしょう。”!
ガートナーは、ガートナー・リサーチの発行物に掲載された特定のベンダー、製品またはサービスを推奨するものではありません。また、最高の評価を得たベンダーのみを選択するよう
テクノロジの利用者に助言するものではありません。ガートナー・リサーチの発行物は、ガートナー・リサーチの見解を表したものであり、事実を表現したものではありません。ガートナー
は、明示または黙示を問わず、本リサーチの商品性や特定目的への適合性を含め、一切の保証を行うものではありません。
21. 21
ストリーミングログコレクター:Treasure
Agent
Treasure Data
Cloud
# Application Code
...
...
# Post event to Treasure Data
TD.event.post('access',
{:uid=>123})
...
...
Treasure
Data
Library
Java,
Ruby,
PHP,
Perl,
Python,
Scala,
Node.js
Applica:on
Server
Treasure
Agent
(local)
• Automa:c
Micro-‐batching
• Local
buffering
Fall-‐back
• Network
Tolerance
22. 22
Project
•
Treasure
Data
のデータコレクタ部分は、オープンソース化
– 2013年、国内外で広く浸透
– 世界中でデータを解析可能な形で収集するのに一役買っている
"We utilize Fluentd to collect a very large amount of logs. The
logs are written into Hadoop HDFS clusters, and are also used
to analyze various service statuses in realtime. We also use
many plugins from rubygems.org to further enhance this
mechanism."
Fluentd is very similar to Apache Flume or Facebook’s
Scribe [but] it’s easier to install and maintain and has
better documentation and support than either Flume or
Scribe”
"We use Fluentd to collect massive data logs for our platforms. Having
developed a system based on Fluentd, we are now effectively monitoring
and analyzing our services in real-time. We are very much satisfied with
its flexibility, especially how easy it is to use in tandem with other
systems."
Fluentd
オープンソースプロジェクトのユーザー例
32. 32
データ横断分析例:中古車相場データの連携
Car Sensor :
B to C の中古車相場
業者間オークション :
B to B の中古車相場
個人間オークション :
C to C の中古車相場
新車カタログ :
新車価格,車両情報
レビューサイト :
車両レビュー
業者が卸してから販売
する際のマージンに注目
新車からの値落ち率と
年式等との関係に注目
業者の販売値と個人間の
販売値との乖離 = (整
備・保証料) に注目
レビューの高さと中古車
相場の関係に注目
53. 53
Hive
Pig
MapReduce
Dashboard
BI
Tools
Data
Analysis
Data
Insight
Deep
Date,
Product
Category,
Area
User
Id
Granularity
Small
Auto
What
Helps?
Human
Decision
Machine
Learning
Data
Mart
Aggregator
Business
Goal
Batch
Process
Ad-‐hoc
Process
Their
Own
Products
Enterprise
Open
Source
Impala
Database
Cube
File
/
HDFS
Batch
Ad-‐hoc
分析にはビジネスゴールに
応じたAggregator を用意
する必要がある。
54. 54
Data
Insight
Deep
Date,
Product
Category,
Area
User
Id
Granularity
Small
Auto
What
Helps?
Human
Decision
Machine
Learning
Dashboard
BI
Tools
Data
Mart
Aggregator
Business
Goal
Batch
Process
Ad-‐hoc
Process
Batch
Ad-‐hoc
SQL-‐like
Query
Language
Database
Cube
File
/
HDFS
Data
Analysis
Treasure
Batch
Query
(Hive)
Treasure
Query
Accelerator
(Presto)
New!!
Treasure
Scripted
Query
(Pig)
Script
多段MapReduce
Treasure では用途に応じた
Aggregator を全て用意。
61. 61
「バッチ」と「アドホック」のギャップ
Data
Processing
Data
Visualiza:on
Data
Storage
Data
Collec:on
Data
Source
Data
Processing
Data
Visualiza:on
Data
Storage
Data
Collec:on
Data
Source
Data
Mart
アドホック
処理
バッチ
処理
GAP
62. 62
参
照
集
計
済
結
合
ー
蓄
積
続
生
ー
DB1
DB2
DB3
Joined
Data
集計・フィルタ
済データ
Treasure
Cloud
Storage
バッチ集計
Visualiza:on
アナリスト
Data
Mart
元データに対して直接アクセス
Data Mart と TQA の
介在で双方のギャップ
を埋めることが可能に。
アドホック処理
TQA
クラウド環境
Redshif
ローカル環境
File