Suche senden
Hochladen
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
•
9 gefällt mir
•
10,040 views
N
NTT DATA OSS Professional Services
Folgen
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~ 2016/7/26 Spark Summit2016報告会&データ分析勉強会
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 22
Empfohlen
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
NTT DATA OSS Professional Services
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
NTT DATA OSS Professional Services
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
NTT DATA OSS Professional Services
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
Empfohlen
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
NTT DATA OSS Professional Services
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
NTT DATA OSS Professional Services
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
NTT DATA OSS Professional Services
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
NTT DATA OSS Professional Services
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
NTT DATA OSS Professional Services
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
Yukio Yoshida
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
FwardNetwork
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
Atsushi Tsuchiya
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Apache Sparkの紹介
Apache Sparkの紹介
Ryuji Tamagawa
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
はやわかりHadoop
はやわかりHadoop
Shinpei Ohtani
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
Keigo Suda
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Weitere ähnliche Inhalte
Was ist angesagt?
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
NTT DATA OSS Professional Services
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
NTT DATA OSS Professional Services
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
Yukio Yoshida
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
FwardNetwork
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
Atsushi Tsuchiya
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Apache Sparkの紹介
Apache Sparkの紹介
Ryuji Tamagawa
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
はやわかりHadoop
はやわかりHadoop
Shinpei Ohtani
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
Keigo Suda
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
Was ist angesagt?
(20)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkの紹介
Apache Sparkの紹介
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
はやわかりHadoop
はやわかりHadoop
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
Ähnlich wie データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Tanaka Yuichi
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
Insight Technology, Inc.
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
SORACOM,INC
Spark at Scale
Spark at Scale
Yuta Imai
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
TOSHI STATS Co.,Ltd.
20180831_NTC3_NSE
20180831_NTC3_NSE
Toshiki Miyaji
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用
CData Software Japan
20190614_awssummit_stockmark
20190614_awssummit_stockmark
KosukeArima
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
Ohyama Masanori
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
Amazon Web Services Japan
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】
Tetsuya Yoshida
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
ネクストスケープ
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
シラサギ紹介20161119
シラサギ紹介20161119
Naokazu Nohara
Hinemosロードマップ「これまでの歩みと今後の取り組み」
Hinemosロードマップ「これまでの歩みと今後の取り組み」
Hinemos
160901 osce2016sre
160901 osce2016sre
OSSラボ株式会社
Ähnlich wie データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
(20)
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
Spark at Scale
Spark at Scale
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
20180831_NTC3_NSE
20180831_NTC3_NSE
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用
20190614_awssummit_stockmark
20190614_awssummit_stockmark
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
シラサギ紹介20161119
シラサギ紹介20161119
Hinemosロードマップ「これまでの歩みと今後の取り組み」
Hinemosロードマップ「これまでの歩みと今後の取り組み」
160901 osce2016sre
160901 osce2016sre
Mehr von NTT DATA OSS Professional Services
Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
NTT DATA OSS Professional Services
Spark SQL - The internal -
Spark SQL - The internal -
NTT DATA OSS Professional Services
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
NTT DATA OSS Professional Services
HDFS Router-based federation
HDFS Router-based federation
NTT DATA OSS Professional Services
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
NTT DATA OSS Professional Services
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
Structured Streaming - The Internal -
Structured Streaming - The Internal -
NTT DATA OSS Professional Services
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
NTT DATA OSS Professional Services
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
HDFS basics from API perspective
HDFS basics from API perspective
NTT DATA OSS Professional Services
20170303 java9 hadoop
20170303 java9 hadoop
NTT DATA OSS Professional Services
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
NTT DATA OSS Professional Services
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
NTT DATA OSS Professional Services
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
NTT DATA OSS Professional Services
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
NTT DATA OSS Professional Services
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
NTT DATA OSS Professional Services
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
NTT DATA OSS Professional Services
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
NTT DATA OSS Professional Services
Mehr von NTT DATA OSS Professional Services
(20)
Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
Spark SQL - The internal -
Spark SQL - The internal -
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
HDFS Router-based federation
HDFS Router-based federation
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
Structured Streaming - The Internal -
Structured Streaming - The Internal -
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
HDFS basics from API perspective
HDFS basics from API perspective
20170303 java9 hadoop
20170303 java9 hadoop
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
1.
Copyright © 2016
NTT DATA Corporation NTTデータ 技術革新統括本部 OSSプロフェッショナルサービス 土橋 昌 データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~ Spark Summit2016報告会&データ分析勉強会
2.
2Copyright © 2016
NTT DATA Corporation 自己紹介 土橋 昌 - Masaru Dobashi OSSを徹底活用したシステム開発やR&Dに従事。エンジニア。 7、8年前にHadoopに出会い、1000台超えのHadoopのシステ ムの開発・運用などを担う。当時の課題感からStorm、Sparkの 取り組みをはじめ現在に至る。 技術コンサルから現場開発、インフラからデータ処理、ゲテモノ から定番まで、捻じ伏せてどうにかするのがお仕事です。 等々 Spark Summit Strata Hadoop World
3.
3Copyright © 2016
NTT DATA Corporation 分析に関わるエンジニアと分析者が円滑に仕事するために、 データ処理基盤が押さえるべきポイントは?の話 なぜ分析に関して基盤のことを考えなくてはならないか? => 要であるデータはそこを通ってやってから。 プロダクト固有の話は省略 ポイントは色々ある中からピックアップして紹介 今日のお話
4.
Copyright © 2015
NTT DATA Corporation 4 背景
5.
5Copyright © 2016
NTT DATA Corporation データ活用の様々な現場で見てきた辛いやり取りの一例 背景
6.
6Copyright © 2016
NTT DATA Corporation データ活用の様々な現場で見てきた辛いやり取りの一例 背景 急だけど○○のデータ使いたいのだけ ど、すぐ出せない? やってみるよ。…あー、元データない かも?どうするかな HadoopとかSparkとか××とかで 一発で出せるよね? いや、HadoopやSparkや××も 万能じゃないし。 むしろ遅いときあるよね いつもの日次のバッチなんだけど、1 時間ごとにできないか?って聞かれれ たんだけど、どう? 処理は行けるかもしれないけど、そ もそも入力データって、たしか連携 先で自作した日次バッチで置いても らっているんじゃなかったかなぁ
7.
7Copyright © 2016
NTT DATA Corporation 他にも、処理基盤側でできることをグループ内でちゃんと共 有できていなかったために、機会損失しているとか。 組織構造的に難しいケースもあるのも事実ですが…。 ある程度の作業分担が進んだ組織で、責任分界点がある 状態だと、「仕組み」が入り組んだ状態では、前述の 課題を解決するのはなかなか難しい。 背景
8.
8Copyright © 2016
NTT DATA Corporation せめて、データ処理基盤=仕組みの部分でもっとう まく取り回しできて、生産的な連携に力を注ぐことができたら …。 そこで今後のために、企業におけるデータ処理基盤のキホン を改めて押さえよう! 今回紹介すること
9.
Copyright © 2015
NTT DATA Corporation 9 分析のための処理基盤のキホン
10.
10Copyright © 2016
NTT DATA Corporation お手元のシステムで本観点で十分に機能していますか? ちなみに、Hadoop界隈でよく見られるキーワードを付記して みると… 結論:キホンは蓄積、処理、パイプラインを制すること 処理 蓄積 パイプライン Hadoop HDFS HBase Hive Hadoop MapReduce Spark Fluentd Embulk Kafka データの原石を加工して 価値のある情報をスムーズに 抽出するために最低限必要な要素は? 注:ここではデータを連携する仕 組み自体とします (やや狭義のパイプライン)
11.
11Copyright © 2016
NTT DATA Corporation これを突き詰めていくと最終的に、「データの基本セットを機 械的に生成」、「オンデマンドで必要なデータを生成」するため の環境が整う さらにデータマネジメント注の考え方と合わせて用いれば、管 理されたデータから必要なデータを取り出したり、生成するの が円滑になる。 …でも現実では、これを手堅く実現するのが意外とおざなり になるから大変だったりするわけですね 結論:キホンは蓄積、処理、パイプラインを制すること 注:ここでは単純に「データを価値のあるリソースとして管理するための規約」のこととします
12.
12Copyright © 2016
NTT DATA Corporation これを突き詰めていくと最終的に、「データの基本セットを機 械的に生成」、「オンデマンドで必要なデータを生成」するため の環境が整う さらにデータマネジメント注の考え方と合わせて用いれば、管 理されたデータから必要なデータを取り出したり、生成するの が円滑になる。 …でも現実では、これを手堅く実現するのが意外とおざなり になるから大変だったりするわけですね 結論:キホンは蓄積、処理、パイプラインを制すること 注:ここでは単純に「データを価値のあるリソースとして管理するための規約」のこととします このあたりの基本をおさえて調整 できるエンジニアと分析者が 組めるととても強力
13.
Copyright © 2015
NTT DATA Corporation 13 各観点のポイントをいくつか紹介 ポンポンポンと 紹介していきます。 別の場所でちゃんと 体系立てて説明したい。
14.
14Copyright © 2016
NTT DATA Corporation ログなどを扱う場合には、生データを溜めていざというときに 取り出せるようにしたい。 分析していると、ロジックの問題なのか元データの特徴なのか振り返 ることがある。「元データに原因があるか?」という検証をすることも 多々ある。また異なる分析処理に入れるために元があったほうが良 いことも多い。(異なる分析処理ではそれぞれ異なる解釈がある) ただし、ある程度活用先のスコープが絞れるならばスキーマ付データ ストアは当然強力。型を後でバリデートするのは大変…。 入力データだけでなく、中間データ、結果データも保存対象 になることが多い。したがって、必要な容量は意外と多いと 覚悟して検討をスタートするが良い。 蓄積のポイントの例(その1) 蓄積 処理 パイプ ライン
15.
15Copyright © 2016
NTT DATA Corporation 一方で、生成はもとより、削除、アーカイブ化にも注意 データストアは必ず容量が不足 or コストが問題化する。 容量見積もりが甘いから、という話もあるが、 現実的な問題として後から要件が追加されることは多い。 (分析業務においては) しばらく運用していると、もしかしたら「ごみの山」でいっぱいかも? でも、「ごみと認定するルール」は?オンデマンドの処理を許されたク ラスタでは利用度合いの可視化 & 強制対処も必要。 - データストアのユーザディレクトリの使用量可視化、計算リソースの使用量可視 化など アーカイブ化にも馬力が必要なことに注意。データ処理を前提として データストア(HDFSなど)に入れておかないと将来困る可能性がある。 蓄積のポイントの例(その2) 蓄積 処理 パイプ ライン
16.
16Copyright © 2016
NTT DATA Corporation 自分のワークロードで意図通り動くことを確認するのは大事 既存資料を参考にするにせよ、妄信するのは火傷の元…。 「コツ」と割り切って、本当に正しいかは手元で確認必要。 分散処理関連のOSSは、開発元の目的に特化したものが多い。 ハマれば非常に強いが、外したときの扱いづらさもなかなか大きい。 - 根本的に思ったような効果が得られないときは「もしかしたら使い方があっていな いのかも?」と考える思考も大事。 ログなどを扱う場合には、生データを加工、集計するための柔軟 な仕組みが欲しい。例えば前処理って大事。 複数の処理フレームワークで実現する方法は適材適所の利点 単一のフレームワークで実現する方法は取り回しのよさの利点 スケーラビリティが本当に必要かどうか?は重要な岐路。 結果としてPostgreSQL、Pythonなどのツールなどを採用するケースもある 処理のポイントの例(その1) 蓄積 処理 パイプ ライン
17.
17Copyright © 2016
NTT DATA Corporation 計画性は大事なのは前提だが、「試行錯誤」は残ると覚悟 試行錯誤するのに適した処理環境があると便利。 後発の分散処理(Sparkなど)はそれを意識したつくりになっている ただしリソース消費を読みづらい点から、リソース分離が鬼門になり がちなことに注意。最悪別環境で…とかも考える。そうすると後述の データパイプラインがキモになる。 「性能」、「汎用性」の間には直接の関係性はないが、トレード オフになることもあるから注意 蓄積する技術と比べて、処理するための技術は様々な趣向 が凝らされたプロダクトが生まれる傾向がある。様々な処理 系を実行できる環境があればベター。 処理のポイントの例(その2) 蓄積 処理 パイプ ライン
18.
18Copyright © 2016
NTT DATA Corporation 様々な場所からデータを届けるための仕掛けはとても重要 パイプライン前後のインターフェースや機能は、勝手に決めら れないことも多いうえに様々な種類があって大変。柔軟性に 富んだ仕組みにはコスト注 がかかる認識が必要。 外接部分はとにかく条件が複雑になりがちで心労も大きい…。 パイプラインのポイントの例(その1) 注:ここでいうコストは、稼働、金額などを含む広義のコスト 蓄積 処理 パイプ ライン
19.
19Copyright © 2016
NTT DATA Corporation 本当に柔軟性が必要ならメッセージングシステムなどを挟ん でリード・ライトのライフサイクルを分離する必要あり。 パイプラインにデータを流す頻度、速度に分析のサイクルが束縛され ることもあるから気が抜けない。 要求されるサイクルはビジネス要求によっても変化することに注意 データの利用者が複数になると、同じデータを異なるサイクルで消費 することもある。その目的でもメッセージングシステムを挟むのは有用 「高速に届ける。かつ、絶対に落とさないし、重複もしない」 という条件は、安易に合意するものではない。 結局のところ費用対効果の話に落ち着く。異常系発生時の影響を 考慮したうえで、やりすぎないように注意。「サービス(ビジネス)上は どんなインパクトがあるのか?」 パイプラインのポイントの例(その2) 蓄積 処理 パイプ ライン
20.
20Copyright © 2016
NTT DATA Corporation データ活用の様々な現場で見てきた辛いやり取りの一例 背景(再掲) 急だけど○○のデータ使いたいのだけ ど、すぐ出せない? やってみるよ。…あー、元データない かも?どうするかな HadoopとかSparkとか××とかで 一発で出せるよね? いや、HadoopやSparkや××も 万能じゃないし。 むしろ遅いときあるよね いつもの日次のバッチなんだけど、1 時間ごとにできないか?って聞かれれ たんだけど、どう? 処理は行けるかもしれないけど、そ もそも入力データって、たしか連携 先で自作した日次バッチで置いても らっているんじゃなかったかなぁ 蓄積 処理 パイプライン
21.
21Copyright © 2016
NTT DATA Corporation まとめ 多数のエンジニアや分析者が絡み、責任分界点があ る組織では複雑な仕組みが問題に拍車をかけること がある 仕組みを作るうえでのポイントを関係者間で認識し、 意図せずに問題を難しくしないように心がけたい 基本は、蓄積、処理、パイプライン。 注意点に気を付けて 「データの基本セットを機械的に 生成」、「オンデマンドで必要なデータを生成」する環 境を手にしよう そのあとは色々と希望に合わせて応用
22.
Copyright © 2011
NTT DATA Corporation Copyright © 2016 NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ 技術革新統括本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-9000