Suche senden
Hochladen
ログ解析基盤におけるストリーム処理パイプラインについて
•
1 gefällt mir
•
3,461 views
cyberagent
Folgen
ログ解析基盤におけるストリーム処理パイプラインについて
Weniger lesen
Mehr lesen
Ingenieurwesen
Melden
Teilen
Melden
Teilen
1 von 28
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
NTT DATA Technology & Innovation
AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
分散システムについて語らせてくれ
分散システムについて語らせてくれ
Kumazaki Hiroki
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタ
Satoyuki Tsukano
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
Empfohlen
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
NTT DATA Technology & Innovation
AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
分散システムについて語らせてくれ
分散システムについて語らせてくれ
Kumazaki Hiroki
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタ
Satoyuki Tsukano
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
アーキテクチャから理解するPostgreSQLのレプリケーション
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
トランザクションの並行実行制御 rev.2
トランザクションの並行実行制御 rev.2
Takashi Hoshino
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
AdvancedTechNight
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
増田 亨
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
Amazon Web Services Japan
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Yuki Morishita
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
Hibino Hisashi
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
Akihiro Kuwano
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
NTT DATA Technology & Innovation
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
Weitere ähnliche Inhalte
Was ist angesagt?
アーキテクチャから理解するPostgreSQLのレプリケーション
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
トランザクションの並行実行制御 rev.2
トランザクションの並行実行制御 rev.2
Takashi Hoshino
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
AdvancedTechNight
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
増田 亨
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
Amazon Web Services Japan
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Yuki Morishita
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
Hibino Hisashi
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
Akihiro Kuwano
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
NTT DATA Technology & Innovation
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
Was ist angesagt?
(20)
アーキテクチャから理解するPostgreSQLのレプリケーション
アーキテクチャから理解するPostgreSQLのレプリケーション
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
トランザクションの並行実行制御 rev.2
トランザクションの並行実行制御 rev.2
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
Ähnlich wie ログ解析基盤におけるストリーム処理パイプラインについて
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
VirtualTech Japan Inc.
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
Kenichiro MITSUDA
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
Masahito Zembutsu
hbstudy#6LTyuzorock
hbstudy#6LTyuzorock
yuzorock
Hadoop事始め
Hadoop事始め
You&I
20140120 presto meetup
20140120 presto meetup
Ogibayashi
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
irix_jp
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
infinite_loop
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
Shigeru Hanada
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
terurou
Drupal補完計画
Drupal補完計画
Kuniyoshi Tone
Ähnlich wie ログ解析基盤におけるストリーム処理パイプラインについて
(20)
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
hbstudy#6LTyuzorock
hbstudy#6LTyuzorock
Hadoop事始め
Hadoop事始め
20140120 presto meetup
20140120 presto meetup
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
Drupal補完計画
Drupal補完計画
Mehr von cyberagent
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
cyberagent
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
cyberagent
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
cyberagent
Webと経済学 數見拓朗
Webと経済学 數見拓朗
cyberagent
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
cyberagent
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
cyberagent
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
cyberagent
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
cyberagent
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
cyberagent
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
cyberagent
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
cyberagent
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
cyberagent
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
cyberagent
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
cyberagent
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
cyberagent
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
Mehr von cyberagent
(20)
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
Webと経済学 數見拓朗
Webと経済学 數見拓朗
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
ログ解析基盤におけるストリーム処理パイプラインについて
1.
ログ解析基盤における ストリーム処理パイプラインについて 斎藤貴文 1
2.
自己紹介 ● 名前 ○ 斎藤貴文 ●
所属 ○ 株式会社サイバーエージェント秋葉原ラボ ● 担当案件 ○ データ転送管理基盤開発・運用 ○ 効果計測ツール開発・運用 ○ アクセス解析システム開発・運用 ○ ステートフルストリーム処理基盤開発 ○ ストリーム処理・データフローについて色々やっていたり 2
3.
はじめに 3 ● 今回の発表内容は初心者~中級者向けです ○ 実装の具体的な話はあまりしません ●
このスライドにはOSSがいくつか出てきますが、 OSS固有の話はしません ○ 皆さん馴染みのOSSに脳内変換して問題ございません ■ Flume → Fluentd, Logstash ■ Kafka → Kinesis Stream, Google Cloud Pub/Sub, Palser ■ Hive → Pig, BigQuery, Redshift, Presto, Impala ● CADEDAの発表から加筆修正しています
4.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外 4
5.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外 5
6.
Patriotについて ● メディアサービスのデータ解析基盤 ○ OSSベースのデータ解析基盤 ■
HDFS, YARN, Hive, Flume, Presto, Spark, HBase, etc. ○ 内製化したパッケージを利用 ● 過去の発表 ○ 内製パッケージによるHadoopデータ解析基盤の構築と運用 ○ 最新版Hadoopクラスタを運用して得られたもの ○ Presto on YARNの導入・運用 ○ サイバージェント 秋葉原ラボのHBase 活用事例 ■ PatriotにおけるHBaseの利用事例を紹介 6
7.
Patriotのシステム概要 7 システム構成 リアルタイム処理基盤 MySQL etc... 機械学習基盤 HTTP API / WebUI データ 転送管理 Log Patriot
8.
Patriotにおけるストリーム処理 ● ログの転送 ○ サービスにおけるユーザの行動ログを適切な場所に転送 ●
ログのフィルタリング ○ ログスキーマに則ったバリデーション等 ● ログの加工 ○ Online Joiner等 ● リアルタイム集計 ○ 秋葉原ラボのプロダクトとしてはZeroが担当 8
9.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外の取り組み 9
10.
Apache Flumeの導入(2012~) ● Apache
Flume ○ ストリーミングでイベントを転送先にPushするミドルウェア ● Patriotのストリーム処理パイプライン ○ Webサーバに常駐するエージェントがログの追記毎にログを転送 ○ Aggregatorと呼ばれるFlumeサーバに集約し処理系に転送 ○ Aggregatorをつなげることでパイプラインを構築 ■ Patriot以外の社内処理基盤などに転送 処理系A 10 Aggragator Aggragator 処理系B
11.
Apache Flume導入直後の課題 ● Flumeの転送先増加に伴うパイプラインの硬直化 ○
Aggregatorに様々な条件の転送設定を追加 ○ 転送設定が複雑化し転送状況の把握や転送の変更が困難 ○ 扱える人間が限られて属人化 転送先 Aggragator 転送先 転送先 11
12.
転送管理システムの開発(2014~) ● ログの転送時にDBの転送設定を参照 ● オンラインで転送設定を変更可能 ○
管理画面から登録済み転送先を変更可能 ○ フィルタリング処理も可能 転送先 Aggragator 転送先 転送先 DB 12
13.
● さらなるパイプラインの拡大 ○ Zeroの登場などストリーム処理のニーズ増加 ○
パブリッククラウドへの転送 ● Flume(Push型転送)の問題が露呈 ○ Back Pressure問題 ■ Flume Aggregatorの処理が詰まると転送元のAggregatorも転送不能 ■ パイプラインが大きくなるとそれだけ影響範囲が拡大 ○ 転送先が更に増え管理コスト増加 転送管理システム導入後 転送できなくなるので 処理が詰まる 13
14.
Apache Kafkaの導入(2016~) ● Apache
Kafka ○ 分散Pub/Subシステム ● 転送先で処理が詰まっても転送元には影響は無い ○ Kafkaにデータが貯まるだけ ● 転送元で転送先の管理不要 ○ 転送先が必要なデータを取捨選択可能 転送先 必要なデータストリームを 転送先で選択可能 処理系が詰まっても転送 14
15.
現在 ● Apache Kafkaをデータハブとして活用 ○
データ転送中に容易にデータの加工が可能 ● ストリーム転送パイプラインは更に拡大 ○ 課題も増え戦いは続く。。。 転送先 15 Kafkaを経由してログの変換を実現
16.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外の取り組み 16
17.
遅延ログ問題のあらすじ 17 ● ネイティブアプリの登場によってそれまで起こらなかった問題が発生 ○ 常に遅延したログが処理系に到着する状況の発生 ○
集計毎に入力データが変動し処理の冪等性を担保するのが困難 ○ 2015年ごろ ● 問題の詳細と解決策について紹介 処理系Webサーバ ストリーム処理 パイプライン バッチ処理で集計を実行 FlumeやKafkaなど転送を担う コンポーネントで構成 ログを受け取るサーバ パイプラインの入り口
18.
● ユーザの行動はWebサーバで処理されるためログはWebサーバで発生 ● 処理系は必要なログが全て到達してからバッチ処理を実行 ○
負荷高騰等によってパイプラインで遅延が発生することもある ○ パイプラインは管理下にあるので 遅延が解消されるまで待ってからバッチ処理を実行 処理系Webサーバ ネイティブアプリの登場以前 Webサービス ストリーム処理 パイプライン 18
19.
処理系Webサーバ ストリーム処理 パイプライン ● ネイティブアプリではユーザの行動をアプリで処理するため ログはユーザのデバイス上で発生 ● ネイティブアプリのログの転送タイミングはコントロール不可能 ネイティブアプリの登場 ((((( 19 00:00 ログ発生 01:30 発火
20.
処理系Webサーバ ストリーム処理 パイプライン ● 集計への影響 ○ ネイティブアプリのログの転送は管理できないので 常に遅延したログが届くという状況 ○
遅延したログが後で届いた場合、集計の結果が変動 ネイティブアプリの登場 ((((( 20 00:00 ログ発生 処理系 01:30 発火 01:00集計の0時台のカウントは0 02:00集計の0時台のカウントは1 ① ② ③ ④
21.
遅延ログによって生じる問題 21 ● 集計に冪等性が保てない ○ バッチ処理の集計とは一度だけではない ■
パイプラインで遅延が生じていたとき ■ ログをバックアップから再取り込みするとき ○ 冪等性を確保できないということは正確な集計ができないことと同義 ● 実行タイミングを決めることができない ○ 遅延ログが常に届くので集計時刻を遅らせた方が集計値は大きくなる ○ しかしログを待ち続けているといつまでも集計を開始できない → そのため集計の冪等性を保ちつつ 実行タイミングを適切に決定するための仕組みが必要
22.
解決策:2つの時刻の導入 ● ログの発生時刻だけではどこで遅延したのか判別不可能 ○ 管理可能な遅延と管理不可能な遅延が混在 ●
発生時刻に加えてパイプラインへの到着時刻をログに付与 ○ Webサービスの場合、発生時刻と到着時刻は等しい ○ ネイティブアプリのログはWebサーバに到着した時点の時刻を付与 ネイティブアプリ 発生時刻 ストリーム処理 パイプライン Webサービス 発生時刻=到着時 刻 到着時刻 22
23.
解決策:DataFlow Model*の導入 ● DataFlow
Modelを参考にデータの選定ルールを決定 ○ ログの発生時刻だけでなくwatermark(到着時刻の最新値)を 基準に入力データの範囲と処理開始時刻を決定 ● watermarkを導入することで集計の冪等性を実現し 実行タイミングを決定 ○ 入力データの範囲は発生時刻とwatermarkによって決定 ■ watermarkよりも後に到着したログは無視することで 処理のタイミングを問わず常に同じ結果を算出可能 ○ watermarkが規定の時刻に到達した時点で処理を開始 23* [The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing Akidau et al.,2015] 到着時刻に関係しないので watermarkには影響しない 遅延によって watermarkに影響が及ぶ
24.
解決策:実装編 ● ログフォーマットの統一 ○ 時刻の配置やネイティブアプリとWebサーバのログの識別等 ○
フォーマットについては過去にデータの品質管理で紹介 ● 到着時刻の付与 ○ Webサーバでログに変換するときに付与 ○ Flumeの転送中に付与 ■ Interceptorを追加するだけで実現 ● データの選定ルール ○ Hiveのクエリで実現 24 発生時刻(event_time)の範囲 watermarkの範囲 到着時刻+1時間まで許容
25.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外の取り組み 25
26.
ストリーム処理に関する取り組み ● ステートフルストリーム処理基盤Phalanx ○ ストリーム処理でステートフルデータの変更を実現する際に CRDT*を利用することで更新操作を簡略的に表現可能 ○
DEIM 2018で発表 ● ストリーム処理パイプライン管理基盤 ○ パイプラインに必要な簡単な処理だけを提供 ■ ログの加工、ログの選択 ○ 誰でも容易にパイプライン処理の追加を可能にするのが目的 * [Conflict-free Replicated Data TypesShapiro et al.,2011] 26
27.
ストリーム処理以外の取り組み ● Zeppelin ○ Sparkなど分散処理環境へのアクセシビリティ向上 ○
解析方法・結果の共有を容易に ● Kudu ○ Fast Data処理向けに試験的に導入中 ● Hadoopクラスタ管理ツールの開発 ○ 各プロセスの開始・停止、Rolling Restart/Upgrade ○ Zookeeper経由でGitと連携し設定変更など ● バッチ系データフローのオープン化 ○ 誰でも自由にシステム横断してバッチ処理のデータフロー管理が可能 ○ 機械学習エンジニア・データ活用エンジニアの利用を想定 27
28.
終 28
Jetzt herunterladen