SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Downloaden Sie, um offline zu lesen
SmartNewsを支えるデータパ
イプラインとその運用
2019-04-16
Site Reliability Engineer, SmartNews Inc.
@keisuke303
data pipeline casual talk #2
SRE at SmartNews
- 2名のSRE / 3名のDE + Mgr
- オペレーションを自動化・コード化
- データ分析を行うためのログ収集・分析基盤の構築と運用
- モニタリング・プロビジョニング・デプロイの整備、開発フローや環境の整備
- セキュリティの担保
- 新規サービスに対するアーキテクチャレビューの実施
- インシデント対応への参加・支援と振り返りの実施
←今日はここの話
データの活用(データ分析、機械学習)
例: ニュース(記事+動画)配信
● 記事+動画のカテゴライズ
● フィードにおけるレコメンド
例: 広告配信
● 様々な配信最適化
例: データサイエンス
● 経営指標の計算や予測
おおまかな全体像
S3
Kinesis
Airflow
RDS
WebUI
report db
RDS other app
EC2
other app
● 事業の成長とデータ活用の高まり
○ スマートニュースは2018年驚異的に成長
○ 異なるタイムゾーンでもデータの利用がすすむ
○ データサイエンティストチームが社内に誕生
● データが増えたことでトラブルが多発
○ トラブル対応コスト増
○ ETLの増加によるパフォーマンス遅延
○ presto, airflowが火を噴く
 
事業の成長と共に
● dmp担当
○ かつてはSREが片手間で運用していたが限界に。
■ 報われない
○ 主担当者の必要性→Data Engineerの採用を開始
○ 現在はSRE1名、DE1名で運用
■ データ基盤の仕事すべてをこの2名でまわすのは不可能
■ 採用はすぐできるものではない
運用体制の整備
● 冪等性の保証 重要
○ どこからでも何度やりなおしても同じ結果になるように設計
○ 簡単なトラブル対応なら誰でもできるように
● パイプラインの監視
○ 不正データの検知
○ 結果データのチェック(存在、件数 etc)
○ 実行環境の状態レポート
○ ジョブやクエリのパフォーマンス監視
■ アラート類はSlackに通知。エンジニアがいつでも把握できる
少人数での運用をまわすために <1>
● 検証環境の整備
○ 開発環境/検証環境を用意し、本番同等のデータを使ってテストすることを
可能に。トラブル対応にかけていたコストを減らす
○ ソフトウェアのバージョンアップ等もこの環境で検証
● データや処理の追加を仕組み化
○ 関係者とpull request&reviewでやりとり
○ Data ScientistもDAGを書いたりPRを出したりする
● dmp担当者が依頼作業などだけに時間を費やさないようにする。(直近のタス
クだけでなく中期的な課題解決に時間を割けるように)
少人数での運用をまわすために <2>
● バージョンアップに追従する仕組みの整備
○ 重要度が高くなる、規模が大きくなる中で慎重になちがち
● 監視・自動化の強化
○ 問題のあるクエリの検知のさらなる強化
○ ETL処理結果のvalidationのさらなる強化
○ SLI/SLOの設定
● データフォーマットや設定の最適化
○ RCFile から ORC への移行など
● Streaming Processingの拡充
今後の課題(WIP)
● 作って終わりではない。
○ 手を止めずよりよい状態に保つ努力を続けることが必要。
○ 事業の状況によってやるべきことも常に変わる
● もっと詳しく知りたいですか?
○ 懇親会で話しましょう!仲間募集してます!
まとめ

Weitere ähnliche Inhalte

Was ist angesagt?

[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」
[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」
[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」
AINOW
 

Was ist angesagt? (20)

マルウェア通信検知手法におけるUser-Agentの有効性の一考察
マルウェア通信検知手法におけるUser-Agentの有効性の一考察マルウェア通信検知手法におけるUser-Agentの有効性の一考察
マルウェア通信検知手法におけるUser-Agentの有効性の一考察
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
 
DevRel2020-TransformingDeveloperMarketingStrategy
DevRel2020-TransformingDeveloperMarketingStrategyDevRel2020-TransformingDeveloperMarketingStrategy
DevRel2020-TransformingDeveloperMarketingStrategy
 
Realizling Dapr Observability Using Elastic Stack
Realizling Dapr Observability Using Elastic StackRealizling Dapr Observability Using Elastic Stack
Realizling Dapr Observability Using Elastic Stack
 
Glue DataBrewでデータをクリーニング、加工してみよう
Glue DataBrewでデータをクリーニング、加工してみようGlue DataBrewでデータをクリーニング、加工してみよう
Glue DataBrewでデータをクリーニング、加工してみよう
 
Moving from on prem to managed services with elastic on azure-final
Moving from on prem to managed services with elastic on azure-finalMoving from on prem to managed services with elastic on azure-final
Moving from on prem to managed services with elastic on azure-final
 
[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」
[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」
[ML15]Class Cat佐々木さん「いち早く人工知能テクノロジーを取り入れた製品・サービスを市場に展開するには?」
 
Microsoft AI Platform ビジネスでAI活用するヒント
Microsoft AI Platform ビジネスでAI活用するヒントMicrosoft AI Platform ビジネスでAI活用するヒント
Microsoft AI Platform ビジネスでAI活用するヒント
 
Big query and elasticsearch insight at scale
Big query and elasticsearch insight at scaleBig query and elasticsearch insight at scale
Big query and elasticsearch insight at scale
 
Jazug7周年LT(片倉義昌)
Jazug7周年LT(片倉義昌)Jazug7周年LT(片倉義昌)
Jazug7周年LT(片倉義昌)
 
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
 
Evolution of Observability and APM with using Elastic and Microsoft Azure
Evolution of Observability and APM with using Elastic and Microsoft AzureEvolution of Observability and APM with using Elastic and Microsoft Azure
Evolution of Observability and APM with using Elastic and Microsoft Azure
 
Tokyo Jazug Night 2020-01 Azure Monitor を使った運用監視コトハジメ
Tokyo Jazug Night 2020-01 Azure Monitor を使った運用監視コトハジメTokyo Jazug Night 2020-01 Azure Monitor を使った運用監視コトハジメ
Tokyo Jazug Night 2020-01 Azure Monitor を使った運用監視コトハジメ
 
インフラ専任エンジニアが一人もいないSmartNewsにおけるクラウド活用法
インフラ専任エンジニアが一人もいないSmartNewsにおけるクラウド活用法インフラ専任エンジニアが一人もいないSmartNewsにおけるクラウド活用法
インフラ専任エンジニアが一人もいないSmartNewsにおけるクラウド活用法
 
Lt tech feedsummit-0618-rev
Lt tech feedsummit-0618-revLt tech feedsummit-0618-rev
Lt tech feedsummit-0618-rev
 
AAD B2Cでゆるっと真面目に認証しよう【Interact2019】
AAD B2Cでゆるっと真面目に認証しよう【Interact2019】AAD B2Cでゆるっと真面目に認証しよう【Interact2019】
AAD B2Cでゆるっと真面目に認証しよう【Interact2019】
 
Elastic on-microsoft-azure-0630-webinar-no-video
Elastic on-microsoft-azure-0630-webinar-no-videoElastic on-microsoft-azure-0630-webinar-no-video
Elastic on-microsoft-azure-0630-webinar-no-video
 
Azure kobebase lt-20201120
Azure kobebase lt-20201120Azure kobebase lt-20201120
Azure kobebase lt-20201120
 
【Watson】Tradeoff Analyticsの概要
【Watson】Tradeoff Analyticsの概要【Watson】Tradeoff Analyticsの概要
【Watson】Tradeoff Analyticsの概要
 
東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介
 

Ähnlich wie SmartNewsを支えるデータパイプラインとその運用

新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
Jun Kawahara
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
 

Ähnlich wie SmartNewsを支えるデータパイプラインとその運用 (20)

【3時間で学ぶ! スモールサクセス型 『カスタマージャーニー分析』】 slideshare公開用
【3時間で学ぶ! スモールサクセス型『カスタマージャーニー分析』】 slideshare公開用【3時間で学ぶ! スモールサクセス型『カスタマージャーニー分析』】 slideshare公開用
【3時間で学ぶ! スモールサクセス型 『カスタマージャーニー分析』】 slideshare公開用
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
HCCJP teradata final_20190906
HCCJP teradata final_20190906HCCJP teradata final_20190906
HCCJP teradata final_20190906
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
新時代のITインフラ -技術トレンドとユーザー企業の構え- (20100512)
 
Microsoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update Topics
 
ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則
 
【会社概要資料】STC.pdf
【会社概要資料】STC.pdf【会社概要資料】STC.pdf
【会社概要資料】STC.pdf
 
[Japan Tech summit 2017] SEC 010
[Japan Tech summit 2017] SEC 010[Japan Tech summit 2017] SEC 010
[Japan Tech summit 2017] SEC 010
 
[AC04] 『シン・ブロックチェーン』第 2 形態 ~進化する BaaS を体感せよ!
[AC04] 『シン・ブロックチェーン』第 2 形態 ~進化する BaaS を体感せよ![AC04] 『シン・ブロックチェーン』第 2 形態 ~進化する BaaS を体感せよ!
[AC04] 『シン・ブロックチェーン』第 2 形態 ~進化する BaaS を体感せよ!
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
【日商USA】webinar 2023.7.7 NANOG88 フィードバック
【日商USA】webinar 2023.7.7 NANOG88 フィードバック【日商USA】webinar 2023.7.7 NANOG88 フィードバック
【日商USA】webinar 2023.7.7 NANOG88 フィードバック
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
 
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
 
エンジニアからプロダクトマネージャーへ
エンジニアからプロダクトマネージャーへエンジニアからプロダクトマネージャーへ
エンジニアからプロダクトマネージャーへ
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
 
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
Web制作会社様向け 知って得するMicrosoft Azureの概要と使い方!
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 

Mehr von SmartNews, Inc.

Mehr von SmartNews, Inc. (14)

SpringOne Platform 2016 報告会「A Lite Rx API for the JVM」/ 井口 貝 @ SmartNews, Inc.
SpringOne Platform 2016 報告会「A Lite Rx API for the JVM」/ 井口 貝 @ SmartNews, Inc.SpringOne Platform 2016 報告会「A Lite Rx API for the JVM」/ 井口 貝 @ SmartNews, Inc.
SpringOne Platform 2016 報告会「A Lite Rx API for the JVM」/ 井口 貝 @ SmartNews, Inc.
 
Stream Processing in SmartNews #jawsdays
Stream Processing in SmartNews #jawsdaysStream Processing in SmartNews #jawsdays
Stream Processing in SmartNews #jawsdays
 
Building a Sustainable Data Platform on AWS
Building a Sustainable Data Platform on AWSBuilding a Sustainable Data Platform on AWS
Building a Sustainable Data Platform on AWS
 
AWSの進化とSmartNewsの裏側
AWSの進化とSmartNewsの裏側AWSの進化とSmartNewsの裏側
AWSの進化とSmartNewsの裏側
 
SmartNews TechNight Vol.5 : AD Data Engineering in practice: SmartNews Ads裏のデ...
SmartNews TechNight Vol.5 : AD Data Engineering in practice: SmartNews Ads裏のデ...SmartNews TechNight Vol.5 : AD Data Engineering in practice: SmartNews Ads裏のデ...
SmartNews TechNight Vol.5 : AD Data Engineering in practice: SmartNews Ads裏のデ...
 
SmartNews TechNight Vol.5 : SmartNews Ads の配信最適化の仕組みはどうなってるの? (エンジニア / SmartN...
SmartNews TechNight Vol.5 : SmartNews Ads の配信最適化の仕組みはどうなってるの? (エンジニア / SmartN...SmartNews TechNight Vol.5 : SmartNews Ads の配信最適化の仕組みはどうなってるの? (エンジニア / SmartN...
SmartNews TechNight Vol.5 : SmartNews Ads の配信最適化の仕組みはどうなってるの? (エンジニア / SmartN...
 
SmartNews TechNight Vol5 : SmartNews AdServer 解体新書 / ポストモーテム
SmartNews TechNight Vol5 : SmartNews AdServer 解体新書 / ポストモーテムSmartNews TechNight Vol5 : SmartNews AdServer 解体新書 / ポストモーテム
SmartNews TechNight Vol5 : SmartNews AdServer 解体新書 / ポストモーテム
 
SmartNews TechNight vol5 SmartNews Ads大図解
SmartNews TechNight vol5 SmartNews Ads大図解SmartNews TechNight vol5 SmartNews Ads大図解
SmartNews TechNight vol5 SmartNews Ads大図解
 
NLP in SmartNews
NLP in SmartNewsNLP in SmartNews
NLP in SmartNews
 
SmartNews's journey into microservices
SmartNews's journey into microservicesSmartNews's journey into microservices
SmartNews's journey into microservices
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
 
AWS meetup「Apache Spark on EMR」
AWS meetup「Apache Spark on EMR」AWS meetup「Apache Spark on EMR」
AWS meetup「Apache Spark on EMR」
 
Smartnews Product Manager Night
Smartnews Product Manager NightSmartnews Product Manager Night
Smartnews Product Manager Night
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
 

SmartNewsを支えるデータパイプラインとその運用