Suche senden
Hochladen
Dataflow(python)を触った所感
•
1 gefällt mir
•
1,554 views
R
Ryo Yamaoka
Folgen
2017/11/28 酔いどれGCPUGで発表させて頂いたLTの資料です。 https://gcpug-tokyo.connpass.com/event/71125/
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 20
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Dataflow(python)を使ってelasticsearchにデータを移行した話
Dataflow(python)を使ってelasticsearchにデータを移行した話
Ryo Yamaoka
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
Yu Yamada
Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室
Takami Sato
Google cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalytics
Yu Yamada
地域活性化アプリ提案天草編
地域活性化アプリ提案天草編
博喜 井上
知られざる、Alibaba Cloudを支えるオープンソース
知られざる、Alibaba Cloudを支えるオープンソース
Shinya Mori (@mosuke5)
コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話
ShunyoKawamoto
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
Shohei Kobayashi
Empfohlen
Dataflow(python)を使ってelasticsearchにデータを移行した話
Dataflow(python)を使ってelasticsearchにデータを移行した話
Ryo Yamaoka
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
Yu Yamada
Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室
Takami Sato
Google cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalytics
Yu Yamada
地域活性化アプリ提案天草編
地域活性化アプリ提案天草編
博喜 井上
知られざる、Alibaba Cloudを支えるオープンソース
知られざる、Alibaba Cloudを支えるオープンソース
Shinya Mori (@mosuke5)
コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話
ShunyoKawamoto
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
Shohei Kobayashi
データプランナーによるデータ系施策について
データプランナーによるデータ系施策について
Recruit Lifestyle Co., Ltd.
20150128 cross2015
20150128 cross2015
Akira Shibata
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
Yahoo!デベロッパーネットワーク
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
Kazuhito Osabe
Microsoft Search @O365JPFUK
Microsoft Search @O365JPFUK
HiroakiNagao
データを扱いたい!はじめてのAWS
データを扱いたい!はじめてのAWS
ShoichiYashiro
「R for Cloud Computing」の紹介
「R for Cloud Computing」の紹介
Takekatsu Hiramura
読書会のすすめ
読書会のすすめ
Satoshi Noto
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Atsushi Tsuchiya
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
PySpark を分析用途に使っている話
PySpark を分析用途に使っている話
LINE Corporation
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
寿 小林
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
Shinichi Nakagawa
Pythonで時系列のデータを分析してみよう
Pythonで時系列のデータを分析してみよう
Tatuya Kobayashi
Chainerで学ぶdeep learning
Chainerで学ぶdeep learning
Retrieva inc.
Challenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshi
Rakuten Group, Inc.
社内サービスのUI改善
社内サービスのUI改善
gree_tech
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Hajime Sano
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
GPS BoTもどきをつくろう (第3回 Home365祭り)
GPS BoTもどきをつくろう (第3回 Home365祭り)
Kenchi Hikita
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携
Chuki ちゅき
OneNote のススメ。 Office 365 利活用の促進 - クライアント推し。
OneNote のススメ。 Office 365 利活用の促進 - クライアント推し。
Akira Fukami
Weitere ähnliche Inhalte
Was ist angesagt?
データプランナーによるデータ系施策について
データプランナーによるデータ系施策について
Recruit Lifestyle Co., Ltd.
20150128 cross2015
20150128 cross2015
Akira Shibata
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
Yahoo!デベロッパーネットワーク
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
Kazuhito Osabe
Microsoft Search @O365JPFUK
Microsoft Search @O365JPFUK
HiroakiNagao
データを扱いたい!はじめてのAWS
データを扱いたい!はじめてのAWS
ShoichiYashiro
「R for Cloud Computing」の紹介
「R for Cloud Computing」の紹介
Takekatsu Hiramura
読書会のすすめ
読書会のすすめ
Satoshi Noto
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Atsushi Tsuchiya
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
PySpark を分析用途に使っている話
PySpark を分析用途に使っている話
LINE Corporation
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
寿 小林
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
Shinichi Nakagawa
Pythonで時系列のデータを分析してみよう
Pythonで時系列のデータを分析してみよう
Tatuya Kobayashi
Was ist angesagt?
(14)
データプランナーによるデータ系施策について
データプランナーによるデータ系施策について
20150128 cross2015
20150128 cross2015
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
Microsoft Search @O365JPFUK
Microsoft Search @O365JPFUK
データを扱いたい!はじめてのAWS
データを扱いたい!はじめてのAWS
「R for Cloud Computing」の紹介
「R for Cloud Computing」の紹介
読書会のすすめ
読書会のすすめ
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
PySpark を分析用途に使っている話
PySpark を分析用途に使っている話
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
Pythonで時系列のデータを分析してみよう
Pythonで時系列のデータを分析してみよう
Ähnlich wie Dataflow(python)を触った所感
Chainerで学ぶdeep learning
Chainerで学ぶdeep learning
Retrieva inc.
Challenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshi
Rakuten Group, Inc.
社内サービスのUI改善
社内サービスのUI改善
gree_tech
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Hajime Sano
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
GPS BoTもどきをつくろう (第3回 Home365祭り)
GPS BoTもどきをつくろう (第3回 Home365祭り)
Kenchi Hikita
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携
Chuki ちゅき
OneNote のススメ。 Office 365 利活用の促進 - クライアント推し。
OneNote のススメ。 Office 365 利活用の促進 - クライアント推し。
Akira Fukami
drive api×deeplapiで高性能ocr翻訳サービスを開発した話【WebAPT_LT会】
drive api×deeplapiで高性能ocr翻訳サービスを開発した話【WebAPT_LT会】
TakeshiYamamoto33
kontagent紹介資料
kontagent紹介資料
Eiji Hachiya
どうなる?SharePoint 2016 最新事情!
どうなる?SharePoint 2016 最新事情!
Hirofumi Ota
Google HomeとSharePointを連携させてみた! 第8回 jpsps share pointoffice365名古屋分科勉強会 at ge...
Google HomeとSharePointを連携させてみた! 第8回 jpsps share pointoffice365名古屋分科勉強会 at ge...
Kazuya Sugimoto
スグにできる!Microsoft Flow でこんな連携あんな連携
スグにできる!Microsoft Flow でこんな連携あんな連携
Hirofumi Ota
Creating Mashup service in Yamaguchi
Creating Mashup service in Yamaguchi
Ohishi Mikage
PlusAIでRPAによる業務の自動化範囲を拡大
PlusAIでRPAによる業務の自動化範囲を拡大
Akimitsu Takagi
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
Google Cloud Platform - Japan
わんくま同盟 大阪勉強会 #46
わんくま同盟 大阪勉強会 #46
Atsuo Yamasaki
リモートチームとふりかえり改善フレームワーク
リモートチームとふりかえり改善フレームワーク
Maehana Tsuyoshi
Awsで作るビッグデータ解析今とこれから
Awsで作るビッグデータ解析今とこれから
Shohei Kobayashi
ML Opsのススメ
ML Opsのススメ
紀彦 中林
Ähnlich wie Dataflow(python)を触った所感
(20)
Chainerで学ぶdeep learning
Chainerで学ぶdeep learning
Challenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshi
社内サービスのUI改善
社内サービスのUI改善
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
GPS BoTもどきをつくろう (第3回 Home365祭り)
GPS BoTもどきをつくろう (第3回 Home365祭り)
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携
OneNote のススメ。 Office 365 利活用の促進 - クライアント推し。
OneNote のススメ。 Office 365 利活用の促進 - クライアント推し。
drive api×deeplapiで高性能ocr翻訳サービスを開発した話【WebAPT_LT会】
drive api×deeplapiで高性能ocr翻訳サービスを開発した話【WebAPT_LT会】
kontagent紹介資料
kontagent紹介資料
どうなる?SharePoint 2016 最新事情!
どうなる?SharePoint 2016 最新事情!
Google HomeとSharePointを連携させてみた! 第8回 jpsps share pointoffice365名古屋分科勉強会 at ge...
Google HomeとSharePointを連携させてみた! 第8回 jpsps share pointoffice365名古屋分科勉強会 at ge...
スグにできる!Microsoft Flow でこんな連携あんな連携
スグにできる!Microsoft Flow でこんな連携あんな連携
Creating Mashup service in Yamaguchi
Creating Mashup service in Yamaguchi
PlusAIでRPAによる業務の自動化範囲を拡大
PlusAIでRPAによる業務の自動化範囲を拡大
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
わんくま同盟 大阪勉強会 #46
わんくま同盟 大阪勉強会 #46
リモートチームとふりかえり改善フレームワーク
リモートチームとふりかえり改善フレームワーク
Awsで作るビッグデータ解析今とこれから
Awsで作るビッグデータ解析今とこれから
ML Opsのススメ
ML Opsのススメ
Kürzlich hochgeladen
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
Kürzlich hochgeladen
(8)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
Dataflow(python)を触った所感
1.
GCP Dataflow (Python)
を触った所感 (株)エーピーコミュニケーションズ 山岡 亮 2017/11/28
2.
自己紹介 • 山岡 亮(やまおか
りょう) • (株)エーピーコミュニケーションズ • 新規自社サービス立ち上げ部隊に所属(5人) • Webアプリのバックエンド、自動化周りを担当中 • 前職は新潟県の温泉旅館で経理事務担当 Qiita https://qiita.com/ryo-yamaoka Twitter https://twitter.com/mountainhill14
3.
背景 • ここ最近はWebサービスの開発を担当しています • AppEngine
SE + Golang • まだ未発表のプロダクトなのですが、今後ユーザー数が増えた場合に アクセスログの分析等でサービスの改善や収益化に役立てて行こう という野望を抱いています • その処理基盤の候補としてDataflowを触ってみましたので、 内容と所感についてお話します
4.
やってみたこと • WordCount • 巨大なリストを生成して大量の乱数生成結果をカウント •
Datastoreに格納されている大量のデータをJanomeで 形態素解析してJSONに変換しGCSに結果を出力する
5.
WordCount • 言わずと知れた分散処理界隈のHello, World
6.
朝飯前
7.
乱数カウント • 10億行の配列を生成してrandom.choice()の結果を 格納しカウントする
8.
昼飯前
9.
躓いたところ、解決法、活用方法 • いきなり beam.Create([0]
* 1000000000) とやって OOMで死亡(そりゃそうだ) • FlatMapで1000倍ずつ増やすことを2回繰り返して回避
10.
躓いたところ、解決法、活用方法 • いきなり beam.Create([0]
* 1000000000) とやって OOMで死亡(そりゃそうだ) • FlatMapで1000倍ずつ増やすことを2回繰り返して回避 • お昼ご飯のメニューに迷った場合のソリューションとして使える • 蒙古タンメン中●にするか、それともラーメン●郎にするか
11.
大量のデータを形態素解析 • Datastoreに格納されているデータをJanomeで形態素解析 してGCSに結果を出力する • RSSフィードから収集したタイトルと概要、約31万件レコード •
それを結合して単語毎に区切ったJSONに変換 • n1-highcpu-4指定で約1時間かかった (ピーク時10台までオートスケールした) URL タイトル 概要 日時 http://www.kiji.jp/xxx.html 本日は晴天なり…… この記事は云々…… 1508310060 {"http://www.kiji.jp/xxx.html": ["本日", "は", "晴天", "なり", "この", "記事", "は", "云々"]}
12.
夕飯前
13.
躓いたところ、解決法 • ある程度までオートスケーリングが大きくなると起動失敗 を繰り返す事象が発生 • グローバルアドレスとCPUコア数がソフトリミットに引っかかっていた •
申請直後に拡大されたので一定数以下は恐らく自動対応 • requirements.txtを使った環境構築に失敗する • pkg-resources==0.0.0 が無いというエラーが発生 • その原因は……
14.
Ubuntuのバグでした https://github.com/twitter/twemoji
15.
バグでした • Ubuntu16.04が変なメタデータを渡してくるのが原因 • https://github.com/pypa/pip/issues/4022 pip
freeze includes "pkg-resources==0.0.0" (Ubuntu Server 16.04 LTS) • pip freeze > requirements.txt で出力したら pkg-resources==0.0.0 の行を削除して再度実行すれば無事に動きます
16.
Apache Beamの所感 • ここが良い •
初学者でも手軽に分散処理を書ける • 後から知りましたがPySparkに類似な雰囲気のコードです • 開発が活発(GitHubの通知は切った方がいいです) • ここがイマイチ • Python対応がまだちょっと弱いので今後に期待 • Streamingを始め未対応機能がチラホラ…… • 特に是非Python3系へ対応を……(切実
17.
GCP Dataflowの所感 • ここが良い •
Dataprocより尚手軽に使える分散処理基盤で揺り籠から 墓場までVMの運用管理を全く気にする必要が無く非常に楽 • ここがイマイチ • Dataflowを使ったフローをどう組むか? • AppEngineからKick……? • Apache Airflow! • PreemptibleVMに非対応なのでお金が嵩みやすい
18.
一番ハマったところ
19.
公式日本語ドky(以下略
20.
ご清聴ありがとうございました
Jetzt herunterladen