Submit Search
Upload
JAWSUG architecture-crowler
•
5 likes
•
5,821 views
Takuro Sasaki
Follow
Lambdaで作るクローラー&Webスクレイピング アーキテクチャ面から
Read less
Read more
Internet
Report
Share
Report
Share
1 of 16
Download now
Download to read offline
Recommended
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング
Takuro Sasaki
Innovation eggcloudnative
Innovation eggcloudnative
Takuro Sasaki
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Takuro Sasaki
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Takuro Sasaki
Rubyで作るクローラー Ruby crawler
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
Capybaraで雑にWebスクレイピング
Capybaraで雑にWebスクレイピング
Koji Nakamura
JAWS-UG初心者支部 AWS書籍活用術
JAWS-UG初心者支部 AWS書籍活用術
Takuro Sasaki
Rubyによるクローラー開発
Rubyによるクローラー開発
しくみ製作所
Recommended
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング
Takuro Sasaki
Innovation eggcloudnative
Innovation eggcloudnative
Takuro Sasaki
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Takuro Sasaki
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Takuro Sasaki
Rubyで作るクローラー Ruby crawler
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
Capybaraで雑にWebスクレイピング
Capybaraで雑にWebスクレイピング
Koji Nakamura
JAWS-UG初心者支部 AWS書籍活用術
JAWS-UG初心者支部 AWS書籍活用術
Takuro Sasaki
Rubyによるクローラー開発
Rubyによるクローラー開発
しくみ製作所
JAWSUG Osaka S3 CloudSearch
JAWSUG Osaka S3 CloudSearch
Takuro Sasaki
20150207 elastic loadbalancer
20150207 elastic loadbalancer
Daiki Mori
Crawler Commons
Crawler Commons
chibochibo
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
Koichiro Nishijima
Jawsug osaka10 service®ions
Jawsug osaka10 service®ions
Takuro Sasaki
DevLove Kansai AWS
DevLove Kansai AWS
Takuro Sasaki
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG初心者支部 AWSの勉強の仕方
Takuro Sasaki
20150207 amazon elasticache
20150207 amazon elasticache
Daiki Mori
Reactjs
Reactjs
しくみ製作所
CloudSearchによる全文検索 - CM:道 2014/08/01
CloudSearchによる全文検索 - CM:道 2014/08/01
Shuji Watanabe
イノベーションエッグLt資料
イノベーションエッグLt資料
Yuki Yoshida
JAWS-UG四国クラウドお遍路2014
JAWS-UG四国クラウドお遍路2014
Shiraishi Masayuki
JAWSUG Kansai Simple Workflow Service (SWF)
JAWSUG Kansai Simple Workflow Service (SWF)
Takuro Sasaki
Slerがawsで運用してきた話
Slerがawsで運用してきた話
Sato Shun
20150523 operation jaws(JAWS-UG OSAKA #13)
20150523 operation jaws(JAWS-UG OSAKA #13)
Daiki Mori
Jaws ug shimane-1
Jaws ug shimane-1
Mutsumi IWAISHI
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
Yuki Yoshida
AWS歴4ヵ月の勉強法
AWS歴4ヵ月の勉強法
Takeshi Wakamatsu
Node.jsで始める Modern JavaScript Framework
Node.jsで始める Modern JavaScript Framework
kamiyam .
jQueryを中心としたJavaScript
jQueryを中心としたJavaScript
hideaki honda
JAWS DAYS 2015
JAWS DAYS 2015
陽平 山口
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
貴志 上坂
More Related Content
What's hot
JAWSUG Osaka S3 CloudSearch
JAWSUG Osaka S3 CloudSearch
Takuro Sasaki
20150207 elastic loadbalancer
20150207 elastic loadbalancer
Daiki Mori
Crawler Commons
Crawler Commons
chibochibo
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
Koichiro Nishijima
Jawsug osaka10 service®ions
Jawsug osaka10 service®ions
Takuro Sasaki
DevLove Kansai AWS
DevLove Kansai AWS
Takuro Sasaki
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG初心者支部 AWSの勉強の仕方
Takuro Sasaki
20150207 amazon elasticache
20150207 amazon elasticache
Daiki Mori
Reactjs
Reactjs
しくみ製作所
CloudSearchによる全文検索 - CM:道 2014/08/01
CloudSearchによる全文検索 - CM:道 2014/08/01
Shuji Watanabe
イノベーションエッグLt資料
イノベーションエッグLt資料
Yuki Yoshida
JAWS-UG四国クラウドお遍路2014
JAWS-UG四国クラウドお遍路2014
Shiraishi Masayuki
JAWSUG Kansai Simple Workflow Service (SWF)
JAWSUG Kansai Simple Workflow Service (SWF)
Takuro Sasaki
Slerがawsで運用してきた話
Slerがawsで運用してきた話
Sato Shun
20150523 operation jaws(JAWS-UG OSAKA #13)
20150523 operation jaws(JAWS-UG OSAKA #13)
Daiki Mori
Jaws ug shimane-1
Jaws ug shimane-1
Mutsumi IWAISHI
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
Yuki Yoshida
AWS歴4ヵ月の勉強法
AWS歴4ヵ月の勉強法
Takeshi Wakamatsu
Node.jsで始める Modern JavaScript Framework
Node.jsで始める Modern JavaScript Framework
kamiyam .
jQueryを中心としたJavaScript
jQueryを中心としたJavaScript
hideaki honda
What's hot
(20)
JAWSUG Osaka S3 CloudSearch
JAWSUG Osaka S3 CloudSearch
20150207 elastic loadbalancer
20150207 elastic loadbalancer
Crawler Commons
Crawler Commons
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
Jawsug osaka10 service®ions
Jawsug osaka10 service®ions
DevLove Kansai AWS
DevLove Kansai AWS
JAWSUG初心者支部 AWSの勉強の仕方
JAWSUG初心者支部 AWSの勉強の仕方
20150207 amazon elasticache
20150207 amazon elasticache
Reactjs
Reactjs
CloudSearchによる全文検索 - CM:道 2014/08/01
CloudSearchによる全文検索 - CM:道 2014/08/01
イノベーションエッグLt資料
イノベーションエッグLt資料
JAWS-UG四国クラウドお遍路2014
JAWS-UG四国クラウドお遍路2014
JAWSUG Kansai Simple Workflow Service (SWF)
JAWSUG Kansai Simple Workflow Service (SWF)
Slerがawsで運用してきた話
Slerがawsで運用してきた話
20150523 operation jaws(JAWS-UG OSAKA #13)
20150523 operation jaws(JAWS-UG OSAKA #13)
Jaws ug shimane-1
Jaws ug shimane-1
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
JAWS-UG初心者支部第6回勉強会 AWS概要 説明資料
AWS歴4ヵ月の勉強法
AWS歴4ヵ月の勉強法
Node.jsで始める Modern JavaScript Framework
Node.jsで始める Modern JavaScript Framework
jQueryを中心としたJavaScript
jQueryを中心としたJavaScript
Similar to JAWSUG architecture-crowler
JAWS DAYS 2015
JAWS DAYS 2015
陽平 山口
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
貴志 上坂
これからのクラウドネイティブアプリケーションの話をしよう
これからのクラウドネイティブアプリケーションの話をしよう
真吾 吉田
第15回 Solr勉強会 #SolrJP Amazon CloudSearch Deep Dive
第15回 Solr勉強会 #SolrJP Amazon CloudSearch Deep Dive
Amazon Web Services Japan
AWS小ネタ集
AWS小ネタ集
Takehito Tanabe
20181201 Azure Storage 静的 Web サイト ホスティング #きたあず #jazug
20181201 Azure Storage 静的 Web サイト ホスティング #きたあず #jazug
Katsuya Shimizu
20130309 春のJAWS-UG三都物語 美人CDP
20130309 春のJAWS-UG三都物語 美人CDP
真吾 吉田
実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン
Hiroyasu Suzuki
LocalStack
LocalStack
chibochibo
インフラ系自主トレするならAWS
インフラ系自主トレするならAWS
Yasuhiro Araki, Ph.D
AWS Elastic BeanstalkとAWS Lambdaのご紹介
AWS Elastic BeanstalkとAWS Lambdaのご紹介
Akio Katayama
EC2上でパケットをミラーリング
EC2上でパケットをミラーリング
Kenta Yasukawa
Re-frame and A-Frame
Re-frame and A-Frame
Kazuhiro Hara
IaC事始め Infrastructure as Code やってみる?
IaC事始め Infrastructure as Code やってみる?
大使 梶原
AWSクラウドデザインパターン(CDP) - コンテンツ配信編 -
AWSクラウドデザインパターン(CDP) - コンテンツ配信編 -
Akio Katayama
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
Kazumi IWANAGA
20130516 cm課外授業8-aws
20130516 cm課外授業8-aws
都元ダイスケ Miyamoto
AWS管理を自動化する奥義
AWS管理を自動化する奥義
クラスメソッド株式会社
20130615 オンプレ\(^o^)/クラウドにモヤモヤしてる人が押さえておくべき3つのこと
20130615 オンプレ\(^o^)/クラウドにモヤモヤしてる人が押さえておくべき3つのこと
真吾 吉田
06.吉田さん オンプレ\(^o^)/
06.吉田さん オンプレ\(^o^)/
FreelanceBusinessFestival
Similar to JAWSUG architecture-crowler
(20)
JAWS DAYS 2015
JAWS DAYS 2015
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
これからのクラウドネイティブアプリケーションの話をしよう
これからのクラウドネイティブアプリケーションの話をしよう
第15回 Solr勉強会 #SolrJP Amazon CloudSearch Deep Dive
第15回 Solr勉強会 #SolrJP Amazon CloudSearch Deep Dive
AWS小ネタ集
AWS小ネタ集
20181201 Azure Storage 静的 Web サイト ホスティング #きたあず #jazug
20181201 Azure Storage 静的 Web サイト ホスティング #きたあず #jazug
20130309 春のJAWS-UG三都物語 美人CDP
20130309 春のJAWS-UG三都物語 美人CDP
実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン
LocalStack
LocalStack
インフラ系自主トレするならAWS
インフラ系自主トレするならAWS
AWS Elastic BeanstalkとAWS Lambdaのご紹介
AWS Elastic BeanstalkとAWS Lambdaのご紹介
EC2上でパケットをミラーリング
EC2上でパケットをミラーリング
Re-frame and A-Frame
Re-frame and A-Frame
IaC事始め Infrastructure as Code やってみる?
IaC事始め Infrastructure as Code やってみる?
AWSクラウドデザインパターン(CDP) - コンテンツ配信編 -
AWSクラウドデザインパターン(CDP) - コンテンツ配信編 -
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
はじめての Bluemix でシングルサインオン ~ 雲間を越えて、つなげたい
20130516 cm課外授業8-aws
20130516 cm課外授業8-aws
AWS管理を自動化する奥義
AWS管理を自動化する奥義
20130615 オンプレ\(^o^)/クラウドにモヤモヤしてる人が押さえておくべき3つのこと
20130615 オンプレ\(^o^)/クラウドにモヤモヤしてる人が押さえておくべき3つのこと
06.吉田さん オンプレ\(^o^)/
06.吉田さん オンプレ\(^o^)/
More from Takuro Sasaki
Crawler for Non engineer
Crawler for Non engineer
Takuro Sasaki
Lambda認証認可パターン
Lambda認証認可パターン
Takuro Sasaki
Swaggerで始めるモデルファーストなAPI開発
Swaggerで始めるモデルファーストなAPI開発
Takuro Sasaki
Jawsug chiba API Gateway
Jawsug chiba API Gateway
Takuro Sasaki
AWS Lambdaで作るクローラー/スクレイピング
AWS Lambdaで作るクローラー/スクレイピング
Takuro Sasaki
サイト/ブログから本文抽出する方法
サイト/ブログから本文抽出する方法
Takuro Sasaki
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
Takuro Sasaki
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
Takuro Sasaki
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
Takuro Sasaki
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
Takuro Sasaki
第8回JAWSUG大阪 AWSの事例/課金について
第8回JAWSUG大阪 AWSの事例/課金について
Takuro Sasaki
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
Takuro Sasaki
More from Takuro Sasaki
(12)
Crawler for Non engineer
Crawler for Non engineer
Lambda認証認可パターン
Lambda認証認可パターン
Swaggerで始めるモデルファーストなAPI開発
Swaggerで始めるモデルファーストなAPI開発
Jawsug chiba API Gateway
Jawsug chiba API Gateway
AWS Lambdaで作るクローラー/スクレイピング
AWS Lambdaで作るクローラー/スクレイピング
サイト/ブログから本文抽出する方法
サイト/ブログから本文抽出する方法
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
第8回JAWSUG大阪 AWSの事例/課金について
第8回JAWSUG大阪 AWSの事例/課金について
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
JAWSUG architecture-crowler
1.
クローラー&Webスクレイピング with AWS Lambda JAWS-UG
アーキテクチャ専門支部 クラウドネイティブ分科会 CDP議論会 #7 佐々木拓郎 2016/03/25
2.
自己紹介 佐々木 拓郎 • AWSとモバイル • http://blog.takuros.net/ •
http://www.slideshare.net/ takurosasaki/ • twitter: @dkfj
3.
AWSの一番分厚い本 (大容量480P) http://amzn.to/1BLiYcO
4.
Rubyのクローラー本 何故か人気の本 by 編集者 http://amzn.to/1lsJ5id
5.
クローラー&スクレピング •Webスクレピング ✓特定のページから情報を抜き出す行為のこと ✓HTMLのDOM解析派と正規表現によるパターンマッチング派がいる •クローラー ✓Webを巡回して文章や画像を定期的に取得する行為 ✓巡回・抽出(スクレイピング)・保存の機能がある
6.
3種類のページタイプ •ステートレスなページ(状態を持たない) ✓いわゆる静的ページに多い ✓一番簡単にデータをスクレイプできる •ステートフルなページ(状態を持つページ) ✓ログイン状態やPOSTなど前画面の情報を前提とするタイプ ✓サーバサイドで動的に生成されるページの多くがこのタイプ •JavaScriptで動的に構築されるページ ✓JavaScriptを元にクライアント側でページを構築される ✓ステートレス/ステートフル、どちらのタイプもある
7.
ステートレスなページ スクレイピング プログラム Webサイト スクレイピングのライブラリ選定だけがポイント html url
8.
ステートフルなページ スクレイピング プログラム Webサイト • 対話型のライブラリが必要な場合がある • ブラウザは不要 •
ログイン状態の有無は、Cookieのみで対処可能なケースも パラメータ 遷移 html
9.
JavaScriptによる動的ページ スクレイピング プログラム Webサイト • ブラウザが必要。ほぼヘッドレスブラウザを使う • PhantomJS&CasperJS (JavaScript
APIで操作できるWebKitブラウザ) • JavaScriptを解析して、データ部分を探すという手もある ヘッドレス ブラウザ リクエスト html リクエスト レスポンス
10.
クローラー/スクレイプのライブラリ JavaScript Python Ruby 構文解析&抽出
cheerio-httpcli BeautifulSoup nokogiri 巡回&保存 ??? Scrapy anemone Webページ操作 mechanize-js? mechanize? Mechanize ヘッドレス ブラウザ PhantoJS +CasperJA Splinter? Capybara (Selenium +PhantomJS)
11.
クローラー実行基盤としての Lambada •理想的な環境 ✓グローバルIPありでプログラムを実行できる ✓スクレイピングだけであれば、文句なし ✓発火イベントが充実しているので、収集と解析を分離しやすい •注意点 ✓処理時間限界(5分)があるので、クローラーの構造を考える必要あり ✓複数グローバルIPの取得を任意では出来ない
12.
スクレイプの アーキテクチャ例 ②HTTP リクエスト ③HTTP レスポンス ④html 保存 ⑤S3 Event Call ⑥S3 get Object ⑦スクレイプ ⑧結果①キック
13.
サービス監視 生死監視用のページを作成すべき • apache/nginxでレスポンスするページ • apache/nginx+APPサーバでレスポンスするページ •
apache/nginx+APPサーバ+DBでレスポンスするページ Web 層 HTTP O.K. アプリ 層 DB 層 アプリ O.K. DB O.K.
14.
手抜きスクレイピング json Webサイト サービス(import.io)併用 http リクエスト スクレイプ
15.
参考情報 •Lambdaで作るクローラー/スクレイピング ✓http://blog.takuros.net/entry/2014/12/14/053606 •AWS Lambda+PhantomJS/CasperJSでスクレイピング ✓http://blog.takuros.net/entry/2015/12/01/074444
16.
AWSの鈍器のような本 (640ページ!?) 4/11発売開始!! 絶賛、予約受付中!! http://amzn.to/1R4yyLy
Download now