Weitere ähnliche Inhalte
Ähnlich wie Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス (20)
Mehr von Takuro Sasaki (11)
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
- 2. ✦ プロフィール
‣ Webシステムを得意とするSIerで勤務
‣ 最近の仕事はAWS事業の推進・モバイルアプリ開発
‣ Webスクレイピングして、データマイニングするのが趣味
★ ソーシャル・ネットワーク
‣ blog: http://blog.takuros.net/
‣ twitter: @dkfj
‣ Facebook: takuro.sasaki
‣ SlideShare: http://www.slideshare.net/takurosasaki/
@dkfj
自己紹介: 佐々木拓郎
- 12. Amazon Web Services(AWS)とは、Amazon.com によ
り提供される各種遠隔コンピューティングサービス(ウェブサー
ビス)である。
2006年7月に公開され、Amazon Web Services は他のウェ
ブサイトやクライアントサイドアプリケーションに対しオンライ
ンサービスをち提ょ供っしてとい理る解。でこれきらなのいサー。ビ。ス。
の多くはエンドユー
ザに直接公開されているものではなく、他の開発者が使用可能な
機能を提供するものである。
Amazon Web Services の各種サービスはHTTPを通じ、
REST および SOAP プロトコルを使用してアクセスされる。費用
は実際の使用量に応じて決定される。
ウィキペディアより
- 14. コンピュータ処理
Amazon EC2
AWSのサービス一覧
ストレージ
Amazon S3, Glaicer
Amazon EBS
データベース
Amazon RDS, DynamoDB
Amazon Simple DB
Elasticache, Redshift
コンテンツ配信
Amazon
CloudFront
メッセージ
Amazon SNS
Amazon SQS
分散処理
Elastic
MapReduce
メール配信
Amazon SES
ワークホース
Amazon
Mechanical Turk
認証&請求
AWS IAM
Identity Federation
Consolidated Billing
モニタリング
Amazon
CloudWatch
スケーリング
Auto Scale
ネットワーク&ルーティング
Amazon VPC
ELB, Route53
AWS DirectConnect
ライブラリ&SDKs
Java, PHP, .NET,
Python, Ruby
Webインターフェース
Management
Console
IDEプラグイン
Eclipse,
Visual Studio
デプロイと自動化
Elastic Beanstalk
CloudFormation
OpsWorks
この辺りを
使います
- 15. Amazon Elastic Compute Cloud(Amazon EC2)
仮想コンピュータサービス
• AWSの中核サービス
• インスタンスサイズごとに価格設定。1
時間単位の課金
• パブリックIPが自動的に付与。
(一定の条件あり)
• 1時間あたり、$0.013(≒1.4円)から
スポットインスタンスを利用すれば、$0.0031(≒0.3円)
- 16. Amazon Simple Storage Service(Amazon S3)
オンラインストレージ・サービス
• AWSのもう1つの中核サービス
• 月々$0.0300 /GB。
• 1TB保存で、3000円強。
• 容量無制限。(お金があれば)
• 他にもAPIリクエスト料も必要。
• 99.999999999%の堅牢性
- 17. Amazon Simple Queue Service(Amazon SQS)
プル型のキュー・サービス
• 最古のAWSサービス
(2004年サービス開始)
• 疎結合アーキテクチャの肝
(サービス間連携に大活躍)
• 低コスト
(月間無料枠&非常に低価格な従量課金制)
参照:Amazon Simple Queue Service(SQS)の使い方
http://d.hatena.ne.jp/dkfj/20130205/1360076804
- 24. 巡回先サイトに配慮する
• 1秒ルール
• 同一サイトを対象にする場合は、多重度をあげない
• Robots.txtの尊重
• 動的サイトの場合は、特に注意
(動的サイトで中小システムであれば、秒あたりの処理件数は20~30件くらい)
- 25. まとめ
!
‣ AWSは、個人でも使える
‣ クローラー作成/スクレイピングとの相性よし
‣ 取得先サイトに迷惑をかけないように