SlideShare ist ein Scribd-Unternehmen logo
1 von 11
チャッカマンPJ #2
LT大会支援システム
スクレイピング学習編 #2
Not DataScientist
Not Engineer
• 商売
• マーケティング・リサーチの集計・分析・コンサル
• バックオフィスの業務推進(金融・証券・会計)
• ITインストラクター
• 好き
• シンセ/日本画とか
• 流行りモノ/イベント
• PC/ガジェット
• 目標
• 自分が楽しくて、世界をちょっと便利にすることで食っていく
Marketer & Bussiness
Consultant
前回のアンケートの結果
~マーケティング・リサーチ風に~
• 発表について
• 半数以上が、具体的に発表を検討中
• 興味の範囲
• 機械学習は約9割、データ分析・統計学は約7割と突出している
• IoT・ゲーム/アニメ/オタクコンテンツには、ともに半数近くの人が興味を持っている
• 経営学・数学・Web開発には、それぞれ3割程度の人が興味を持っている
結構、みんなネタ持ってんじゃん
発表の敷居が高い
• 技術力
• 場にそぐうネタなのか
• 遠慮
チャッカマンPJとはなんぞや
• 勉強会のオープンなコミュニティと、ビジネスの両立
• 失敗できる、好きなことができる
• 各々の利益(趣味の発展、金儲け)につなげられるチャンスを作る
• LT会支援サイトの構築
• 発表者や参加者の主体性を高める(=インセンティブを与える)
• システムの側から、発表の敷居を低くする
プロジェクト立案・Windows環境構築編 #1
実はconnpass APIがしょぼい
• LT支援サイトを作るなら…
• 他の勉強会サイトと競合しない・データを活用できることが前提
• 必須の機能
• LTの時間割作成
• 参加者・発表者へのポイント・バッジの付与
• 取得したい値
• 参加者一覧
Pythonでスクレイピングをしよう
• 必要なもの
• HTTPライブラリ
• requests
• urllib
• httplib
• http.client
• html解析ライブラリ
• Beautiful Soup
• pyQuery
• HTTPパーサ
• lxml
• html.parser
XPATHの利用経験があれば、さほど難しい感じはない
AnacondaにBeautiful Soupはプリインストールされている!
• スクレイピング beautiful soup:12,600件
• スクレイピング pyquery:1,110件
• スクレイピング lxml:2,130件
• スクレイピング html.parser:5,590 件
• beautiful soup lxml:96,100件
• beautifulsoup html.parser:92,300件
→圧倒的に記事が多い
→jQueryに慣れている人向け
→柔軟・高速
→標準ライブラリ
Beautiful Soup + lxmlでやろう
• 文字コードの考慮だけ必要かな?→chardet
• 参考:http://orangain.hatenablog.com/entry/encoding-in-requests-and-beautiful-soup
• すげえ簡単
構造を調べよう
• ソースをそのまま見てもいいけど…
• Firebug便利ですよ
参加者一覧を作ってみよう
• 楽勝
• 1行目で指定クラス取得
• 2行目でテキスト取得
企画中のMeetup
• 第二火曜の勉強会
• 三題噺をモチーフとした、LTの練習会
• アカデミック・ITの趣味への応用
• デジタル/アナログゲームをテーマにしたハンズオン
• 音楽/美術分野への応用事例
• 休日開催のMeetup
• テーマ:統計/機械学習/マーケティング
2017年末~2018年始動!
アンケート回答状況
• 0 responses!

Weitere ähnliche Inhalte

Ähnlich wie Lighter Project #2 @cougar

『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料Akihiko Uchino
 
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ Kenji Noguchi
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理Koichi Hamada
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)Tokoroten Nakayama
 
20190606_ml_and_buisiness
20190606_ml_and_buisiness20190606_ml_and_buisiness
20190606_ml_and_buisinessYoichi Tokita
 
RDFのチェックツール「rdflint」と コミュニティによるオープンデータの作成
RDFのチェックツール「rdflint」とコミュニティによるオープンデータの作成RDFのチェックツール「rdflint」とコミュニティによるオープンデータの作成
RDFのチェックツール「rdflint」と コミュニティによるオープンデータの作成Takeshi Mikami
 
データドリブンセッション2_IMJ山本
データドリブンセッション2_IMJ山本データドリブンセッション2_IMJ山本
データドリブンセッション2_IMJ山本IMJ Corporation
 
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記Satoyuki Tsukano
 
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」GIG inc.
 
カスタマーサポートにおけるAIチャットボットの導入
カスタマーサポートにおけるAIチャットボットの導入カスタマーサポートにおけるAIチャットボットの導入
カスタマーサポートにおけるAIチャットボットの導入Rakuten Group, Inc.
 
「R」による従業員満足度調査(ES)事例
「R」による従業員満足度調査(ES)事例「R」による従業員満足度調査(ES)事例
「R」による従業員満足度調査(ES)事例良治 富田
 
「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめAkihiko Uchino
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史Leading Edge Co.,Ltd.
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録syou6162
 
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションいじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションcyberagent
 

Ähnlich wie Lighter Project #2 @cougar (20)

企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
 
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
 
Tdc 20181121
Tdc 20181121Tdc 20181121
Tdc 20181121
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
 
20190606_ml_and_buisiness
20190606_ml_and_buisiness20190606_ml_and_buisiness
20190606_ml_and_buisiness
 
RDFのチェックツール「rdflint」と コミュニティによるオープンデータの作成
RDFのチェックツール「rdflint」とコミュニティによるオープンデータの作成RDFのチェックツール「rdflint」とコミュニティによるオープンデータの作成
RDFのチェックツール「rdflint」と コミュニティによるオープンデータの作成
 
データドリブンセッション2_IMJ山本
データドリブンセッション2_IMJ山本データドリブンセッション2_IMJ山本
データドリブンセッション2_IMJ山本
 
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
 
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
 
カスタマーサポートにおけるAIチャットボットの導入
カスタマーサポートにおけるAIチャットボットの導入カスタマーサポートにおけるAIチャットボットの導入
カスタマーサポートにおけるAIチャットボットの導入
 
「R」による従業員満足度調査(ES)事例
「R」による従業員満足度調査(ES)事例「R」による従業員満足度調査(ES)事例
「R」による従業員満足度調査(ES)事例
 
「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
 
Minitabへようこそ 製造向け
Minitabへようこそ 製造向けMinitabへようこそ 製造向け
Minitabへようこそ 製造向け
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーションいじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
 
QnA Maker 逆入門
QnA Maker 逆入門QnA Maker 逆入門
QnA Maker 逆入門
 
IT業界の現状
IT業界の現状IT業界の現状
IT業界の現状
 

Lighter Project #2 @cougar