More Related Content
Similar to Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 (20)
More from Junichi Noda (20)
Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築
- 42. • Mikasa Twitter のデータ収集解析の2つのアプロ
ーチについて
• ①Twitter Filter + ユーザー辞書のみの単語で絞る
• 1のメリット▶集計しやすい、後続の処理も設計しや
すい。
• 1のデメリット▶未知の単語を拾えない、ユーザー辞
書にひもづく別のワードを拾えない
• 結論:ある程度、解析対象のドメインが固定されて
いるものにはこのアプローチは有効
- 43. • ② Twitter Filter + ユーザー辞書を使いつつ全ての単語を集計
• メリット▶ 未知のワードが拾える、リアルなネットワーク解
析ができる。
• デメリット▶ ジャンクワードが多く出現するのでデータクレ
ンジングの作業にコストがかかる。
• 結論:解析対象が不明なドメインの場合、まずこのアプローチ
で回す。計測対象のネットワークが変動しやすいドメインの場
合はこのアプローチが有効。ある程度アプローチ2で回してア
プローチ1に切り替える、もしくはアプローチ1を追加した二
段のサービスに設計する。
- 44. Spark Streaming 〜ソースコード補足
• TwitterUtilは実体はJavaのTwitterライブラリで
あるtwitter4j
• Twitter解析にはTwitterAPI特有のAPIレートリ
ミット、単一IPによる高負荷時のアクセス制
限があるので注意
• Twitter開発者アカウントには電話番号が必須
になったので気軽に開発はできなくなりつつ
ある。