バースト検知手法を用いた桜の見頃推定

バースト検知手法を用いた 
桜の見頃推定
下園良太 / 乾孝司
(筑波大学大学院/知能情報・生体工学研究室)
1
第22回SIG-AM研究会

研究背景 (1/2)
● 観光者の9割以上の人が旅行計画にICTを活用*
● WebサイトやSNSで情報収集
● 旅行計画を立てる上で観光資源の「旬」は重要な情報
2
*観光庁 ICT 活用による観光振興サービスガイド  
http://www.mlit.go.jp/common/001080544.pdf
桜の見頃魚の食べ頃

研究背景 (2/2)
3
SNS・Webサイト
リアルタイム情報はあるが，情報
がまとまっておらず検索などで 
獲得するのは困難
課題
「桜の見頃は3月下旬」などと 
なっており，旬期間が細かい 
日，時間単位では分からない
ガイドブック
課題

先行研究
● 桜や紅葉の見頃推定手法（遠藤ら 2016）
● 位置情報付きツイートの出現数に対する移動平均手法
で見頃を推定
● 以下の2条件を満たした日を見頃とする
4
P1 = X(365)
X(A) = X(B)
Pn：n日前のデータ数
X(Y)：Y日移動平均
Y：算出対象期間
① 下式を満たす日
P1 = X(365)
X(A) = X(B)
②下式が（A/2）日以上続いた日
A, B： 7日移動平均と生物移動平均で
短い方の日数をA， 
長い方の日数をB

先行研究手法の課題
‣ 見頃推定期間が細かく分割される
例）まとまらず複数になる：3/27-3/29，3/31-4/1，4/3-4/6 
‣ 生活周期に合わせて注目度が変化する
例）土日などは投稿全体の投稿数が増える 
‣ キーワードのみで使用するデータを選択するとノイズが含まれる
例）生物の桜ではなく，人名の桜が混じってしまう 
‣ データ不足
例）地域によっては全くデータがない場合がある
5
● 追試を行い先行研究の課題を洗い出した

本研究の目的
‣ 目標
● 観光資源の旬の推定
‣ 目的
● 先行研究と同じ条件での桜に対する見頃推定
● バースト検知手法を適用する
● 「見頃推定期間が細かく分割される」問題の解決
‣ 利用シチュエーション
• 朝に確認して，今日に当該観光地へ行ってよいかの判断
ができる
6

バースト（Kleinberg 2002*）
● バースト…ある活動・事象の一時的な盛り上がり
● 例）地震，音楽イベントやテレビ番組など
7
バースト期間
*J. Kleinberg. Bursty and hierarchical structure in streams.
In Proc. 8th SIGKDD, pp. 91 ‒ 101，2002.

バースト検知手法による見頃推定
● 桜に関する投稿に対してバースト検知を行う
● バースト検知で検出されたバースト期間を桜の見頃
推定期間とみなす
8

Kleinbergのバースト検知
● 列挙型バースト
● 離散時間で送られるドキュメントデータ内の，着目するキーワー
ドの出現確率rt/dtを元にバーストしているか否かの判定を行う
9
t
関連投稿数rt
5/1 5/2 5/3 5/4 5/5 5/6
バースト期間 q1
非バースト期間 q0
各日の投稿数dt

列挙型バースト
● n個の投稿集合が与えられたときの状態の系列 
のコストcを計算する．最もコストが小さい時の系列が解となり， 
その状態に応じて，バースト期間と非バースト期間が決定される
10
q = (qi1, ..., qin)
<latexit sha1_base64="(null)">(null)</latexit>
q1,1
q0,1
q1,2
q0,2 q0,3
q1,3 q1,n
q0,n
q1
q0
t=1 t=2 t=3 t=n
コスト関数
遷移コスト状態コスト
σ1,1 σ1,2 σ1,3 σ1,n
σ0,1 σ0,2 σ0,3 σ0,n
τ τ τ
バースト期間
非バースト期間

状態コストと遷移コスト
‣ 状態コスト…状態qiであることに対してのコスト
● 関連文書が二項分布に従って現れると仮定
11
p0 = R/D
p1 = sp0
D =
Pn
t=1 dt
R =
Pn
t=1 rt
‣ 遷移コスト…現在の状態qiから次の状態qj へ，状態遷移を 
妨げるためのコスト
s，γがバーストのみなしやすさ
を調整するパラメータ

実験概要
12
推定対象データ
「桜」・「さくら」・「サクラ」を含む投稿
これを関連ツイート呼ぶ
実験対象地域東京都，石川県，北海道
評価方法
実際の見頃期間に対して，先行研究の手法の結果
（AVE）とバースト検知の結果（Burst）を比較する
実際の見頃期間
気象庁の観測官署において観測される 
開花日~満開日までの期間
パラメータs，γ
一般的に s = 2 ，γ = 1 と設定するので， 
本実験でもこれに従う
● 先行研究の実験条件に従う

データセット
● 先行研究の実験条件に従う
● TwitterAPIで取得した位置情報付きツイート
● 2015年2月17日∼12月31日
● 日本（約5,000万件）
● 対象地域：
● 東京都（約850万件）
● 石川県（約34万件）
● 北海道（約190万件）
13
今日も気持ちが良い天気で
す。恩田川の桜もほとんどが
開花してます。
お散歩の途中、桜を見
つけてパチリ
ツイート例）東京都の関連ツイート

実験結果東京都
● 実際の見頃：3/23 - 3/29
● AVE ：3/24 - 4/4を含む6つの見頃期間が推定された
● Burst：3/23 - 4/6の1つの見頃期間が推定された
14

実験結果石川県
● 実際の見頃：3/31 - 4/4
● AVE：4/1 - 4/9を含む6つの見頃期間が推定された
● Burst：4/1 - 4/14の1つの見頃期間が推定された
15

実験結果北海道
● 実際の見頃：4/22 - 4/26
● AVE：4/22 - 5/1を含む8つの見頃期間が推定された
● Burst：4/23 - 5/11を含む2つの見頃期間が推定された
16

考察
● AVEに比べてBurstでは正解期間を推定しつつも，推定期間の数が少なくなっている
➡ 状態遷移コストによるバースト期間の分割を抑える効果のためではない
か 
先行研究の手法よりも有効であることが示唆された．
➡ バーストの見なされやすさを調整するパラメータs，γ 
の最適な値を決定する実験が必要． 
• 北海道の結果ではBurstでも見頃が二つ検出されている
➡ 「キーワードのみで使用するデータを選択するとノイズが含まれる」に
該当する．内容も考慮した手法が必要である．
17
LINEのトーク背景に 
さくら降っとる? LINE桜ふってるのこ
北海道の4/1のツイート

まとめ・今後について
18
‣ 目標
● 観光資源の旬の推定
‣ 実験
● 先行研究と同じ条件での，バースト検知手法を適用した 
桜の見頃推定
‣ 実験結果
• 正解期間を推定しつつ，他の推定期間の数が削減された
‣ 今後について
• パラメータs，γの最適な値を決める実験
• 他の地域や観光資源における見頃推定実験

バースト検知手法を用いた桜の見頃推定

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Takashi Inui

Mehr von Takashi Inui (6)

バースト検知手法を用いた桜の見頃推定