8. 株式会社サイバーエージェント
8
Size Filtering
・ データ長(特徴数)に大きな差があるペアは、似ているはずがない。
例)
X : 1、2
Y : 1、3、6、7、9、11、15、21、33、101、…
正確な表現 )
|x|
t |x| |y |
t
9. 株式会社サイバーエージェント
9
Prefix Filtering
・ 先頭部分に似ている特徴が一切なかったら、似ているはずがない。
例)
X : 2、4、5、6、9、11、15、21、33、101
Y : 1、3、7、8、9、11、15、21、33、101
正確な表現 )
x の先頭から長さ x
t
| x | | y | 1
1 t
と、y の先頭から長さ y
t
| x | | y | 1
1 t
の部分の中に、最低一個同じ素性が必要
10. 株式会社サイバーエージェント
10
Positional Filtering
・ 先頭部分に同じ特徴が存在する場合、先頭以降を考慮して、
閾値を超えるかどうか考える。
例)
X : 1、3、5、6、9、11、15、21、33、82
Y : 1、3、7、8、9、11、15、21、33、99、101、103
正確な表現 )
x
t
| x | | y | Over( x l , y l ) min x r , y r
1 t