Zipf? (ジップ則のひみつ？) #DSIRNLP

Zipf?
2015/4/29 DSIRNLP #7
@shuyo

ジップ則(べき乗則)
• 単語の頻度がよく従う分布
• 𝑟 番目に多い単語の頻度 𝑓𝑟 について※
𝑓𝑟 ∝
1
𝑟
• 両対数グラフが直線になる
• 80-20 の法則＋ロングテール
– 大部分をごく一部が占めるが、
すそも異様に長い
※より一般には、ある 𝑠 があって 𝑓𝑟 ∝
1
𝑟 𝑠 (べき乗則)

ジップ則、謎い
• 言語によらない
– 英語、イタリア語、日本語(単語、漢字)、……
• 言語に限らない
– 都市の人口、遺伝子、アクセス数、株価、 ……
• スケールフリーネットワークのモデルで説明
がつく場合もある
– 最小努力原理での説明を試みている人もいる
[Zipf 1949][Cancho+ 2003]
– けどまだ説明しきれてはいない（よね？）

ランダムテキストがZipf則に従う
[Li 1992]
• a～z と空白の 27 文字を一様分布させてラ
ンダムテキストを生成
• 空白で区切られた「単語」の頻度がなん
と！ Zipf 則に従うんだ！すげー！
– ほんまに？

実験その１
• a～z と空白の 27 文字を一様分布
• 1千万単語の頻度ランキングを両対数で
Zipf 則だ！？

実験その2
• Reuters コーパスの文字割合を生成確率に
使ってランダムコーパスを作る
_ 0.2186 i 0.0568 r 0.0560
a 0.0646 j 0.0016 s 0.0591
b 0.0119 k 0.0054 t 0.0694
c 0.0292 l 0.0360 u 0.0213
d 0.0331 m 0.0205 v 0.0090
e 0.0885 n 0.0575 w 0.0101
f 0.0176 o 0.0566 x 0.0025
g 0.0139 p 0.0198 y 0.0116
h 0.0270 q 0.0016 z 0.0007

単語の分布に
• 文字の分布が関係してそう？
– 実は文字もジップ分布だとぴったり直線に
• でも(表音)文字の分布≒音素の分布
– 英語は読みと綴りの対応ひどいけどね！
• 音素は言語の発展に反比例して減少傾向
– 経済性の原理？
• 音素の分布とジップ則に関連ある？ない？
– そこらへんに言語の秘密が……？？？

References
• Manning and Schuetze (1999). "Foundations of
Statistical Natural Language Processing"
• Zipf (1949). "Human Behavior and the Principle
of Least Effort"
• Wentian Li (1992). "Random Texts Exhibit Zipf's-
Law-Like Word Frequency Distribution"
• Cancho and Sole (2003). "Least effort and the
origins of scaling in human language"

Zipf? (ジップ則のひみつ？) #DSIRNLP

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Shuyo Nakatani

Mehr von Shuyo Nakatani (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

Zipf? (ジップ則のひみつ？) #DSIRNLP