24. • 自動ラベルは長くて意味が狭くて常に最低評価
• 例:
• Topic 14—{health, drug, medical, research, conditions}
• × health care in the united states
• 〇 health
• Topic 48—{league, team, baseball, players, contract}
• × major league baseball on fox
• 〇 baseball
• WordNet の汎用化には限界
• {san, los, angels, terms, francisco}→ California
• {open, second, final, won, williams}→tennis
• ネットワークは近接性情報が理解促進
• 数が少ないとトピックを誤解する、(特にワードクラウドの)近接性が誤解を生む
Cont. 分析 (in discussion)
25. まとめ
• ユーザ付与のラベルの質は4つであまり変わらず
• トレードオフ、効率重視ならシンプル vs 広さなら複雑
• ワードリストはラベリング効率の面だけでなく、検索タスクでも有能(既存
研究)
• 自動ラベリング研究への貢献:
• 自動ラベルの使いどころの示唆→一貫性の高いトピックにのみつける
• 訓練データの提供
https://github.com/alisonmsmith/Papers/tree/master/TopicRepresentati
ons
• Future Work
• トピックではなく、トピックモデル全体の理解については未着手
• 理解の広さを測るタスクの設計
• 個人的疑問:ゆっくり考えるからラベルが広くなるのか、可視化手法そのも
のの良さなのか