SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
言語処理のための
機械学習入門
     奥村学 監修
     高村台也 著
自己紹介
• 名前:白木敦夫
• 情報理工学系研究科
  創造情報学専攻
  田中研(M1)

• 出身:名古屋大
• 生まれ:三重県

• 趣味:お酒収集
• Twitter:shirakia
2. 文書および単語の数学的表現
2.1 タイプ,トークン
• 文章「Nurture or nature? Nurture passes nature.」
  – この文章には単語がいくつある?4つ?6つ?

  – タイプ(単語タイプ)
     • 単語の種類を指すので、単語は 4 つと考える
     • 異なり数とも呼ぶ
  – トークン(単語トークン)
     • 一つ一つの出現を指すので、単語は 6 つと考える
     • 述べ語数とも呼ぶ
2.2.1 単語 n グラム
• 隣り合って出現した n単語

• 例題) “nurture passes nature” の nグラム
  – 1グラム(ユニグラム) {nurture, passes, nature}
  – 2グラム(バイグラム) {nurture-passes, passes-nature}
  – 3グラム(トライグラム) {nurture-passes-nature}


• n が小さくなるほど語順の情報が失われていく
ダミー単語
• 例題) 先程の例文にダミー単語 B,E を付与
 – すなわち “B nurture passes nature E” の 2グラム
    • {B-nurture, nurture-passes, passes-nature, nature-E}


• 最初と最後に出現した単語の情報を
  nグラムに含めることが可能
2.2.2 文字 n グラム
• 隣り合って出現した n文字

• 例題) “nature” が含む
  文字バイグラム,文字トライグラム
 – バイグラム {na, at, tu, ur, re}
 – トライグラム {nat, atu, tur, ure}
2.3 文書,文のベクトル表現
• 素性(feature)
  – ベクトルの各要素

• 素性値(feature value)
  – ベクトルの各要素の値

• 機械学習では
  特徴(attribute),特徴量(attribute value)
2.3.1 文書のベクトル表現
• 文書 ������ → ベクトル ������ (������)
  – 各単語の頻度を素性とする
  – “nurture or nature? nurture passes nature.”



  – 語順の情報は失う(bag-of-words)
  – 頻度のみ扱うので頻度ベクトルと呼ばれる

• 頻度も無視する 二値ベクトル もあるよ!
2.3.2 文のベクトル表現
• 文 ������ → ベクトル ������ (������)
  – 文書のベクトル表現とまったく同様

• 例題)下記2文をbag-of-words, bag-of-bigramsで表せ
  – ������1 : “The pen is mightier than the sword.”
  – ������2 : “The sword is mightier than the pen.”

  – bag-of-words
  ������������������������������������ (������1 , ������2 ) = 1
例題をbag-of-bigramsで

– ������1 : “The pen is mightier than the sword.”
– ������2 : “The sword is mightier than the pen.”

– bag-of-bigrams
������������������������������������ (������1 , ������2 ) = 5/6




        bigramsになって順序が考慮されているのでsimが低くなる
2.4.1 文書に対する前処理
• ストップワード
 – the, is, have, take などの無視すべき単語


• 品詞タグ付け
 – fly[動詞] と fly[名詞] を区別できる
 – (語義の曖昧性解消)
2.4.1 文書に対する前処理
• ステミング
 – 似た語を同一の素性とみなす
 – ポーターのステマー (微妙)
   • 語尾の ed, ate, ational などを除去
 – 見出し語化
   • 基本形に戻す
   • runs, ran などを run として扱う
2.4.2 日本語の前処理
• 単語分割
           形態素解析
• 品詞タグ付け

• ステミングは通常行われない(?)

• 走ら,走り,走る,走れ → 走る
3.4.3 データスパースネス問題
• ベクトルの要素が 0 ばっかりの時
  このデータは疎である(sparseである)と言う

• データスパースネス問題
 – スパースにより必要な統計値が得られない問題

 – 対策:データを大量に用意
   • しかし次元増大
2.5 単語のベクトル表現
• 単語が含む文字を要素とする
 – 例)quickly をバイグラムで
   → qu, ui, ic, ck, kl, ly が要素

• 単語������の周りの単語を要素とする(文脈ベクトル)
 – 2.5.1 単語トークンの文脈ベクトル表現
 – 2.5.2 単語タイプの文脈ベクトル表現
2.5.1 単語トークンの文脈ベクトル表現

• 「高く 跳ぶ に は まず 屈め.」
  跳ぶの前後位置単語トークンを用いる



 – 文脈窓 - 考慮する箇所
 – 文脈窓幅 - 文脈窓の大きさ

• トークンの位置によって区別する場合も
2.5.2 単語タイプの文脈ベクトル表現
• 例) “Nothing ventured, nothing gained”
  nothing という単語タイプの文脈ベクトル
2.6 文書や単語の確率分布による表現

• ������(������|������)
   – ������は各単語を値とする確率変数
   – これが文書を表すとみなす


• ������ ������ ������
   – 単語������が出現したとき,
     周囲に他の単語������が出現する確率
   – これが単語タイプ������を表現するとみなす
������ ������ ������ の例
• 例) “Nothing ventured, nothing gained”
  単語タイプnothingを確率の言葉で表現
  パラメータは最尤推定������ ������ ������ = ������������ / ������������

  –   ������ ������ = "������������������������������������������������"+1 ������ = 0.33,
  –   ������ ������ = ", "−1 ������ = 0.33,
  –   ������ ������ = "������������������������������������"+1 ������ = 0.33,
  –   その他������ ������ = ������ ������ = 0
2.7 この章のまとめ
• 文書および単語の数学的表現を学んだ
 –   タイプとトークン
 –   n グラム
 –   ベクトル表現
 –   テキストの前処理
2.7 まとめ+
• Manningの教科書
  – 情報検索の観点から説明
• Chasen,MeCab
  – 日本語形態素解析ツール
• TreeTagger
  – 英語の品詞タグ付けツール
• スタンフォード大学で開発されたツール
  – 対数線形モデルと逐次的に適用する手法
• Navigliのサーベイ,AgirreとEdmondsの書籍
  – 語義の曖昧性解消
2.7 まとめ++
• 言語モデル
 – 文や文書の生成確率モデル
 – ������1 ������2 ������3 …������������ という言語表現に対し、
   確率������(������1 , ������2 , ������3 ,…, ������������ )を考える




 – 北らやManningらの教科書

Weitere ähnliche Inhalte

Andere mochten auch

伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」
伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」
伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」Kumiko Hiramoto
 
いいデザインと悪いデザイン
いいデザインと悪いデザインいいデザインと悪いデザイン
いいデザインと悪いデザインTakahashi Koki
 
文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)
文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)
文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)Takashi Iba
 
優れたデザインの 定義と思考方法
優れたデザインの 定義と思考方法優れたデザインの 定義と思考方法
優れたデザインの 定義と思考方法Junichi Izumi
 
Webデザインのウソ・ホント ~ Web らしくデザインするためのヒント
Webデザインのウソ・ホント ~ Web らしくデザインするためのヒントWebデザインのウソ・ホント ~ Web らしくデザインするためのヒント
Webデザインのウソ・ホント ~ Web らしくデザインするためのヒントYasuhisa Hasegawa
 
“ロジカル・プレゼンテーション” で実践的な論理的思考力を身につける
“ロジカル・プレゼンテーション”で実践的な論理的思考力を身につける“ロジカル・プレゼンテーション”で実践的な論理的思考力を身につける
“ロジカル・プレゼンテーション” で実践的な論理的思考力を身につけるbijikin
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」
パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」
パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」Michiyo Fukada
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門Hideo Terada
 
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイントSlideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイントTaichi Hirano
 
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2Shoe-g Ueyama
 
Webデザインのセオリーを学ぼう
Webデザインのセオリーを学ぼうWebデザインのセオリーを学ぼう
Webデザインのセオリーを学ぼうToshiaki Sasaki
 
ノンデザイナーのための配色理論
ノンデザイナーのための配色理論ノンデザイナーのための配色理論
ノンデザイナーのための配色理論tsukasa obara
 

Andere mochten auch (13)

伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」
伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」
伝わるチラシの作りかた講座:2日目「レイアウト・デザインのコツ」
 
いいデザインと悪いデザイン
いいデザインと悪いデザインいいデザインと悪いデザイン
いいデザインと悪いデザイン
 
文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)
文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)
文章のクオリティを上げる方法(井庭研レクチャーズ Vol.3)
 
優れたデザインの 定義と思考方法
優れたデザインの 定義と思考方法優れたデザインの 定義と思考方法
優れたデザインの 定義と思考方法
 
Webデザインのウソ・ホント ~ Web らしくデザインするためのヒント
Webデザインのウソ・ホント ~ Web らしくデザインするためのヒントWebデザインのウソ・ホント ~ Web らしくデザインするためのヒント
Webデザインのウソ・ホント ~ Web らしくデザインするためのヒント
 
“ロジカル・プレゼンテーション” で実践的な論理的思考力を身につける
“ロジカル・プレゼンテーション”で実践的な論理的思考力を身につける“ロジカル・プレゼンテーション”で実践的な論理的思考力を身につける
“ロジカル・プレゼンテーション” で実践的な論理的思考力を身につける
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」
パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」
パワポは「最後」に開く-すぐできる!プレゼン資料作成術「大掃除編」
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイントSlideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
Slideshareで見つけた「読みやすい・見やすいスライド」に共通する4つのポイント
 
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
 
Webデザインのセオリーを学ぼう
Webデザインのセオリーを学ぼうWebデザインのセオリーを学ぼう
Webデザインのセオリーを学ぼう
 
ノンデザイナーのための配色理論
ノンデザイナーのための配色理論ノンデザイナーのための配色理論
ノンデザイナーのための配色理論
 

100816 nlpml sec2

  • 1. 言語処理のための 機械学習入門 奥村学 監修 高村台也 著
  • 2. 自己紹介 • 名前:白木敦夫 • 情報理工学系研究科 創造情報学専攻 田中研(M1) • 出身:名古屋大 • 生まれ:三重県 • 趣味:お酒収集 • Twitter:shirakia
  • 4. 2.1 タイプ,トークン • 文章「Nurture or nature? Nurture passes nature.」 – この文章には単語がいくつある?4つ?6つ? – タイプ(単語タイプ) • 単語の種類を指すので、単語は 4 つと考える • 異なり数とも呼ぶ – トークン(単語トークン) • 一つ一つの出現を指すので、単語は 6 つと考える • 述べ語数とも呼ぶ
  • 5. 2.2.1 単語 n グラム • 隣り合って出現した n単語 • 例題) “nurture passes nature” の nグラム – 1グラム(ユニグラム) {nurture, passes, nature} – 2グラム(バイグラム) {nurture-passes, passes-nature} – 3グラム(トライグラム) {nurture-passes-nature} • n が小さくなるほど語順の情報が失われていく
  • 6. ダミー単語 • 例題) 先程の例文にダミー単語 B,E を付与 – すなわち “B nurture passes nature E” の 2グラム • {B-nurture, nurture-passes, passes-nature, nature-E} • 最初と最後に出現した単語の情報を nグラムに含めることが可能
  • 7. 2.2.2 文字 n グラム • 隣り合って出現した n文字 • 例題) “nature” が含む 文字バイグラム,文字トライグラム – バイグラム {na, at, tu, ur, re} – トライグラム {nat, atu, tur, ure}
  • 8. 2.3 文書,文のベクトル表現 • 素性(feature) – ベクトルの各要素 • 素性値(feature value) – ベクトルの各要素の値 • 機械学習では 特徴(attribute),特徴量(attribute value)
  • 9. 2.3.1 文書のベクトル表現 • 文書 ������ → ベクトル ������ (������) – 各単語の頻度を素性とする – “nurture or nature? nurture passes nature.” – 語順の情報は失う(bag-of-words) – 頻度のみ扱うので頻度ベクトルと呼ばれる • 頻度も無視する 二値ベクトル もあるよ!
  • 10. 2.3.2 文のベクトル表現 • 文 ������ → ベクトル ������ (������) – 文書のベクトル表現とまったく同様 • 例題)下記2文をbag-of-words, bag-of-bigramsで表せ – ������1 : “The pen is mightier than the sword.” – ������2 : “The sword is mightier than the pen.” – bag-of-words ������������������������������������ (������1 , ������2 ) = 1
  • 11. 例題をbag-of-bigramsで – ������1 : “The pen is mightier than the sword.” – ������2 : “The sword is mightier than the pen.” – bag-of-bigrams ������������������������������������ (������1 , ������2 ) = 5/6 bigramsになって順序が考慮されているのでsimが低くなる
  • 12. 2.4.1 文書に対する前処理 • ストップワード – the, is, have, take などの無視すべき単語 • 品詞タグ付け – fly[動詞] と fly[名詞] を区別できる – (語義の曖昧性解消)
  • 13. 2.4.1 文書に対する前処理 • ステミング – 似た語を同一の素性とみなす – ポーターのステマー (微妙) • 語尾の ed, ate, ational などを除去 – 見出し語化 • 基本形に戻す • runs, ran などを run として扱う
  • 14. 2.4.2 日本語の前処理 • 単語分割 形態素解析 • 品詞タグ付け • ステミングは通常行われない(?) • 走ら,走り,走る,走れ → 走る
  • 15. 3.4.3 データスパースネス問題 • ベクトルの要素が 0 ばっかりの時 このデータは疎である(sparseである)と言う • データスパースネス問題 – スパースにより必要な統計値が得られない問題 – 対策:データを大量に用意 • しかし次元増大
  • 16. 2.5 単語のベクトル表現 • 単語が含む文字を要素とする – 例)quickly をバイグラムで → qu, ui, ic, ck, kl, ly が要素 • 単語������の周りの単語を要素とする(文脈ベクトル) – 2.5.1 単語トークンの文脈ベクトル表現 – 2.5.2 単語タイプの文脈ベクトル表現
  • 17. 2.5.1 単語トークンの文脈ベクトル表現 • 「高く 跳ぶ に は まず 屈め.」 跳ぶの前後位置単語トークンを用いる – 文脈窓 - 考慮する箇所 – 文脈窓幅 - 文脈窓の大きさ • トークンの位置によって区別する場合も
  • 18. 2.5.2 単語タイプの文脈ベクトル表現 • 例) “Nothing ventured, nothing gained” nothing という単語タイプの文脈ベクトル
  • 19. 2.6 文書や単語の確率分布による表現 • ������(������|������) – ������は各単語を値とする確率変数 – これが文書を表すとみなす • ������ ������ ������ – 単語������が出現したとき, 周囲に他の単語������が出現する確率 – これが単語タイプ������を表現するとみなす
  • 20. ������ ������ ������ の例 • 例) “Nothing ventured, nothing gained” 単語タイプnothingを確率の言葉で表現 パラメータは最尤推定������ ������ ������ = ������������ / ������������ – ������ ������ = "������������������������������������������������"+1 ������ = 0.33, – ������ ������ = ", "−1 ������ = 0.33, – ������ ������ = "������������������������������������"+1 ������ = 0.33, – その他������ ������ = ������ ������ = 0
  • 21. 2.7 この章のまとめ • 文書および単語の数学的表現を学んだ – タイプとトークン – n グラム – ベクトル表現 – テキストの前処理
  • 22. 2.7 まとめ+ • Manningの教科書 – 情報検索の観点から説明 • Chasen,MeCab – 日本語形態素解析ツール • TreeTagger – 英語の品詞タグ付けツール • スタンフォード大学で開発されたツール – 対数線形モデルと逐次的に適用する手法 • Navigliのサーベイ,AgirreとEdmondsの書籍 – 語義の曖昧性解消
  • 23. 2.7 まとめ++ • 言語モデル – 文や文書の生成確率モデル – ������1 ������2 ������3 …������������ という言語表現に対し、 確率������(������1 , ������2 , ������3 ,…, ������������ )を考える – 北らやManningらの教科書