Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

ラベル付けのいろは

11.024 Aufrufe

Veröffentlicht am

ラベル付けの方法を解説する資料です。

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

ラベル付けのいろは

  1. 1. ラベル付けのいろは 2015/12/7 Kensuke Mitsuzawa
  2. 2. この資料を読むとわかること そもそもラベル付けはなんのためにするの? どんなラベルを用意したらいいの? どれくらいのラベル数なら妥当なの? ラベル付けは何人でやったらいいの? ラベル付け作業をどうやって評価するの?
  3. 3. ラベル付けは何のためにするの? 「教師あり学習」の機械学習を実行するための必要不可欠なデータです 学習 フェーズ ラベル付きデータ 女性 バイク クラス分類モデル 「学習」※ ※日本語では「学習」または「訓練」と言います。「知能学習」とかわけのわからない言葉を使っていた会社を見たことありますが、そういうのは好きじゃないです。 英語では”training”と言うのが一般的です
  4. 4. ラベル付けは何のためにするの? 「教師あり学習」の機械学習を実行するための必要不可欠なデータです 学習 フェーズ ラベル付きデータ 女性 バイク クラス分類モデル 予測 フェーズ 学習済み クラス分類モデル ラベルなしデータ 「女性」 「学習」※ 「予測」 ※日本語では「学習」または「訓練」と言います。「知能学習」とかわけのわからない言葉を使っていた会社を見たことありますが、そういうのは好きじゃないです。 英語では”training”と言うのが一般的です
  5. 5. どんなラベルを用意したらいいの? 「誰が見ても同じ基準で分類できる」ラベル体系にするのが理想です 人間が見て曖昧なラベルは、機械でも解けません 悪いラベル例 ラベルのタイプ 『「風景」、「人」』の2ラベルの場合 風景 人 人?風景?
  6. 6. どんなラベルを用意したらいいの? 「誰が見ても同じ基準で分類できる」ラベル体系にするのが理想です 人間が見て曖昧なラベルは、機械でも解けません 悪いラベル例 ラベルのタイプ 『「風景」、「人」』 風景 人 人?風景? バッド・パターン パターン1「風景」「人」のラベル体系が不適切 パターン2「風景と人が混同しやすい」データは排除されるべき
  7. 7. 「その他」ラベルが存在している場合の対処法 悪い分類器の組み方 人 風景 データ その他 データ 関係あるデータ 関係ないデータ 人 風景 「その他」ラベルが存在する場合、問題を分割する方が良いです 「その他」or Notを判断するためのクラス分類器を用意しましょう 良い分類器の組み方 「その他」を判断する 分類器を作ります
  8. 8. どれくらいのラベル数を用意したらいいの? 「できる限り少なくする」が理想です ベストは2ラベルにすることです なぜ2ラベルにしないといけないのか? ラベルが3以上になると、機械学習モデルの難易度が高くなります つまり、思うように精度が出ません。ラベル数が多くなればなるほど、問題は難しくなります 2ラベルだけの分類 3ラベル以上の分類 赤線は「分離する線が引かれるところ」の可能性 3ラベル以上だと線の可能性が多くなる =解くべき問題が難しくなる
  9. 9. 実務では2ラベルでは役にたたない。どうすれば? できる限り階層化して、1つの分類器が分類する数を減らします データ ラベル1 ラベル2 ラベル3 ラベル4 ラベル5 ラベル6 ラベル7 例えば、7クラス分類をやりたい場合
  10. 10. 実務では2ラベルでは役にたたない。どうすれば? できる限り階層化して、1つの分類器が分類する数を減らします ラベル ラベル ラベル ラベル4 ラベル5 ラベル データ ラベル1 ラベル2 ラベル3 ラベル6 ラベル7
  11. 11. 実務では2ラベルでは役にたたない。どうすれば? できる限り階層化して、1つの分類器が分類する数を減らします ただの2分類になるので、 問題が簡単に ラベル ラベル ラベル ラベル4 ラベル5 ラベル データ ラベル1 ラベル2 ラベル3 ラベル6 ラベル7
  12. 12. ラベル付けは何人でやったらいいの? 最低でも、2人で同じタグ付けをするようにします (「2人で手分けしてする」という意味ではありません。「2人ですべてのデータにタグ付けする」という意味です)
  13. 13. ラベル付けは何人でやったらいいの? 最低でも、2人で同じタグ付けをするようにします (「2人で手分けしてする」という意味ではありません。「2人ですべてのデータにタグ付けする」という意味です) なぜ2人で冗長な作業をしなければいけないのか? 「学習のためのラベルは属人的なんでしょ?人によって違うかもしれないじゃん。信用できんよ」 を避けるためです。(こういうことを言う人は必ずいます。ビジネスであっても、研究であっても変わりはありません) 2人以上でラベルづけをすると 「できる限り普遍的なラベルである」と言えます 研究上でも認められている手法です
  14. 14. どのように2人で作業をするの? 「タグ付け→認識確認」を最低でも1回は行います サンプリング1 100データくらいをサンプリングします トライアルタグ付け2 サンプリングしたデータにタグ付けをします 認識確認3 タグ付けデータを確認します。タグが不一致の場合は 「タグ付けのルール再確認」or 「ルールの追加」をします 不一致タグが多すぎる場合は、「タグ体系」の設計を見直してください 本タグ付け作業4 タグ付け作業を本格的に開始します (タグ付け済みのデータもスキップせずに最初からやり直します)
  15. 15. 本作業の進め方 本作業の前に「タグが不一致だった場合の対処法」を決定します パターン1 タグが不一致だったら、データは捨てる パターン2 タグが不一致だったら、すべて協議する パターン1の場合 パターン2の場合 メリット 機械学習がするべき問題が簡単になります (人間の直感に合わないデータを捨てるため) デメリット 学習用のデータが少なくなります メリット 学習用のデータが確保できます デメリット 機械学習がする問題が難しくなります 協議するために余計な時間がかかります
  16. 16. 本作業の進め方 本作業の前に「タグが不一致だった場合の対処法」を決定します パターン1 タグが不一致だったら、データは捨てる パターン2 タグが不一致だったら、すべて協議する パターン1の場合 パターン2の場合 メリット 機械学習がするべき問題が簡単になります (人間の直感に合わないデータを捨てるため) デメリット 学習用のデータが少なくなります メリット 学習用のデータが確保できます デメリット 機械学習がする問題が難しくなります 協議するために余計な時間がかかります パターン2の場合 「わからない」タグを導入し ておくとよいです
  17. 17. ラベル付け作業はどうやって評価するの? (参考までに)研究上では、「論文でタグ付け一致度」の報告が義務です ※ 報告がない論文は怖い人にクソミソにけなされます。もしくは受理されません 心配な場合は、「カッパ係数」を計算しておきます。 タイミングは「データを捨てる」or「協議してタグを一致させる」前です カッパ係数とは? 「2つ以上のデータの一致度」を調べる数値です。カッパ係数>= 0.81で「とても良い」と言えます (参考)カッパ係数とは? Excelでも計算できますが、めんどうくさいので、相談してください。

×