Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

InfoTalk#126 「人工知能の最先端と音の技術」

701 Aufrufe

Veröffentlicht am

InfoTalk#126で使用した講演資料です。
日本人の企業の方向けの人工知能の基礎知識と実用例解説です。
具体的な理論や実装方法などは載っていません。

Veröffentlicht in: Daten & Analysen
  • Loggen Sie sich ein, um Kommentare anzuzeigen.

InfoTalk#126 「人工知能の最先端と音の技術」

  1. 1. InfoTalk#126 人工知能の最先端と音の技術 産業技術大学院大学 助教 柴田 淳司 2019/6/21 1
  2. 2. 目次 ⊳今までの人工知能 ⊳ 人工知能の歴史 ⊳ 人工知能研究とブーム ⊳人工知能の最先端 ⊳ 今ある人工知能技術とそのサービス ⊳ 研究者が見る人工知能の課題と将来 ⊳「音」の技術 ⊳ 音の関わる研究 ⊳ 音の人工知能技術 2019/6/21 2
  3. 3. 今までの人工知能 2019/6/21 3
  4. 4. 2019/6/21 4 人工知能と聞いて 思い浮かべる言葉は? Sli.doを使って答えてください。 複数回答可です。
  5. 5. データマイニング 機械学習 「人工知能」と呼ばれる技術(一部) 5参考:人工知能学会 情報検索 ロボット マルチエージェント 遺伝的アルゴリズム ニューラル ネットワーク 音声認識 ゲーム ヒューマン インターフェース エキスパートシステム 画像認識 推論 知識表現 自然言語理解 応用 基礎
  6. 6. 人工知能とは? ⊳人工知能の意味(各種辞書より) 2019/6/21 6 人間の知的機能を備えた人造のシステム 脳みそ 記憶 判断 推論 学習 認識 人工知能??? 人工的に再現
  7. 7. 人工知能の歴史 1960 1970 1980 1990 2000 2010 ⊳人工知能の誕生 ⊳第1次ブーム ⊳1st冬の時代 ⊳第2次ブーム ⊳2nd冬の時代 ⊳第3次ブーム エキスパートシステム 技術開花 機械学習・ニューラル ネット・その他いろいろ 深層学習 2019/6/21 7
  8. 8. 人工知能登場前の時代背景 2019/6/21 8 ⊳電子計算機 ⊳ 電子化した自動計算機器 ⊳ いわゆるコンピュータ ⊳電子計算機の用途 ⊳ 数値計算 ⊳ 情報処理 ⊳ 文章作成 ⊳ 動画編集 ⊳ 各種作業の自動化 ENIAC, 1946 タビュレーティングマシン, 1890 「人」の自動化へ 期待が高まる
  9. 9. 第1次人工知能ブーム(1950-1970) 1940 1950 1960 1940年代:実用的なデジタル計算機の登場 ・ウィーナー:サイバネティクス ・シャノン:情報理論 ・チューリング:チューリングマシン 今後基盤となるような研究の提案 1951:ゲームAIと機械学習 1957:パーセプトロン 1960s:進化的アルゴリズム 1956:人工知能(Artificial Intelligence)命名 様々な成果 1966:ELIZA(チャットボット) 1968-1970:SHRDLU(自然言語処理、micro world) 1971:SharkeyとSTRIPS(手段目標分析) 人 工 知 能 の 発 生 黄 金 時 代 2019/6/21 9
  10. 10. チューリングテスト(1950) 2019/6/21 10 人間 端末越しの相手は人か否か? 端末 チューリングテストをパスする ≒人と同程度の知能を有する 壁 人か人工知能のどちらか
  11. 11. データマイニング 機械学習 当時発生した人工知能の主な研究と手法(一部) 11参考:人工知能学会 情報検索 ロボット マルチエージェント 遺伝的アルゴリズム ニューラル ネットワーク 音声認識 ゲーム ヒューマン インターフェース エキスパートシステム 画像認識 推論 知識表現 自然言語理解 応用 基礎
  12. 12. チャットボット ⊳1966, Weizenbaumが作成 ⊳来談者中心療法を模した会話 2019/6/21 12 Image from: http://www.scaruffi.com/mind/ai.html
  13. 13. ELIZA(1966)の仕組み ⊳データにある会話に対して定型文を返す ⊳データにない言葉に対して、定型文+相手の言葉を使って言い返す 2019/6/21 13 > Hello, I am Eliza. * Hi, I am Shibata. > Do you believe it is normal to be Shibata? S + V + C 定型文 入力の流用+
  14. 14. 1st 冬の時代(1974-1980) 2019/6/21 14 1970 1980 1966:ALPACのレポート 「機械翻訳は予算のわりに翻訳精度が低く、 人でやったほうが良い」 1970年代初頭:主要な研究費が軒並みカットされ始める 1973:Lighthill Report 「これまでの研究成果のほとんどは現実世界での 運用ができないおもちゃである」 様々な問題が指摘される 1976: Weizenbaum「人工知能信じすぎ」 1980:Searle「弱いAIと強いAI」 組み合わせ爆発、フレーム問題、中国語の部屋etc
  15. 15. 中国語の部屋(1980, Searle) 2019/6/21 15 人間 端末越しの相手は中国人か? 端末 辞書による対応では知能の証明にはならないのでは? 壁 完全な中国語の応答表を持った人
  16. 16. 批判の言葉と反省点 2019/6/21 16 ⊳批判の言葉 ⊳ 1966: ALPACのレポート 「機械翻訳は予算のわりに翻訳精度が低く、人でやったほうが良い」 ⊳ 1973:Lighthill Report おもちゃの問題(Toy Problem)しか解けず、現実的に運用不可 ⊳ 1980:Searle「弱いAIと強いAI」 強いAI:人の知能に迫り、代替できる存在 弱いAI:人の全認知能力を必要としない程度の問題を解けるAI 現実世界の問題(タスク)を対象とした研究へシフト
  17. 17. 第2次 人工知能ブーム(1980-1987) 2019/6/21 17 1980 1990 人工知能に予算が! 1981:第5世代コンピュータプロジェクトの開始 1972:Edward Feigenbaumにより 初期のエキスパートシステム「MYCIN」が作られる 1980: CMUの企業向けエキスパートシステム 「XCON」が年間400万ドルの利益創出に貢献 第2次ニューラルネットワークブーム 1982:ホップフィールドネットワーク 1986:誤差逆伝播法
  18. 18. エキスパートシステム 2019/6/21 18 sensor the room temp the body temp outer temp weather … if X, then is sign less than less than or equal equal more than or equal more than … behaivor turn on turn off change setting of … target A / C fan light … If-thenルールで知識を記述、動作を行うシステム 知識が蓄積するほど高精度の動作を行える 人工知能に疎くても知識の記述ができる メリット
  19. 19. 2nd 冬の時代(1987-1993) 2019/6/21 19 1980 1990 1980s後半:研究資金カット DARPA「AIはまだ次の波ではない」 1987:デスクトップ計算機の性能向上 相対的にLISPマシンの価値が低下し市場崩壊 1991:第5世代コンピュータプロジェクト 目的達成せず終了 エキスパートシステムそのものの課題 導入コスト・維持コスト・適用可能箇所が限定的
  20. 20. タスクとモデルの分離 2019/6/21 20 タスク モデル クラスタリング 分類 時系列予測 画像認識 可視化 音声認識 自然言語処理 回帰 線形回帰 SVM 決定木 ランダムフォレスト ロジスティック回帰 ニューラルネット RNN CNN 確率モデル推論 回帰
  21. 21. 第3次 人工知能ブーム(2012-) 2019/6/21 21 2010 2020 前々からの蓄積 1957: Neural Network, 1986: Back Propagation, 1988: Neo-cognitron 2012: 目に見える成果が出る ・ ILSVRCでDeep Learningが優勝 ・ Googleの猫画像 2006: Stacked Auto-encoderで特徴量を自動抽出 様々な研究機関・企業が参入 2014:Stanford One Hundred Year Study on AI 2015:企業が機械学習フレームワーク公開 2016:AlphaGOが囲碁でプロに勝利
  22. 22. 研究者間でのブームのきっかけ 2019/6/21 22 ⊳2012年LSVRCで深層学習が優勝 ⊳ LSVRC:Large Scale Visual Recognition Challenge 2012の略 大量の画像に何が映っているかを当てるコンテストerrorrate 大量のデータとリッチなモデルの 組み合わせが効く!
  23. 23. 世間一般におけるブームの始まり① 2019/6/21 23 ⊳2012年:Googleが猫を認識できるようなったと発表 入力画像 出力ラベル A: 97.1% B: 1.8% C: 1.1% …
  24. 24. 世間一般におけるブームの始まり② 2019/6/21 24 ⊳2016年3月:AlphaGOがプロ棋士に勝利
  25. 25. 深層学習の登場と社会の背景 2019/6/21 25 ⊳計算機の性能 ⊳ 高性能のコンピュータが安価で手に入るように ⊳ スパコンをインターネットを介してレンタルできるようになった ⊳情報量の爆発 ⊳ インターネットと端末の普及から、いたるところでデータが発生 ⊳ニーズ ⊳ ネットワークカメラや音声対話など、人が対応すべきものへの需要
  26. 26. 今の時代の研究領域 2019/6/21 26 ⊳大量のデータを準備 ⊳ 画像、音声、テキストなどインターネット上に多いデータ ⊳機械学習 ⊳ 人の「学習」という機能を再現する人工知能分野 ⊳ 近年ではニューラルネットワーク、強化学習、決定木などがよく使われる 大量なデータ + それを学習できる機械学習手法
  27. 27. ここまでのまとめ 2019/6/21 27 ⊳AIの歴史 ⊳ 人工知能ブームは3回目 ⊳ 手法とタスクに分かれて研究されている ⊳ブームの理由 ⊳ 周辺技術と社会による要因: ビッグデータと高性能の計算機環境 ⊳ 技術的要因: リッチなモデルをうまく学習する手法の確立 ⊳ ニーズ: 画像・音声・テキストを使ったサービスの需要
  28. 28. 人工知能の最先端 2019/6/21 28
  29. 29. 第3次人工知能ブーム以降できるようになったこと 2019/6/21 29 ⊳大量のデータ ⊳ 基本は画像、音声、動画、テキストなどが主流 ⊳ それ以外は既存とあまり変化なし ⊳識別/再現 ⊳ 識別:何かに分類/分類/検出する技術 ⊳ 再現:出力をもとに入力を再現する 大量のデータによる高性能の識別/再現
  30. 30. 識別モデル・生成モデル 2019/6/21 30 ⊳識別モデル (discriminative model) ⊳ 入力結果に対して分類などを行うモデルを作る ⊳生成モデル (generative model) ⊳ 入力結果に対して元のデータの分布などを行うモデルを作る ⊳ GAN(Generative Adversarial Network)やVAE(Variational Auto-Encoder)など
  31. 31. 識別モデル 2019/6/21 31 識別モデル 結果 sample 1: label A sample 2: label B sample 3: label C sample 4: label C sample 5: label B ・ ・ ・ 入力 sample 1 sample 2 sample 3 sample 4 sample 5 ・ ・ ・ 入力をもとに 識別する
  32. 32. 生成モデル 2019/6/21 32 データの生成 隠れた状態 label A label B label C label C label B ・ ・ ・ 入力 sample 1 sample 2 sample 3 sample 4 sample 5 ・ ・ ・ データ観測 このデータを 作った元を予測する
  33. 33. 生成モデルの例 2019/6/21 33 白黒画像から色を再現 https://digitalfan.jp/126973 テキストから画像を生成 https://tsunotsuno.hatenablog.com/entry/attngan
  34. 34. 応用例:画像に別の画像の特徴量をかぶせる 2019/6/21 34https://research.preferred.jp/2015/09/chainer-gogh/
  35. 35. 生成モデルの例:脳と人工知能 2019/6/21 35https://www.nature.com/articles/sdata201912 人が見たときの脳の反応 AIの識別 マッチングすることで 人の脳反応から 画像を再現
  36. 36. 今の研究者の研究スタイル ⊳研究題材 ⊳ タスクと手法に分けて研究 ⊳ 常に最新の手法と比較する必要あり ⊳成果報告 ⊳ 早く実装し、外部へ公表することが重要 ⊳ 有名国際会議 > 論文 > 国際会議、オープンアクセス論文、国内会議 2019/6/21 36 論文は出版まで 時間がかかる とりあえず公開 という選択肢
  37. 37. Tier 1 Conferences on AI and Data Science ⊳CVPR (Computer Vision and Pattern Recognition) ⊳NurIPS (Neural Information Processing Systems) ⊳ICML (International Conference on Machine Learning) ⊳AAAI (AAAI Conference on Artificial Intelligence) 2019/6/21 37 載せきれないのでその他省略
  38. 38. 社会の人工知能への関心の増加(NurIPSの例) 2019/6/21 38 2018年は 参加者8000人超
  39. 39. NurIPS2018のワードクラウド 2019/6/21 39 by TDAI lab
  40. 40. トレンド:AIの社会進出に関わる課題 2019/6/21 40 1. Robustness ⊳ セキュリティの話 2. Fairness ⊳ 公平さ ⊳ AIと差別問題 3. Explainability ⊳ 説明可能性 ⊳ 人に理解しやすいAI
  41. 41. 1.Robustness 2019/6/21 41 ⊳Robustnessの意味 ⊳ 頑健性、ただしロボットなどの分野の専門用語と被っているので注意 ⊳ 従来の頑健性: 外乱に負けず、安定している性質 ⊳ ここでいう頑健性: 外部からの敵対的な攻撃に対して堅牢な性質 ⊳敵対的な攻撃の種類 ⊳ 敵対的摂動 ⊳ データ汚染 ⊳ モデル逆推定 ⊳ モデル盗用
  42. 42. 敵対的な例:Adversarial Example 2019/6/21 42https://arxiv.org/abs/1412.6572 摂動(ノイズみたいなもの)を入れると 予測がgibbon(テナガザル)に!
  43. 43. 2.Fairness (公平さ) 2019/6/21 43 AIはデータ依存で結果を出す =必ずしも正しい結果を出すとは限らない GANで生成したものは学習時のデータを利用している https://arxiv.org/pdf/1710.05106.pdf
  44. 44. データによるバイアス:Amazonの女性採用AI 2019/6/21 44 “アマゾンは2014年頃から、スコットランドの首都・エディンバ ラにエンジニアチームを結成し、採用を効率化するための人工知 能システムを開発してきた。 これは、機械学習をベースにしたもので、500台ほどのコンピュー ターが採用希望者の願書(履歴書など)に書かれている約5万個 のキーワードを抽出・分析。自社に適した人材を選びだすという ものだ。100枚ほどの願書をプログラムに入れると、数秒で“最 良”の条件を持った5名ほどの書類が選び出されるという。” https://forbesjapan.com/articles/detail/23419 AIは中立ではなく「女性嫌い」 検証結果で見えてきた負の側面 平和博2019.2.20 by TDAI lab
  45. 45. 3.Explainability (説明可能性) 2019/6/21 45 ⊳Interpretability ⊳ 内部構造がわかるモデルかどうか ⊳Explainability ⊳ 人が理解できるかどうか 原因究明できるように、人が理解できるように、 AIも原因がわかるようなモデルや手法が必要 顕著性マップにより、判断基準を明確にする研究 https://blog.eai.eu/applications-of-saliency-models-part-one/
  46. 46. 人工知能の最先端まとめ 2019/6/21 46 ⊳今ある技術でできる事 ⊳ 大量のデータがあるものに対する高水準の識別 ⊳ 画像・音声・テキスト・動画などを生成 ⊳研究者が見ている今後の課題 ⊳ Robustness 悪用されないようにする ⊳ Fairness データ依存による差別をなくす ⊳ Explainability 人が理解できるAIとその使い方を探す
  47. 47. 音の技術 2019/6/21 47
  48. 48. これまでの音研究の主流 2019/6/21 48 ⊳ 音声認識 ⊳ 何をしゃべっているのかを判定する研究 ⊳ 話者識別 ⊳ 誰がしゃべっているのかを判定する研究 ⊳ 対話ロボット ⊳ 認識した結果に合わせて声を返す ⊳ 合成音声 ⊳ 音声を合成で作る メインは人の音声に関する研究
  49. 49. 音声研究の難しさ 2019/6/21 49 ⊳時系列データ ⊳ どこからどこまでが一つの「音」なのかを区別することが難しい ⊳ノイズ ⊳ 人は無意識にノイズキャンセリングをしている ⊳対話 ⊳ 「聞く」タイミングと「話す」タイミングを掴むのは困難(人でも難しい)
  50. 50. 音声認識研究の歴史 2019/6/21 50 ⊳ 1962:Shoebox ⊳ IBMの音声識別、数字など16単語を当てる ⊳ 1972:統計的手法の登場 ⊳ HMM(Hidden Markov Mode)lなどの統計的手法により音の伸びに対応 ⊳ 2003:DARPAの人工知能プロジェクト ⊳ 兵士の活動サポート人工知能で巨額の資金が投入 ⊳ 自動翻訳や対話研究がされた ⊳ 2011:Siri ⊳ 音声対話システム ⊳ 2012:人工知能ブーム ⊳ 深層学習の登場で音声識別率が格段に向上
  51. 51. 気分と音をマッチングさせる研究 2019/6/21 51越水先生 https://www.musicman-net.com/special/63420
  52. 52. 最近のトレンド:GANによる音の生成 2019/6/21 52 ⊳音データ ⊳ 時系列のデータ ⊳スペクトルデータ ⊳ 各周波数成分の強さのデータ ⊳ 時系列を並べると画像に見える 変換 スペクトル画像を生成後 逆変換で音にできる
  53. 53. 声色を変えるサービス 2019/6/21 53 元の声データに他人の声の特徴 データをかぶせる研究 ⊳サービスとして ⊳ 対話システムをより人に近く ⊳危険性 ⊳ 偽証に使われる可能性 https://www.technologyreview.com/s/613033/this-ai- lets-you-deepfake-your-voice-to-speak-like-barack- obama/
  54. 54. 音楽×人工知能 2019/6/21 54 https://magenta.tensorflow.org/gansynth 曲調を変換する研究 https://creativeprediction.xyz/ AIで楽器を作る
  55. 55. 音の技術まとめ 2019/6/21 55 ⊳これまでの音の研究 ⊳ 認識や対話など、応用に重点を置いた研究が過去から行われてきた ⊳近年の研究 ⊳ 高い識別率を利用したサービスの登場 ⊳ 生成モデルを用いた新しい音声や音楽の研究が登場
  56. 56. 全体のまとめ 2019/6/21 56 ⊳今までの人工知能 ⊳ 人工知能の歴史 ⊳ 人工知能研究とブーム ⊳人工知能の最先端 ⊳ 今ある人工知能技術とそのサービス ⊳ 研究者が見る人工知能の課題と将来 ⊳「音」の技術 ⊳ 音の関わる研究 ⊳ 音の人工知能技術

×