Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

すいすい会(拡大版)「Attention Please!文脈をとらえて社会を動かすAI基盤をつくろう」

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 68 Anzeige

Weitere Verwandte Inhalte

Ähnlich wie すいすい会(拡大版)「Attention Please!文脈をとらえて社会を動かすAI基盤をつくろう」 (20)

Aktuellste (20)

Anzeige

すいすい会(拡大版)「Attention Please!文脈をとらえて社会を動かすAI基盤をつくろう」

  1. 1. ©GRI Inc. 2 すいすい会 拡大版 ( #34 ) デ ー タ サ イ エ ン ス Attention Please! 文脈をとらえて社会を動かす AI基盤をつくろう
  2. 2. ©GRI Inc. すいすい会の紹介 3 データサイエンスの知見を共有し、みんなで実践的な理解度を高めたい • 実践を重視するGRIの考え方やノウハウをご共有 • 集合知とするため、皆さんの知見も是非ご共有くださいませ
  3. 3. ©GRI Inc. すいすい会の運営 株式会社GRI 4 事業内容・ソリューション データ利活用した新規事業の共創 SaaS提供 ノウハウ AI・BIの開発 アプリの開発・運営・運用 データ基盤構築 データ駆動文化の醸成支援 データサイエンスのスキルアップ研修 クリエイティブ制作 イベント企画と運営(リアル・Web)
  4. 4. ©GRI Inc. ナビゲータ 2015年3月: 東京工業大学大学院 理化学研究所 仁科加速器研究センター 2015年4月: 株式会社GRIに入社、AIの社会実装に従事 2022年7月: 取締役就任 【 実績 】 ・AutoML基盤 ForecastFlow の開発統括 ・IoTを利活用した新規事業の共創プログラム ・機械学習や深層学習を活用したソリューション提供 大友 祐一 株式会社GRI データサイエンス事業部 取締役 5
  5. 5. ©GRI Inc. 今回のスペシャルゲスト 6 ■ 朝刊の発行部数で日本最大 (704万部) ■ 読売新聞社のDXを推進する キーパーソン
  6. 6. ©GRI Inc. 【共創事例】読売新聞様 ✕ GRI ■ データ基盤 ■ チーム組成 ■ AI基盤 ■ BI基盤 7 実践的なDX推進とAI利活用事例の宝庫
  7. 7. ©GRI Inc. 本日の内容 ■ AIの現在地点 ■ 近年のAIの進化を支えるAttention機構 ■ 読売新聞社様とのAI共創事例 8
  8. 8. ©GRI Inc. テーマ 言葉を使って世界とつながり 文脈を捉えて社会を動かす 9
  9. 9. ©GRI Inc. I/Fとしての言葉 10 言葉 組織 企業 社会 AI ビジョン駆動の経営(社会的意義) 求人の詳細化(仕事の意義) リモートワーク普及(脱・空気) ソーシャルメディア ニュース マニフェスト 画像・動画・3D生成(Text-to-Img, etc.) 音楽生成(Text-to-Music) チャット(Text-to-Text)
  10. 10. ©GRI Inc. 呪文(プロンプト)により高速生成されるクリエイティブ 11 この音楽はMubertにより生成されました “ 言葉でAIと接続し 将来を予測する ” Text-to-Img Text-to-Music Text-to-Text
  11. 11. ©GRI Inc. 呪文(プロンプト)により高速生成されるクリエイティブ 12
  12. 12. 近年のAIの進化を支えるAttention機構 13
  13. 13. ©GRI Inc. Attention機構が注目された経緯 ■ 2017年、機械翻訳の領域で Transformerという手法が登場 ■ 精度だけでなく汎用性も高いことか ら、あらゆる分野に広がる – NLP: BERT, GPT-3, T5, Chat-GPT – Vision: ViT, Stable Diffusion – Audio: Wave2Vec2 ■ TransformerはAttention機構のみに 基づき、従来の畳込みや再帰モ ジュールを過去のものに 14
  14. 14. ©GRI Inc. Attention機構の発明 15 ■ 2014年の機械翻訳の論文で登場 – Soft Alignという名称で紹介 ■ 未知語がない場合、Deep Learning による翻訳精度が統計的機械翻訳 の精度を上回る ■ Encoder-Decoderモデル (Seq2Seq)のベクトルが固定次元 だったことに起因する課題を克服
  15. 15. ©GRI Inc. Encoder-Decoderモデルとその課題 16 入力 私 は 猫 が 好 き で す 文 脈 ベク トル 出力 I like cats 文脈ベクトル(Encoder Vector)は固定次元なので、 入力文章が長くなると精度が悪化
  16. 16. ©GRI Inc. Attention機構 ■ 1単語1ベクトル(h)で表現 ■ 入力はBiGRUという、順方向と逆方向の両方向 から考慮するユニット ■ 文脈ベクトル(c)は入力単語(h)と出力単語(s) の間の関連度(α; attention)で計算 17
  17. 17. ©GRI Inc. AttentionからTransformer ■ 機械翻訳モデルからRNNブロックを 排除し、Attention機構のみを利用 – 並列計算が可能になり、RNNよりも高 速に ■ Multi-Head Attentionと呼ばれる、 入力ベクトルのどこに注目するかを 多面的に評価 18
  18. 18. ©GRI Inc. Scaling Laws ■ 2020年にOpenAIから出た論文 ■ Transformerのサイズを大きくすると、 精度はべき乗則に従い改善 – OpenAIが10億円規模の投資を行 い、GPT-3を開発した動機 19
  19. 19. ©GRI Inc. Scaling Laws ■ Transformerは言語モデルのみでなく、他の 幅広いタスクについてもべき乗則が成立する ことが明らかに 20
  20. 20. ©GRI Inc. AIタイムライン 21 AI Timelines via Cumulative Optimization Power: Less Long, More Short
  21. 21. ©GRI Inc. コモディティ化するAI 22
  22. 22. ©GRI Inc. 具体的なAIの社会実装 ■ 誰でも高度なAIを使える時代は既に来ているが、実際にビジネスに適 応するためには、どのような試行錯誤が現場でなされているのか? ■ 実践的なデータ基盤をもち、TransformerやForecastFlowを 実運用しておられる読売新聞様とのAIモデルの構築事例をご紹介 – お時間の都合上、MLOpsまではいけない...!! 23
  23. 23. 読売新聞様とのAI共創事例 24
  24. 24. ©GRI Inc. 読売新聞様との共創背景 ■ データ基盤を高速構築できた理由 ■ 理想のチーム体制 ■ データ分析プロジェクトの進め方 25
  25. 25. ©GRI Inc. 最新の読売新聞様とのAI事例 26 ■ サッカーW杯日本代表 ■ 藤井聡太竜王、最年少5冠 ■ 円安1ドル150円突破 ■ コロナ感染動向 … 日々生成される記事に対して 柔軟にメタデータを付与し 広告配信を最適化したい
  26. 26. ©GRI Inc. 課題の背景 ■ 個人情報保護の観点から、3rdパーティクッキーなどで個人のトラッキング が難しくなり、従来のユーザーを枠とした広告ターゲティングの精度が低下 する恐れがあり、新しい手法が求められる ■ 個人の興味関心はニュース記事とのインタラクションによってリアルタイム で変わっていくため、文脈を適切に捉えた記事のメタデータを付与し、広告 配信につなげたい 27
  27. 27. ©GRI Inc. 広告の出し分けのイメージ 28 メーカーAから新 車発売! 交通事故発生 ニュース記事の内容 広告 メーカーAのLPへの広告 自動車保険の広告
  28. 28. ©GRI Inc. 記事の多様な側面を捉える ■ 記事のカテゴリ – スポーツや事件・事故など、普遍的なカテゴリ – 新しい概念が含まれるなど、事前定義が難しい カテゴリ(コロナ、SDGs、web3など) ■ 記事のセンチメント – 単純なポジネガ極性スコア – ニュースならではのセンチメント 29
  29. 29. ©GRI Inc. 記事の多様な側面を捉える ■ 記事のカテゴリ – スポーツや事件・事故など、普遍的なカテゴリ – 新しい概念が含まれるなど、事前定義が難しい カテゴリ(コロナ、SDGs、web3など) ■ 記事のセンチメント – 単純なポジネガ極性スコア – ニュースならではのセンチメント 30
  30. 30. ©GRI Inc. 記事のカテゴリ 31 読売新聞 カテゴリDB 普遍的なカテゴリ カスタムカテゴリ BERT(Transformer) Word2Vec 10種のカテゴリの それぞれのスコアを出力 (マルチラベル) クエリキーワード(N 個) N個のクエリそれぞれの分散表現と 記事の分散表現の間の類似度を算出し、 スコアが閾値以上の場合には 該当カテゴリとして処理
  31. 31. ©GRI Inc. 記事のカテゴリ ■ 普遍的なカテゴリ – 読売新聞様が過去10年以上の記事に対して、マニュアルでアノテーションしたデー タベースを訓練データとして利用 • 政治・経済・社会・スポーツ・文化・生活・犯罪事件・科学・国際・皇室 – 特に、犯罪事件カテゴリを広告ターゲティングに利用し、ブランディングを毀損しない 仕組み – BERT(Transformer)にてFine-Tuning – GPUなしでも100ミリ秒程度で推論 ■ カスタムカテゴリ – BERTよりも高速に動作するWord2Vecを利用(1回の推論で数ミリ秒) – N個のカテゴリがあれば、1記事あたりN回の推論を実行する必要があり、 精度と速度のバランスが重要 – 現在は約100種のカテゴリについて推論 32
  32. 32. ©GRI Inc. モデルの個性を活かし、ソリューションに昇華 33
  33. 33. ©GRI Inc. 記事の多様な側面を捉える ■ 記事のカテゴリ – スポーツや事件・事故など、普遍的なカテゴリ – 新しい概念が含まれるなど、事前定義が難しい カテゴリ(コロナ、SDGs、web3など) ■ 記事のセンチメント – 単純なポジネガ極性スコア – ニュースならではのセンチメント 34
  34. 34. ©GRI Inc. 記事のセンチメント推論 35 ポジネガ極性 独自のセンチメント Cloud Natural Language API 当該APIのスコアと、犯罪事件スコアをもと にネガティブな話題の記事を選定 プルチックの感情の輪をベースに、 単純なポジネガでは捕捉できない ニュース記事ならではのセンチメント軸を定義 し、訓練データの作成から行う
  35. 35. ©GRI Inc. 記事のセンチメント推論 36 ポジネガ極性 独自のセンチメント Cloud Natural Language API 当該APIのスコアと、犯罪事件スコアをもと にネガティブな話題の記事を選定 プルチックの感情の輪をベースに、 単純なポジネガでは捕捉できない ニュース記事ならではのセンチメント軸を定義 し、訓練データの作成から行う
  36. 36. ©GRI Inc. ゼロから訓練データをつくるための課題 ■ 正解ラベルの設計 – 世の中に、そのものずばりのフレームワーク(FW)がないことも多い – 課題の本質を解きほぐし、既存FWをチューニングすることが重要 ■ アノテーション作業 (※)アノテーションとは、データに正解ラベルを付与すること – 複数人で作業し、品質を担保する体制をつくる – どのくらいのデータ量が必要か、アノテーションにかかるコストを推定 – 正解にバラつきがある前提での訓練方法 37
  37. 37. ©GRI Inc. アノテーション体制 ■ 7名体制でアノテーショ ン作業を実施 ■ アノテータごとの傾向や バラつき度合いを分析 し、今後の方針などを相 談・検討 38
  38. 38. ©GRI Inc. 必要なデータ量を推定 ■ まずは一人か二人の タスク全体を見渡せ るコアメンバーがアノ テーションを行う ■ 各正解ラベルごとに 訓練データと検証 データの精度検証を 行い、必要なデータ 量を推定 ■ 必要に応じてデータ 量を増やす前提で、 初期モデルのローン チ基準を設定 39
  39. 39. ©GRI Inc. アノテータの感性を大切にするモデル構築スキーム ■ 複数人でアノテーションしたラベ ルを利用しモデル訓練するパ ターン 1)ベースライン ラベルを事前に多数決で決める 2)アンサンブル アノテータごとにモデル構築 3)マルチラベル/マルチタスク モデル出力を多数に ■ 一人ひとりのアノテータの感性 を活かし、ニュース記事の多面 性を表現 40 Dealing with Disagreements; Looking Beyond the Majority Vote in Subjective Annotations
  40. 40. まとめ 41
  41. 41. ©GRI Inc. 読売新聞様との実践的な取り組みをご紹介 ■ AIは確実にコモディティ化しているが、モデルの個性とビジネス課題を結び つけることができるAIエンジニアは価値が高い – 課題に対して適切なモデルを選定できる – 複数のモデルを協調させて課題を解く ■ AIの社会実装を語る上で、市場競争力のあるデータセットを独自に 作成する仕組みや体制をもつ重要性は、今後ますます向上する 42
  42. 42. ©GRI Inc. 今回ご紹介できていない内容 ■ データ基盤があるからこそ、AIは価値を発揮できる ■ 記事のメタデータを高速配信する仕組み ■ 構築したAIモデルの運用オペレーション などなど ご興味ある方がいましたら、 本日のネットワーキングで是非聞いてください! 43
  43. 43. ©GRI Inc. 個人的にチャレンジしてみたいこと ■ ひとつの記事だけでなく、メディア空間全体の文脈をネットワーク 構造のように表現し、社会のうねりを分析してみたい 44 TIME 現在 現在の 延長 ビジョン 理想 Backcast Forecast 文脈を踏まえ、 良い言葉を紡ぎ出す コンテキストや 文脈を捉えるAI
  44. 44. PR 45
  45. 45. ©GRI Inc. ヒトとAIの良い分業体制を構築したい 46 DIKWヒエラルキー ワクワクする 面白い 情熱がある データから知識へのキュレーション はAIでクイックに 自動化 効率化 イノベーション
  46. 46. ©GRI Inc. データサイエンス起点のイノベーションを担うロール ■ 効率化 – AI/MLエンジニア – データエンジニア – データアーキテクト – データスチュワード(品質保証、データガバナンス) ■ 独創性・独自性 – アントレプレナー – DX推進マネージャー – 共創ディレクター(オープン・イノベーション) 47
  47. 47. ©GRI Inc. AI時代に必要とされる人材になるために 48
  48. 48. ©GRI Inc. 【GRIグループ】(株)pictureが運営するpicture academyのお知らせ 2023年1月31日、『G検定最強の合格問題集』を出版 出版を記念して、著者が合格に導くためのスペシャルな無料勉強会を開催 G検定教材の特典付きで、合格に重要な問題で演習を行います! 49 勉強会のお申し込みは こちら
  49. 49. 50 座談会
  50. 50. ©GRI Inc. 大切にしている言葉 「神は細部に宿る」 by Ludwig Mies van der Rohe 51 株式会社GRI 古幡 征史
  51. 51. ©GRI Inc. 大切にしている言葉 52 「自由には責任を伴う」 読売新聞東京本社 DX推進部 竹内 勇希
  52. 52. ©GRI Inc. 大切にしている言葉 53 読売新聞東京本社 広告局デジタルビジネス部 高橋 健太郎 「意志あるところに道は開ける」
  53. 53. ©GRI Inc. 大切にしている言葉 「巨人の肩に乗る」 54 株式会社GRI 大友 祐一
  54. 54. ©GRI Inc. データ基盤「yomiuri ONE」 55 広告配信にもMAにも深堀分析にも使 えるデータ基盤 読売グループ横断で顧客情報の分析 ができるデータ基盤 社員300名以上が利用 月間200-400ユーザー 200以上の効果的なセ グメント
  55. 55. ©GRI Inc. デジタル広告ビジネスにおける「課題」 56 背景 ・3rd Party cookie廃止による単価下落 ・メディアの収益力を高めるために「自社媒体の売り方」の高度化
  56. 56. ©GRI Inc. 解決するには 57 機械学習をもちいて、属性が判定で きるブラウザ数を増やす ➡ONE推定属性 記事文脈から興味関心にフィット ➡コンテクスチュアル・ターゲティング
  57. 57. ©GRI Inc. ONE推定とは 58
  58. 58. ©GRI Inc. ONE推定とは 59
  59. 59. ©GRI Inc. ONE推定_実装結果 60
  60. 60. ©GRI Inc. ONE推定_実装結果 61
  61. 61. ©GRI Inc. ONE推定_成果 62
  62. 62. ©GRI Inc. コンテクスチュアル・ターゲティングとは 63
  63. 63. ©GRI Inc. コンテクスチュアル・ターゲティングとは 64 ■コンテクスト=文脈 ■記事コンテンツの文意・文脈・感情を理解して、相性の良い広告を配信する ■過去の行動履歴から「人(ブラウザ)」をターゲティングする「オーディエンスマッチ」と異 なり、ユーザーデータを利用しない。 ■アドネットワーク登場前夜の「サイトマッチ」「カテゴリマッチ」のAI的進化
  64. 64. ©GRI Inc. コンテクスチュアル・ターゲティングとは グローバルでも「コンテクスト」へ
  65. 65. ©GRI Inc. コンテクスチュアル・ターゲティング_実装 66
  66. 66. ©GRI Inc. コンテクスチュアル・ターゲティング_実装 67 最新記事もニアリアルタ イムに記事分類(<20 分) 広告処理シーケンスのボ トルネックにならない「応 答速度(~数十msec)」
  67. 67. ©GRI Inc. コンテクスチュアル・ターゲティング_成果 68
  68. 68. ©GRI Inc. PR 69 データ連携や効果測定のPoC 新卒/中途採用(鋭意募集中) データエンジニア データアナリスト ビジネスアーキテクト 検索「読売 採用 DX」

×