SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
DEEP LEARNING Digital Conference
20年8月1日 15:20-15:45
AI・ディープラーニングを駆使して、
「G検定合格者アンケートのフリーコメント欄」
を分析してみた
株式会社電通国際情報サービス
X(クロス)イノベーション本部 AIテクノロジー部
兼 CDLEメンバ
小川 雄太郎、御手洗拓真
[※本スライドは後ほど公開]
2
本日の内容
●発表者の小川です。CDLEメンバであり、ディープラーニング協会の委員でもあり
ます
●2020年5月に実施した「G検定合格者がおススメする本アンケート」のフリーコ
メント欄、「ディープラーニング協会へのご意見・ご要望」に寄せられた意見を、
「ディープラーニングのエンジニアらしく、機械学習を駆使して分析しようじゃな
いか!」と実施した結果を紹介します
●本発表の流れ:自己紹介ののちに、最初に「解析したデモ動画」を紹介します
●その後、分析システムを共に構築したチームメンバ御手洗より、システム内で使
用されている自然言語処理技術を解説します
3
会社紹介(省略)
株式会社電通
1975年に創業
電通グループのIT集団(SIer)
General Electric
Company(GE)
電通国際情報サービス(ISID)
4
会社紹介(省略)
簡単にISIDのAIテクノロジー部について紹介します
電通国際情報サービス(通称ISID)では、XI本部AIテクノロジー部を中心に、製造
業をはじめとする多様な領域において、100を超えるAIプロジェクトの推進
Microsoft TechSummit / 各種講演
放牧牛の行動予測 NHK
「人間ってナンだ?超AI入門」
AI事例 ワールドビジネスサテライト
5
DEEP LEARNING LAB
ステアリングコミッティ
第10章 双日ツナファーム鷹島
養殖マグロの数の把握にAI活用
ISID-AIトランスフォーメーショ
ンセンターの設立(日経XTEC)
https://isid-ai.jp/
6
小川 雄太郎 所属:電通国際情報サービス クロスイノベーション本部 AIテクノロジー部
業務:AI案件のコンサル、リード、自社AI製品の開発
兼職:日本ディープラーニング協会 委員、早稲田大学 非常勤講師、執筆業
詳細:https://github.com/YutaroOgawa/about_me
Twitter:https://twitter.com/ISID_AI_team
出版: PyTorch・発展ディープラーニング、深層強化学習、機械学習入門、因果分析
自己紹介
自己紹介
所属:電通国際情報サービス クロスイノベーション本部 AIテクノロジー部
経歴:
2015年3月:慶應義塾大学総合政策学部卒
2015年4月:新卒でとあるSIerへ入社
Azureベースの機械学習システム導入案件を推進
2020年2月:ISID AIテクノロジー部へ中途入社
業務:
機械学習システム開発・導入、自社のAIソフトウェアの開発、主にAzureによる
アーキテクチャ設計
御手洗拓真
アンケート分析
の概要
アンケート分析の概要
人手でのフリーコメントの解析フロー
[1] 全コメントを読みながら、似たような内容の文章を次々とグルーピング(クラスタリング)する
[2] クラスタ内容を代表するキーワードを抽出
[3] クラスタ内容の要約文章を作成
[4] ちなみに、今回使用したデータは以下のような感じです
・・・
250件超。。。(大変、自然言語処理・機械学習技術でどうにかしたいというモチベーション)
作成した分析ツールのMVP(プロトタイプ)のデモ動画を再生
デモ動画
クラスタごとの要約
自動でのクラスタリングから要約結果(省略)
C0:案内や情報発信が
良い感じです。
C5:良い勉強機会に
なった。検定のブラン
ディングをさらに伸ば
して欲しい。
C3:G検定合格と業務での
AI活用レベルに乖離があり、
業務レベルが身につく支援や
仕組みが欲しい
C1:E資格の受験条件の緩和
を。
※その他長文が多いクラスタ。
C4:G検定の問題バランス調整
や教育コンテンツ提供希望、な
ど教育サービス提供について
C2:E資格とG検定の間くらいの資
格の検討やE資格が高額。CDLEの
活性化で盛り上げて欲しい
C6:検定・資格の認知度を
向上させてほしい、E取得が
取得しやすくしてほしい
分析ツールからの結果
手作業との比較:概ね手作業と一致(省略)
C0:案内や情報発信が良い感じです。
C1:E資格の受験条件の緩和を。※その他長文が多いクラスタ
C2:E資格とG検定の間くらいの資格の検討や、CDLEの活性化で盛り上げて欲しい
C3:G検定合格と業務でのAI活用レベルに乖離があり、業務レベルが身につく支援や仕組みが欲しい
C4:G検定の問題バランス調整や教育コンテンツ提供希望、など教育サービス提供について
C5:良い勉強機会になった。検定のブランディングをさらに伸ばして欲しい。
C6:検定・資格の認知度を向上させてほしい、E取得が取得しやすくしてほしい
C0:ビジネス活用のサポートや最新AI情報の発信が欲しい
C1:E資格の受験条件(認定会社受講必須)を見直して欲しい
C2:資格を増やして欲しい
C2:CDLEのslack関連
C3:G検定合格後のステップアップの支援が欲しい
C4:G検定、E資格の過去問を公開してほしい
C4:実装の支援が欲しい
C4:セミナーを開催してほしい
手作業
C4: G検定、E資格の試験運用のカイゼン
C4:G検定の問題内容のカイゼン
C5:資格そのものの価値を向上して欲しい
C6:資格を増やして欲しい
C6:E資格、G検定が高額
●今後も宜しくお願いします
●協会ホームページ改善
●その他
アンケート分析
ツールの技術詳細
アンケート分析ツールの構成図(省略)
システム構成は以下の通りです(プロトタイプなので簡易)
個人PC
バックエンドフロントエンド
開発・運用環境:コンテナ環境
(Docker、Docker Compose)
フロントエンド:
Vue.js、Nuxt.js、Vue Material
バックエンド:
Django、Django REST framework
REST-API
アンケート分析ツールで使ったAI技術
1. ワードクラウド
2. 文書の特徴量作成
3. デンドログラム(樹形図や、階層別 or 階層的クラスタリングと呼ばれます)
4. クラスタリング
5. 重要単語の抽出
6. 要約
※時間の関係上、各技術の詳細はスライド掲載のみで、分析の流れを重視して説明します。
分析ツールで使っているAI系の技術として、以下を順番に紹介します
1. ワードクラウド
1. ワードクラウド
元の文書
ストップワード
除去等
単語数カウント
・可視化
私はAIビジネスを
勉強します。
AIをビジネスで
活用したい。
AIの勉強になった。
私/は/AI/ビジネス/を
/勉強/します。
AI/を/ビジネスで
活用/したい。
AI/勉強/に/なった。
良かっ/た。
AI ビジネス 勉強 AI ビジネス 活用 AI 勉強 良い
単語 AI ビジネス 勉強 活用
回数 3 2 2 1
形態素解析
• トークンに分割
• トークナイザはSudachipyのC
モードを利用
• ストップワード除去
• 同義語変換
• 登場回数を基準にして、
単語の表示サイズを変更
1. ワードクラウド:算出の流れ
おおまかな流れは、形態素解析→ストップワード除去→単語数カウント
1. ワードクラウド:GUIの実装
Vue.jsのチャート用ライブラリ
amchart4を利用し、
ワードクラウドをビジュアライズ
Vue.jsのテーブル用ライブラリ
vue-good-tableを利用し、
選択した単語を含む
アンケートのみ抽出
Vue.jsのライブラリを使って、ワードクラウド&選択したワードを含むアンケートだけ表示
2. 文書の特徴量作成とデンドログラム
2. 文書の特徴量作成 と 3. デンドログラム(階層別クラスタリング)
2. 文書の特徴量作成
2. 文書の特徴量作成
2. 文書の特徴量作成
No. アンケート単語
1 AI, ビジネス,勉強
2 AI, ビジネス, 活用
3 AI, 勉強
No. AI ビジネス 勉強 活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
単語に分割した文字列データを、数値データ(ベクトル)に変換(ALBERT or TF-IDF )
数値データを、可視化用に二次元(X軸とY軸)に変換(PCA or UMAP)
No. X軸 Y軸
1 0.1 0.5
2 0.5 0.6
3 0.3 0.7
ベクトル化
次元圧縮 No. AI ビジネス 勉強 活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
X
Y
大まかな流れは、アンケートをベクトル化した後、二次元に減らしてプロット
2. 文書の特徴量作成:ALBERT
https://www.itmedia.co.jp/news/articles/1910/27/news014.html
2019年10月末、Googleは検索エンジン(英語版)に、
意図をくんで答えるBERTというディープラーニングを導入
TF-IDF
PCA
UMAP
ベクト
ル化
次元
圧縮
ALBERT
2. 文書の特徴量作成:ALBERT
BERTとは、、、
①ディープラーニング技術を用いたAIの一種です
②文脈を考慮して、単語や文章の意味を理解できる技術です
例えば、以下の3つの文章があるとします。
①昨日、会社をくびになった。
②昨日、たくさん運動して、くびと脚が筋肉痛だ。
③先日、やらかしてしまい、会社を解雇された。
このときBERTは、文章①のくびは、②のくび、よりも、③の解雇、に意味が近い
という文脈の意図を組むことができるディープラーニング・エンジンです。
BERTにより曖昧な検索クエリでも文章を検索したり、
文書同士の類似性を比較しやすくなります。
よって、BERTを各種製品に組み込みたいのですが、2つの大きな問題がありました
PCA
UMAP
ベクト
ル化
次元
圧縮
TF-IDF
ALBERT
アンケート分析ツールで使った技術の紹介
①モデルのファイルサイズがでかすぎる(約450MB)
②入力できる文章の長さが短い(512文字:原稿用紙1枚ちょっと)
この問題はGoogleも困っており、2019年12月20日に、
A Lite BERT(ALBERT)、と呼ばれる、サイズが小さいBERTモデルをGoogle
が開発しました。
ISIDで私たちは、自分たちで学習させた日本語版ALBERTを使用しています
https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html
BERTの問題点
PCA
UMAP
ベクト
ル化
次元
圧縮
TF-IDF
ALBERT
2. 文書の特徴量作成:ALBERT
https://www.slideshare.net/DeepLearningLab/nlp-
236520444?ref=https://dllab.connpass.com/event/177785/presentation/
ALBERT(A Lite BERT)については、
7/2の「自然言語処理ナイト」で詳しく解説したので、そちらをご覧ください
PCA
UMAP
ベクト
ル化
次元
圧縮
TF-IDF
ALBERT
2. 文書の特徴量作成:TF-IDFの仕組み①
TF-IDF
PCA
UMAP
ベクト
ル化
次元
圧縮
No. 単語
1 AI,ビジネス, 勉強
2 AI, ビジネス, 活用
3 AI, 勉強
No AI ビジネス 勉強 活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
No. [AI,ビジネス,勉強,活用]
1 [ -0.1, 0 , 0, 0]
2 [-0.1, 0, 0.12 ]
3 [-0.15, 0, 0,0]
TF-IDF は、 単語の重要度スコア
▼形態素解析 ▼TF-IDFでベクトル化
イメージは、「重要な単語はポイントを高く」
「そうでもない単語はポイント低く」して文章をベクトル化
ALBERT
2. 文書の特徴量作成:TF-IDFの仕組み②(省略)
重要度 そうでもない度
一つのアンケートに何回も
登場する単語は重要
例)「高額」など
多くのアンケートに共通で
登する単語はそうでもない
例)「検定」「受験」など
log
アンケートの総数
単語を含むアンケート数 + 1
TF-IDF
重要スコア
TF IDF= ×
重要度と
そうでもない度の
かけ合わせ
概要
数式
単語の登場回数
アンケート内の
全単語の登場回数の和
単語の重要スコア= 重要度 × そうでもない度
PCA
UMAP
ベクト
ル化
次元
圧縮
TF-IDF
ALBERT
2. 文書の特徴量作成:TF-IDFの仕組み③(省略)
重要度 そうでもない度
TF-IDF
重要スコア
TF IDF= ×
例
計算
No. アンケートのトークン表現
1 AI, ビジネス, 勉強
2 AI, ビジネス, 活用
3 AI, 勉強,
AI
ビジ
ネス
勉強 活用
IDF値 -0.3 0.0 0.0 0.4
No. AI
ビジ
ネス
勉強 活用
1 0.3 0.3 0.3 0
2 0.3 0.3 0 0.3
3 0.5 0 0.5 0
No. AI
ビジ
ネス
勉
強
活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
単語の重要スコア= 重要度 × そうでもない度
PCA
UMAP
ベクト
ル化
次元
圧縮
TF-IDF
ALBERT
2. 文書の特徴量作成:PCA(主成分分析)の仕組み
第一主成分
次元圧縮する前の状態 ばらつきが大きくなる
ように新しい軸をとる
新しい軸の座標で、
データを表現する
最初はXY軸上の座標で
点は表現される
元の次元数分だけ、
第一主成分と直角に軸を取れる
X
Y 第一主成分
XY軸上の
点A(0.5,0.4)
X
Y
XY軸上の
点A(0.5,0.4)
第一主成分上の
点A(0.2)
第一主成分上の座標で表すこと
で、次元を削減
イメージは、データのばらつき具合が大きくなるように新たな軸を取り直し、
新たな軸上の点でデータを表現しなおす
TF-IDF
PCA
UMAP
ベクト
ル化
次元
圧縮
ALBERT
2. 文書の特徴量作成:UMAPの仕組み
https://pair-code.github.io/understanding-umap/
• 色
 クラスラベルだと思ってください
(出典には色についての記載なし)
• 円
 半径が重複する点どうしを接続する
 半径の色の濃さは接続の可能性
• エッジ
• ポイント間の接続を示す
イメージは、高次元データの構造と同じような構造を、
低次元の状態でも再現できるように学習する
PCA
UMAP
次元
圧縮
TF-IDF
ベクト
ル化
ALBERT
3. デンドログラム(階層別クラスタリング)
3. デンドログラム(階層別クラスタリング)
3. デンドログラム:ウォード法の仕組み
イメージは、重心の距離が近い点から同じグループにしていき、
一つになるまで繰り返す
4. クラスタリング、5. 重要単語、 6. 要約
4. クラスタリング、5. 重要単語、 6. 要約
4. クラスタリング、5. 重要単語、 6. 要約
各文書をクラスタリング クラスターごとの
重要単語を算出
クラスターごとに、
重要単語を含む要約文を生成
おおまかな流れは、
クラスタリング ⇒ クラスターごとに重要単語算出⇒ クラスターごとに要約文生成
各文書をクラスタリング クラスターごとの
重要単語を算出
クラスターごとに、
重要単語を含む要約文を生成
4. クラスタリング
4. クラスタリング
4. クラスタリング:k-means ++の仕組み(省略)
STEP1
各クラスタ重心の初期値
を選択
STEP1
各データを、一番重心が
近いクラスタに割り振る
STEP1
新たな重心を計算する
STEP1
一番近い新たな重心に、
クラスターを割り振る
STEP5
クラスターが変化しなくなるまで、
STEP3, STEP4を繰り返す
:重心 :重心 :重心 :重心
イメージは、「クラスターの重心を少しずつ移動させて調整していく」
4. クラスタリング:k-means ++の仕組み(省略)
STEP1
各クラスタ重心の初期値
を選択
1-1:ランダムに一つ目の重心を選ぶ 1-2:一つ目からの距離をもとに、確率分布を
つくる(=遠いデータほど確率が高くなる)
1-3:確率分布をもとに、二つ目を選ぶ 1-4:一つ目と二つ目、近い方の距離を
もとに確率分布をつくり、三つ目を選ぶ
確率分布 =
一つ目からの距離 𝑥 2
一つ目の距離 𝑥 2
高確率 低確率
確率分布 =
近い方からの距離 𝑥 2
近い方から距離 𝑥 2
:重心
k-meansとk-means++との違いは、
STEP1の初期値選択を「できるだけバラけさせる工夫」を入れていること
5. 重要単語の算出
アンケートをクラスタリング クラスターごとの
重要単語を算出
クラスターごとに、
重要単語を含む要約文を生成
5. 重要単語の算出
アンケート分析ツールで使った技術の紹介(省略)
「静的なタイプ」
1. クラスタ内の単語の頻度、tf-idf値、クラスタ間での頻度などから判定
2. クラスタ全文書の平均ベクトルと近い単語ベクトル
「クラスタごとに教師あり学習に置き換えるタイプ」:各クラスタとその他(1 VS ALL)を分離するモ
デルをクラスタ数分作成
A) L1ノルム罰則の回帰:Lassoで、モデルの係数が大きい単語を重要単語とする
B) ランダムフォレスト、LightGBM(グラディエントブースティング)などのモデルをクラスタ数分作成し、
Feature Importance(特徴量の重要度)が高い単語を重要単語とする
C) LIMEもしくはSHAPでモデルを作成し、各文章の重要単語の情報から、グローバルに重要な単語を抽出
D) MSのInterpretML-Text(Unified Information Explainer≒ノイズへの頑強性から重要単語検出、
Introspective Rationale Explainer≒学習時に重要単語抽出モデルも作成 )の使用
クラスタを代表する重要単語を抽出する手法(を考えてみた)
https://www.youtube.com/watch?v=oL0P5n6jZBc https://github.com/interpretml/interpret-text
アンケート分析ツールで使った技術の紹介
今回は、
「クラスタごとに教師あり学習に置き換えるタイプ」:各クラスタとその他(1 VS ALL)を分離するモ
デルをクラスタ数分作成
B)ランダムフォレスト、LightGBM(グラディエントブースティング)などのモデルをクラスタ数分作成し、
Feature Importance(特徴量の重要度)が高い単語を重要単語とする
を使用。tf-idfでベクトル化してランダムフォレストで1 VS ALLのモデルをクラスタ数分作り、クラスタごとに
Feature Importanceの高い単語を重要単語として抽出
クラスターを代表する重要単語を抽出する手法
5. 重要単語の算出:ランダムフォレスト 1vsALL
クラスタリング結果を目的変数とし
一つのクラスター vs それ以外
の二値分類モデルを
ランダムフォレストで学習
No. AI
ビジ
ネス
勉強 活用 目的変数
1 -0.1 0 0 0
クラスタ
1
2 -0.1 0 0 0.12
クラスタ
1以外
3 -0.15 0 0 0
クラスタ
1以外
AI
ビジネス
活用
E
検定
受験
勉強会
セミナー
出席
クラスター1の重要単語
クラスター2の要単語
クラスター3の要単語
ランダムフォレストの
特徴量重要度を、
そのクラスターの重要単語とする
全てのクラスターに対して、
1:二値分類モデル作成、
2:特徴量重要算出
を行う
クラスタリングの結果を正解ラベルにして、
ランダムフォレストで教師有りの二値分類
6. 要約
アンケートをクラスタリング クラスターごとの
重要単語を算出
クラスターごとに、
重要単語を含む要約文を生成
6. 要約
STEP1
STEP3
STEP4
STEP2
STEP5
各クラスターごとにアンケート回答を結合し、
クラスター一つにつき、一つの「文書」をつくる
各クラスターごとの「文章」を構成する、
各センテンスのLexRank(要約スコア)を計算(LexRankはあとで説明)
LexRankが高い順に、重要単語上位5つが
含まれる最低限のセンテンスだけ抽出する
STEP2~5を
クラスターの数だけ繰り返す
抽出したセンテンスを結合し、そのクラス
ターの要約文とする
6. 要約:クラスターごとに要約文を生成
大まかな流れは、各クラスターごとのアンケートを「一つの文章」とみなし、
その文章の要約文を生成する
6. 要約:クラスターごとに要約文を生成
ビジネススクールに通う。AI
ビジネスを学びたい。AIをビ
ジネスで活用するために勉強
したい。AIだけではダメ
だ!・・・etc
E検定の受験を検討している。
E検定を受けようと思ってい
る。・・・etc
元のアンケート
クラスターごとに一つの文章化
クラスター1の文章 クラスター2の文章
AIビジネスを学びたい
AIをビジネスで活用するために勉強したい
G検定さいこう
ビジネススクールに通う
AIだけではダメだ! E検定の受験を検討している
E検定を受けようと思っている
クラスターごとにアンケートを結合して一つの「文章」を作る
6. 要約:クラスターごとに要約文を生成
▼クラスタ1の要約スコア
※LexRankによる要約スコア算出の仕組みは後述
センテンス
LexRank
(要約スコア)
ビジネススクールに通う 0.2
AIビジネスを学びたい 0.3
AIをビジネスで活用するために勉強したい 0.4
AIだけではダメだ! 0.2
G検定さいこう! 0.1
各クラスターごとの「文章」を構成する、各センテンスのLexRank(要約スコア)を計算
6. 要約:クラスターごとに要約文を生成
▼クラスター1から抽出するセンテンス
センテンス
LexRank
(要約スコア)
AIをビジネスで活用するために勉強したい 0.4
AIビジネスを学びたい 0.3
▼クラスター1の重要単語TOP5
AI ビジネス 活用 学び 勉強
LexRankが高い順に、重要単語上位5つが含まれる最低限のセンテンスだけ抽出する
6. 要約:クラスターごとに要約文を生成
▼生成されたクラスター1の要約文
• AIをビジネスで活用するために勉強したい
• AIビジネスを学びたい
抽出したセンテンスを結合し、そのクラスターの要約文とする
6. 要約:クラスターごとに要約文を生成
▼クラスター1の要約文
• AIをビジネスで活用するために勉強したい
• AIビジネスを学びたい
▼クラスター2の要約文
• E検定を受けようと思っている
• E検定の受験を検討している
▼クラスター3の要約文
• 勉強会を主催してほしい
• AIに関する勉強会に出席するきっかけになった
STEP2~5をクラスターの数だけ繰り返す
6. 要約:LexRankの仕組み
「AIビジネスを学びたい」
「AIをビジネスで活用するために勉強したい」
「G検定さいこう」
0.2
0.2
0.4
0.3
0.1
類似している
センテンスは線で接続
多くのセンテンスと類似
する「センテンス3」は
スコアが高い
クラスター1のLexRankスコアイメージ
「ビジネススクールに通う」
「AIだけではダメだ!」
イメージは、多くのセンテンスと類似するセンテンスほど要約スコアを高くする
6. 要約:LexRankの仕組み詳細(省略)
各文書を構成する
センテンスのcos類似度行列
作成
閾値以上を1、未満を0に
して隣接行列に変換
列方向に正規化し、
確率行列に変換
確率行列の固有値1の固有
ベクトルを算出
この固有ベクトルの値が
センテンスのLexRank
算出の流れは、以下の5ステップ
6. 要約:LexRankの仕組み詳細(省略)
ビジネススクールに
通う
AIビジネスを学
びたい
AIをビジネスで活用す
るために勉強したい
ビジネススクールに通
う
1 0.3 0.2
AIビジネスを学びたい 0.3 1 0.5
AIをビジネスで活用す
るために勉強したい
0.2 0.5 1
▼クラスター1の類似度行列
「AIビジネスを学びたい」
と「AIをビジネスで活用する
ために勉強したい」
の類似度は「0.5」
各文書を構成する
センテンスのcos類似度行列
作成
閾値以上を1、未満を0に
して隣接行列に変換
列方向に正規化し、
確率行列に変換
確率行列の固有値1の固有
ベクトルを算出
この固有ベクトルの値が
センテンスのLexRank
「センテンス同士の類似度」行列(=類似度行列)を作成
6. 要約:LexRankの仕組み詳細(省略)
各文書を構成する
センテンスのcos類似度行列
作成
閾値以上を1、未満を0に
して隣接行列に変換
列方向に正規化し、
確率行列に変換
ビジネススクールに
通う
AIビジネスを学
びたい
AIをビジネスで活用す
るために勉強したい
ビジネススクールに通
う
1 0 0
AIビジネスを学びたい 0 1 1
AIをビジネスで活用す
るために勉強したい
0 1 1
確率行列の固有値1の固有
ベクトルを算出
この固有ベクトルの値が
センテンスのLexRank
▼閾値を0.5とした場合のクラスター1の隣接行列
「AIビジネスを学びたい」
と「AIをビジネスで活用する
ために勉強したい」には
類似フラグを立てる
類似度を閾値以上は1、閾値未満は0にして、
「センテンス同士の類似フラグ」の行列(=隣接行列)にする
6. 要約:LexRankの仕組み詳細(省略)
▼クラスター1の確率行列
各文書を構成する
センテンスのcos類似度行列
作成
閾値以上を1、未満を0に
して隣接行列に変換
列方向に正規化し、
確率行列に変換
ビジネススクールに
通う
AIビジネスを学
びたい
AIをビジネスで活用す
るために勉強したい
ビジネススクールに通
う
1 0 0
AIビジネスを学びたい 0 0.5 0.5
AIをビジネスで活用す
るために勉強したい
0 0.5 0.5
確率行列の固有値1の固有
ベクトルを算出
この固有ベクトルの値が
センテンスのLexRank
「AIビジネスを学びたい」
は2個と類似しているので、
ル時フラグ1を2で割る
列方向に正規化し、「列のセンテンスが行のセンテンスになる確率」の行列(=確率行列)に変換
6. 要約:LexRankの仕組み詳細(省略)
LexRank
ビジネススクールに通
う
0.2
AIビジネスを学びたい 0.3
AIをビジネスで活用す
るために勉強したい
0.4
▼確率行列の固有ベクトル
この固有ベクトルの値が
「LexRank」に相当する
各文書を構成する
センテンスのcos類似度行列
作成
閾値以上を1、未満を0に
して隣接行列に変換
列方向に正規化し、
確率行列に変換
確率行列の固有値1の固有
ベクトルを算出
この固有ベクトルの値が
センテンスのLexRank
https://qiita.com/sugulu/items/960116ec90b54bf924d7
「確率行列をいくらかけても変わらない、センテンス固有の重要さ」
(=固有値1の固有ベクトル)を算出
まとめ
まとめ
●「AI」と聞くと、【自動化・人間の代替】のイメージが強いですが、今回の取り組みは「人間協調
型AI」です。
●アンケートのフリーコメントを機械学習&ディープラーニングで、ある程度まで自動でクラスタリ
ングと要約してくれることで、人がフリーコメントなどの大量文書の全体像を理解しやすくしました
●(反省)途中までtf-idfで作っていて、最後にALBERTに変えたので「重要単語の検出」が、tf-idf
ベースのままであった。この点がALBERTでのクラスタリング結果の要約文の質を下げていた(よう
に感じる)
●「重要単語の検出」もALBERTベースにすることで、さらに性能が上がり、様々な文書・テキスト
情報を扱う際の協調型AIを構築することができると期待される
付録:最近の私たちのAI関連の発表スライド等
付録:最近の私たちのAI関連の発表スライド
[1] NLP ソリューション開発の最前線, DLLAB 自然言語処理ナイト, 20年7月.
[2] SIerで自然言語処理AI製品をアジャイル開発した際の試行錯誤, Machine Learning 15minutes!, 20年7月.
https://www.slideshare.net/DeepLearningLab/nlp-236520444
https://drive.google.com/file/d/1xT_o7YbfLWfSBrjSw4l3-
h2uAolS9jPe/view?fbclid=IwAR3SlNzvg1kCVYZpD7IFOiBkoy9kz9RmDIkIbFGyCPw43ZpuNCCnuuaJMLM
付録:最近の私たちのAI関連の発表スライド
[3] OSS プロジェクトの Issue 議論内容に対する BERT および AutoML を用いた文章分類の提案, 山田, 櫨山,
小川, 人工知能学会 2020@熊本, 20年6月.
[4] 進化するSIerの最前線!電通国際情報サービス(ISID)が先端技術の活用事例を紹介【AI編】, 芝田, 小川,
19年12月.
https://confit.atlas.jp/guide/event/jsai2020/subject/3Rin4-08/advanced
https://techplay.jp/column/910?fbclid=IwAR3Di0Wad0y2sjjnlyZHlUaa_mHzC9Cf0aSaBY6MwE_ll8tMH9rsORo7E3k
https://techplay.jp/eventreport/758740
付録:最近の私たちのAI関連の発表スライド
[5] BlackBox モデルの説明性・解釈性技術の実装, DLLAB_interpretabilityNight, 19年10月.
[6] 電通国際情報サービスAIトランスフォーメーションセンター, 20年2月設立.
https://www.slideshare.net/DeepLearningLab/blackbox-198324328
https://isid-ai.jp/
CONFIDENTIAL
【お問い合わせ先】
• 株式会社 電通国際情報サービス
• X(クロス)イノベーション本部
AIテクノロジー部
• E-mail:g-isid-ai@group.isid.co.jp

Weitere ähnliche Inhalte

Was ist angesagt?

DataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズDataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズRecruit Technologies
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術Shohei Hido
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組みShintaro Fukushima
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスYusuke Uchida
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動Recruit Technologies
 
UXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについてUXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについてRecruit Technologies
 
機械学習システムの品質保証に向けた課題とコンソーシアム活動
機械学習システムの品質保証に向けた課題とコンソーシアム活動機械学習システムの品質保証に向けた課題とコンソーシアム活動
機械学習システムの品質保証に向けた課題とコンソーシアム活動Hideto Ogawa
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用NVIDIA Japan
 
リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組Recruit Technologies
 
深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由
深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由
深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由Deep Learning Lab(ディープラーニング・ラボ)
 

Was ist angesagt? (20)

DataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズDataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズ
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動
 
[Track1-5] 製造業における最新AI適用事例のご紹介
[Track1-5] 製造業における最新AI適用事例のご紹介[Track1-5] 製造業における最新AI適用事例のご紹介
[Track1-5] 製造業における最新AI適用事例のご紹介
 
UXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについてUXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについて
 
CVPR 2020報告
CVPR 2020報告CVPR 2020報告
CVPR 2020報告
 
機械学習システムの品質保証に向けた課題とコンソーシアム活動
機械学習システムの品質保証に向けた課題とコンソーシアム活動機械学習システムの品質保証に向けた課題とコンソーシアム活動
機械学習システムの品質保証に向けた課題とコンソーシアム活動
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
自然言語処理向け データアノテーションとそのユースケース
自然言語処理向け データアノテーションとそのユースケース自然言語処理向け データアノテーションとそのユースケース
自然言語処理向け データアノテーションとそのユースケース
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組
 
深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由
深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由
深層学習を製造業の課題解決に用いた経験から学んだ、深層学習の社会実装が進まない理由
 

Ähnlich wie AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Conference_200801

日本のテスト産業の国際競争力 ~日本をソフトウェアテスト立国にしよう~
日本のテスト産業の国際競争力~日本をソフトウェアテスト立国にしよう~日本のテスト産業の国際競争力~日本をソフトウェアテスト立国にしよう~
日本のテスト産業の国際競争力 ~日本をソフトウェアテスト立国にしよう~Yasuharu Nishi
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702小川 雄太郎
 
第6回 itil講義資料
第6回 itil講義資料第6回 itil講義資料
第6回 itil講義資料Mugen Fujii
 
20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎啓明 新冨
 
【16-B-7】TIDAコンソーシアム
【16-B-7】TIDAコンソーシアム【16-B-7】TIDAコンソーシアム
【16-B-7】TIDAコンソーシアムDevelopers Summit
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習Preferred Networks
 
ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)伸夫 森本
 
202112Cellor紹介資料 (Saleshub用)
202112Cellor紹介資料 (Saleshub用) 202112Cellor紹介資料 (Saleshub用)
202112Cellor紹介資料 (Saleshub用) SawakoOhno1
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見たHagimoto Junzo
 
プログラムせずに実現する!Amazon Redshift分析・活用環境
プログラムせずに実現する!Amazon Redshift分析・活用環境プログラムせずに実現する!Amazon Redshift分析・活用環境
プログラムせずに実現する!Amazon Redshift分析・活用環境Kazuya Mori
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポートDaichi Morifuji
 
第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様Tae Yoshida
 
ベンチマーク×アセスメントによる価値の創出に向けて
ベンチマーク×アセスメントによる価値の創出に向けてベンチマーク×アセスメントによる価値の創出に向けて
ベンチマーク×アセスメントによる価値の創出に向けてUNIRITA Incorporated
 
第4回 itil講義資料
第4回 itil講義資料第4回 itil講義資料
第4回 itil講義資料Mugen Fujii
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介Takahiro Kubo
 

Ähnlich wie AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Conference_200801 (20)

日本のテスト産業の国際競争力 ~日本をソフトウェアテスト立国にしよう~
日本のテスト産業の国際競争力~日本をソフトウェアテスト立国にしよう~日本のテスト産業の国際競争力~日本をソフトウェアテスト立国にしよう~
日本のテスト産業の国際競争力 ~日本をソフトウェアテスト立国にしよう~
 
Smfl20201001
Smfl20201001Smfl20201001
Smfl20201001
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
 
第6回 itil講義資料
第6回 itil講義資料第6回 itil講義資料
第6回 itil講義資料
 
IT VALUE EXPERTS会社案内資料
IT VALUE EXPERTS会社案内資料IT VALUE EXPERTS会社案内資料
IT VALUE EXPERTS会社案内資料
 
20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎
 
【16-B-7】TIDAコンソーシアム
【16-B-7】TIDAコンソーシアム【16-B-7】TIDAコンソーシアム
【16-B-7】TIDAコンソーシアム
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 
ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)
 
202112Cellor紹介資料 (Saleshub用)
202112Cellor紹介資料 (Saleshub用) 202112Cellor紹介資料 (Saleshub用)
202112Cellor紹介資料 (Saleshub用)
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見た
 
プログラムせずに実現する!Amazon Redshift分析・活用環境
プログラムせずに実現する!Amazon Redshift分析・活用環境プログラムせずに実現する!Amazon Redshift分析・活用環境
プログラムせずに実現する!Amazon Redshift分析・活用環境
 
TechTarget新サービス
TechTarget新サービスTechTarget新サービス
TechTarget新サービス
 
Kns20140628
Kns20140628Kns20140628
Kns20140628
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
 
CDLEおすすめ書籍
CDLEおすすめ書籍CDLEおすすめ書籍
CDLEおすすめ書籍
 
第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様
 
ベンチマーク×アセスメントによる価値の創出に向けて
ベンチマーク×アセスメントによる価値の創出に向けてベンチマーク×アセスメントによる価値の創出に向けて
ベンチマーク×アセスメントによる価値の創出に向けて
 
第4回 itil講義資料
第4回 itil講義資料第4回 itil講義資料
第4回 itil講義資料
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 

AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Conference_200801