SlideShare ist ein Scribd-Unternehmen logo
1 von 64
英語学習者のための 
発話自動採点システム 
近藤悠介 
早稲田大学 
www.yusukekondo.com 
@yusukekondo0503
Slideshare 
JACET2014ykondo 
2
本発表の目的 
• 自動採点に関する研究の楽しさ 
を伝えること。 
• 英語教育関連分野の研究者の 
皆様に自動採点に興味を持って 
もらうこと。 
3
発話自動採点のイメージ 
4 
y=ax+b… 
Nice to see you! 
.wav 
.wav 
.wav 
y=ax+b… 
y=ax+b… 
How Can I get to 
thIe w staast isoon e?xited! 
Score & feedback
発話自動採点のイメージ 
• 発話の特徴量と評定者による評 
価の関係から予測方法を得る。 
5 
話す速さ 
Y = X1+X2+…+Xn 
語彙の豊富さ 
評定者による評価特徴量
自己紹介的研究発表 
6
発表者の経歴 
Educational background 
• 早稲田大学教育学部英語 
英文学科卒業学士(文学) 
• 早稲田大学教育学研究科 
修士課程英語教育専攻修 
了修士(教育学) 
• 早稲田大学教育学研究科 
博士後期課程教科教育学 
専攻単位取得退学 
• 博士(教育学) 早稲田大学 
Work experience 
• 早稲田大学メディアネット 
ワークセンター助手 
• 立命館大学言語教育セン 
ター外国語嘱託講師 
• 早稲田大学オープン教育 
センター助教(英語教育) 
• 早稲田大学グローバルエ 
デュケーションセンター准 
教授(英語教育) 
7
自動採点システム 
8 
Kondo (2010)
読み上げ文 
Kondo (2010) 
The North Wind and the Sun were disputing which was the 
stronger when a traveler came along wrapped in a warm 
cloak. They agreed that the one who first succeeded in 
making the traveler take his cloak off should be considered 
stronger than the other. 
Then the North Wind blew as hard as he could, but the 
more he blew the more closely did the traveler fold his 
cloak around him; and at last the North Wind gave up the 
attempt. 
Then the Sun shone out warmly, and immediately the 
traveler took off his cloak. And so the North Wind was 
obliged to confess that the Sun was the stronger of the two.9
フィードバックの例 
Category A: 微妙な意味もイントネーションなどで表現でき、明瞭で自然な発 
音である。 
単語の発音について 
コミュニケーションを阻害するものではありませんが、いくつかの発音が正確 
ではない可能性があります。例えば、テキストに出てきたlast、sun、atの母音 
を日本語では同じ「あ」と認識しますが、英語では、これらの母音はすべて異 
なります。ひとつの母音が異なるだけで意味が異なる場合があります。例え 
ば、butとbatは日本語風に発音すると「バット」になってしまいますが、実際 
には異なる発音です。また、日本語にない子音についても同様のことが言え 
る可能性があります。個々の発音に注意を払えば、より伝わりやすい英語に 
なるでしょう。 
文の読み方について 
ほぼ完璧だと思われますが、いくつかの文の強勢が正確ではない可能性が 
あります。単語にアクセント(強勢)があるように、文にも最も強く発音される 
単語があります。これは前後関係や話者の意図によってことなりますが、例 
えば、テキストに出てきた"and at last the North Wind gave up the attempt"と 
いう文の場合、一般的に最後の単語attemptが最も強く発音されます。 
10 
Kondo (2010)
評価: 評定者の訓練 
11 
• 唯一の評価が最も確実なものにはならないため、人間に 
よる評価では複数の評定者が必要となる。 
• しかしながら、複数の評定者は常に一致した評価を出す 
わけではない。 
• 評定者の訓練は通常評定者間の一致度を高めるために 
行われる。 
• 評定者間のばらつきを完全に取り除くことはできないが、 
極端な違いを減らすことはできる(Weigle, 1998)。 
• 評定者の訓練は評定者間で完全に一致した評定をさせる 
ためではなく、評定者内の一貫性を高めるものである 
(Lunz, Wright, and Linacre, 1990; Weigle, 1998)。 
• MRFAでは、項目の困難度と同様、評定者の厳しさの差を 
考慮して、受検者の能力値を推定することができる。
評価: G-TheoryとMFRA 
• 一般化可能性理論(G-Theory) 
– 古典的テスト理論では扱うことが難しかった誤差の原 
因を見つけることができる。 
– 三相以上の評価を同時に分析でき、信頼性を検証す 
ることができる。 
– テストに関するコスト(評定者、項目の数)を想定して、 
信頼性を検討することができる。 
• 多相ラッシュ・モデル(MFRA) 
– 受検者の能力、テスト項目、評定者の厳しさに依存 
することなく受検者の能力地を推定できる。 
– 一貫性の低い項目、評定者を検知することができる。 
12
LRTによるレベル推定1/2 
13 
• 間隔尺度のスコアは理解が難しく、Shojima 
(2008)が主張するように、テストは受検者の 
能力を間隔尺度で測定できるほど正確な 
ツールではない。 
• 本研究では、既存データをニューラルテスト 
理論に基づき再分析し、A, B, Cの3段階に分 
類する。 
• 3段階はCEFRのbasic user, independent user, 
proficient user。
LRTによるレベル推定2/2 
Rank 1 Rank 2 Rank 3 Rank 4 Rank 5 Rank 6 
examiinerr 123 
14
相関を検証した特長量 
Kondo (2010) 
15 
特徴量定義 
フィラーの数mm, ehhなどに代表される非語彙の挿入数 
無音ポーズの長さ100ms以上の無音の時間的長さ 
Mean length of run 2つのフィラーあるいは無音ポーズの間の音節の数の平均値 
言い直し言い直しで挿入された音節の数 
Pruned syllable per second 言い直し、フィラーを除いた音節の数を総発話時間で割ったもの 
強勢音節と非強勢音節の比非強勢音節の長さの平均値を強勢音節の長さの平均で割ったもの 
文間のポーズの数文の境界で置かれたフィラーおよび無音ポーズの数 
フレーズ間のポーズの数フレーズの境界で置かれたフィラーおよび無音ポーズの数 
/i/と/ɪ/の識別率F1およびF2による/i/と/ɪ/の識別率(判別分析による) 
/uː/と/ʊ/の識別率F1およびF2による/uː/と/ʊ/の識別率(判別分析による) 
/ӕ/と/ʌ/の識別率F1およびF2による/ӕ/と/ʌ/の識別率(判別分析による)
スコアの予測 
16 
4.5 
4 
3.5 
3 
2.5 
2 
1.5 
0.1 0.2 0.3 0.4 0.5 0.6 0.7 
Rank C 
Rank B 
Rank A 
Proto C 
Proto B 
Proto A 
0.9 0.8 0.7 0.6 0.5 0.4 0.3 
The ratio of weak syllable to the strong one 
Syllable per second 
Kondo (2010)
評定者との一致度 
17 
近傍法と3人の評定者とのフレイスのカッパ 
Kondo (2010) 
評定者と近傍法の組み合わせkappa 
評定者1、2と近傍法.70 
評定者1、3と近傍法.60 
評定者2、3と近傍法.60 
評定者1、2、3 .75 
すべて.66 
システムと評定者の相関係数 
システム評定者1 評定者2 評定者3 
システム1 .81 .69 .58 
評定者1 1 .83 .80 
評定者2 1 .89 
評定者3 1
自動採点システムの開発で 
必要な技術・知識 
• 英語教育の(知識と)経験 
– タスクの設計 
– 評価項目/評定者の選定 
– 学習者に関する知識 
– テスト理論 
– 言語学 
• 音声認識の知識・技術 
– 英語の(音響)音声学 
– 音声認識の仕組み(HTK) 
• 統計解析スキル 
– 確率論、線形代数 
– 統計的モデリング 
– 機械学習・パターン認識 
• プログラミングスキル 
– テキスト処理 
– 統計処理 
• ネットワーク技術 
– TCP/IPの基礎 
– サーバ管理 
• 忍耐 
18
自動採点システムに 
関する研究の概要 
19
世界初の自動採点 
20 
Page, E.B. (1966). The imminence of grading essays 
by computer, The Phi Delta Kappa international, 
Vol.. 47, No. 5., 238-243. 
Project Essay Grade 
Page is widely acknowledged as the father of 
automated essay scoring, a multi-disciplinary field 
exploring computer evaluation and scoring of 
student writing, particularly essays (Wikipedia).
Page (1966) 
• 単語の長さ、段落の数、キー 
ワードの有無などから評定者に 
よる評価を予測する。 
• 「表層的なものしか見ていない」、 
「コンピュータは内容を理解して 
いない」などと批判される。 
21
なぜ自動採点か?1/4 
• 教育評価は筆記試験からパ 
フォーマンス評価に変化してき 
ている。 
• 教育評価の研究対象もパフォー 
マンス評価に移行している。 
植野・荘島(2010) 
22
なぜ自動採点か?2/4 
• 人的、時間的コストが膨大 
• 評定者による評価の不安定さ 
23
なぜ自動採点か?3/4 
• 人的、時間的コストの削減 
– スピーキングテストを実施するには時間がかかる。 
– 実施から評価を送出するまでにも時間がかかる。 
– 評定者を訓練するのにも時間がかかる。 
– 信頼性の高い複数の評定者が必要。 
24
なぜ自動採点か?4/4 
• コンピュータの方が評価が安 
定している 
– 訓練をしても人間なので評価にぶれが生じる。 
– 経年的に行う場合の人材の確保が難しい。 
• 評価と特徴量の関係を知る 
– 学習者の発話の変化が客観的に見れる。 
– タスクと発話の関係を客観的に見れる。 
25
自動採点の目的 
• 自動採点が評定者による評 
価に取って代わることを目的 
としていない。 
– 評価の一部に含める。 
– 人間が採点する前のスクリーニングに使用する。 
26
実用化されているシステム 
• SpeechRaterTM 
– Educational Testing Serviceが開発。 
– TOEFL Practice Onlineのspeaking sectionで使用。 
– 特定の話題に関する自由な発話を自動採点。 
– 評定者との相関は.57-.70。 
– 単語認識率は約50%。 
27
システムの開発過程 
6. 評価値と発話の特徴 
量の関係の検証 
28 
1. 構成概念の定義 
2. 評価基準の作成 
3. タスクの作成 
4. 評定者の訓練、 
評価値の付与 
5. 発話データの収集
単語認識率に関する問題 
29
音声認識とは1/6 
•人間が話した言葉を機械が文字にする技術 
30
音声認識とは2/6 
• 短い区間に分けて、その区間でどのくらい高さの 
音がどのくらいの強さで出ているかを分析する 
参照データ 
(音響モデル) 
照合 
照合 
31
音声認識とは3/6 
• 実際には以下のような認識結果が出てし 
まうため、確率モデルを導入する 
認識結果: tcl tcl kcl t t t k k ah ah ae n n n y y y I uw h f h h e e e l l l t t p 
正解: kcl kcl k k k ae ae ae ae n n n y y y uw uw h h h e e e l l l pcl p p 
32
音声認識とは4/6 
T1 (x1) T2 (x2) T3 (x3) 
S1 (x1) S2 (x2) S3 (x3) S4 (x4) 
P1 (…) P2 (…) P3 (…) 
A I U E O A I U E O A I U E O 
音素/a/ 
33 
音素隠れマルコフモデル(HMM)の例
音声認識とは5/6 
• 入力に対して、すべての音素HMMの中で最も確率 
が高いものをその音素とする 
i: [0.2] 
ah: [0.3] 
ae: [0.5] 
u: [0.1] 
i: [0.1] 
ah: [0.1] 
ae: [0.7] 
u: [0.1] 
0.5 0.5 
0.5 0.5 
SB SE 
S1 S2 
i: [0.1] 
ah: [0.1] 
ae: [0.5] 
uw: [0.3] 
0.5 
S3 
0.5 
i: [0.1] 
ah: [0.1] 
ae: [0.2] 
uw: [0.6] 
i: [0.1] 
ah: [0.1] 
ae: [0.1] 
uw: [0.7] 
0.5 0.5 
0.5 0.5 
SB SE 
S1 S2 
i: [0.1] 
ah: [0.1] 
ae: [0.3] 
uw: [0.5] 
0.5 
S3 
0.5 
音素1 
音素2 
34
音声認識とは6/6 
• 単語認識 
– 単語辞書: 対象とする単語とその音素列 
– 音素HMMの結合 
a ah 
a ey 
able ey bcl b ah l 
ace ey s 
単語辞書 
+ 
/ey/ /s/ 
単語”ace”のモデル 
35
外国語の音声認識 
•学習者の発話データベースの構築 
•単語辞書 
–挿入、脱落、付加などを考慮した単語の登録 
• oblige /ai/ → /i/ 
• first /f/ → /p/ 
• wind /w ih n d/ → /w ih n d ah/ 
•音響モデル 
–母語による異なる音響モデルの使用 
–習熟度による異なる音響モデルの使用 
•タスクによる発話の自由度の制限 
自然発話 
低い 
準備されたスピーチ 
談話完成タスク 
読み上げ 
繰り返し 
発話の自由度 
発話の予測可能性 
高い 
低い高い 
36
音声認識: まとめ 
• 音声認識の結果は最も尤もら 
しいものであって、実際の発 
話とは異なる。 
• 外国語の場合、精度がかなり 
下がる。 
37
話す速さ 
語彙の豊富さ 
指標の操作的定義と 
構成概念に関する問題 
38 
Y = X1+X2+…+Xn 
評定者による評価特徴量
特徴量(Zechner et al, 2009) 
39
特徴量(Sagkuragi, 2011) 
40
構成概念と特徴量 
41 
測定しようとする能力 
下位 
範疇A 
下位 
範疇B 
評定者による評価 
下位 
範疇C 
特徴量a 特徴量b 特徴量c 特徴量d 特徴量e
構成概念と特徴量 
• 話す速さに関する指標と評価 
値との相関がもっとも高い。 
• 発音に関する指標と話す速さ 
に関する指標との相関が高い。 
Cucchiarini, Strik, and Boves (2000)など 
42
CAF Studiesへの批判 
「近年、複雑さ(complexity) 、正確さ 
(accuracy)、流暢さ(fluency)の側面か 
ら言語運用を分析する指標が多くの 
研究で用いられているが、研究者に 
よって独自の測定法が用いられてお 
り、その妥当性は明らかではない。」 
(Sakuragi, 2011). 
43
CAF Studiesへの批判 
Although a plethora of research has 
been done until now, the three 
components of CAF are not 
appropriately defined nor supported 
by theories of linguistics and language 
learning (Housen & Kuiken, 2009). 
44
CAF Studiesへの批判 
Operational definitions of CAF varies in 
the previous studies, which makes 
comparisons across studies difficult 
(Ellis, 2009). 
45
自然発話 
低い 
準備されたスピーチ 
談話完成タスク 
読み上げ 
進行中の研究を紹介 
46 
繰り返し 
発話の自由度 
発話の予測可能性 
高い 
低い高い
談話完成タスク(DCT) 
•Blum-Kulka, House, & Kasper (1989)において母語話者と非母語話者 
の間にみられる言語行為を観察するために作られたタスクである。 
•現在、語用論の分野に限らず、第二言語学習者の発話を誘出する 
ために広く使用されている。 
•基本的には以下のように受検者に状況を与え、その状況での発話 
を学習者に求めるものである。 
You (A) would like to ask your friends (B) to check your English assignment 
politely. How would you (A) say in the conversation below? 
A: ( ). 
B: Sure. 
47
Tutorial English 
• 日常的に使用する英語表現を中 
心に、スピーキング能力を高め 
ることを主眼とする。 
– 受講者4人に対しチューター1人のグループ・レッスン 
– 事前テストによる初級から上級までの5つのレベル分 
け 
– 個別のフィードバック 
– ヨーロッパ言語参照枠に基づいた独自教科書 
48
Tutorial Englishのレッスン 
• Talking about personal plan/Asking about 
personal plan 
– Where are you up to this weekend? 
– Do you have any plan for the week end? 
– Are you busy this week end? 
– I have to work all weekend. 
– I’m visiting my grandparents in Osaka. 
– I have a biology test on Friday. 
49
DCTの採点方法 
50 
1 
0 
Item x 
1 0 
Item x 
予測変数 
・総発話語数 
・1分当たりの語数 
・ピッチ幅 
・音響モデルスコア
DCTの項目 
•Tutorial Englishの教科書(Reach out)に基づいた5レベルを参照して、 
各UnitのTarget Languageが要求されるDCTを作成 
•各Unitごとに8~20問のDCTを作成し、Webサイトで収集中(韓国語、 
中国語版も作成中) 
– Basic: 132 項目(運用中) 
– Pre-intermediate: 119 項目(運用中) 
– Intermediate: 117 項目(運用中) 
– Pre-Advanced: (サイト作成中) 
– Advanced (項目最終確認中) 
•収集済みのデータ 
– Basic (日本人英語学習者): 18904発話(1項目の平均話者数: 143.2人) 
– Basic (台湾人英語学習者): 10416発話(1項目の平均話者数: 79.0人) 
– Pre-intermediate (日本人英語学習者): 2670発話(1項目の平均話者数: 
22.4人) 
51
先行研究との違い 
• 評定者が母語話者ではない。 
• 評価者の訓練を行っている。 
• テストの標準化への試み 
– 複数のタスクを用いて評価の算出を試みている 
– テスト理論に基づいて評価値を分析する 
• 評価値を段階的尺度として扱っている 
– 先行研究では主に重回帰分析が用いられている。 
• 非母語話者の発話データベースで評価値が付 
与されたものは少ない 
52
音声認識機 
• Hidden Markov Model Toolkitを用いた隠れマ 
ルコフモデルに基づいた音声認識機を作成。 
53 
– 音響モデルの作成 
• 6300発話が収録されたTIMIT Acoustic-Phonetic 
Continuous Speech Corpus (Garofolo, et al.,1993) 
• 本研究で収集した日本人英語学習者の10617発話 
• 約80000の日本人英語学習者の発話が収録されたERJ 
データベース(特定領域研究「メディア教育利用」音声 
データベース委員会委員長: 中川聖一) 
– それぞれの項目に対して本研究で収集したデー 
タから2-gramの言語モデルを作成。
単語認識の例 
You walk around the park in the morning. How would you 
respond in the conversation below. 
A: What do you do before you leave home in the 
morning? 
B: ( ) 
54
認識率の例: Unit 3 
N: 総語数H: 正しく認識できた語の数D: 脱落の数 
S: 置き換えの数I: 挿入の数C: H/N A: (H-I)/N 
55 
Item N H D S I C A 
3-1 688 602 44 42 20 .87 .84 
3-2 656 656 28 40 43 .89 .83 
3-3 740 603 45 92 36 .81 .76 
3-4 604 468 61 75 48 .77 .70 
3-5 600 514 46 40 37 .86 .80 
3-6 511 426 39 46 14 .83 .81
認識率の例(個人別) 
• 音響モデル(男女混合、男女別)を使用した場合、話 
者適応後の個人の平均認識率 
80 
75 
70 
65 
60 
55 
50 
混合男女別話者適応後 
男 
女 
全体 
男女混合男女別話者適応後 
平均最小最大平均最小最大平均最小最大 
男70.0 42.4 97.8 61.0 35.4 88.5 64.3 38.8 88.5 
女64.0 34.7 90.7 76.7 56.5 93.9 76.5 57.1 91.8 
56
フィルター・モデリング1/2 
• 書き起こしができない(人間が聞き取れない)発話を採点から除外 
するためのフィルターの作成。 
• 以下の特徴量を用いて対象となる発話がscorableかunsorableかを 
判定した。 
– 音力(0番目のケプストラム係数): 発話内平均、最大値、最小値、範 
囲 
– ピッチ:発話内平均、最大値、最小値、範囲 
– 音響モデル・スコアの発話内平均 
– 単語数 
– 話す速さ(Word per minute) 
• 対象とした発話 
– 書き起こしができない(人間が聞き取れない)発話250からランダムに 
100発話を抽出 
– 書き起こしができた10356発話からランダムに100発話を抽出 
57
フィルター・モデリング1/2 
• CART: 
– 正解率: 68.5% 
– Kappa: .37 
• ロジスティック回帰: 
– 正解率: 68.5% 
– Kappa: .37 
• SVM: 
– 正解率: 71.5% 
– Kappa: .43 
• Naïve Bayes Classifier: 
– 正解率: 69.5% 
– Kappa: .39 
• Random Forest: 
– 正解率: 69.5% 
– Kappa: .39 
• Bagging: 
– 正解率: 68.5% 
– Kappa: .37 
58
本発表の目的 
• 自動採点に関する研究の楽しさ 
を伝えること。 
• 英語教育関連分野の研究者の 
皆様に自動採点に興味を持って 
もらうこと。 
59
SpeechRaterTMの開発者 
60 
Ph.D. in Language 
and Information 
Technologies 
Ph.D. in Linguistics 
Ph.D. in second/foreign 
language assessment
Allow me to use this opportunity to 
offer my thanks. 
• DCTの項目の作成には、中 
野先生、大和田さん、上田 
さん、吉田くん、(大矢さん) 
にご協力いただきました。 
• 発話データの書き起こしに 
は、石井くん、小泉さん、新 
島くん、飯田くんにご協力 
いただきました。 
• データ収集サイトの作成、 
DCTの項目のproofreading 
には、ウィルさんにご協力 
いただいております。 
61
新たなデータ収集サイト 
菅井(2014年3月personal communication)に基づく 
62
Slideshare 
JACET2014ykondo 
63
英語学習者のための 
発話自動採点システム 
近藤悠介 
早稲田大学 
www.yusukekondo.com 
@yusukekondo0503

Weitere ähnliche Inhalte

Was ist angesagt?

形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方についてKow Kuroda
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012Takayuki Fukumoto
 
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)KIT Cognitive Interaction Design
 
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回博三 太田
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5博三 太田
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一悠一 鈴木
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察Yuichiroh Matsubayashi
 
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭cyberagent
 
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...Preferred Networks
 

Was ist angesagt? (15)

形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012
 
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
 
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察
 
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
 
次元の呪い
次元の呪い次元の呪い
次元の呪い
 

Ähnlich wie Jacet2014ykondo_final

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)Tomoya Nakayama
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.Yutaka Ishii
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発Ken IshiKen
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッションantibayesian 俺がS式だ
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチKosuke Sugai
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定Shuyo Nakatani
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
対話テキストの自動要約
対話テキストの自動要約対話テキストの自動要約
対話テキストの自動要約Masahiro Yamamoto
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化奈良先端大 情報科学研究科
 
英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.
英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.
英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.Yutaka Ishii
 

Ähnlich wie Jacet2014ykondo_final (20)

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Argmax Operations in NLP
Argmax Operations in NLPArgmax Operations in NLP
Argmax Operations in NLP
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
OtaQ
OtaQOtaQ
OtaQ
 
1 3-2
1 3-21 3-2
1 3-2
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
対話テキストの自動要約
対話テキストの自動要約対話テキストの自動要約
対話テキストの自動要約
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化
 
英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.
英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.
英語学習者の文法的誤りをめぐって: 最近の動向とエッセイ自動評価のための基礎的検討.
 

Jacet2014ykondo_final

  • 1. 英語学習者のための 発話自動採点システム 近藤悠介 早稲田大学 www.yusukekondo.com @yusukekondo0503
  • 3. 本発表の目的 • 自動採点に関する研究の楽しさ を伝えること。 • 英語教育関連分野の研究者の 皆様に自動採点に興味を持って もらうこと。 3
  • 4. 発話自動採点のイメージ 4 y=ax+b… Nice to see you! .wav .wav .wav y=ax+b… y=ax+b… How Can I get to thIe w staast isoon e?xited! Score & feedback
  • 5. 発話自動採点のイメージ • 発話の特徴量と評定者による評 価の関係から予測方法を得る。 5 話す速さ Y = X1+X2+…+Xn 語彙の豊富さ 評定者による評価特徴量
  • 7. 発表者の経歴 Educational background • 早稲田大学教育学部英語 英文学科卒業学士(文学) • 早稲田大学教育学研究科 修士課程英語教育専攻修 了修士(教育学) • 早稲田大学教育学研究科 博士後期課程教科教育学 専攻単位取得退学 • 博士(教育学) 早稲田大学 Work experience • 早稲田大学メディアネット ワークセンター助手 • 立命館大学言語教育セン ター外国語嘱託講師 • 早稲田大学オープン教育 センター助教(英語教育) • 早稲田大学グローバルエ デュケーションセンター准 教授(英語教育) 7
  • 9. 読み上げ文 Kondo (2010) The North Wind and the Sun were disputing which was the stronger when a traveler came along wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveler take his cloak off should be considered stronger than the other. Then the North Wind blew as hard as he could, but the more he blew the more closely did the traveler fold his cloak around him; and at last the North Wind gave up the attempt. Then the Sun shone out warmly, and immediately the traveler took off his cloak. And so the North Wind was obliged to confess that the Sun was the stronger of the two.9
  • 10. フィードバックの例 Category A: 微妙な意味もイントネーションなどで表現でき、明瞭で自然な発 音である。 単語の発音について コミュニケーションを阻害するものではありませんが、いくつかの発音が正確 ではない可能性があります。例えば、テキストに出てきたlast、sun、atの母音 を日本語では同じ「あ」と認識しますが、英語では、これらの母音はすべて異 なります。ひとつの母音が異なるだけで意味が異なる場合があります。例え ば、butとbatは日本語風に発音すると「バット」になってしまいますが、実際 には異なる発音です。また、日本語にない子音についても同様のことが言え る可能性があります。個々の発音に注意を払えば、より伝わりやすい英語に なるでしょう。 文の読み方について ほぼ完璧だと思われますが、いくつかの文の強勢が正確ではない可能性が あります。単語にアクセント(強勢)があるように、文にも最も強く発音される 単語があります。これは前後関係や話者の意図によってことなりますが、例 えば、テキストに出てきた"and at last the North Wind gave up the attempt"と いう文の場合、一般的に最後の単語attemptが最も強く発音されます。 10 Kondo (2010)
  • 11. 評価: 評定者の訓練 11 • 唯一の評価が最も確実なものにはならないため、人間に よる評価では複数の評定者が必要となる。 • しかしながら、複数の評定者は常に一致した評価を出す わけではない。 • 評定者の訓練は通常評定者間の一致度を高めるために 行われる。 • 評定者間のばらつきを完全に取り除くことはできないが、 極端な違いを減らすことはできる(Weigle, 1998)。 • 評定者の訓練は評定者間で完全に一致した評定をさせる ためではなく、評定者内の一貫性を高めるものである (Lunz, Wright, and Linacre, 1990; Weigle, 1998)。 • MRFAでは、項目の困難度と同様、評定者の厳しさの差を 考慮して、受検者の能力値を推定することができる。
  • 12. 評価: G-TheoryとMFRA • 一般化可能性理論(G-Theory) – 古典的テスト理論では扱うことが難しかった誤差の原 因を見つけることができる。 – 三相以上の評価を同時に分析でき、信頼性を検証す ることができる。 – テストに関するコスト(評定者、項目の数)を想定して、 信頼性を検討することができる。 • 多相ラッシュ・モデル(MFRA) – 受検者の能力、テスト項目、評定者の厳しさに依存 することなく受検者の能力地を推定できる。 – 一貫性の低い項目、評定者を検知することができる。 12
  • 13. LRTによるレベル推定1/2 13 • 間隔尺度のスコアは理解が難しく、Shojima (2008)が主張するように、テストは受検者の 能力を間隔尺度で測定できるほど正確な ツールではない。 • 本研究では、既存データをニューラルテスト 理論に基づき再分析し、A, B, Cの3段階に分 類する。 • 3段階はCEFRのbasic user, independent user, proficient user。
  • 14. LRTによるレベル推定2/2 Rank 1 Rank 2 Rank 3 Rank 4 Rank 5 Rank 6 examiinerr 123 14
  • 15. 相関を検証した特長量 Kondo (2010) 15 特徴量定義 フィラーの数mm, ehhなどに代表される非語彙の挿入数 無音ポーズの長さ100ms以上の無音の時間的長さ Mean length of run 2つのフィラーあるいは無音ポーズの間の音節の数の平均値 言い直し言い直しで挿入された音節の数 Pruned syllable per second 言い直し、フィラーを除いた音節の数を総発話時間で割ったもの 強勢音節と非強勢音節の比非強勢音節の長さの平均値を強勢音節の長さの平均で割ったもの 文間のポーズの数文の境界で置かれたフィラーおよび無音ポーズの数 フレーズ間のポーズの数フレーズの境界で置かれたフィラーおよび無音ポーズの数 /i/と/ɪ/の識別率F1およびF2による/i/と/ɪ/の識別率(判別分析による) /uː/と/ʊ/の識別率F1およびF2による/uː/と/ʊ/の識別率(判別分析による) /ӕ/と/ʌ/の識別率F1およびF2による/ӕ/と/ʌ/の識別率(判別分析による)
  • 16. スコアの予測 16 4.5 4 3.5 3 2.5 2 1.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Rank C Rank B Rank A Proto C Proto B Proto A 0.9 0.8 0.7 0.6 0.5 0.4 0.3 The ratio of weak syllable to the strong one Syllable per second Kondo (2010)
  • 17. 評定者との一致度 17 近傍法と3人の評定者とのフレイスのカッパ Kondo (2010) 評定者と近傍法の組み合わせkappa 評定者1、2と近傍法.70 評定者1、3と近傍法.60 評定者2、3と近傍法.60 評定者1、2、3 .75 すべて.66 システムと評定者の相関係数 システム評定者1 評定者2 評定者3 システム1 .81 .69 .58 評定者1 1 .83 .80 評定者2 1 .89 評定者3 1
  • 18. 自動採点システムの開発で 必要な技術・知識 • 英語教育の(知識と)経験 – タスクの設計 – 評価項目/評定者の選定 – 学習者に関する知識 – テスト理論 – 言語学 • 音声認識の知識・技術 – 英語の(音響)音声学 – 音声認識の仕組み(HTK) • 統計解析スキル – 確率論、線形代数 – 統計的モデリング – 機械学習・パターン認識 • プログラミングスキル – テキスト処理 – 統計処理 • ネットワーク技術 – TCP/IPの基礎 – サーバ管理 • 忍耐 18
  • 20. 世界初の自動採点 20 Page, E.B. (1966). The imminence of grading essays by computer, The Phi Delta Kappa international, Vol.. 47, No. 5., 238-243. Project Essay Grade Page is widely acknowledged as the father of automated essay scoring, a multi-disciplinary field exploring computer evaluation and scoring of student writing, particularly essays (Wikipedia).
  • 21. Page (1966) • 単語の長さ、段落の数、キー ワードの有無などから評定者に よる評価を予測する。 • 「表層的なものしか見ていない」、 「コンピュータは内容を理解して いない」などと批判される。 21
  • 22. なぜ自動採点か?1/4 • 教育評価は筆記試験からパ フォーマンス評価に変化してき ている。 • 教育評価の研究対象もパフォー マンス評価に移行している。 植野・荘島(2010) 22
  • 23. なぜ自動採点か?2/4 • 人的、時間的コストが膨大 • 評定者による評価の不安定さ 23
  • 24. なぜ自動採点か?3/4 • 人的、時間的コストの削減 – スピーキングテストを実施するには時間がかかる。 – 実施から評価を送出するまでにも時間がかかる。 – 評定者を訓練するのにも時間がかかる。 – 信頼性の高い複数の評定者が必要。 24
  • 25. なぜ自動採点か?4/4 • コンピュータの方が評価が安 定している – 訓練をしても人間なので評価にぶれが生じる。 – 経年的に行う場合の人材の確保が難しい。 • 評価と特徴量の関係を知る – 学習者の発話の変化が客観的に見れる。 – タスクと発話の関係を客観的に見れる。 25
  • 26. 自動採点の目的 • 自動採点が評定者による評 価に取って代わることを目的 としていない。 – 評価の一部に含める。 – 人間が採点する前のスクリーニングに使用する。 26
  • 27. 実用化されているシステム • SpeechRaterTM – Educational Testing Serviceが開発。 – TOEFL Practice Onlineのspeaking sectionで使用。 – 特定の話題に関する自由な発話を自動採点。 – 評定者との相関は.57-.70。 – 単語認識率は約50%。 27
  • 28. システムの開発過程 6. 評価値と発話の特徴 量の関係の検証 28 1. 構成概念の定義 2. 評価基準の作成 3. タスクの作成 4. 評定者の訓練、 評価値の付与 5. 発話データの収集
  • 31. 音声認識とは2/6 • 短い区間に分けて、その区間でどのくらい高さの 音がどのくらいの強さで出ているかを分析する 参照データ (音響モデル) 照合 照合 31
  • 32. 音声認識とは3/6 • 実際には以下のような認識結果が出てし まうため、確率モデルを導入する 認識結果: tcl tcl kcl t t t k k ah ah ae n n n y y y I uw h f h h e e e l l l t t p 正解: kcl kcl k k k ae ae ae ae n n n y y y uw uw h h h e e e l l l pcl p p 32
  • 33. 音声認識とは4/6 T1 (x1) T2 (x2) T3 (x3) S1 (x1) S2 (x2) S3 (x3) S4 (x4) P1 (…) P2 (…) P3 (…) A I U E O A I U E O A I U E O 音素/a/ 33 音素隠れマルコフモデル(HMM)の例
  • 34. 音声認識とは5/6 • 入力に対して、すべての音素HMMの中で最も確率 が高いものをその音素とする i: [0.2] ah: [0.3] ae: [0.5] u: [0.1] i: [0.1] ah: [0.1] ae: [0.7] u: [0.1] 0.5 0.5 0.5 0.5 SB SE S1 S2 i: [0.1] ah: [0.1] ae: [0.5] uw: [0.3] 0.5 S3 0.5 i: [0.1] ah: [0.1] ae: [0.2] uw: [0.6] i: [0.1] ah: [0.1] ae: [0.1] uw: [0.7] 0.5 0.5 0.5 0.5 SB SE S1 S2 i: [0.1] ah: [0.1] ae: [0.3] uw: [0.5] 0.5 S3 0.5 音素1 音素2 34
  • 35. 音声認識とは6/6 • 単語認識 – 単語辞書: 対象とする単語とその音素列 – 音素HMMの結合 a ah a ey able ey bcl b ah l ace ey s 単語辞書 + /ey/ /s/ 単語”ace”のモデル 35
  • 36. 外国語の音声認識 •学習者の発話データベースの構築 •単語辞書 –挿入、脱落、付加などを考慮した単語の登録 • oblige /ai/ → /i/ • first /f/ → /p/ • wind /w ih n d/ → /w ih n d ah/ •音響モデル –母語による異なる音響モデルの使用 –習熟度による異なる音響モデルの使用 •タスクによる発話の自由度の制限 自然発話 低い 準備されたスピーチ 談話完成タスク 読み上げ 繰り返し 発話の自由度 発話の予測可能性 高い 低い高い 36
  • 37. 音声認識: まとめ • 音声認識の結果は最も尤もら しいものであって、実際の発 話とは異なる。 • 外国語の場合、精度がかなり 下がる。 37
  • 38. 話す速さ 語彙の豊富さ 指標の操作的定義と 構成概念に関する問題 38 Y = X1+X2+…+Xn 評定者による評価特徴量
  • 41. 構成概念と特徴量 41 測定しようとする能力 下位 範疇A 下位 範疇B 評定者による評価 下位 範疇C 特徴量a 特徴量b 特徴量c 特徴量d 特徴量e
  • 42. 構成概念と特徴量 • 話す速さに関する指標と評価 値との相関がもっとも高い。 • 発音に関する指標と話す速さ に関する指標との相関が高い。 Cucchiarini, Strik, and Boves (2000)など 42
  • 43. CAF Studiesへの批判 「近年、複雑さ(complexity) 、正確さ (accuracy)、流暢さ(fluency)の側面か ら言語運用を分析する指標が多くの 研究で用いられているが、研究者に よって独自の測定法が用いられてお り、その妥当性は明らかではない。」 (Sakuragi, 2011). 43
  • 44. CAF Studiesへの批判 Although a plethora of research has been done until now, the three components of CAF are not appropriately defined nor supported by theories of linguistics and language learning (Housen & Kuiken, 2009). 44
  • 45. CAF Studiesへの批判 Operational definitions of CAF varies in the previous studies, which makes comparisons across studies difficult (Ellis, 2009). 45
  • 46. 自然発話 低い 準備されたスピーチ 談話完成タスク 読み上げ 進行中の研究を紹介 46 繰り返し 発話の自由度 発話の予測可能性 高い 低い高い
  • 47. 談話完成タスク(DCT) •Blum-Kulka, House, & Kasper (1989)において母語話者と非母語話者 の間にみられる言語行為を観察するために作られたタスクである。 •現在、語用論の分野に限らず、第二言語学習者の発話を誘出する ために広く使用されている。 •基本的には以下のように受検者に状況を与え、その状況での発話 を学習者に求めるものである。 You (A) would like to ask your friends (B) to check your English assignment politely. How would you (A) say in the conversation below? A: ( ). B: Sure. 47
  • 48. Tutorial English • 日常的に使用する英語表現を中 心に、スピーキング能力を高め ることを主眼とする。 – 受講者4人に対しチューター1人のグループ・レッスン – 事前テストによる初級から上級までの5つのレベル分 け – 個別のフィードバック – ヨーロッパ言語参照枠に基づいた独自教科書 48
  • 49. Tutorial Englishのレッスン • Talking about personal plan/Asking about personal plan – Where are you up to this weekend? – Do you have any plan for the week end? – Are you busy this week end? – I have to work all weekend. – I’m visiting my grandparents in Osaka. – I have a biology test on Friday. 49
  • 50. DCTの採点方法 50 1 0 Item x 1 0 Item x 予測変数 ・総発話語数 ・1分当たりの語数 ・ピッチ幅 ・音響モデルスコア
  • 51. DCTの項目 •Tutorial Englishの教科書(Reach out)に基づいた5レベルを参照して、 各UnitのTarget Languageが要求されるDCTを作成 •各Unitごとに8~20問のDCTを作成し、Webサイトで収集中(韓国語、 中国語版も作成中) – Basic: 132 項目(運用中) – Pre-intermediate: 119 項目(運用中) – Intermediate: 117 項目(運用中) – Pre-Advanced: (サイト作成中) – Advanced (項目最終確認中) •収集済みのデータ – Basic (日本人英語学習者): 18904発話(1項目の平均話者数: 143.2人) – Basic (台湾人英語学習者): 10416発話(1項目の平均話者数: 79.0人) – Pre-intermediate (日本人英語学習者): 2670発話(1項目の平均話者数: 22.4人) 51
  • 52. 先行研究との違い • 評定者が母語話者ではない。 • 評価者の訓練を行っている。 • テストの標準化への試み – 複数のタスクを用いて評価の算出を試みている – テスト理論に基づいて評価値を分析する • 評価値を段階的尺度として扱っている – 先行研究では主に重回帰分析が用いられている。 • 非母語話者の発話データベースで評価値が付 与されたものは少ない 52
  • 53. 音声認識機 • Hidden Markov Model Toolkitを用いた隠れマ ルコフモデルに基づいた音声認識機を作成。 53 – 音響モデルの作成 • 6300発話が収録されたTIMIT Acoustic-Phonetic Continuous Speech Corpus (Garofolo, et al.,1993) • 本研究で収集した日本人英語学習者の10617発話 • 約80000の日本人英語学習者の発話が収録されたERJ データベース(特定領域研究「メディア教育利用」音声 データベース委員会委員長: 中川聖一) – それぞれの項目に対して本研究で収集したデー タから2-gramの言語モデルを作成。
  • 54. 単語認識の例 You walk around the park in the morning. How would you respond in the conversation below. A: What do you do before you leave home in the morning? B: ( ) 54
  • 55. 認識率の例: Unit 3 N: 総語数H: 正しく認識できた語の数D: 脱落の数 S: 置き換えの数I: 挿入の数C: H/N A: (H-I)/N 55 Item N H D S I C A 3-1 688 602 44 42 20 .87 .84 3-2 656 656 28 40 43 .89 .83 3-3 740 603 45 92 36 .81 .76 3-4 604 468 61 75 48 .77 .70 3-5 600 514 46 40 37 .86 .80 3-6 511 426 39 46 14 .83 .81
  • 56. 認識率の例(個人別) • 音響モデル(男女混合、男女別)を使用した場合、話 者適応後の個人の平均認識率 80 75 70 65 60 55 50 混合男女別話者適応後 男 女 全体 男女混合男女別話者適応後 平均最小最大平均最小最大平均最小最大 男70.0 42.4 97.8 61.0 35.4 88.5 64.3 38.8 88.5 女64.0 34.7 90.7 76.7 56.5 93.9 76.5 57.1 91.8 56
  • 57. フィルター・モデリング1/2 • 書き起こしができない(人間が聞き取れない)発話を採点から除外 するためのフィルターの作成。 • 以下の特徴量を用いて対象となる発話がscorableかunsorableかを 判定した。 – 音力(0番目のケプストラム係数): 発話内平均、最大値、最小値、範 囲 – ピッチ:発話内平均、最大値、最小値、範囲 – 音響モデル・スコアの発話内平均 – 単語数 – 話す速さ(Word per minute) • 対象とした発話 – 書き起こしができない(人間が聞き取れない)発話250からランダムに 100発話を抽出 – 書き起こしができた10356発話からランダムに100発話を抽出 57
  • 58. フィルター・モデリング1/2 • CART: – 正解率: 68.5% – Kappa: .37 • ロジスティック回帰: – 正解率: 68.5% – Kappa: .37 • SVM: – 正解率: 71.5% – Kappa: .43 • Naïve Bayes Classifier: – 正解率: 69.5% – Kappa: .39 • Random Forest: – 正解率: 69.5% – Kappa: .39 • Bagging: – 正解率: 68.5% – Kappa: .37 58
  • 59. 本発表の目的 • 自動採点に関する研究の楽しさ を伝えること。 • 英語教育関連分野の研究者の 皆様に自動採点に興味を持って もらうこと。 59
  • 60. SpeechRaterTMの開発者 60 Ph.D. in Language and Information Technologies Ph.D. in Linguistics Ph.D. in second/foreign language assessment
  • 61. Allow me to use this opportunity to offer my thanks. • DCTの項目の作成には、中 野先生、大和田さん、上田 さん、吉田くん、(大矢さん) にご協力いただきました。 • 発話データの書き起こしに は、石井くん、小泉さん、新 島くん、飯田くんにご協力 いただきました。 • データ収集サイトの作成、 DCTの項目のproofreading には、ウィルさんにご協力 いただいております。 61
  • 64. 英語学習者のための 発話自動採点システム 近藤悠介 早稲田大学 www.yusukekondo.com @yusukekondo0503