[DL輪読会]音声言語病理学における機械学習とDNN

DEEP LEARNING JP
[DL Papers]
音声言語病理学における機械学習とDNN
Haruka Murakami, Matsuo Lab
http://deeplearning.jp/

A Survey on Machine Learning Approaches for Automatic
Detection of Voice Disorders 他4本を読みました。
• Journal of Voice(2019)
• Sarika Hegde , *Surendra Shetty, *Smitha Rai, and †Thejaswi Dodderi,
*Udupi, and yMangaluru, India
• 内容：近年の音声言語病理学(Pathological voice)における機械学習を用い
た音声障害の検出の様々な事例を紹介
• 選定理由：コンピューター発声にコンテキストを付けたいと思っており、現状
どんな研究があるかを調べたかった、肺へのダメージを測れる研究があっ
たりするのかを知りたかった
2

Vocology = Voice + Biology
• 音声言語病理学という分野らしい
• 発声には肺、声帯を要として各種呼吸器系
器官が関わる他、言語にする際には脳の働きも
関わってくるため、発声音声の診断は単に喉の
健康状態の測定だけでなく、様々な病気を検知
できる可能性がある
3
http://gc.sfc.keio.ac.jp/class/2002_14630/slides/10/35.html

Voice disorder
• 定義：
年齢、性別、社会集団が同じような声と
“質”、”音程”、”大きさ”、”滑らかさ”が解離しているもの
• 例：声帯病変ーコミュニケーションに影響
– 対処：音声療法の基本は、発声時の喉頭筋と喉頭上筋の緊張を最適化することで、発声効
率を改善し、声帯病変の改善を図ること
• 課題：従来の診断ではビデオ検査や喉頭鏡検査/ストロボスコピーなどの侵襲的
な検査をしているが実施が難しくコストも高い。
• →音響的・知覚的特徴をプロファイリングする(1980年代初頭〜)
– 音声治療前後のパフォーマンスの変化を比較するための効率的なツールになる
– 自動音声認識システムのための音声データベースの開発にも役立つ 4

具体的な病変種別
• 様々な声帯病変の中でも、重層的な声帯への音の外傷的な影響により、
集団性の病理学的疾患が非常に多く見られる。持続的な組織の炎症や外
部からの影響により、しばしば声帯結節や声帯ポリープが発生する。声帯
の閉鎖は不完全であり、発声効率が悪く、嗄れる
• 逆に、筋緊張性発声障害や機能性発声障害のように、声帯の病変はない
が、声帯疲労、声質の低下、喉頭緊張の亢進などが観察される。
• 適応症状：パーキンソン病(PD)、喉頭病理、口唇口蓋裂(CLP)、結節、ポ
リープ、角化症、内転子など
5

(参考)声に表れる障害種別
• コミュニケーション学的障害
– 音声障害、言語障害、社会的コミュニケーション障害、認知コミュニケーション障害、嚥下障
害の5つに分類される
• 音声障害分類マニュアルによると、声帯の機能亢進・機能低下の病態は
– (i)声帯結節、声帯ポリープなどの構造的病変
– (ii)急性喉頭炎などの炎症性疾患
– (iii)外傷や外傷に基づくもの
– (iv)甲状腺機能亢進症や甲状腺機能低下症などの全身性疾患
– (v)逆流障害や気管支炎などの非喉頭気道消化器疾患
– (vi)精神医学的・心理学的疾患
– これらの疾患は、声帯が機能的に変化しているものに分類されています。
– (vii) 神経学的疾患
– 例えば、内転子麻痺、外転子麻痺、外転子麻痺、および
– 痙攣性発声障害、（８）筋電図のようなその他の障害
– (ix) 診断されていないが、それ以外は特定されていない。 6

よく行われている従来手法(ML)の処理
• １．専門家が音声データ(各ファイル)に(正常/病的)のラベル付け
• ２. 各ファイルの生の音声データを短いフレームに分割、各フレームを処理
して特徴量を抽出
• ３．その抽出された特徴量を入力として利用
• 訓練データとテストデータはランダムで分割
• モデルの性能評価：分類精度
• 使用データベース：Massachusetts Eye and Ear Infirmary (MEEI)、
Saarbruecken Voice Database (SVD)、Arabic Voice Pathology Database
(AVPD)などの標準的なデータベースを利用している研究者が多い
– 録音された音声には、母音の持続音韻と連続音韻のどちらかが含まれている。
7

特徴抽出方法(１)
• 音響分析とは、音声に含まれる音の情報を測定することです。音響分析の
結果は、音声障害の重症度を測定するために使用することができる。音声
信号の音響分析に関連する測定方法のいくつかは以下の通りである。
• (i) 基本音程の周期とピーク振幅の摂動。
• (ii) 信号に含まれる音声ノイズ。
• (iii)周期的な波形の変動。
• (iv) 平均周波数特性。
• (v) 信号の遷移特性。
• Multidimensional Voice Program (MDVP)という音響解析のための標準的な
ソフトウェアで33個の音声パラメータ(周波数依存、強さ、ノイズ由来の要素
など）を推定できる
8

特徴量抽出(２)：MFCCについて
• 旋律周波数ケプストラル係数（MFCC）は、人間の聴覚系の知識を利用した
標準的な特徴抽出法
• 1フレーム12,13のMFCC特徴量を抽出するための一般的な手順は
• i. 離散フーリエ変換係数の計算
• ii. メル間隔をおいた三角フィルタによるフィルタリング
• iii. サブバンドエネルギーの計算
• iv. 離散余弦変換係数の計算
9

特徴量抽出(３)：線形予測係数
• 線形予測(LP)分析では、最初のステップとしてソース信号を逆フィルタリン
グ
• ソース信号は、スペクトルを計算するために使用
• 計算されたスペクトルは、正常声と病的声の両方のエネルギー分布を調べ
るために利用
• LPの数はのLP分析では、係数が重要な要素の一つとなっています。
• フォルマントピークを決定するためになぜなら
• これにより、音声信号からのフォルマントの効果を正確に推定することがで
きます。
10

特徴量抽出(４)：
• 離散ウェーブレット変換
– 音声を周波数領域に変換、時間ー周波数の解析を行う。病的な声の高域特性の解
析も可能
• 声門流量信号のパラメータ
– 音声信号の逆フィルタリングを行うことで、声道の影響や口からの音声放射を除去し
て、音声信号の特性を保持することで、声門流信号を得ることができます。
• 次元削減
– (i) 主成分分析（PCA） (ii) 線形判別分析（LDA) (iii) 遺伝的アルゴリズム
– (iv) 高次特異値分解 (v) Relief
– (vi) Minimum redundancy maximum relevance (vii)フィッシャー識別率?（FDR)
11

従来のMLの手法など
• 隠れマルコフモデル(HMM)、ガウス混合モデル(GMM)、サポートベクターマシン(SVM)、人工ニューラル
ネットワーク(ANN)、決定木、林耳分類器、K-meansクラスタリング、複合分類器など.
• ChildersとBae18は、喉頭病理を検出するための2つの方法を開発した。(1)線形予測符号化(LPC)ベクトル
とVQを用いたピッチ同期および非同期メタッドを用いたスペクトル歪み測定法、(2)時間間隔と振幅差測定
法を用いた電気喉頭蓋計(EGG)信号の分析法。精度は75.9%と69.0%。
• (Cairns,)Teager Energy Operatorと呼ばれる非線形演算子に基づいて、音声中の高次性を検出する非侵
襲的手法。確率分布関数に基づいて正常音声と超鼻声を分類。最大分類精度は94.7%。
• (Accardo and Mumolo) フラクタル次元パラメータ，エネルギー比，ゼロクロス特徴量を用いたアルゴリズ
ムを記述し、これらの特徴量の分散行列を用い、正常音声と病的音声を比較。フラクタル次元、エネル
ギー比、ゼロ交差特徴量はそれぞれ96.1%、92.1%、94.1%の分類精度
• (Parsa and Jamieson)は、健常声と病的声を分類するための特徴量として、信号対雑音比、高調波対雑
音比[HNR]、雑音エネルギー、周波数領域HNR、ピッチ増幅度、スペクトル平坦度比を検討した。本研究
では、(i)測定値の確率分布、(ii)測定値の順位、(iii)各測定値の受信動作特性を比較することで、2つの異
なるクラスの測定値を分類した。得られた最高の分類率は96.5%でした。Hadjito- dorovら22は、正常話者
と病的話者の入力ベクトルの確率密度関数をプロトタイプ分布図（PDM）を用いてモデル化したアプローチ
を提案し、95.1%の分類精度を達成しました。この際、ピッチ周期、ピッチパルスの形状、HNR、低高エネル
ギー比などの特徴を利用している。
12

近年の主要な研究
• 殆どSVMと混合ガウスモデル(GMM)
• DNNを使った研究は１件＋ハイブリッドタイプで１件
13

Voice Pathology Detection Using Deep Learning: a
Preliminary Study (Harar, 2018)
14
• 使用データセット：Saarbruecken Voice Database
• 687人の健康体の成人（女性428人、男性259人）と、71の異な
る病態のうち1つ以上を罹患している1356人の患者（女性727
人、男性629人）の録音
• 母音 /i/, /a/, /u/ は、正常、高音、低音での録音、音程の立
上がり/下がりをチェック
• - センテンス "Guten Morgen, wie geht es Ihnen?"
• 持続母音のサンプルはすべて1~3秒の長さで、50kHzで16ビッ
トの分解能でサンプリング

(参考：A prospective multicentre study testing the diagnostic accuracy
of an automated cough sound centred analytic system for the
identification of common respiratory disorders in children）
• 自動咳嗽音分析装置を用いた小児呼吸器疾患の診断精度調査
• 方法：
• 典型的な臨床環境での咳嗽音を記録し，最初の5回の咳嗽を解析に用いた．解析は、
咳データと、患者/保護者が報告した病歴から得られた最大5つの症状入力を用いて行
われた。自動咳嗽分析装置による診断と、病院のカルテと利用可能なすべての調査を
検討した後に小児科医のパネルによって得られたコンセンサスのある臨床診断との間
で比較を行った。アルゴリズムは時間遅延ニューラルネットワークでメル周波数セプスト
ラル係数(MFCC)を認識。＊DNNではない。
• 結果：
• 29 日齢から 12 歳までの合計 585 名の被験者で実験。自動分析装置と臨床基準との
間の正の一致率と負の一致率は：喘息（97, 91%）、肺炎（87, 85%）、下気道疾患（83,
82%）、クループ（85, 82%）、気管支炎（84, 81%）。
15

23ページに渡るサーベイ論文だったが・・・
• 2018年までの135件ある引用文献のうちDNNは殆どなく、一件だけ？
• 音声言語病理学分野の自動音声障害検出は、殆どが音声の特徴量抽出手法に
焦点を当てたものでSVMが主流、次点で混合ガウスモデル(GMM)
• DNNを用いた研究は非常に少ないらしい
• 筆者曰く、大規模な病声データベースが利用できないことがこの分野でDNNの研
究が進んでいない原因であり、SVMが多用されているのもデータ不足が大きな原
因だそう
• さらに既存の研究では一見精度が高いように見えるが、特徴量設計が人手でデ
ータセット外の環境では精度が出ない可能性が高い
• 感想：狭い分野とは言え、ここまでDeep Learningの研究が少ない分野があるとは
思っていなかった。改めてデータセットの大事さを再認識した。
16

A deep learning method for pathological voice detection
using convolutional deep belief networks
• Wu, Huiyi and Soraghan, John and Lowit, Anja and Di Caterina,
Gaetano (2018) , Interspeech
• 「病理学的音声障害の検出分野ではDNNの研究はあまり行われていない」
• 大規模データセットがないため。そこで、大域最小値を正確に達成するため
の事前学習DNNのための教師なし手法としてRestricted Boltzmann
Machine (RBM)を利用する。
• 提案手法：正常音声と病的音声のspectrogramを入力とするCNNを基本とし
たアーキテクチャ。過学習を防ぐため、最初にCDBNでCNNの重みを事前
学習する。
17

A deep learning method for pathological voice detection
using convolutional deep belief networks
• CDBNは重みを初期化し、システムをより強固にできるが、ロバスト性と精度はト
レードオフの関係にあるという課題は依然として残る。 18

肺炎を声から診断する研究はあったのか？
• Coswara -- A Database of Breathing, Cough, and Voice Sounds for COVID-19
Diagnosis (Sharma 2020)
– COVID-19は咳と呼吸困難が顕著な症状だとして、呼吸音（咳。呼吸、音）のデータベース
Coswaraを作成中。クラウドソーシングで収集中。
– 「呼吸器感染症では呼吸器系の物理構造変化が起こるため、咳音から病状分離が可能」
– 音声データは：呼吸(浅い/深い)、咳(軽い/キツい)、母音の持続音韻(æ I u:)、1~20桁までのカウ
ント(普通に/速く)
– 百日咳や慢性閉塞性疾患、結核菌などに関しての研究は既に他の研究で試みられており、喘
息等の検知で精度の高いものが存在（DNNではない）
– COVID-19の検出・診断に関してはケンブリッジ、CMU、Wadhwani AI Institute、EPFLのプロジェ
クトで研究中
19
ちなみに、arXivで4月時にはなかったこんな憑依jがされるようになっていた

[DL輪読会]音声言語病理学における機械学習とDNN

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

[DL輪読会]音声言語病理学における機械学習とDNN