hamayuzinの日記

エンジニアとかデータサイエンティストとかやってます。あの時　あれやってたな的な備忘録にできれば。

音声認識と感情認識　ー全体の流れー

人工知能

音声認識と感情認識

人工知能、Deep Learningの技術が盛り上がってくるとともに、ベンチャー企業や個人がそれらを活用できる方法が増えてきた。

私の会社でも、音声認識とそれに付属した感情認識を用いたシステムの依頼が増えている。

今回は、音声認識の流れとか

音声認識の流れ

このスライドが詳しい

音声認識と深層学習 from Preferred Infrastructure & Preferred Networks

www.slideshare.net

今まで

波形データ

↓ STFT

スペクトログラム

↓ 特徴量抽出

特徴量

↓ 音響モデル（GMM）

音素

↓ HMM

音素列

↓ 発音辞書＋言語モデル（n-gram）

単語列

DLによって

波形データ

↓ STFT（短時間フーリエ変換）Pythonとかで実装は可能

スペクトログラム

↓ 音響モデル（GMM →DNN）

音素

↓ HMM → RNN

音素列

↓ 発音辞書＋言語モデル（n-gram →RNN）

単語列

実はよくわかっていない。