hamayuzinの日記

エンジニアとかデータサイエンティストとかやってます。あの時 あれやってたな的な備忘録にできれば。

音声認識と感情認識 ー全体の流れー

音声認識と感情認識

人工知能、Deep Learningの技術が盛り上がってくるとともに、 ベンチャー企業や個人がそれらを活用できる方法が増えてきた。

私の会社でも、音声認識とそれに付属した感情認識を用いたシステムの依頼が増えている。

今回は、音声認識の流れとか

音声認識の流れ

このスライドが詳しい

www.slideshare.net

今まで

波形データ

↓ STFT

スペクトログラム

↓ 特徴量抽出

特徴量

↓ 音響モデル(GMM)

音素

↓ HMM

音素列

↓ 発音辞書+言語モデルn-gram

単語列

DLによって

波形データ

↓ STFT(短時間フーリエ変換Pythonとかで実装は可能

スペクトログラム

↓ 音響モデル(GMM →DNN)

音素

↓ HMM → RNN

音素列

↓ 発音辞書+言語モデルn-gram →RNN)

単語列

実はよくわかっていない。