ゆるオタクの生活改善メモ帳

仕事メモとライフハック。あらゆるものを効率化してダラダラする時間を増やしたい。

音声処理リファレンス

Python 音声処理

音声処理用のメモです

過去の記事

まだない…

参考文献

本とか論文とか

ブログとかqiitaとかスライドとか

基礎

学会

日本音声学会

音声分析に使えそうなlibrary・data

library

wavio　→本家
- wavファイルを扱うライブラリwavio(wavファイルをreadできる)
scipy →本家
- 言わずとしれた数値解析library。フーリエ変換→ノイズカット→逆フーリエ変換とかローパスフィルタとかして前処理するときに使う
librosa →本家
- 音声信号処理のlibrary。スペクトル解析とか簡単にできる
pyaudioanalysis →本家
- 音声分析のlibrary。音の特徴量を抽出できたりする。詳しくは本家githubのwikiで
- multimodalAnalysis
  - コース2が特徴量算出の勉強になる
  - メモ：フレームサイズはだいたい20msc-100msc、フレームステップ（どれだけずらすか）はだいたいフレームサイズの5~7割
    - 例、フレームサイズ 100mscの場合フレームステップは50msc〜70msc
pyreaper →本家
- GoogleがgithubにあげているREAPERのPython用のラッパー
- REAPERについてはこちら

特徴量について

かなり複雑でいっぱいある。pyAudioAnalysisやlibrosaを利用すると音声識別でよく使われているっぽいMFCCやSpectralの特徴量は抽出できる。

データセット

https://github.com/arXivTimes/arXivTimes/blob/master/datasets/README.md#speech