見始めた動画に字幕が見当たらなかったので音声認識エンジンJuliusで英語のスピーチの文字起こしを試した(字幕ONはあとで見つかりました)。
英語のスピーチ Microsoft Ignite “Building Digital Resilience“
実行ファイルはjulius-dnn (JuliusLib rev.4.4.2.1 (fast) windows版)。実行方法はgithubにあるQuick Runを参考にしてください。
今回、入力する音声はiPhoneでスピーチを再生し、音をイヤホンジャックからJuliusを入力待機させているパソコンにUSBオーディオアダプターで入力しました。
少しの文節を試したところ、このデフォルト設定と条件で英語の認識率は70%・・・くらい?
使い方の流れ
- ダウンロード
- サーバー用に起動ファイルを調整
- 音声入力デバイスを接続
- 起動
- ことば文字起こし結果の受信側を起動
1.ここからdictation-kit-4.5.zipをダウンロードして展開する
2.サーバー用に起動ファイルを調整する。「run-win-dnn.bat」をコピーして、「run-win-dnn-server.bat」というファイル名をつけてください。以下のように”-module”と”-input mic”を書き足して、”-demo”を消します。
.\bin\windows\julius.exe -C main.jconf -C am-dnn.jconf -charconv utf-8 sjis -dnnconf julius.dnnconf -module -input mic
3.音声入力デバイスを接続する。音声入力端子にマイクをつなぐか、音声ソースからの音声入力ケーブルをつないでください。
4.「run-win-dnn-server.bat」を起動してください。
5.ことば文字起こし結果の受信側を起動する。以下のページの記事のまん中あたりにあるPython側の通信制御プログラムをコピーして、「main.py」と名前をつけて起動してください。
※このとき、”host = ‘127.0.0.1’”のアドレスは「run-win-dnn-server.bat」を起動するパソコンのIPアドレスにしてください。
※Python側のプログラムがつながらないときは「run-win-dnn-server.bat」を起動しているパソコンのファイヤウォールで、julius.exeをファイヤウォールの例外に設定して「run-win-dnn-server.bat」を起動しなおして、Python側も起動しなおしてください。
Pythonと音声認識フリーソフトウェアjuliusの連携による音声の文字変換 | 知のマイニング (software-data-mining.com)
その他メモ