Whisper を使った Transcription - 文字起こし†
環境構築†
- pip を使って必要な python モジュールをインストールする
$ pip install SoundCard
$ pip install whisper
$ pip install git+https://github.com/openai/whisper.git
- LoopbackWhisper.py を貰ってくる
$ git clone https://github.com/TadaoYamaoka/LoopbackWhisper.git
- 以下の python モジュールがなければインストールする
python3-torch
環境構築(GPUの使用)†
- 取り敢えずこのまま実行してみる。
$ python3 LoopbackWhisper/LoopbackWhisper.py --model large
- すると、下記のエラーが出る。
RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'
- 再度実行すると、今度は正常に動作する。YouTubeの再生等で何らかの喋っている音声を再生すると、以下のように LoopbackWhisper.py を実行したコンソールに文字起こしの結果が表示される:
$ python3 LoopbackWhisper.py --model large
Loading model...
Done
ja: このような現象は見られなかった
ja: 勝ったっていうのが我々の結果なんでしょうか意外ですね
- 通常の会話スピードで喋っている音声の場合、処理が間に合わないようで、かなり取りこぼしが発生する。
参考リンク†
Last-modified: 2024-02-23 (金) 23:14:53