- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2022-10-29T21:36:42+09:00","","")
#author("2024-02-23T23:14:53+09:00","","")
#topicpath();
//////////////////////////////////////////////////////////////////////////////
* 目次 [#icb5d282]
#contents();
//////////////////////////////////////////////////////////////////////////////
* Whisper を使った Transcription - 文字起こし [#whisper]
//============================================================================
** 環境構築 [#whisper-env]
+ pip を使って必要な python モジュールをインストールする
+ [[pip>Lang/Python/pip]] を使って必要な python モジュールをインストールする
$ pip install SoundCard
$ pip install whisper
$ pip install git+https://github.com/openai/whisper.git
+ LoopbackWhisper.py を貰ってくる
$ git clone https://github.com/TadaoYamaoka/LoopbackWhisper.git
+ 以下の python モジュールがなければインストールする
python3-torch
//============================================================================
** 環境構築(GPUの使用) [#whisper-gpu]
//============================================================================
** 実行 [#whisper-exec]
+ 取り敢えずこのまま実行してみる。
$ python3 LoopbackWhisper/LoopbackWhisper.py --model large
+ すると、下記のエラーが出る。
RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'
-- 解決法は下記リンク先にあるように、whisper.DecodingOptions() に引数 ''fp16=False'' を渡してやる。
-- LoopbackWhisper/LoopbackWhisper.py でこれを呼んでいる場所があるので以下のように修正:
- options = whisper.DecodingOptions()
+ options = whisper.DecodingOptions(fp16=False)
--- [[OpenAIリリースのWhisperをCPUだけで動かすために色々試した話 | DevelopersIO>https://dev.classmethod.jp/articles/openai_whisper_only_local_cpu/]]
--- [[RuntimeError: "slow_conv2d_cpu" not implemented for 'Half' · Discussion #92 · openai/whisper · GitHub>https://github.com/openai/whisper/discussions/92]]
+ 再度実行すると、今度は正常に動作する。YouTubeの再生等で何らかの喋っている音声を再生すると、以下のように LoopbackWhisper.py を実行したコンソールに文字起こしの結果が表示される:
$ python3 LoopbackWhisper.py --model large
Loading model...
Done
ja: このような現象は見られなかった
ja: 勝ったっていうのが我々の結果なんでしょうか意外ですね
- 通常の会話スピードで喋っている音声の場合、処理が間に合わないようで、かなり取りこぼしが発生する。
//============================================================================
** 参考リンク [#whisper-links]
- [[PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記>https://tadaoyamaoka.hatenablog.com/entry/2022/10/15/175722]]
- [[OpenAIのWhisperをWindows環境で試す(CUDA環境有り)>https://zenn.dev/en129/articles/ddfb3da6d0fd31]]
- [[CUDA+cuDNNをインストールしPyTorchでGPUを認識させるまでの手順(Window11)>https://zenn.dev/ryu2021/articles/3d5737408b06fe]]