#author("2024-02-17T09:42:39+09:00","","") #author("2024-02-23T23:14:53+09:00","","") #topicpath(); ////////////////////////////////////////////////////////////////////////////// * 目次 [#icb5d282] #contents(); ////////////////////////////////////////////////////////////////////////////// * Whisper を使った Transcription - 文字起こし [#whisper] //============================================================================ ** 環境構築 [#whisper-env] + pip を使って必要な python モジュールをインストールする + [[pip>Lang/Python/pip]] を使って必要な python モジュールをインストールする $ pip install SoundCard $ pip install whisper $ pip install git+https://github.com/openai/whisper.git + LoopbackWhisper.py を貰ってくる $ git clone https://github.com/TadaoYamaoka/LoopbackWhisper.git + 以下の python モジュールがなければインストールする python3-torch //============================================================================ ** 環境構築(GPUの使用) [#whisper-gpu] //============================================================================ ** 実行 [#whisper-exec] + 取り敢えずこのまま実行してみる。 $ python3 LoopbackWhisper/LoopbackWhisper.py --model large + すると、下記のエラーが出る。 RuntimeError: "slow_conv2d_cpu" not implemented for 'Half' -- 解決法は下記リンク先にあるように、whisper.DecodingOptions() に引数 ''fp16=False'' を渡してやる。 -- LoopbackWhisper/LoopbackWhisper.py でこれを呼んでいる場所があるので以下のように修正: - options = whisper.DecodingOptions() + options = whisper.DecodingOptions(fp16=False) --- [[OpenAIリリースのWhisperをCPUだけで動かすために色々試した話 | DevelopersIO>https://dev.classmethod.jp/articles/openai_whisper_only_local_cpu/]] --- [[RuntimeError: "slow_conv2d_cpu" not implemented for 'Half' · Discussion #92 · openai/whisper · GitHub>https://github.com/openai/whisper/discussions/92]] + 再度実行すると、今度は正常に動作する。YouTubeの再生等で何らかの喋っている音声を再生すると、以下のように LoopbackWhisper.py を実行したコンソールに文字起こしの結果が表示される: $ python3 LoopbackWhisper.py --model large Loading model... Done ja: このような現象は見られなかった ja: 勝ったっていうのが我々の結果なんでしょうか意外ですね - 通常の会話スピードで喋っている音声の場合、処理が間に合わないようで、かなり取りこぼしが発生する。 //============================================================================ ** 参考リンク [#whisper-links] - [[PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記>https://tadaoyamaoka.hatenablog.com/entry/2022/10/15/175722]] - [[OpenAIのWhisperをWindows環境で試す(CUDA環境有り)>https://zenn.dev/en129/articles/ddfb3da6d0fd31]] - [[CUDA+cuDNNをインストールしPyTorchでGPUを認識させるまでの手順(Window11)>https://zenn.dev/ryu2021/articles/3d5737408b06fe]]