transcription の履歴の現在との差分(No.2)

履歴一覧
差分を表示
ソースを表示
履歴を表示
transcription へ行く。
- 1 (2022-10-29 (土) 20:57:30)
- 2 (2022-10-29 (土) 21:36:42)
- 3 (2022-10-30 (日) 02:41:31)
- 4 (2024-02-17 (土) 09:42:39)
追加された行はこの色です。
削除された行はこの色です。
#author("2022-10-29T21:36:42+09:00","","")
#author("2024-02-23T23:14:53+09:00","","")
#topicpath();

//////////////////////////////////////////////////////////////////////////////
* 目次 [#icb5d282]
#contents();


//////////////////////////////////////////////////////////////////////////////
* Whisper を使った Transcription - 文字起こし [#whisper]
//============================================================================
** 環境構築 [#whisper-env]
+ pip を使って必要な python モジュールをインストールする
+ [[pip>Lang/Python/pip]] を使って必要な python モジュールをインストールする
 $ pip install SoundCard
 $ pip install whisper
 $ pip install git+https://github.com/openai/whisper.git
+ LoopbackWhisper.py を貰ってくる
 $ git clone https://github.com/TadaoYamaoka/LoopbackWhisper.git
+ 以下の python モジュールがなければインストールする
 python3-torch

//============================================================================
** 環境構築（GPUの使用） [#whisper-gpu]


//============================================================================
** 実行 [#whisper-exec]
+ 取り敢えずこのまま実行してみる。
 $ python3 LoopbackWhisper/LoopbackWhisper.py --model large
+ すると、下記のエラーが出る。
 RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'
-- 解決法は下記リンク先にあるように、whisper.DecodingOptions() に引数 ''fp16=False'' を渡してやる。
-- LoopbackWhisper/LoopbackWhisper.py でこれを呼んでいる場所があるので以下のように修正：
 - options = whisper.DecodingOptions()
 + options = whisper.DecodingOptions(fp16=False)
--- [[OpenAIリリースのWhisperをCPUだけで動かすために色々試した話 | DevelopersIO>https://dev.classmethod.jp/articles/openai_whisper_only_local_cpu/]]
--- [[RuntimeError: "slow_conv2d_cpu" not implemented for 'Half' · Discussion #92 · openai/whisper · GitHub>https://github.com/openai/whisper/discussions/92]]
+ 再度実行すると、今度は正常に動作する。YouTubeの再生等で何らかの喋っている音声を再生すると、以下のように LoopbackWhisper.py を実行したコンソールに文字起こしの結果が表示される：
 $ python3 LoopbackWhisper.py --model large
 Loading model...
 Done
 ja: このような現象は見られなかった
 ja: 勝ったっていうのが我々の結果なんでしょうか意外ですね

- 通常の会話スピードで喋っている音声の場合、処理が間に合わないようで、かなり取りこぼしが発生する。


//============================================================================
** 参考リンク [#whisper-links]
- [[PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記>https://tadaoyamaoka.hatenablog.com/entry/2022/10/15/175722]]
- [[OpenAIのWhisperをWindows環境で試す(CUDA環境有り)>https://zenn.dev/en129/articles/ddfb3da6d0fd31]]
- [[CUDA+cuDNNをインストールしPyTorchでGPUを認識させるまでの手順(Window11)>https://zenn.dev/ryu2021/articles/3d5737408b06fe]]