Top/transcription

目次

Whisper を使った Transcription - 文字起こし

環境構築

  1. pip を使って必要な python モジュールをインストールする
    $ pip install SoundCard
    $ pip install whisper
    $ pip install git+https://github.com/openai/whisper.git
  2. LoopbackWhisper.py を貰ってくる
    $ git clone https://github.com/TadaoYamaoka/LoopbackWhisper.git
  3. 以下の python モジュールがなければインストールする
    python3-torch

環境構築(GPUの使用)

実行

  1. 取り敢えずこのまま実行してみる。
    $ python3 LoopbackWhisper/LoopbackWhisper.py --model large
  2. すると、下記のエラーが出る。
    RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'
  3. 再度実行すると、今度は正常に動作する。YouTubeの再生等で何らかの喋っている音声を再生すると、以下のように LoopbackWhisper.py を実行したコンソールに文字起こしの結果が表示される:
    $ python3 LoopbackWhisper.py --model large
    Loading model...
    Done
    ja: このような現象は見られなかった
    ja: 勝ったっていうのが我々の結果なんでしょうか意外ですね

参考リンク


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-02-23 (金) 23:14:53