Google Colaboratoryを利用して音声ファイルの文字起こしを行う

Google Python

Google ColaboratoryとWhisperを利用して音声ファイルの文字起こしを行う

2023年2月28日

OpenAIが提供している文字認識モデルWhisperを利用すると、Python環境での日本語の文字起こしが可能です。

ローカルで実行するのが手間な場合Google Colaboratoryを利用して実行する事が出来ます。

まず文字起こししたい音声ファイルを取得し、Google Colabのsample_data配下にドラッグ&ドロップします。

sample_dataのフルパスはカーソルを当てた時右側に出る3点リーダーの「パスをコピー」をクリックすと分かるのですが、フルパスは"/content/sample_data"です。

あとはColabでPythonのコードを実行してやれば書き起こしデータが順次出力されます。

元動画の言語によって引数languageの部分を変えて下さい。

結構出力に時間がかかり、日本語の場合誤字も多々有りますが、簡易な文字起こしとしては使えます。

## whisperモジュールをインストール
!pip install git+https://github.com/openai/whisper.git
## whisperモジュールをインポート
import whisper
model = whisper.load_model("large")
## 音声ファイルの指定 xxxxxx.mp3は自分で配置した音声ファイルの名前
result = model.transcribe("/content/sample_data/xxxxxx.mp3", verbose=True, language='ja')
# コンソールに出力される内容であればここまでで十分
# ファイルの出力するのであれば下記
text = result['text']
# 書き込み用にファイルを開く
with open("/content/sample_data/output.txt", "w", encoding="utf-8") as file:
    # 文字情報をファイルに書き込む
    file.write(text)
# ファイルを閉じる
file.close()
  • この記事を書いた人

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

条件の0=0は全てが正であるを意味するSQL 1

SQLの条件に0=0のような記述を見かけます。 変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。 下記の例で言えば、結合するsub ...

DISTINCTを使わないで重複排除を考えるSQL 2

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

RFC 5322に準拠させた正規表現言語別 3

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。 完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-Google, Python