Google Colaboratoryを利用して音声ファイルの文字起こしを行う

Google Python

Google Colaboratory Pythonを利用して音声ファイルの文字起こしを行う

PythonのWhisperというライブラリを利用すると、日本語でも文字起こしが可能なのですが、ローカルで実行するのが手間な場合Google Colaboratoryを利用して実行する事が出来ます。

まず文字起こししたい音声ファイルを取得し、Google Colabのsample_data配下にドラッグ&ドロップします。

sample_dataのフルパスはカーソルを当てた時右側に出る3点リーダーの「パスをコピー」をクリックすと分かるのですが、フルパスは"/content/sample_data"です。

あとはColabでPythonのコードを実行してやれば書き起こしデータが順次出力されます。

結構出力に時間がかかり、日本語の誤字もまあまあ有りますが、簡易な文字起こしとしては使えます。

## whisperモジュールをインストール
!pip install git+https://github.com/openai/whisper.git
## whisperモジュールをインポート
import whisper
model = whisper.load_model("large")
## 音声ファイルの指定 xxxxxx.mp3は自分で配置した音声ファイルの名前
result = model.transcribe("/content/sample_data/xxxxxx.mp3", verbose=True, language='ja')
text = result['text']

 

  • この記事を書いた人

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。まあ、昔ながらの方法でやりたいこともありますよね。

-Google, Python