Python

Python Whisperで音声を文字起こしする方法|やや高速化を考える

OpenAIが提供する「Whisper」は、音声認識を行うためのオープンソースモデルです。

Pythonを使うことで、音声ファイルから簡単に文字起こしが可能です。

Whisperをそのまま使うと解析速度が遅いため、faster-whisperを使って高速化します。

faster-whisperは、Transformerモデル用の高速推論エンジンであるCTranslate2を使用してOpenAIのWhisperモデルを再実装したものです。

以下はGoogle Colaboratoryを利用してCPU利用で、英語の音声を文字起こしするサンプルです。

!pip install git+https://github.com/openai/whisper.git
!pip install faster-whisper

# モジュールをインポート
from faster_whisper import WhisperModel

# cpuモデルをロード(base モデルを例として使用)
model = WhisperModel("base", device="cpu")

# 音声ファイルのパスを指定
audio_path = "/content/sample_data/test_xxx.mp3"

# 英語の音声の文字起こしを実行
segments, info = model.transcribe(audio_path, beam_size=5, language="en")

# 結果をテキストに変換
text = ""
for segment in segments:
    text += segment.text + "\n"

# 結果をファイルに書き込み
with open("/content/sample_data/output_6.txt", "w", encoding="utf-8") as file:
    file.write(text)

print("文字起こしが完了しました。")

 

  • この記事を書いた人

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

条件の0=0は全てが正であるを意味するSQL 1

SQLの条件に0=0のような記述を見かけます。 変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。 下記の例で言えば、結合するsub ...

DISTINCTを使わないで重複排除を考えるSQL 2

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

RFC 5322に準拠させた正規表現言語別 3

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。 完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-Python