Python Whisperで音声を文字起こしする方法｜やや高速化を考える

2025年1月27日

OpenAIが提供する「Whisper」は、音声認識を行うためのオープンソースモデルです。

Pythonを使うことで、音声ファイルから簡単に文字起こしが可能です。

Whisperをそのまま使うと解析速度が遅いため、faster-whisperを使って高速化します。

faster-whisperは、Transformerモデル用の高速推論エンジンであるCTranslate2を使用してOpenAIのWhisperモデルを再実装したものです。

以下はGoogle Colaboratoryを利用してCPU利用で、英語の音声を文字起こしするサンプルです。

!pip install git+https://github.com/openai/whisper.git
!pip install faster-whisper

# モジュールをインポート
from faster_whisper import WhisperModel

# cpuモデルをロード（base モデルを例として使用）
model = WhisperModel("base", device="cpu")

# 音声ファイルのパスを指定
audio_path = "/content/sample_data/test_xxx.mp3"

# 英語の音声の文字起こしを実行
segments, info = model.transcribe(audio_path, beam_size=5, language="en")

# 結果をテキストに変換
text = ""
for segment in segments:
    text += segment.text + "\n"

# 結果をファイルに書き込み
with open("/content/sample_data/output_6.txt", "w", encoding="utf-8") as file:
    file.write(text)

print("文字起こしが完了しました。")

今日の一杯赤ワイン

2025/6/30

フェウド・アランチョネロ・ダーヴォラレビュー｜今日の一杯赤ワイン

「フェウド・アランチョネロ・ダーヴォラ」は、味わい深く、コスパの良い、安定した品質の一本です。トマト系の煮込み料理や、チーズをたっぷりのせたラザニアとも合い、もちろん、静かな夜にひとりでグラスを傾ける時間にもぴったり。海外の専門家たちからも高評価を得ており、日常使いからしっかりした食事まで汎用的に活躍します。味と風味口に含むと、熟したダークベリーやラズベリーの果実味が広がりながら、後半にかけてほんのりドライハーブのような余韻が続きます。酸味は控えめで、タンニンはしっかりしています。飲みごたえ ...

エナジードリンク今日の一杯

2025/6/30

ZONe ENERGY ABSOLUTE VICTORY 勝レビュー｜今日の一杯エナジードリンク

ZONe ABSOLUTE VICTORYは2025年1月に発売されたエナジードリンクです。受験勉強をイメージしたデザインの商品で、学問の神様として知られる菅原道真公を祀る太宰府天満宮に「HYPER ZONe 」を奉納し、受験生の合格を祈願しているそうです。寒い冬に体を温めるように、成分にジンジャーシロップが配合されており、堅調に生姜の味がします。カナダドライのジンジャーエールとはまた違う、比較的マイルドな飲みやすい生姜ジュースといった印象です。 ZONeの1本あたりのカフェイン量は75mgとコーヒ ...

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

1: 条件の0=0は全てが正であるを意味する [SQL]

SQLの条件に0=0のような記述を見かけます。変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。下記の例で言えば、結合するsub ...

2: DISTINCTを使わないで重複排除を考える [SQL]

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

3: RFC 5322に準拠させた正規表現言語別

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-Python

Python

2023/4/7

Pythonで知っておくべき10個の概念

Pythonは高水準のオブジェクト指向プログラミング言語であり、その汎用性、動的性質、堅牢性、学習しやすい性質から、多くの学生や専門家によって選ばれています。最近では、JavaScriptに次いで2番目に人気のある言語となり、機械学習、データサイエンス、ウェブ開発、分析、自動化、テスト、人工知能など、ほとんどすべての技術分野で使用することができます。 Pythonの学習は、JavaやC++などの他の高水準のオブジェクト指向プログラミング言語と比較して簡単ですが、堅牢で簡潔、最適化され効率的かつ正規化され ...

Google Python

2025/1/21

PythonとWhisperを利用して音声ファイルの文字起こし｜さらにGoogle Colaboratoryで実行

OpenAIが提供している文字認識モデルWhisperを利用すると、Python環境での日本語の文字起こしが可能です。ローカルで実行するのが手間な場合Google Colaboratoryを利用して実行する事が出来ます。まず文字起こししたい音声ファイルを取得し、Google Colabのsample_data配下にドラッグ＆ドロップします。 sample_dataのフルパスはカーソルを当てた時右側に出る3点リーダーの「パスをコピー」をクリックすと分かるのですが、フルパスは"/content/sampl ...

Python

2022/3/22

Pythonでcurlした時に発生したssl certificateエラー

pythonの一連の流れでcurl実行したかったのでPycURLを使おうとしたらエラー....。やっている事は簡単なので色気を出さずにrequestsでもいいんですが、curl.perform()の実行した際にエラーが発生し、下記のエラー文言が出ました。 python ssl certificate problem unable to get local issuer certificate 見た感じ証明書の問題でしかないのですが、いい対処法はないのかと思って調べていたらcertifiを使う良さそうな対応 ...

Python

2022/3/22

Pythonのbase64デコードで発生したIncorrect paddingエラー

pythonでbase64 デコードしたかったので調べてみると下記の内容が良く出ててきます。 import base64 dec_file = base64.b64decode( enc_str ) これを実行するとIncorrect paddingとエラーが出てしまい、変換出来ない物がありました。不適切なパディングと言われても、変換したかったのはgmailから取得したメール本文のため、何のこっちゃ分からないわけです(笑)。出来ないと困るなーと思い追加調査、どうやらURLの一部として安全に使用するバー ...

Python

2023/7/21

Pythonを使ってtsファイルをmp4に変換

Pythonを使って動画のtsファイルをmp4に変換する処理で、ffmpegを使用します。 ffmpegは多くのプラットフォームで利用可能で、動画・音声の変換や編集に広く使用されています。まず、Pythonで外部コマンドを実行するためにsubprocessモジュールを使用します。そして、ffmpegを呼び出して.tsファイルを.mp4に変換します。 ffmpegをコマンドラインから使えるようにインストールし、Pythonスクリプト内でsubprocessを使ってffmpegを呼び出します。 impor ...

適切に近いAIプロンプトを作成する「CRAFTフレームワーク」

ZONe ENERGY ABSOLUTE VICTORY 勝レビュー｜今日の一杯エナジードリンク