Whisperで始める音声文字起こしライフ

2025年8月25日

「会議の議事録を自動化したい」「インタビューを文字にしたい」といった声をよく耳にします。

そんなときに頼りになるのが、OpenAIが公開しているWhisper。

音声認識の精度が高く、日本語にも対応しているので、手作業の文字起こしから解放される日も近いかもしれません。

今回は、実際にWhisperをインストールして、音声ファイルをテキスト化するまでの流れをざっくりご紹介します。

Whisperをインストール

まずは必要なモジュールを準備します。GitHubから直接インストールするスタイルです。

GPUがあると処理がサクサク進むのでおすすめですが、CPUでも一応動きます（ただし待ち時間は長め）。

!pip install git+https://github.com/openai/whisper.git
import os
import torch

# GPUメモリを上手に使うための設定
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

2. モデルの読み込み

Whisperには複数のサイズのモデルがありますが、今回は「small」を選びました。

import whisper
model = whisper.load_model("small")

large はCPUだと現実的に厳しいです。

モデルサイズの考え方。

tiny（一番軽い。日本語の精度は低め）
base（軽量＋そこそこ精度）
small（日本語もある程度実用的）
medium（精度高い。CPUでも頑張れば動く）
large（精度最高。ただしCPUは非推奨）

3. 音声ファイルを文字に変換

用意した音声ファイルを渡せば、いよいよ自動で文字起こしが始まります。

segmentsには時間ごとに区切られた文章が格納されていて、これだけでも「誰がいつ何を言ったのか」がある程度把握できます。

result = model.transcribe("input.wav", verbose=True, language='ja')
print(result['segments'])

4. テキストをファイルに保存

コンソールに出すだけでも十分ですが、実務ではやはりファイル保存が便利です。

結果は1行ずつ改行されて出力されるので、そのまま議事録や原稿に流用できます。

text = result['text']

with open("/content/sample_data/output_1.txt", "w", encoding="utf-8") as file:
    for segment in result['segments']:
        transcript = segment['text']
        output_text = f"{transcript}\n"
        file.write(output_text)

5. 後片付け（おまけ）

モデルや結果を削除して、GPUメモリをきれいにしておくのもスマートです。

GPU環境なら意味あり。CPU実行時はあまり気にしなくてOKです。

これで次回以降も快適に処理できます。

del model
del result
torch.cuda.empty_cache()

まとめ

Whisperを使えば、音声を文字に変える作業がシンプルに。数行のコードで、会議の録音やインタビューのデータがテキストになって手元に残ります。

「手作業の文字起こしはもう卒業したい」と思っている方は、一度試してみてください。

上手くいけば、自分の生活に「音声を文字にする流れ」が自然に組み込まれているはずです。

WhisperとGoogle Colab

長音声用のGPU使用時の音声書き起こし全文。

## whisperモジュールをインストール
!pip install git+https://github.com/openai/whisper.git
import os
import torch
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

## whisperモジュールをインポート
import whisper
model = whisper.load_model("small")

## 音声ファイルの指定 xxxxxx.mp3は自分で配置した音声ファイルの名前
result = model.transcribe("input.wav", verbose=True, language='ja')

print(result['segments'])

# コンソールに出力される内容であればここまでで十分
# ファイルの出力するのであれば下記
text = result['text']

# 改行を含めてファイル出力
with open("/content/sample_data/output_1.txt", "w", encoding="utf-8") as file:
    for segment in result['segments']:
        start_sec = segment['start']
        end_sec = segment['end']
        transcript = segment['text']
        output_text = f"{transcript}\n"
        file.write(output_text)

# ファイルを閉じる
file.close()

# メモリのクリーニング
del model
del result
torch.cuda.empty_cache()

今日の一杯

今日の一杯赤ワイン

2025/7/7

フェウド・アランチョネロ・ダーヴォラレビュー｜今日の一杯赤ワイン

「フェウド・アランチョネロ・ダーヴォラ」は、味わい深く、コスパの良い、安定した品質の一本です。トマト系の煮込み料理や、チーズをたっぷりのせたラザニアとも合い、もちろん、静かな夜にひとりでグラスを傾ける時間にもぴったり。海外の専門家たちからも高評価を得ており、日常使いからしっかりした食事まで汎用的に活躍します。味と風味口に含むと、熟したダークベリーやラズベリーの果実味が広がりながら、後半にかけてほんのりドライハーブのような余韻が続きます。酸味は控えめで、タンニンはしっかりしています。飲みごたえ ...

エナジードリンク今日の一杯

2025/6/30

ZONe ENERGY ABSOLUTE VICTORY 勝レビュー｜今日の一杯エナジードリンク

ZONe ABSOLUTE VICTORYは2025年1月に発売されたエナジードリンクです。受験勉強をイメージしたデザインの商品で、学問の神様として知られる菅原道真公を祀る太宰府天満宮に「HYPER ZONe 」を奉納し、受験生の合格を祈願しているそうです。寒い冬に体を温めるように、成分にジンジャーシロップが配合されており、堅調に生姜の味がします。カナダドライのジンジャーエールとはまた違う、比較的マイルドな飲みやすい生姜ジュースといった印象です。 ZONeの1本あたりのカフェイン量は75mgとコーヒ ...

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

1: 条件の0=0は全てが正であるを意味する [SQL]

SQLの条件に0=0のような記述を見かけます。変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。下記の例で言えば、結合するsub ...

2: DISTINCTを使わないで重複排除を考える [SQL]

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

3: RFC 5322に準拠させた正規表現言語別

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-Google, Python

Google SEO

2024/1/25

GoogleのSEOは悪化しているのか？悪化している模様｜検索エンジンにおけるSEOスパムの研究

ドイツ研究チームの調査によると、Google検索はSEOスパムに悩まされており、特に製品関連のクエリが多くなっています。この研究では、Google、Bing、DuckDuckGoの7,392の製品レビュークエリを1年間調査し、上位のページは平均して最適化されており、アフィリエイトマーケティングで収益化されており、テキストの質が低い兆候があることを発見しました。検索エンジンは印象論ではなく実際にSEOスパムに汚染されていることが明らかになりました。研究者はスパムサイトはランキングをめぐって常にグーグル ...

Google Python

2023/3/16

Google Colaboratory Pythonを利用してYoutubeの投稿を行う

Pythonを使ってYouTubeに動画を投稿するには、YouTube Data APIを使用する必要があります。これは、YouTubeに対応するRESTful APIです。以下に、必要な基本的な手順を記載していきます。 Google Cloud Consoleでプロジェクトを作成し、そのプロジェクトでYouTube Data APIを有効にする。プロジェクトの認証情報（OAuth 2.0 クライアント ID）を作成し、クライアントの秘密ファイルをダウンロードする。 Python用のGoogle A ...

Google Youtube サービス

2025/1/15

Youtubeの各チャンネルのRSSフィードを取得する方法

Youtubeにはチャンネル毎にXML形式のフィードが割り当てられています。これを確認するには、まずチャネルIDを確認する必要があります。チャンネルIDはPCの場合、チャンネルトップの「さらに表示(他X件のリンク)」「チャンネルを共有」から「チャンネルIDをコピー」という項目がありコピーできます。他にも、htmlのメタタグに割り当てられています。<meta itemprop="channelId" content="チャンネルID"> チャンネルIDを取得できたら以下のURLのパラメータ ...

Python

2022/3/22

Pythonでcurlした時に発生したssl certificateエラー

pythonの一連の流れでcurl実行したかったのでPycURLを使おうとしたらエラー....。やっている事は簡単なので色気を出さずにrequestsでもいいんですが、curl.perform()の実行した際にエラーが発生し、下記のエラー文言が出ました。 python ssl certificate problem unable to get local issuer certificate 見た感じ証明書の問題でしかないのですが、いい対処法はないのかと思って調べていたらcertifiを使う良さそうな対応 ...

Python

2025/1/27

Python Whisperで音声を文字起こしする方法｜やや高速化を考える

OpenAIが提供する「Whisper」は、音声認識を行うためのオープンソースモデルです。 Pythonを使うことで、音声ファイルから簡単に文字起こしが可能です。 Whisperをそのまま使うと解析速度が遅いため、faster-whisperを使って高速化します。 faster-whisperは、Transformerモデル用の高速推論エンジンであるCTranslate2を使用してOpenAIのWhisperモデルを再実装したものです。以下はGoogle Colaboratoryを利用してCPU利用で、 ...

GPT-5も相変わらず指示がカギ！誰でも使える高性能プロンプトの秘訣