PythonとWhisperを利用して音声ファイルの文字起こし｜さらにGoogle Colaboratoryで実行

2023年2月28日 2025年1月21日

OpenAIが提供している文字認識モデルWhisperを利用すると、Python環境での日本語の文字起こしが可能です。

ローカルで実行するのが手間な場合Google Colaboratoryを利用して実行する事が出来ます。

まず文字起こししたい音声ファイルを取得し、Google Colabのsample_data配下にドラッグ＆ドロップします。

sample_dataのフルパスはカーソルを当てた時右側に出る3点リーダーの「パスをコピー」をクリックすと分かるのですが、フルパスは"/content/sample_data"です。

あとはColabでPythonのコードを実行してやれば書き起こしデータが順次出力されます。

元動画の言語によって引数languageの部分を変えて下さい。

出力に時間がかかり、日本語の場合誤字も多々有りますが、簡易な文字起こしとしては使えます。

## whisperモジュールをインストール
!pip install git+https://github.com/openai/whisper.git
## whisperモジュールをインポート
import whisper
model = whisper.load_model("large")
## 音声ファイルの指定 xxxxxx.mp3は自分で配置した音声ファイルの名前
result = model.transcribe("/content/sample_data/xxxxxx.mp3", verbose=True, language='ja')
# コンソールに出力される内容であればここまでで十分
# ファイルの出力するのであれば下記
text = result['text']
# 書き込み用にファイルを開く
with open("/content/sample_data/output.txt", "w", encoding="utf-8") as file:
    # 文字情報をファイルに書き込む
    file.write(text)
# ファイルを閉じる
file.close()

今日の一杯

今日の一杯日本酒

2025/9/1

純米酒天領レビュー｜今日の一杯日本酒

岐阜県・飛騨高山の老舗酒蔵「天領酒造」の純米酒。飛騨地方は江戸時代に幕府の直轄地(天領)とされていた土地です。この「天領」という名前、ピンときた方もいるのでは？そう、かつてゲームボーイで発売された『メダロット2』の主人公、「天領イッキ」の由来になっているお酒です。どんなお酒？今回飲んだのは、天領酒造さんの定番純米酒。岐阜のブランド米「ひだほまれ」を使用し、軟水仕込みで丁寧に造られた一本です。味わい：ほんのりとした米の甘みと、すっきりとした後味が特徴。冷やしても良いけれど、ぬる燗（42℃前後）で ...

今日の一杯赤ワイン

2025/7/7

フェウド・アランチョネロ・ダーヴォラレビュー｜今日の一杯赤ワイン

「フェウド・アランチョネロ・ダーヴォラ」は、味わい深く、コスパの良い、安定した品質の一本です。トマト系の煮込み料理や、チーズをたっぷりのせたラザニアとも合い、もちろん、静かな夜にひとりでグラスを傾ける時間にもぴったり。海外の専門家たちからも高評価を得ており、日常使いからしっかりした食事まで汎用的に活躍します。味と風味口に含むと、熟したダークベリーやラズベリーの果実味が広がりながら、後半にかけてほんのりドライハーブのような余韻が続きます。酸味は控えめで、タンニンはしっかりしています。飲みごたえ ...

エナジードリンク今日の一杯

2025/6/30

ZONe ENERGY ABSOLUTE VICTORY 勝レビュー｜今日の一杯エナジードリンク

ZONe ABSOLUTE VICTORYは2025年1月に発売されたエナジードリンクです。受験勉強をイメージしたデザインの商品で、学問の神様として知られる菅原道真公を祀る太宰府天満宮に「HYPER ZONe 」を奉納し、受験生の合格を祈願しているそうです。寒い冬に体を温めるように、成分にジンジャーシロップが配合されており、堅調に生姜の味がします。カナダドライのジンジャーエールとはまた違う、比較的マイルドな飲みやすい生姜ジュースといった印象です。 ZONeの1本あたりのカフェイン量は75mgとコーヒ ...

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

1: 条件の0=0は全てが正であるを意味する [SQL]

SQLの条件に0=0のような記述を見かけます。変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。下記の例で言えば、結合するsub ...

2: DISTINCTを使わないで重複排除を考える [SQL]

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

3: RFC 5322に準拠させた正規表現言語別

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-Google, Python

Google Python

2025/8/25

Whisperで始める音声文字起こしライフ

「会議の議事録を自動化したい」「インタビューを文字にしたい」といった声をよく耳にします。そんなときに頼りになるのが、OpenAIが公開しているWhisper。音声認識の精度が高く、日本語にも対応しているので、手作業の文字起こしから解放される日も近いかもしれません。今回は、実際にWhisperをインストールして、音声ファイルをテキスト化するまでの流れをざっくりご紹介します。 Whisperをインストールまずは必要なモジュールを準備します。GitHubから直接インストールするスタイルです。 GPUがあ ...

Google コラム

2025/8/27

Google初期の企業文化に学ぶ｜社員を最優先にする経営の本質とは

大企業、特に当時のシリコンバレーに象徴される「成功神話」を持つ企業について語る際、批判的な論調は注目を集めやすい傾向があります。しかしここで取り上げたいのは批判ではなく、かつてGoogleに存在していた「独自の企業文化」についてです。その文化は現在も他の企業にとって学びの対象になり得ると考えられます。 Googleの創業初期、とりわけ最初の10年間は、「社員こそ最も重要な資産である」という考えが実際の経営・運営に反映されていました。一般的な米国企業では、プロジェクトの終了とともに関係者が解雇されるこ ...

Google

2023/4/24

米本国Google社員AIチャットボットBardを「嘘つき、役立たず、屈辱的」と酷評

ChatGPTの登場により、GoogleのBardチャットボットは、社員からの警告にもかかわらず、市場投入が急がれました。米本国の従業員はGoogleにBardを発売しないよう伝え「病的な嘘つき」「ゾッとする」「役に立たないよりひどい」と批判され、どう考えてももっと時間をかけてプロジェクトを進めるべきでした。 Googleが、OpenAIの登場でジェネレーティブAI革命に取り残されることを懸念し、独自のChatGPTのような技術の立ち上げを急いでいるという話を2月に聞いたことがあります。その1ヵ月後、 ...

Python

2022/3/23

Djangoのtemplate(標準)でURLエンコード

マニュアルがとても見辛いため探すのに時間が掛かってしまいましたが、他言語のテンプレートエンジンと同じ様に、縦線を利用する事で実行内容を記載できます。 valueの部分がURLを記述する部分で、もしURLが"https://www.example.org/foo?a=b&c=d"のような形式だった場合、出力は次のようになります "https%3A//www.example.org/foo%3Fa%3Db%26c%3Dd" {{value|urlencode}} urlencode Escapes a ...

Google サービス

2024/7/24

GoogleのURL短縮サービスが2025年に終了

Googleは、URL短縮サービスの「Google URL Shortener」を2025年に終了することを発表しました。このサービスは2009年に開始され、長いリンクを短縮して使いやすくするためのツールとして利用されてきましたが、2018年に新規URLの短縮を停止し、Firebase Dynamic Links（FDL）への移行を発表していました。 FDLもまた2025年に終了する予定です。 Googleは「既存のリンクは目的の場所にリダイレクトし続ける」としていましたが、実際には2025年8月にはリ ...

Pixelシリーズのroot化手順

Google Colaboratory Pythonを利用してYoutubeの投稿を行う