OpenAIが提供している文字認識モデルWhisperを利用すると、Python環境での日本語の文字起こしが可能です。
ローカルで実行するのが手間な場合Google Colaboratoryを利用して実行する事が出来ます。
まず文字起こししたい音声ファイルを取得し、Google Colabのsample_data配下にドラッグ&ドロップします。
sample_dataのフルパスはカーソルを当てた時右側に出る3点リーダーの「パスをコピー」をクリックすと分かるのですが、フルパスは"/content/sample_data"です。
あとはColabでPythonのコードを実行してやれば書き起こしデータが順次出力されます。
元動画の言語によって引数languageの部分を変えて下さい。
結構出力に時間がかかり、日本語の場合誤字も多々有りますが、簡易な文字起こしとしては使えます。
## whisperモジュールをインストール !pip install git+https://github.com/openai/whisper.git ## whisperモジュールをインポート import whisper model = whisper.load_model("large") ## 音声ファイルの指定 xxxxxx.mp3は自分で配置した音声ファイルの名前 result = model.transcribe("/content/sample_data/xxxxxx.mp3", verbose=True, language='ja') # コンソールに出力される内容であればここまでで十分 # ファイルの出力するのであれば下記 text = result['text'] # 書き込み用にファイルを開く with open("/content/sample_data/output.txt", "w", encoding="utf-8") as file: # 文字情報をファイルに書き込む file.write(text) # ファイルを閉じる file.close()