Whisperモデルは、16kHzのサンプリングレートで16ビットのリニアPCM(WAV形式)にエンコードされた音声ファイルを想定しているようなので、ffmpegで文字起こしをした音声ファイルをエンコードします。
## コマンドでffmpegを使ってwav形式にエンコードする ffmpeg -i "input.mp3" -ac 2 -ar 16000 -acodec pcm_s16le -f wav "output.wav"
各種オプションの説明。
- -i "input.mp3": 入力ファイルを指定します。
- -ac 2: ステレオ2チャンネルを指定します。
- -ar 16000: サンプリングレートを16kHzに設定します。
- -acodec pcm_s16le: コーデックを16ビットのリニアPCMに設定します。
- -f wav: 出力フォーマットをWAV形式に設定します。
- "output.wav": 出力するファイル名を指定します。
このコマンドを実行する前に、ffmpegがインストールされていることを確認してください。
また、input.mp3とoutput.wavは適切なファイルパスとファイル名に置き換えてください。