シェルの解説全般

sh

ffmpegで16ビットのリニアPCMに変換する

Whisperモデルは、16kHzのサンプリングレートで16ビットのリニアPCM(WAV形式)にエンコードされた音声ファイルを想定しているようなので、ffmpegで文字起こしをした音声ファイルをエンコードします。

## コマンドでffmpegを使ってwav形式にエンコードする
ffmpeg -i "input.mp3" -ac 2 -ar 16000 -acodec pcm_s16le -f wav "output.wav"

各種オプションの説明。

  • -i "input.mp3": 入力ファイルを指定します。
  • -ac 2: ステレオ2チャンネルを指定します。
  • -ar 16000: サンプリングレートを16kHzに設定します。
  • -acodec pcm_s16le: コーデックを16ビットのリニアPCMに設定します。
  • -f wav: 出力フォーマットをWAV形式に設定します。
  • "output.wav": 出力するファイル名を指定します。

このコマンドを実行する前に、ffmpegがインストールされていることを確認してください。

また、input.mp3とoutput.wavは適切なファイルパスとファイル名に置き換えてください。

  • この記事を書いた人

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

条件の0=0は全てが正であるを意味するSQL 1

SQLの条件に0=0のような記述を見かけます。 変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。 下記の例で言えば、結合するsub ...

DISTINCTを使わないで重複排除を考えるSQL 2

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

RFC 5322に準拠させた正規表現言語別 3

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。 完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-sh