音声合成モデルを使って好きな声で音声を生成してみた(VALL-E X)
何かしらの音声ファイルを元に、別の新しい音声ファイルを生成するデモを公開しました。
使い道:好きな声で目覚ましボイスを作成する などなど
🎙️音声合成デモ🔊
・無料でお使いいただけますのでどうぞご自由にお試しください。
・生成開始から完了まで数十秒かかります。ご了承ください。
・元音声の品質、ノイズが成果物のクオリティに大いに影響します。
技術的なお話を少し…
当デモはVALL-E Xという音声合成モデルを使っています。
構築方法については基本的には上記リンク先のREADMEをなぞれば間違いないです。
サイトにも記載がありますが、以下3つも忘れずに。
1. ffmpegのインストール&インストール先にパス通す
2. checkpoints/vallex-checkpoint.ptを設置
インストールフォルダにcheckpoints/vallex-checkpoint.ptがあるか確認し、
無ければここから持っていって、フォルダ作成&ファイル設置する。
3. whisper/medium.ptを設置
インストールフォルダにwhisper/medium.ptがあるか確認し、
無ければここから持っていって、フォルダ作成&ファイル設置する。
上記作業によって、
ソースとなる元音声の文字起こしを入力せずとも音声生成が可能になるなどします。
以上、弊社の音声合成デモの簡単な紹介でした。
再見👋
Tweet