音声合成モデルを使って好きな声で音声を生成してみた（VALL-E X）

何かしらの音声ファイルを元に、別の新しい音声ファイルを生成するデモを公開しました。
使い道：好きな声で目覚ましボイスを作成するなどなど

・無料でお使いいただけますのでどうぞご自由にお試しください。
・生成開始から完了まで数十秒かかります。ご了承ください。
・元音声の品質、ノイズが成果物のクオリティに大いに影響します。

当デモはVALL-E Xという音声合成モデルを使っています。

構築方法については基本的には上記リンク先のREADMEをなぞれば間違いないです。

サイトにも記載がありますが、以下3つも忘れずに。

1. ffmpegのインストール＆インストール先にパス通す

2. checkpoints/vallex-checkpoint.ptを設置
インストールフォルダにcheckpoints/vallex-checkpoint.ptがあるか確認し、
無ければここから持っていって、フォルダ作成＆ファイル設置する。

3. whisper/medium.ptを設置
インストールフォルダにwhisper/medium.ptがあるか確認し、
無ければここから持っていって、フォルダ作成＆ファイル設置する。

上記作業によって、
元音声の文字起こしを入力しなくても音声が生成できるなど、
利便性が向上します。

以上、弊社の音声合成デモの簡単な紹介でした。

再見👋

最新ブログ一覧