BreezyVoice 語音合成系統

僅需5秒語音樣本,就可輸出擬真人聲。

此沙盒使用 Huggingface CPU,請預期大於200 秒的推理時間,您可以考慮以下方法加速:

  1. 強烈建議複製這個 Space(Duplicate this space),以分散流量!
  2. 複製至本地GPU執行(請參考指南)或使用kaggle
  3. 複製至本地CPU執行(請參考指南

為了加快推理速度,g2pw注音標註並未被啟動。

免責聲明:此沙盒在一次性容器地端執行,關閉後檔案將遭到刪除。此沙盒不屬於聯發創新基地,聯發創新基地無法獲得任何使用者輸入。

步驟 1. 音訊樣本輸入 & 音訊樣本文本輸入

選擇prompt音訊檔案或錄製prompt音訊 (5~15秒),並手動校對自動產生的音訊樣本文本。

音訊來源

步驟 2.合成文本輸入

步驟 3. 合成音訊