模型發布
Mistral Voxtral TTS 技術分析:90 毫秒首音延遲與五秒語音複製的架構突破
Mistral AI 發布開源文字轉語音模型 Voxtral TTS,以極小的模型尺寸實現了 90 毫秒的首音延遲(TTFA),僅需不到五秒的語音樣本即可複製自定義聲音。模型支援九種語言,可在智慧手錶等邊緣裝置上運行,以 CC BY NC 4.0 授權開源。
Mistral AI 發布開源文字轉語音模型 Voxtral TTS,以極小的模型尺寸實現了 90 毫秒的首音延遲(TTFA),僅需不到五秒的語音樣本即可複製自定義聲音。模型支援九種語言,可在智慧手錶等邊緣裝置上運行,以 CC BY NC 4.0 授權開源。