We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
小白不明白。我也看过相关的文字和视频,但我还是不明白。谁能把这些基本的事情解释清楚吗?非常感谢! 如上,声学和唱法模型都要做吗?还是只做一个就行,最佳实践是什么呢?
原文中有这样一段话:
简单地说,歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。
因此,在训练变奏曲歌唱模型之前,训练声学模型进行模型推理
更加困惑
我认为这是一个伟大的项目,非常感谢大家!
The text was updated successfully, but these errors were encountered:
你講的應該是openVPI維護的版本,唱法模型主要是用來把word切割成phoneme,並且評估一個音符長度要如何分配給兩個音節,並自動加入表情控制參數(類似midi的cc),獲得了一份完整的json資料表(.ds)後,使用這個ds文件給acoustic render成wave檔案,渲染的方法基本上是照搬difussion model的演算法,本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度,並且用另一個模型預測最佳的邊界值(k),而不是用一個固定常數,最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助
Sorry, something went wrong.
No branches or pull requests
小白不明白。我也看过相关的文字和视频,但我还是不明白。谁能把这些基本的事情解释清楚吗?非常感谢!
如上,声学和唱法模型都要做吗?还是只做一个就行,最佳实践是什么呢?
原文中有这样一段话:
简单地说,歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。
因此,在训练变奏曲歌唱模型之前,训练声学模型进行模型推理
更加困惑
我认为这是一个伟大的项目,非常感谢大家!
The text was updated successfully, but these errors were encountered: