Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

什么叫声学模型? 什么叫唱法模型?这两个模型是什么关系? #103

Open
liangcaihua opened this issue Dec 18, 2023 · 1 comment

Comments

@liangcaihua
Copy link

小白不明白。我也看过相关的文字和视频,但我还是不明白。谁能把这些基本的事情解释清楚吗?非常感谢!
如上,声学和唱法模型都要做吗?还是只做一个就行,最佳实践是什么呢?

原文中有这样一段话:

简单地说,歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。

因此,在训练变奏曲歌唱模型之前,训练声学模型进行模型推理

更加困惑

我认为这是一个伟大的项目,非常感谢大家!

@Hikari-Tsai
Copy link

你講的應該是openVPI維護的版本,唱法模型主要是用來把word切割成phoneme,並且評估一個音符長度要如何分配給兩個音節,並自動加入表情控制參數(類似midi的cc),獲得了一份完整的json資料表(.ds)後,使用這個ds文件給acoustic render成wave檔案,渲染的方法基本上是照搬difussion model的演算法,本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度,並且用另一個模型預測最佳的邊界值(k),而不是用一個固定常數,最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants