Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于使用长文本数据集训练的问题 #27

Open
LonePeng opened this issue May 15, 2022 · 3 comments
Open

关于使用长文本数据集训练的问题 #27

LonePeng opened this issue May 15, 2022 · 3 comments

Comments

@LonePeng
Copy link

大佬你好,我是纯小白,项目很好,已经star.我所使用的数据集的content的字数普遍在2k字到4k字,那么我在训练时候是否要把config.json 的n_ctx和train.py中的max__len从512改到47k呢?如果需要该,改到4096就会报这个错:
image
又该如何解决?谢谢大佬。

@liucongg
Copy link
Owner

最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成

@Fino2020
Copy link

最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成

请问你直接只改config.json和train.py这两个数据就可以训练了吗?预训练的GPT2模型的维度是[1,1,512,512]的,我只是改到3000,为啥你的可以训练呢??
image

@Fino2020
Copy link

最大1027,如果是47k长度,可以考虑先选择重要内容,再进行生成

请问有什么方法可以实现选择重要内容呢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants