关于使用长文本数据集训练的问题 #27

LonePeng · 2022-05-15T04:59:31Z

大佬你好，我是纯小白，项目很好，已经star.我所使用的数据集的content的字数普遍在2k字到4k字，那么我在训练时候是否要把config.json 的n_ctx和train.py中的max__len从512改到47k呢？如果需要该，改到4096就会报这个错：

又该如何解决？谢谢大佬。

liucongg · 2022-05-20T13:20:00Z

最大1027，如果是47k长度，可以考虑先选择重要内容，再进行生成

Fino2020 · 2022-05-25T07:26:10Z

最大1027，如果是47k长度，可以考虑先选择重要内容，再进行生成

请问你直接只改config.json和train.py这两个数据就可以训练了吗？预训练的GPT2模型的维度是[1,1,512,512]的，我只是改到3000，为啥你的可以训练呢？？

Fino2020 · 2022-05-25T07:33:06Z

最大1027，如果是47k长度，可以考虑先选择重要内容，再进行生成

请问有什么方法可以实现选择重要内容呢

Provide feedback