[BUG] <title>token截断导致训练label被删除 #662

tong-1989 · 2024-11-11T08:12:23Z

在做finetune的时候，dataset.py下data_collator方法，会对数据做截断，丢掉max_length之后的tokens。这样在做监督训练的会后，会把模型学习的label截掉，导致报错"No tokens available to compute loss."

是否在做token截断的时候只对input做，不影响label的获取

No response

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

No response

LDLINGLINGLING · 2024-11-11T09:46:38Z

你好，个人认为这里很难改，因为不好同时兼顾自动判断有效token长度和个人的显存。

DankoZhang · 2024-11-15T01:12:41Z

用swift框架吧，直接删除超长的数据

Provide feedback