Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[NSML] TEST SET의 데이터 순서 관련 문의 #47

Closed
nammyoungjin opened this issue Oct 18, 2021 · 3 comments
Closed

[NSML] TEST SET의 데이터 순서 관련 문의 #47

nammyoungjin opened this issue Oct 18, 2021 · 3 comments
Assignees
Labels
Dataset 관련 💾 데이터셋 관련 문의

Comments

@nammyoungjin
Copy link

주제

  • 테스트 셋 데이터 순서가 제대로 맞춰져있는지 확인바랍니다.

상황 (자세히 작성해주시면 좋습니다.)

  • 테스트 셋 데이터 순서가 제대로 되어있는지 의문을 품고 있습니다. 그 이유는 다음과 같습니다.
    1. 채점 데이터를 제출하는 infer() 코드에서 dialogueID를 입력하는 부분이 없고, test json file을 glob.sort()로만 정렬하는 것에 의문이 생겼음
    1. 현재 리더보드를 보았을 때 1점 만점을 기준으로 스코어가 모두 현저하게 낮음
    1. 가장 결정적인 이유입니다. 동일한 모델로 test batch를 Shuffle하여 제출하였는데, 오히려 Score가 상승하는 현상이 일어났습니다.
    1. [NSML] 공개된 사전학습 모델 허용 해주시면 안될까요? #44 (comment) 이슈를 보았습니다. 하지만 동일한 모델로 자체 서버에서 abstractive summary를 돌려보았을 때에 결과물에 큰 문제가 없어보입니다.
  • 위에서 언급한 이슈에서 "싶다며 있는지 이에 대해 해야 한다는 거라고 안 될 것 같다고 하자고 좋겠고 있었다고 이야기를 얘기를 하고 한다. 있다." 라고 제출한 코드가 1등인 상황에서 test 데이터셋 순서가 제대로 안돼있을 것이라고 생각이 듭니다.
    1. Validation score와 리더보드 점수가 일관적이지 않습니다. cross entropy loss가 validation set에 대해서 가장 낮은 모델이 loss가 높은 모델에 비해서 score가 낮습니다.

내용 (첨부 가능한 이미지 추가해주시면 더 좋습니다.)

  • inference시 batch shuffle = True , 제출한 모델 중 가장 높은 성능

스크린샷 2021-10-18 오후 9 40 26

스크린샷 2021-10-18 오후 9 40 55

기타 문의 사항

  • 빠른 답변 부탁드립니다.
@nammyoungjin nammyoungjin added the NSML 사용 관련 💻 NSML 관련 문의 label Oct 18, 2021
@devsungmin devsungmin added Dataset 관련 💾 데이터셋 관련 문의 and removed NSML 사용 관련 💻 NSML 관련 문의 labels Oct 18, 2021
@devsungmin devsungmin assigned vetaerang and unassigned bluebrush Oct 18, 2021
@vetaerang
Copy link
Contributor

@nammyoungjin 안녕하세요.
infer 과정에서 id 매칭이 안되서 문의주신 이슈가 발생한 것으로 파악됩니다.
id가 정확히 매칭되도록 평가 산식을 수정중에 있으니 조금 기다려주시기 바랍니다.
평가 산식 수정 후 해당 내용 관련하여 공지 사항 게시할 예정입니다.
혼란을 드려 죄송합니다.

@vetaerang
Copy link
Contributor

@nammyoungjin #48 공지사항 확인 부탁드립니다.

@nammyoungjin
Copy link
Author

확인하였습니다. 감사합니다!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Dataset 관련 💾 데이터셋 관련 문의
Projects
None yet
Development

No branches or pull requests

4 participants