Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

Open
aialarosa opened this issue May 26, 2020 · 4 comments

Comments

@aialarosa
Copy link
Contributor

  • Usar este conjunto de preguntas:
    https://docs.google.com/spreadsheets/d/16JEUMr9mKcKIsL8CH-52cbTRb_5OQyOsh_sgIcglT5w/edit#gid=0

  • Evaluar diferentes configuraciones de ES:
    ** con/sin diccionario
    ** cantidad de documentos a pasarle a beto: 10, 20, 30
    ** efecto de la flexibilización de la consulta (entre las preguntas ya hay algunas variantes que van a permitir evaluar esto)

  • Revisar el log para ver si el fragmento que ya tenemos identificado es recuperado por ES.

  • No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

@bryant1410
Copy link
Member

Demás.

No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

¿Pero exact match de strings o F1 no pueden capturar esto? Por ejemplo, si la respuesta aparece en un documento nuevo y dice "en Abril", cuando la correcta era "Abril" en otro doc.

@aialarosa
Copy link
Contributor Author

aialarosa commented May 27, 2020 via email

@bryant1410
Copy link
Member

¿Qué tal si medimos el maximo exact match para las respuestas que mostramos en el sitio (hasta un máximo de 10)? El documento verdadero debería aparecer ahí, y creo que deberían ser pocos los casos en los que no y que además hay una buena respuesta en otro doc.

Digo para intentar automatizar la evaluación.

@aialarosa
Copy link
Contributor Author

aialarosa commented May 27, 2020 via email

@bryant1410 bryant1410 moved this to In progress in 1era versión Oct 20, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: In progress
Development

No branches or pull requests

2 participants