Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

aialarosa · 2020-05-26T17:44:25Z

Usar este conjunto de preguntas:
https://docs.google.com/spreadsheets/d/16JEUMr9mKcKIsL8CH-52cbTRb_5OQyOsh_sgIcglT5w/edit#gid=0
Evaluar diferentes configuraciones de ES:
** con/sin diccionario
** cantidad de documentos a pasarle a beto: 10, 20, 30
** efecto de la flexibilización de la consulta (entre las preguntas ya hay algunas variantes que van a permitir evaluar esto)
Revisar el log para ver si el fragmento que ya tenemos identificado es recuperado por ES.
No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

bryant1410 · 2020-05-27T16:13:47Z

Demás.

No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

¿Pero exact match de strings o F1 no pueden capturar esto? Por ejemplo, si la respuesta aparece en un documento nuevo y dice "en Abril", cuando la correcta era "Abril" en otro doc.

aialarosa · 2020-05-27T16:33:32Z

En ese caso sí, pero en otros casos la respuesta puede estar escrita con palabras completamente diferentes en un documento que no es el que usamos para anotar respuestas. La vamos a considerar incorrecta cuando puede ser correcta. El mié., 27 may. 2020 a las 13:14, Santiago Castro (< [email protected]>) escribió:

…

Demás. No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos. ¿Pero exact match de strings o F1 no pueden capturar esto? Por ejemplo, si la respuesta aparece en un documento nuevo y dice "en Abril", cuando la correcta era "Abril" en otro doc. — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#17 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AO633NY7EKMMDOH6XG5B2NDRTU34VANCNFSM4NKZE47Q> .

bryant1410 · 2020-05-27T16:45:21Z

¿Qué tal si medimos el maximo exact match para las respuestas que mostramos en el sitio (hasta un máximo de 10)? El documento verdadero debería aparecer ahí, y creo que deberían ser pocos los casos en los que no y que además hay una buena respuesta en otro doc.

Digo para intentar automatizar la evaluación.

aialarosa · 2020-05-27T18:14:56Z

Sí, puede ser, es cierto que difícilmente la respuesta que tenemos anotada no aparezca entre las correctas. Igual no estaría mal detectar cualquier otra respuesta correcta, si es que hay alguna. El mié., 27 may. 2020 a las 13:45, Santiago Castro (< [email protected]>) escribió:

…

¿Qué tal si medimos el maximo exact match para las respuestas que mostramos en el sitio (hasta un máximo de 10)? El documento verdadero debería aparecer ahí, y creo que deberían ser pocos los casos en los que no y que además hay una buena respuesta en otro doc. Digo para intentar automatizar la evaluación. — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#17 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AO633N4ZLFUGI2NVNQIIGKLRTU7TBANCNFSM4NKZE47Q> .

bryant1410 added this to 1era versión Oct 20, 2023

bryant1410 moved this to In progress in 1era versión Oct 20, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

aialarosa commented May 26, 2020

bryant1410 commented May 27, 2020

aialarosa commented May 27, 2020 via email

bryant1410 commented May 27, 2020

aialarosa commented May 27, 2020 via email

Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

Comments

aialarosa commented May 26, 2020

bryant1410 commented May 27, 2020

aialarosa commented May 27, 2020 via email

bryant1410 commented May 27, 2020

aialarosa commented May 27, 2020 via email