generated from antfu-collective/vitesse
-
Notifications
You must be signed in to change notification settings - Fork 15
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
0ebc911
commit 774aac5
Showing
1 changed file
with
59 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,59 @@ | ||
--- | ||
title: Selección de artículos I (Nov 2024) | ||
description: Selección de artículos relevantes para la comunidad hispanohablante. | ||
date: 2024-11-12T12:00:00.000+00:00 | ||
lang: es | ||
duration: 4min | ||
cover: https://somosnlp.github.io/assets/images/blog/serie_articulos.jpg | ||
author: Gonzalo Martínez, PhD | ||
bio: Investigador de PLN @UC3M | ||
scholar: https://scholar.google.com/citations?user=FF6Yw5QAAAAJ | ||
--- | ||
|
||
¡Bienvenidos al primer resumen de artículos de SomosNLP! | ||
|
||
Sabemos que es casi imposible mantenerse al día de todos los artículos científicos que van saliendo en los idiomas de la comunidad hispanohablante, así que aquí iniciamos esta serie mensual de resúmenes para compartir contigo una selección de artículos interesantes. Si tienes alguna sugerencia o quieres que comentemos tu trabajo, ¡escríbenos a [email protected]! | ||
|
||
## 🔍 Desambiguando palabras: ¿Pueden los modelos entender nuestros dobles sentidos? | ||
|
||
*Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis* | ||
Enlace: https://arxiv.org/html/2406.14678v2 | ||
|
||
Los investigadores han creado un nuevo conjunto de datos llamado SAW-C, lleno de frases en español diseñadas para probar si los modelos lingüísticos pueden distinguir entre diferentes sentidos de una misma palabra. Evalúan modelos basados en BERT y los resultados muestran que aunque capturan parte de la comprensión humana, todavía no alcanzan nuestro nivel. ¡Hay que seguir trabajando en la ambigüedad! | ||
|
||
## 🌐 Traduciendo el quechua: Desafíos y soluciones con LLMs | ||
|
||
*Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem* | ||
Enlace: https://arxiv.org/abs/2406.15625 | ||
|
||
Este estudio explora como mejorar la traducción del quechua sureño al español utilizando modelos de lenguaje grandes. Al agregar información extra como traducciones de morfemas y ejemplos paralelos, descubrieron que aún hay mucho por hacer debido a las variaciones regionales y dialectales. Además, resaltan la importancia de evitar errores y estereotipos al utilizar estos modelos con lenguas indígenas. | ||
|
||
## 📰 Reviviendo periódicos del siglo XIX con LLMs | ||
|
||
*Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction* | ||
Enlace: https://arxiv.org/abs/2407.12838 | ||
|
||
Los autores presentan LatamXIX, un nuevo conjunto de datos de textos de periódicos latinoamericanos del siglo XIX. Los investigadores han utilizado LLMs para corregir errores de OCR en estos textos históricos, preservando los "errores" lingüísticos propios de la época. Una herramienta fascinante para estudiar la evolución del español y sus variaciones históricas. | ||
|
||
## 🤖 BETO necesita clases de morfología: Evaluando su tokenizador | ||
|
||
*Morphological Evaluation of Subwords Vocabulary Used by BETO Language Model* | ||
Enlace: https://arxiv.org/abs/2410.02283 | ||
|
||
Este análisis se centra en el modelo de lenguaje en español BETO y su tokenizador. Los autores investigan si el tokenizador aprende efectivamente las unidades morfológicas del español y descubren que no es así y que trabaja con otras unidades. Identificar estos problemas puede servir para mejorar cómo los modelos lingüísticos procesan nuestro idioma. | ||
|
||
## 🩺 Preguntas médicas con argumentos: Conoce CasiMedicos-Arg | ||
|
||
*CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures* | ||
Enlace: https://arxiv.org/abs/2410.05235 | ||
|
||
Se presenta CasiMedicos-Arg, el primer conjunto de datos multilingüe de preguntas y respuestas médicas en español anotado con estructuras argumentativas. Esto proporciona información sobre el razonamiento detrás de las respuestas y contribuye al desarrollo de sistemas de IA más explicables para aplicaciones médicas. ¡Un gran avance para la salud y la tecnología! | ||
|
||
## 🔄 Circuitos universales: El acuerdo sujeto-verbo en inglés y español | ||
|
||
*On the Similarity of Circuits across Languages: A Case Study on the Subject-Verb Agreement Task* | ||
Enlace: https://arxiv.org/abs/2410.06496 | ||
|
||
Los autores estudiaron cómo los modelos de lenguaje manejan el acuerdo sujeto-verbo en inglés y español utilizando el modelo Gemma 2B. Descubrieron que los circuitos utilizados son altamente consistentes entre ambos idiomas. Este hallazgo nos ayuda a entender mejor cómo los modelos procesan estructuras gramaticales en diferentes lenguas. | ||
|
||
¡Hasta la próxima! |