Skip to content

Commit

Permalink
blog: selección articulos i
Browse files Browse the repository at this point in the history
  • Loading branch information
mariagrandury committed Nov 19, 2024
1 parent 0ebc911 commit 774aac5
Showing 1 changed file with 59 additions and 0 deletions.
59 changes: 59 additions & 0 deletions pages/blog/seleccion-articulos-i.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,59 @@
---
title: Selección de artículos I (Nov 2024)
description: Selección de artículos relevantes para la comunidad hispanohablante.
date: 2024-11-12T12:00:00.000+00:00
lang: es
duration: 4min
cover: https://somosnlp.github.io/assets/images/blog/serie_articulos.jpg
author: Gonzalo Martínez, PhD
bio: Investigador de PLN @UC3M
scholar: https://scholar.google.com/citations?user=FF6Yw5QAAAAJ
---

¡Bienvenidos al primer resumen de artículos de SomosNLP!

Sabemos que es casi imposible mantenerse al día de todos los artículos científicos que van saliendo en los idiomas de la comunidad hispanohablante, así que aquí iniciamos esta serie mensual de resúmenes para compartir contigo una selección de artículos interesantes. Si tienes alguna sugerencia o quieres que comentemos tu trabajo, ¡escríbenos a [email protected]!

## 🔍 Desambiguando palabras: ¿Pueden los modelos entender nuestros dobles sentidos?

*Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis*
Enlace: https://arxiv.org/html/2406.14678v2

Los investigadores han creado un nuevo conjunto de datos llamado SAW-C, lleno de frases en español diseñadas para probar si los modelos lingüísticos pueden distinguir entre diferentes sentidos de una misma palabra. Evalúan modelos basados en BERT y los resultados muestran que aunque capturan parte de la comprensión humana, todavía no alcanzan nuestro nivel. ¡Hay que seguir trabajando en la ambigüedad!

## 🌐 Traduciendo el quechua: Desafíos y soluciones con LLMs

*Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem*
Enlace: https://arxiv.org/abs/2406.15625

Este estudio explora como mejorar la traducción del quechua sureño al español utilizando modelos de lenguaje grandes. Al agregar información extra como traducciones de morfemas y ejemplos paralelos, descubrieron que aún hay mucho por hacer debido a las variaciones regionales y dialectales. Además, resaltan la importancia de evitar errores y estereotipos al utilizar estos modelos con lenguas indígenas.

## 📰 Reviviendo periódicos del siglo XIX con LLMs

*Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction*
Enlace: https://arxiv.org/abs/2407.12838

Los autores presentan LatamXIX, un nuevo conjunto de datos de textos de periódicos latinoamericanos del siglo XIX. Los investigadores han utilizado LLMs para corregir errores de OCR en estos textos históricos, preservando los "errores" lingüísticos propios de la época. Una herramienta fascinante para estudiar la evolución del español y sus variaciones históricas.

## 🤖 BETO necesita clases de morfología: Evaluando su tokenizador

*Morphological Evaluation of Subwords Vocabulary Used by BETO Language Model*
Enlace: https://arxiv.org/abs/2410.02283

Este análisis se centra en el modelo de lenguaje en español BETO y su tokenizador. Los autores investigan si el tokenizador aprende efectivamente las unidades morfológicas del español y descubren que no es así y que trabaja con otras unidades. Identificar estos problemas puede servir para mejorar cómo los modelos lingüísticos procesan nuestro idioma.

## 🩺 Preguntas médicas con argumentos: Conoce CasiMedicos-Arg

*CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures*
Enlace: https://arxiv.org/abs/2410.05235

Se presenta CasiMedicos-Arg, el primer conjunto de datos multilingüe de preguntas y respuestas médicas en español anotado con estructuras argumentativas. Esto proporciona información sobre el razonamiento detrás de las respuestas y contribuye al desarrollo de sistemas de IA más explicables para aplicaciones médicas. ¡Un gran avance para la salud y la tecnología!

## 🔄 Circuitos universales: El acuerdo sujeto-verbo en inglés y español

*On the Similarity of Circuits across Languages: A Case Study on the Subject-Verb Agreement Task*
Enlace: https://arxiv.org/abs/2410.06496

Los autores estudiaron cómo los modelos de lenguaje manejan el acuerdo sujeto-verbo en inglés y español utilizando el modelo Gemma 2B. Descubrieron que los circuitos utilizados son altamente consistentes entre ambos idiomas. Este hallazgo nos ayuda a entender mejor cómo los modelos procesan estructuras gramaticales en diferentes lenguas.

¡Hasta la próxima!

0 comments on commit 774aac5

Please sign in to comment.