Skip to content

Русскоязычная версия датасета TinyStories

License

Notifications You must be signed in to change notification settings

MichaelMonashev/TinyStories-ru

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

88 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TinyStories-ru

TinyStories-ru - это русскоязычная версия датасета TinyStories (https://arxiv.org/pdf/2305.07759). Своими глазами проще оценить текст на родном языке, чем на изученном.

Датасет состоит из коротких историй. Все они сгенерированны LLM. Написаны простым детским языком, что позволяет обучать на датасете небольшие языковые модели на доступных GPU.

Ошибки

Датасет сгенерённый и потому содержит ошибки. Иногда путаются мужской и женский род, склонения, падежи, слова употребляются не к месту и т.д.

Пример сложно обнаруживаемой ошибки "так не говорят":


Маша, Коля и маленький щенок Дружок играли в саду. Маша шевелила руками, будто пчела летит. Коля бегал по траве, а Дружок пытался его догнать.

— Смотри, Дружок, мой глаз видит бабочку! — крикнула Маша. Бабочка сидела на цветке и шевелила крыльями.

— Я тоже вижу! — сказал Коля. Он медленно подходил к бабочке, чтобы не спугнуть ее.

Вдруг Дружок залаял и начал быстро бегать по кругу.

— Что случилось, Дружок? — спросила Маша.

Щенок остановился и посмотрел на дерево. На ветке сидел кот, а в его лапах была… бабочка!

— Ой! — воскликнул Коля. — Кот украл бабочку!

Дружок начал лаять еще громче, а Маша и Коля побежали к дереву, чтобы спасти бабочку.


Если Вы знаете, как это найти и/или исправить автоматически, напишите, пожалуйста, об этом тут в issues. Pull request с исправлениями или кодом, который находит и/или исправляет ошибки, также приветствуется.

ToDo

Автоматические поиск и исправление ошибок (например, как описано тут https://t.me/natural_language_processing/125733 , https://t.me/natural_language_processing/125749 ).

Добавить для каждой истории краткое содержание.

Код для валидации пунктуации, грамматики, связности и последовательности текста.

Дедупликация по порогу cos_sim 0.975 с помошью intfloat/multilingual-e5-large (взято из https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX ).

About

Русскоязычная версия датасета TinyStories

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages