TinyStories-ru - это русскоязычная версия датасета TinyStories (https://arxiv.org/pdf/2305.07759). Своими глазами проще оценить текст на родном языке, чем на изученном.
Датасет состоит из коротких историй. Все они сгенерированны LLM. Написаны простым детским языком, что позволяет обучать на датасете небольшие языковые модели на доступных GPU.
Датасет сгенерённый и потому содержит ошибки. Иногда путаются мужской и женский род, склонения, падежи, слова употребляются не к месту и т.д.
Пример сложно обнаруживаемой ошибки "так не говорят":
Маша, Коля и маленький щенок Дружок играли в саду. Маша шевелила руками, будто пчела летит. Коля бегал по траве, а Дружок пытался его догнать.
— Смотри, Дружок, мой глаз видит бабочку! — крикнула Маша. Бабочка сидела на цветке и шевелила крыльями.
— Я тоже вижу! — сказал Коля. Он медленно подходил к бабочке, чтобы не спугнуть ее.
Вдруг Дружок залаял и начал быстро бегать по кругу.
— Что случилось, Дружок? — спросила Маша.
Щенок остановился и посмотрел на дерево. На ветке сидел кот, а в его лапах была… бабочка!
— Ой! — воскликнул Коля. — Кот украл бабочку!
Дружок начал лаять еще громче, а Маша и Коля побежали к дереву, чтобы спасти бабочку.
Если Вы знаете, как это найти и/или исправить автоматически, напишите, пожалуйста, об этом тут в issues. Pull request с исправлениями или кодом, который находит и/или исправляет ошибки, также приветствуется.
Автоматические поиск и исправление ошибок (например, как описано тут https://t.me/natural_language_processing/125733 , https://t.me/natural_language_processing/125749 ).
Добавить для каждой истории краткое содержание.
Код для валидации пунктуации, грамматики, связности и последовательности текста.
Дедупликация по порогу cos_sim 0.975 с помошью intfloat/multilingual-e5-large (взято из https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX ).