TinyStories-ru

TinyStories-ru - это русскоязычная версия датасета TinyStories (https://arxiv.org/pdf/2305.07759). Своими глазами проще оценить текст на родном языке, чем на изученном.

Датасет состоит из коротких историй. Все они сгенерированны LLM. Написаны простым детским языком, что позволяет обучать на датасете небольшие языковые модели на доступных GPU.

Ошибки

Датасет сгенерённый и потому содержит ошибки. Иногда путаются мужской и женский род, склонения, падежи, слова употребляются не к месту и т.д.

Пример сложно обнаруживаемой ошибки "так не говорят":

Маша, Коля и маленький щенок Дружок играли в саду. Маша шевелила руками, будто пчела летит. Коля бегал по траве, а Дружок пытался его догнать.

— Смотри, Дружок, мой глаз видит бабочку! — крикнула Маша. Бабочка сидела на цветке и шевелила крыльями.

— Я тоже вижу! — сказал Коля. Он медленно подходил к бабочке, чтобы не спугнуть ее.

Вдруг Дружок залаял и начал быстро бегать по кругу.

— Что случилось, Дружок? — спросила Маша.

Щенок остановился и посмотрел на дерево. На ветке сидел кот, а в его лапах была… бабочка!

— Ой! — воскликнул Коля. — Кот украл бабочку!

Дружок начал лаять еще громче, а Маша и Коля побежали к дереву, чтобы спасти бабочку.

Если Вы знаете, как это найти и/или исправить автоматически, напишите, пожалуйста, об этом тут в issues. Pull request с исправлениями или кодом, который находит и/или исправляет ошибки, также приветствуется.

ToDo

Автоматические поиск и исправление ошибок (например, как описано тут https://t.me/natural_language_processing/125733 , https://t.me/natural_language_processing/125749 ).

Добавить для каждой истории краткое содержание.

Код для валидации пунктуации, грамматики, связности и последовательности текста.

Дедупликация по порогу cos_sim 0.975 с помошью intfloat/multilingual-e5-large (взято из https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX ).

Name		Name	Last commit message	Last commit date
Latest commit History 88 Commits
data		data
LICENSE		LICENSE
README.md		README.md
adjectives.txt		adjectives.txt
generate.py		generate.py
make_vocab.py		make_vocab.py
nouns.txt		nouns.txt
utils.py		utils.py
verbs.txt		verbs.txt
vocab.json		vocab.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TinyStories-ru

Ошибки

ToDo

About

Releases

Packages

Languages

License

MichaelMonashev/TinyStories-ru

Folders and files

Latest commit

History

Repository files navigation

TinyStories-ru

Ошибки

ToDo

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages