Skip to content

Latest commit

 

History

History
118 lines (63 loc) · 15.2 KB

README.md

File metadata and controls

118 lines (63 loc) · 15.2 KB

«Грамматический словарь» А. А. Зализняка

Этот репозиторий содержит данные «Грамматического словаря» А. А. Зализняка, основанные на гранках шестого издания (2010 года), в виде текстовых файлов.

«Грамматический словарь» (далее «Словарь», «ГС») описывает склонение и спряжение около 110 тысяч слов, включая имена собственные.

Данные предоставлены правообладателем словаря Анной Андреевной Зализняк и опубликованы с ее согласия под лицензией CC BY-NC.

Сайт gramdict.ru содержит эти же данные и предоставляет удобный интерфейс для поиска и фильтрации по знакам и пометам.

Структура каталогов и файлов

Основной массив статей поделен на несколько десятков текстовых файлов А.txt, Б.txt, ... Я.txt, названных по последней букве входящих в файл слов. Такое деление сделано для того, чтобы файлы можно было редактировать через веб-интерфейс Гитхаба, который накладывает ограничение в 1М на размер редактируемых файлов.

Глаголы вынесены в отдельную папку из тех же соображений (размер файла).

Слова на букву Ё находятся в файле Е.txt (по аналогии с оригинальным словарем).

Приложение 1 «Имена собственные» идет отдельным файлом Собственные.txt.

Формат текстовых файлов

В целом формат текстовых файлов максимально приближен к оригиналу: порядок статей внутри каждого файла инверсионный, структура словарной статьи и значения специальных знаков и помет – как в оригинальном словаре.

Тестовые файлы используют знаки подчеркивания для передачи курсива и жирного шрифта, например:

па́почка ж 3*a (_уменьш. к_ 1/па́пка)
па́почка мо <жо 3*a> (_уменьш. к_ 2/па́пка)
засты́ть св нп 15a [//__засты́нуть__] ◑III

В оригинальном словаре жирным шрифтом выделены также леммы (заголовочные слова статей). В файлах это выделение опущено для простоты.

В оригинальном словаре каждая статья разделена на три колонки. Это разделение никак не отражено в текстовых файлах.

Словарь строго различает буквы Е и Ё в леммах.

Учет ошибок

Ошибки делятся на два вида:

  1. расхождения между оригинальным изданием 2010 года и веткой master (ошибки OCR, опечатки); такие ошибки исправляются коммитами в ветку master (история)
  2. несоответствия издания 2010 года другим словарям, в том числе более ранним изданиям «Грамматического словаря»; например, в издании 2010 года в статье гнести есть лишняя помета ⑨, которой нет в издании 1987 года; такие ошибки исправляются коммитами в ветку corrected.

Все найденные в оригинальном издании 2010 года ошибки можно найти на этой странице.

Цели проекта

Главная цель проекта – создать эталонную версию «Грамматического словаря» (ГС), которой удобно пользоваться как лингвистам, так и программистам.

Лингвистам (точнее, лексикографам) удобна система индексов, придуманная Зализняком, когда для полного и точного описания всех 120 форм глагола в большинстве случаев достаточно написать индекс вроде «1a». В более редких случаях используются знаки и пометы, сигнализирующие о регулярных отклонениях. В совсем редких случаях в статьях фигурируют словесные пометы, что делает задачу парсинга словаря довольно нетривиальной.

Программистам же удобнее работать с однородными структурами, в которых как можно меньше особых случаев. Поэтому одна из подцелей проекта – создание программных модулей для парсинга Словаря, необходимых для построения словоформ из статей (#6) и других задач, например, доказательства гипотезы комплементарности распределения схем ударения /c и /c'' в глаголах (#22).

При этом не хочется повторять ошибку, которую допустили многие создатели «клонов» Словаря: как правило, использование словаря начинается с его преобразования в «более удобный» вид (список словоформ или в альтернативный набор парадигм). Ввиду сложности формата ГС, такие преобразования нередко вносят в результат некоторые погрешности, а то и сознательно опускают часть информации из оригинального словаря, например, информацию об ударении или о затрудненности тех или иных форм.

Это еще полбеды. Настоящая беда начинается тогда, когда авторы «клонов» начинают править в своих версиях ошибки преобразования, вместо того, чтобы исправить само преобразование, исходный код которого, как водится, уже давно утерян. Примеры:

Вся эта информация есть в исходном словаре. Если бы было «живо» преобразование, людям не пришлось бы заново выполнять эту работу, однажды проделанную автором словаря.

Поэтому ваш покорный слуга решил «вернуться к истокам» и «начать все с начала». Тем более, что есть опыт работы со Словарем, есть видение, как «сделать всё правильно» и как избежать ненужных ошибок. С вашей помощью.

Как помочь проекту: исправление ошибок

Создание словаря – огромный ручной труд и без ошибок здесь не обойтись. Учитывая, какими путями были получены живущие в этом репозитории текстовые файлы (ручной набор в Ворде, OCR), они просто обязаны содержать ошибки.

Как создать pull request

Если вы нашли ошибку и хотите ее исправить, откройте нужный файл (например, dictionary/Глаголы/Й.txt) и нажмите значок «карандаш» (Edit this file / Редактировать этот файл) в правом-верхнем углу.

Закончив редактирование, нажмите на зеленую кнопку Propose changes внизу. Затем нажмите Create pull request. Введите описание предлагаемых изменений и нажмите еще одну кнопку Create pull request.

В этот момент модераторы получат уведомление о новом пул-реквесте и любой желающий сможет поучаствовать в обсуждении предлагаемых изменений. При достижении консенсуса PR будет влит в основной репозиторий.

Если у вас есть замечания или предложения общего характера, заведите issue.

Участвуя в проекте, вы соглашаетесь с тем, что ваш вклад в проект (вносимые изменения, предложения) автоматически передается в общественное достояние.

История появления этих файлов

Шестое издание словаря вышло в 2010 году. Его гранки были подготовлены Еленой Александровной Гришиной.

В 2017 году Сергей Слепов приобрел неисключительную лицензию на использование словаря и получил гранки в виде файла MS Word. Файл был преобразован в текстовый вид, как в этом репозитории, с помощью этой программы. Приложение 1 «Имена собственные» было оцифровано при помощи ABBYY FineReader с последующей вычиткой.

15.03.2021 получено разрешение правообладателя на публикацию материалов шестого издания.

Лицензирование

Исключительные права на Словарь, включая файлы в каталоге dictionary и любое другое, полное или частичное, воспроизведение Словаря, принадлежат Анне Андреевне Зализняк.

С ведома и при поддержке правообладателя словарь распространяется под лицензией CC BY-NC. Это означает, что вы можете использовать его бесплатно в некоммерческих целях. Если вам удалось заработать деньги на словаре, прекрасно; не забудьте получить коммерческую лицензию, написав на [email protected].

История вопроса о лицензировании

За более чем 40 лет, минувших с первого издания Словаря, он послужил основной многих полезных программ, таких как поиск «Яндекса», «ОРФО», встроенного в Microsoft Word, и многих других.

Мы считаем, что потенциал «Грамматического словаря» далеко не исчерпан и он может вдохновить еще много интересных проектов и идей.

Долгое время препятствием к использованию Словаря был его неясный правовой статус. С одной стороны, Словарь и его производные можно найти в открытом доступе на десятках, если не сотнях сайтов. С другой стороны, каждому понятно, что любое произведение охраняется законом и использовать его можно только с разрешения правообладателя.

Теперь все, кто использует словарь для некоммерческих целей, могут вздохнуть свободно: при любых притязаниях вы можете сослаться на данный текст и лицензию (LICENSE.txt).

Те, кто зарабатывает на Словаре, теперь получили официальный канал для лицензирования: напишите нам на [email protected] для получения коммерческой лицензии. Лицензия нужна, даже если вы используете производные Словаря, такие как словарь АОТ или словарь OpenCorpora, или программы на его основе, такие как pymorphy2 или mystem.