Корпус розмічених даних знаходиться в папці data/
.
Всього в корпусі:
- 229 текстів
- 217381 токенів
- 6751 сутностей NER:
- ПЕРС - 4060
- ЛОК - 1442
- ОРГ - 649
- РІЗН - 600
Первинним джерелом даних є відкритий корпус українських текстів. Для кожного обробленого тексту з корпусу наявні два файли:
- файл з розширенням
tok.txt
містить токенізовану версію тексту (токенізація зроблена за наступними правилами) - файл з розширенням
tok.ann
містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)
Анотація виконана двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім анотатором.
Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.
Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.