Name	Name	Last commit message	Last commit date
Latest commit History 74 Commits
data	data
doc	doc
models	models
scripts	scripts
.gitignore	.gitignore
README.md	README.md

Name

Last commit message

Last commit date

74 Commits

NER-анотація українського корпусу

Опис даних

Корпус розмічених даних знаходиться в папці data/. Всього в корпусі:

229 текстів
217381 токенів
6751 сутностей NER:
- ПЕРС - 4060
- ЛОК - 1442
- ОРГ - 649
- РІЗН - 600

Первинним джерелом даних є відкритий корпус українських текстів. Для кожного обробленого тексту з корпусу наявні два файли:

файл з розширенням tok.txt містить токенізовану версію тексту (токенізація зроблена за наступними правилами)
файл з розширенням tok.ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім анотатором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NER-анотація українського корпусу

Опис даних

Ліцензія

About

Releases

Packages

Languages

Serhiy-Shekhovtsov/ner-uk

Folders and files

Latest commit

History

Repository files navigation

NER-анотація українського корпусу

Опис даних

Ліцензія

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages