Skip to content
This repository has been archived by the owner on Oct 26, 2021. It is now read-only.

Инструмент для удаления нечётких дубликатов строк. Проект CompTech 2021

License

Notifications You must be signed in to change notification settings

TextDatasetCleaner/deduplicator

Repository files navigation

deduplicator

Инструмент для выявления нечетких дубликатов строк. Deduplicator представляет из себя web-сервис и может быть использован в процессе работы TDC. Для тестирования предусмотрен пользовательский интерфейс.

На вход подается строка для проверки, deduplicator обрабатывает ее и отправляет ответ:
TRUE, если строка является нечетким дубликатом для какой-либо из предыдущих введенных строк
FALSE, если строка уникальна.

Установка

Склонировать репозиторий командой:
git clone https://github.com/TextDatasetCleaner/deduplicator

Установить зависимости командой:
pip install -r requirements.txt

Запуск

Запустить командой:
python3 app.py

Открыть в браузере:
http://127.0.0.1:5000

About

Инструмент для удаления нечётких дубликатов строк. Проект CompTech 2021

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •