Инструмент для выявления нечетких дубликатов строк. Deduplicator представляет из себя web-сервис и может быть использован в процессе работы TDC. Для тестирования предусмотрен пользовательский интерфейс.
На вход подается строка для проверки, deduplicator обрабатывает ее и отправляет ответ:
TRUE, если строка является нечетким дубликатом для какой-либо из предыдущих введенных строк
FALSE, если строка уникальна.
Склонировать репозиторий командой:
git clone https://github.com/TextDatasetCleaner/deduplicator
Установить зависимости командой:
pip install -r requirements.txt
Запустить командой:
python3 app.py
Открыть в браузере:
http://127.0.0.1:5000