accuracy-parquet-partition

Магистерский проект по разработке модуля сверки данных между файлом формата parquet в HDFS кластере и партицированной таблицей в СУБД.

Стек

Python
Apache Airflow
PostgreSQL
Docker
Apache Hadoop
Pylint

Смысл проекта

Спустя retention period необходимо данные из бд перелить в более холодное хранилище. Из-за различных проблем (например, с сетью) залитые файлы могут быть повреждены. Сравнивать построчно на большом объеме данных неразумно. Поэтому для сверки использован вероятностный алгоритм сверки больших данных - фильтр Блума с подсчетом (Counting Bloom Filter).

Техническая логика

Транзакционные данные льются в таблицу в PostgreSQL. Таблица партицирована по месяцам. Retention period - 3 месяца.

Поток стоит на расписании в Airflow и работает по следующему алгоритму:

Находим список партиций на основе системных таблиц pg_class, pg_inherits.
Находим устаревшие партиции на основе таблицы метаданных, где заранее задаем retention period.
Если устаревшая партиция была найдена, достаем ее из бд.
Заполняем структуру фильтра Блума с подсчетом.
Достаем файл партиции из HDFS. Если фильтр Блума не выявил расхождений - удаляем партицию из бд, т.к. она была передана корректно. Если расхождения есть - нотифицируем в телеграм о причине: файл не найден/поврежден/не прошел проверку.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
dags		dags
.gitignore		.gitignore
.pylintrc		.pylintrc
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yaml		docker-compose.yaml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

accuracy-parquet-partition

Стек

Смысл проекта

Техническая логика

Визуализация флоу

About

Releases

Packages

Languages

Aigul9/accuracy-parquet-partition

Folders and files

Latest commit

History

Repository files navigation

accuracy-parquet-partition

Стек

Смысл проекта

Техническая логика

Визуализация флоу

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages