diff --git a/README.md b/README.md index daee0fe..58d59ac 100644 --- a/README.md +++ b/README.md @@ -19,7 +19,7 @@ ### Обзор курса -**1. Введение в большие данные** +**1. Введение в большие данные** Определение больших данных. Основные характеристики: объем, скорость, разнообразие, достоверность, ценность. Примеры применения больших данных. @@ -40,7 +40,7 @@ Hadoop и экосистема Hadoop. Типы NoSQL баз данных: документные (MongoDB), столбцовые (Cassandra), ключ-значение (Redis), графовые (Neo4j). Примеры использования и особенности. -**4. Хранилища данных и ETL процессы** +**4. Хранилища данных и ETL процессы** Проектирование хранилищ данных. Основные концепции: схематические модели, нормализация и денормализация. Поисковые индексы и эффективное хранение и применение индексов на диске. @@ -49,13 +49,13 @@ Hadoop и экосистема Hadoop. Популярные NoSQL хранилища и СУБД: HDFS, HBase, Memcached, ElasticSearch/Solr, ClickHouse. Data Lake vs Data Warehouse. -**5. ETL-процессы ** +**5. ETL-процессы** Извлечение данных из различных источников. Трансформация данных: очистка, агрегация, объединение. Загрузка данных в хранилище. Инструменты для ETL: Apache Nifi, Talend, Informatica, Airflow. -**6. Аналитика и визуализация данных** +**6. Аналитика и визуализация данных** Инструменты для аналитики больших данных. Основные инструменты: Apache Hive, Presto, Drill. Обзор SQL on Hadoop решений. @@ -68,7 +68,7 @@ Data Lake vs Data Warehouse. Качество данных и управление ими. Мониторинг и оптимизация производительности. -**8. Безопасность данных** +**8. Безопасность данных** Безопасность и конфиденциальность данных. Принципы безопасности данных. Шифрование и управление доступом.