Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
iradche authored Jun 12, 2024
1 parent e90d134 commit f7c804a
Showing 1 changed file with 8 additions and 8 deletions.
16 changes: 8 additions & 8 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,7 @@
### Обзор курса


1. Введение в большие данные
**1. Введение в большие данные**
Определение больших данных.
Основные характеристики: объем, скорость, разнообразие, достоверность, ценность.
Примеры применения больших данных.
Expand All @@ -28,19 +28,19 @@
Архитектура хранилищ больших данных.
Сравнение с традиционными системами управления базами данных (СУБД).

2. Технологии и инструменты для работы с большими данными
**2. Технологии и инструменты для работы с большими данными**
Hadoop и экосистема Hadoop.
Компоненты Hadoop: HDFS, MapReduce, YARN.
Инструменты экосистемы: Hive, Pig, HBase, Sqoop, Flume.
Архитектура Spark.
Основные компоненты: Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX.
Программирование на Spark.

3. Введение в NoSQL
**3. Введение в NoSQL**
Типы NoSQL баз данных: документные (MongoDB), столбцовые (Cassandra), ключ-значение (Redis), графовые (Neo4j).
Примеры использования и особенности.

4. Хранилища данных и ETL процессы
**4. Хранилища данных и ETL процессы**
Проектирование хранилищ данных.
Основные концепции: схематические модели, нормализация и денормализация.
Поисковые индексы и эффективное хранение и применение индексов на диске.
Expand All @@ -49,26 +49,26 @@ Hadoop и экосистема Hadoop.
Популярные NoSQL хранилища и СУБД: HDFS, HBase, Memcached, ElasticSearch/Solr, ClickHouse.
Data Lake vs Data Warehouse.

5. ETL-процессы.
**5. ETL-процессы **
Извлечение данных из различных источников.
Трансформация данных: очистка, агрегация, объединение.
Загрузка данных в хранилище.
Инструменты для ETL: Apache Nifi, Talend, Informatica, Airflow.

6. Аналитика и визуализация данных
**6. Аналитика и визуализация данных**
Инструменты для аналитики больших данных.
Основные инструменты: Apache Hive, Presto, Drill.
Обзор SQL on Hadoop решений.
Визуализация данных.
Инструменты для визуализации: Tableau, Power BI, Apache Superset.
Создание интерактивных отчётов и дашбордов.

7. Управление данными
**7. Управление данными**
Метаданные и каталогизация данных.
Качество данных и управление ими.
Мониторинг и оптимизация производительности.

8. Безопасность данных
**8. Безопасность данных**
Безопасность и конфиденциальность данных.
Принципы безопасности данных.
Шифрование и управление доступом.
Expand Down

0 comments on commit f7c804a

Please sign in to comment.