Skip to content

Latest commit

 

History

History
20 lines (18 loc) · 2.23 KB

README.md

File metadata and controls

20 lines (18 loc) · 2.23 KB

SummerPractice2021

Подготовка данных – важный этап в процессе решения задач анализа данных. В реальных проектах на этот этап может приходиться до 90% ресурсов всего проекта. Качество подготовленных данных влияет на всю дальнейшую работу по восстановлению закономерностей. Цель данной работы по учебной практике – подготовка данных о производительности работников швейной промышленности для дальнейшего использования в модели машинного обучения чтобы предсказать фактическую производительность по нескольким параметрам. Разработанный код реализован на языке Python 3 с использованием программного обеспечения Anaconda 3. Код, используемый для данной работы, был написан в интерактивной веб-оболочке Jupiter Notebook.

Задачи учебной практики:

  1. Изучить необходимую теорию о data mining.
  2. Выполнить визуализацию данных датасета.
  3. Выполнить базовый статистический анализ.
  4. Выполнить необходимые преобразования типов данных.
  5. Выполнить очистку данных (от пропущенных значений).

Для исследования были взяты данные с сайта kaggle.com. В качестве объекта исследования в данной работе выступают библиотеки языка Python. Предметом исследования является использование библиотек языка Python для подготовки данных с целью дальнейшего использования в модели машинного обучения.