Подготовка данных – важный этап в процессе решения задач анализа данных. В реальных проектах на этот этап может приходиться до 90% ресурсов всего проекта. Качество подготовленных данных влияет на всю дальнейшую работу по восстановлению закономерностей. Цель данной работы по учебной практике – подготовка данных о производительности работников швейной промышленности для дальнейшего использования в модели машинного обучения чтобы предсказать фактическую производительность по нескольким параметрам. Разработанный код реализован на языке Python 3 с использованием программного обеспечения Anaconda 3. Код, используемый для данной работы, был написан в интерактивной веб-оболочке Jupiter Notebook.
Задачи учебной практики:
- Изучить необходимую теорию о data mining.
- Выполнить визуализацию данных датасета.
- Выполнить базовый статистический анализ.
- Выполнить необходимые преобразования типов данных.
- Выполнить очистку данных (от пропущенных значений).
Для исследования были взяты данные с сайта kaggle.com. В качестве объекта исследования в данной работе выступают библиотеки языка Python. Предметом исследования является использование библиотек языка Python для подготовки данных с целью дальнейшего использования в модели машинного обучения.