Я Станислав Невежин, кандидат технических наук, Data и BI-аналитик 📚.
Более 10 лет я занимаюсь анализом, разработкой и внедрением новых технологических процессов и решений для крупнейших отечественных и зарубежных компаний.
↪️✌️ Мое резюме можно найти тут
📩 Буду рад пообщаться в Telegram и по почте [email protected]
Hard Skills: 1) SQL - MySQL, PostgreSQL, DBeaver; 2) BI - Microsoft Power BI, Tableau; 3) Python: Base - Pandas, Numpy, SciPy; Visualization - Matplotlib, Seaborn, Plotly; ML - Scikit-Learn, LightGBM, XGBoost, Catboost, LAMA; DL - TensorFlow, Keras, PyTorch; PROD - Streamlit, Flask; DE - Docker, Hadoop, Hive, PySpark, Linux, Git, Heroku.
Soft Skills:
- Умение строить гипотезы, проводить исследования и визуализировать данные/полученные результаты;
- Навыки командной работы как в качестве руководителя проекта, так и исполнителя;
- Умение работать в режиме многозадачности;
- Желание и готовность развиваться в сфере анализа данных.
Kaggle: https://www.kaggle.com/stanislavnevezhin
Название проекта | Описание | Стек и инструменты |
---|---|---|
Финальный проект | Исследование временных рядов основных котировок крупных корпораций - Apple, Microsoft, Google, nVidia. Запуск наилучшего инференса модели в качестве сервиса | sklearn.linear_model (LinearRegression), sklearn.ensemble (AdaBoostRegressor, GradientBoostingRegressor, VotingRegressor), sklearn.model_selection (GridSearchCV, TimeSeriesSplit, cross_val_score), sklearn.metrics (mean_absolute_percentage_error, mean_squared_error, r2_score), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), Catboost (CatBoostRegressor), prophet (Prophet), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), pmdarima (auto_arima), seaborn (lineplot, pairplot, heatmap), with statement, time series, AIC, concat, correlation matrix, cross validation, correlogram, datetime, EDA, feature engineering, os.path, resample, rolling, stationarity, SMA, ARIMA, GPU, yfinance, pickle, Docker, Dockerfile, Flask |
Название проекта | Описание | Стек и инструменты |
---|---|---|
Проект 1. Анализ резюме из HeadHunter | Подготовка первичных данных - базы резюме, выгруженной с сайта поиска вакансий HH.ru - для построения перспективной модели, автоматически определяющей уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе | plotly (histogram, box, bar, imshow, scatter, sunburst), seaborn (histplot), os.path, merge, EDA, feature engineering |
Проект 2. Анализ резюме из HeadHunter (SQL) | Анализ данных - базы резюме, выгруженной с сайта поиска вакансий HH.ru, используя навыки написания запросов SQL в БД PostgreSQL - для построения модели, рекомендующей вакансии клиентам агентства, претендующим на позицию Data Scientist | psycopg2, requests, plotly (bar, imshow), with statement, try-except statement, concat, EDA, feature engineering |
Проект 3. Рейтинг отеля по данным сайта Booking. Соревнование на Kaggle | Построение модели, предсказывающей рейтинг отеля | collections (OrderedDict), category_encoders (TargetEncoder), sklearn.model_selection (train_test_split), sklearn.feature_selection (chi2, f_classif), sklearn.ensemble (RandomForestRegressor), sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error), sklearn.preprocessing (MinMaxScaler), concat, correlation matrix, EDA, feature engineering, feature importance, seaborn (barplot, boxplot, heatmap), lightautoml, nltk (SentimentIntensityAnalyzer), pivot_table, regex |
Проект 4. Задача классификации | Построение модели машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать поведение клиента при открытии депозита | sklearn.metrics (classification_report), sklearn.preprocessing (LabelEncoder, MinMaxScaler), sklearn.model_selection (train_test_split, GridSearchCV, cross_val_score), sklearn.feature_selection (SelectKBest), sklearn.linear_model (LogisticRegression), sklearn.tree (DecisionTreeClassifier), sklearn.ensemble (RandomForestClassifier, GradientBoostingClassifier), optuna (Trial, study), match-case statement, concat, cross validation, correlation matrix, EDA, feature importance |
Проект 5. Задача регрессии | Построение модели машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать время поездки такси | collections (OrderedDict), scipy.stats (normaltest), sklearn.cluster (KMeans), sklearn.metrics (mean_squared_error, median_absolute_error), sklearn.preprocessing (OneHotEncoder, MinMaxScaler), sklearn.model_selection (train_test_split), sklearn.feature_selection (SelectKBest), sklearn.linear_model (LinearRegression, Ridge), sklearn.tree (DecisionTreeRegressor), sklearn.ensemble (RandomForestRegressor, GradientBoostingRegressor), seaborn (histplot, boxplot, scatterplot, lineplot, heatmap, barplot), match-case statement, swifter, os.system, os.path, gdown, XGBoost, merge, concat, EDA, feature engineering, feature importance |
Проект 6. Задача кластеризации | Построение модели кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, идентификация покупательского профиля каждого из кластеров | sklearn.model_selection (train_test_split, GridSearchCV), sklearn.metrics (silhouette_score, calinski_harabasz_score, davies_bouldin_score, accuracy_score), sklearn.preprocessing (MinMaxScaler, StandardScaler), sklearn.pipeline (Pipeline), sklearn.ensemble (RandomForestClassifier, GradientBoostingClassifier), sklearn.cluster (KMeans, AgglomerativeClustering), sklearn.mixture (GaussianMixture), sklearn.decomposition (PCA, explained_variance_ratio_), sklearn.manifold (TSNE, kl_divergence_), seaborn (barplot, scatterplot, lineplot), plotly (box, Scatterpolar), match-case statement, recursion, gdown, os.path, EDA, feature engineering, pivot_table, regex |
⬆️вверх ↑
Название проекта | Описание | Стек и инструменты |
---|---|---|
Проект 0.1. PYTHON. Инструменты для Data Science | Реализация алгоритма самого быстрого перебора чисел и угадывание загаданное компьютером число за минимальное количество попыток. Отработка навыков взаимодействия с Git-Github, настройка .gitignore, импорт собственных модулей python в Jupyter |
Jupyter, import, git, python, gitignore |
Проект 0.2. PYTHON. Визуализация данных | Выяснение основных причин оттока клиентов и анализирование, чем ушедшие клиенты отличаются от лояльных и как между собой связаны различные признаки, определяющие клиентов. Подготовка рекомендаций к отчёту для банка, разрабатывающего кампанию лояльности по удержанию клиентов | plotly (pie, box, histogram, scatter, sunburst, bar, choropleth), seaborn (heatmap), pivot_table, EDA, feature engineering |
Проект 0.3. EDA. Статистические тесты | Выполнение статических тестов, проверка данных на нормальность и на наличие взаимосвязи | scipy.stats (shapiro, normaltest, pearsonr, spearmanr, ttest_ind, mannwhitneyu, ranksums), seaborn (kdeplot, heatmap), statistics (median), concat, correlation matrix, EDA, p-value |
Проект 0.4. EDA. A/B-тестирование | Анализ эффективности вариантов посадочной страницы в туристической компании | statsmodels.stats.proportion (proportions_ztest), scipy.stats (norm.ppf, t.ppf, shapiro, ttest_ind), seaborn (lineplot, heatmap), pivot_table, correlation matrix, EDA, feature engineering, cumsum, cumulative metrics, p-value, confidence intervals |
Проект 0.5. EDA. Проектирование экспериментов | Взаимодействие с платформой Comet.ml, логирование экспериментов | sklearn.preprocessing (MinMaxScaler), sklearn.linear_model (LogisticRegression), sklearn.metrics (accuracy_score), category_encoders (OneHotEncoder, BinaryEncoder), seaborn (heatmap, countplot), comet_ml (Experiment), concat, API kaggle |
Проект 0.6. ML. Обучение с учителем: классификация | Построение модели - классификатора, позволяющей своевременно определять уходящих клиентов банка, оценка качества построенных моделей | sklearn.metrics (f1_score, classification_report, recall_score, precision_score, accuracy_score), sklearn.preprocessing (MinMaxScaler, PolynomialFeatures), sklearn.linear_model (LogisticRegression), sklearn.tree (DecisionTreeClassifier), sklearn.ensemble (RandomForestClassifier), sklearn.model_selection (train_test_split), seaborn (barplot), EDA, feature engineering |
Проект 0.7. ML. Отбор и селекция признаков | Построение модели линейной регресии, предсказывающей стоимость автомобиля, оценка качества построенных моделей | sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score), sklearn.linear_model (LinearRegression), sklearn.model_selection (train_test_split), sklearn.feature_selection (RFE, SelectKBest, f_regression), feature engineering, wget |
Проект 0.8. ML. Отбор и селекция признаков | Построение модели классификации пользователей и определение лучшего способа кодирования данных в процессе подготовки данных. Закрепление Comet.ML на практике, логирование экспериментов | sklearn.metrics (accuracy_score, confusion_matrix, roc_curve, roc_auc_score), sklearn.preprocessing (OneHotEncoder, LabelEncoder), sklearn.linear_model (LogisticRegression), comet_ml (Experiment), wget, EDA, feature engineering, TP, FP, TN, FN |
Проект 0.9. ML. Оптимизация гиперпараметров модели | Построение моделей, предсказывающих биологический ответ молекул по их химическому составу, подбор гиперпараметров моделей | sklearn.metrics (f1_score), sklearn.linear_model (LogisticRegression), sklearn.ensemble (RandomForestClassifier), sklearn.model_selection (train_test_split, cross_validate, GridSearchCV, RandomizedSearchCV, cross_val_score), hyperopt (hp.choice, hp.uniform, space_eval), optuna (Trial, study), seaborn (countplot), try-except statement, cross validation, EDA |
Проект 0.10. MATH_ML. Линейная алгебра в контексте линейных методов | Построение регрессионной модели, прогнозирующей выработку газа на скважине на основе остальных характеристик скважины, и интерпретация результатов - рекомендации владельцу скважины | collections (OrderedDict), sklearn.metrics (mean_absolute_percentage_error), sklearn.preprocessing (StandardScaler, PolynomialFeatures), sklearn.linear_model (LinearRegression, Lasso, Ridge, ElasticNet), sklearn.model_selection (cross_validate, cross_val_score), optuna (Trial, study), seaborn (histplot, regplot, heatmap), numpy.linalg (norm, matrix_rank, det, inv), numpy (column_stack, hstack, corrcoef, printoptions, ones_like, ones, triu), with statement, match-case statement, correlation matrix, cross validation, EDA, feature engineering, SQLite, regularization L1-L2 |
Проект 0.11. MATH_ML. Математический анализ в контексте задачи оптимизации | Реализация алгоритмов координатного спуска и стохастического градиентного спуска, оценка качества полученных моделей | sklearn.metrics (mean_squared_error, mean_absolute_error), sklearn.linear_model (LinearRegression), numpy.linalg (norm), numpy (hstack, ones, zeros, std, append, full, inf), os.path |
Проект 0.12. MATH_ML. Наивный байесовский классификатор | Реализация классификатора спам-сообщений, подбор гиперпараметра модели | sklearn.metrics (classification_report, roc_curve), sklearn.model_selection (train_test_split, GridSearchCV), sklearn.naive_bayes (ComplementNB), sklearn.feature_extraction (text.CountVectorizer), seaborn (countplot, lineplot), numpy (nan), EDA, feature engineering, regex |
Проект 0.13. MATH_ML. Временные ряды | Анализ ВВП африканской страны Гана, расчёт волатильности, подбор гиперпараметров временных моделей | sklearn.linear_model (LinearRegression), sklearn.model_selection (GridSearchCV, TimeSeriesSplit), sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), pmdarima (auto_arima), arch.univariate (arch_model), seaborn (lineplot), time series, AIC, MASE, correlogram, gdown, os.path, cross validation, EDA, rolling, interpolation, stationarity, SMA, ARIMA, GARCH |
⬆️вверх ↑
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.