Skip to content

Latest commit

 

History

History
115 lines (92 loc) · 7.28 KB

File metadata and controls

115 lines (92 loc) · 7.28 KB

Data Analyst

Тестовое задание

Для участия в конкурсе на позицию предлагаем вам решить следующие задания.
Каждое задание направлено на проверку вашего уровня определенных компетенций, важных для аналитика.

Задание 1

**Проверяемая компетенция:**  
аналитическое мышление  
**Формат решения:**  
опишите логику решения  
*Задание:** Представьте, что вы работаете аналитиком в Додо. Вам доступны все внутренние данные (данные по чекам, клиентам, локациям). В марте 2022 часть Макдональдсов закрылась, часть продолжала работать. Вам необходимо ответить на следующие вопросы:
  1. На какие наши метрики, на ваш взгляд, могли повлиять закрытие конкурента?
  2. Вам необходимо оценить эффект в рублях на нашу выручку от закрытия конкурента. Опишите, какую методологию бы использовали, чтобы рассчитать эффект.
  3. Какие общедоступные данные по Макдональдсам можно было бы использовать для ответа на второй вопрос? Опишите, как бы вы их использовали.|
Ваше решение:

Задание 2

**Проверяемая компетенция:**  
основы статистики/проверка гипотез  
**Формат решения:**  
приложить ipynb/ссылку на colab  
**Задание:** Предположим, в ряде городов в определенный период проведен тест: - В тестовых городах на веб-сайте пиццы располагаются по популярности - Во всех остальных — по увеличению цены на пиццу

Вопросы:

  1. На какие метрики мог повлиять тест?
  2. Сделайте визуальный анализ датасета. Как ведут себя метрики в динамике? Какие распределения в данных?
  3. Как можно оценить эффект от теста? Если знаете несколько способов, реализуйте один, а другие опишите письменно.
  4. Порассуждайте письменно, какие метрики можно было бы еще оценить, если бы вам были доступны все данные компании.

Тестовый период: 7 апреля - 19 мая
Тестовые города: Пенза, Уфа, Курск, Нижний Тагил, Новокуйбышевск, Орск

Описание датасета:

  • Date : дата
  • CityName : город
  • OrderSource : источник заказа - mp: мобильное приложение, web: веб-сайт, other - другое
  • Category : категория товара
  • rto : выручка после скидок
  • rto_do : выручка до скидок
  • cost : затраты на себестоимость товаров
  • tickets : кол-во заказов
  • qty : кол-во продуктов
  • clients_qty : уникальное кол-во клиентов
  • avg_time : среднее время сессии (только по тем, кто оформил заказ)
  • avg_price : средняя цена

! В исходном датасете данные уже сгруппированы по Date, CityName, OrderSource, Category.

Ссылка на датасет: Датасет
Ваше решение:

Задание 3

**Проверяемая компетенция:**  
знание SQL  
**Формат решения:**  
вставьте текст запроса в рамку  
**Задание:** В нашей компании замеряется такой показатель, как “30-дневная активная база”. Для любого дня - это число клиентов за предыдущие 30 дней. (Например, для 2022-01-01 - это число уникальных клиентов, совершивших визит за 30 дней до 2022-01-01, включая 2022-01-01. Для 2022-01-02 - это число уникальных клиентов, совершивших визит за 30 дней до 2022-01-02, включая 2022-01-02 и т.д.)

Допустим у вас есть таблица с чековыми данными по двум городам со следующими полями:

  • cityname - наименование города
  • date - дата чека
  • orderid - id чека
  • clientid - id клиента
  • sales - сумма чека в рублях

Данные в таблице с 2022-01-01 по 2022-06-30.
Посчитайте подневную динамику 30-дневной активной базы по каждому городу, отсортируйте по городу и дате по возрастанию.

Пример результирующей таблицы:

cityname date active_base
city1 2022-02-01 534
... ... ...
city1 2022-06-30 976
city2 2022-02-01 3450
... ... ...
city2 2022-06-30 4210
Ссылка на датасет: Датасет

Формат предоставления результатов

Любой — документ, презентация, а может быть что-то еще. Будем рады, если ответ будет на Google-диске. Проверьте, пожалуйста, доступ к документу - нужен «доступен всем по ссылке».

Также, вместе с результатами можете поделиться, насколько вам было интересно выполнять задание.

Желаем успешного выполнения!