Data Science для стартапов: введение

Как интегрировать data science в стартап? В некоторых стартапах уже имеется отлаженный процесс обработки данных. Однако зачастую отсутствуют механизмы воспроизводимого анализа, масштабирования моделей и проведения экспериментов. Поэтому и возникает вопрос как с нуля выстроить data science-платформу в стартапе? Ответу на него и будет посвящена эта серия статей. В качестве основного инструмента взята Google Cloud Platform (GCP). Читатели могут с легкостью сами ее опробовать, – пишут Towars Data Science.

Информация будет полезна тем, кто работает data scientist или аналитиком данных. Много интересного почерпнут для себя те, кто хотят перейти с тренировочных моделей на этап серьезной работы. Серия статей включает в себя рекомендации для специалистов, которые собираются выстраивать работу с данными и разрабатывать продукты для этой работы. Информация может быть полезна и для тех, кто хочет понять, как проводить эксперименты и разрабатывать продукты для данных, работая с data scientist. Содержание текста ориентировано на читателя, имеющего опыт в программировании. Будут рассматриваться примеры кода, в основном, на языках R и Java.

Почему именно Data Science?

Один из первых вопросов, который задают data scientist’у на собеседовании – как data science может улучшить продукт? Например, продуктом компании Windfall Data являются данные. Поэтому назначение data science соответствует целям компании – построить самую точную модель оценки чистых активов предприятия. А, например, в компании по разработке мобильных приложений ответ может быть не столь очевиден. В ней data science может приносить пользу не столько для продукта, сколько для бизнес-процессов. Тем не менее, на ранних этапах обычно целесообразно начинать сбор данных о поведении потребителей. Это поможет совершенствовать продукт в будущем.

Некоторые преимущества применения data science в стартапе:

  1. Выявление ключевых показателей деятельности предприятия для мониторинга и прогнозов;
  2. Построение моделей прогнозирования поведения потребителей;
  3. Проведение экспериментов для тестирования новых особенностей продукта;
  4. Создание продуктов на основе данных, за счет которых в продукте появляются новые функции.

Многие организации сталкиваются с трудностями на первых двух или трех шагах. Из-за этого они не могут максимально использовать потенциал data science. В этой серии статей показывается, как небольшие команды могут использовать услуги по управлению данными. Как перейти от расчета показателей деятельности предприятия к созданию организации, в которой data science оказывает решающее влияние на разработку продукта? На этот вопрос, в том числе, можно найти ответ далее.

Краткий обзор материала

  1. Введение (собственно эта статья). Здесь будут рассмотрены основные факторы, мотивирующие на внедрение data science в работу стартапа. Среди прочего затрагиваются темы функций data science, масштабного анализа data science и т. д.
  2. Отслеживание данных. Этот раздел включает в себя поиск мотивации для сбора данных из приложений и веб-страниц, методы сбора данных для отслеживания. В этом процессе важны такие понятия, как конфиденциальность. Для наглядности приводится пример из Google PubSub.
  3. Процессы обработки данных. Речь пойдет о различных подходах к сбору данных, которыми пользуются специалисты по аналитике и data science. Работа с неструктурированными файлами, базами данных, озерами данных. Использование PubSub, DataFlow и BigQuery также будут включены сюда. Некоторые статьи будут касаться масштабируемого процесса аналитики и эволюции платформ игровой аналитики.
  4. Business Intelligence. Здесь рассматриваются распространенные практики ETL, создание автоматизированных отчетов/панелей управления. Также здесь содержится описание процедуры расчета показателей оценки бизнеса и ключевых показателей эффективности на примерах R Shiny and Data Studio.
  5. Разведочный анализ данных. В этой секции раскрываются типичные методы анализа данных: построение гистограмм, функций распределения, корреляционный анализ, отбор признаков для линейных моделей. Для примера используется процесс анализа на основе открытой базы данных Natality.
  6. Прогнозирование. Этот раздел посвящен подходам к контролируемому и неконтролируемому обучению. Моделям прогнозирования оттока клиентов и совместного продвижения продукта. Кроме того, здесь описываются методы оценки модели оффлайн.
  7. Построение модели: советы о том, как расширять оффлайн модели. Также рассматриваются групповой и онлайн-подходы к развертыванию моделей. В некоторых статьях затрагивается вопрос коммерческого использования data science в Twitch и моделей коммерческого внедрения в DataFlow.
  8. Эксперименты. Эта часть посвящена A/B –тестированию продуктов и концепции проведения экспериментов. Здесь также приводится пример анализа с помощью R и бутстреппинга. Помимо этого затрагивает вопрос A/B –тестирования с поэтапным введением.
  9. Рекомендательные системы. В этом разделе рассказывается об основах рекомендательных систем, приводится пример внедрения рекомендательной службы в систему производства. Также речь пойдет о создании прототипа рекомендательной службы.
  10. Глубокое обучение. Здесь содержится небольшое введение в тему проблем data science, которые решаются с помощью глубокого обучения. Одна из таких проблем – пометка оскорбительных сообщений в чатах. Также приводятся примеры создания прототипов моделей с помощью R в Keras и создания продукта с интерфейсом R в CloudML.

Инструментарий

Все примеры будут показаны с помощью Google Cloud Platform. Эта платформа предоставляет удобные управляемые услуги. С их помощью небольшие команды могут легко построить свои процессы обработки данных, подготовить модели своих продуктов к выводу на рынок и использовать глубокое обучение. Google Cloud Platform есть в виде бесплатной пробной версии. При регистрации на счет зачисляется 300 $. Этого должно хватить на ознакомление с вышеперечисленными темами, но для более детального изучения платформы этого будет недостаточно.

Что касается языков, для скриптов будет использоваться R, а для разработки Java. SQL будет использоваться для работы с данными в BigQuery. Дополнительно используется Shiny. Для понимания данного материала необходимо обладать знанием R и Java.