Data Science для стартапов: введение

Как интегрировать data science в стартап? В некоторых стартапах уже имеется отлаженный процесс обработки данных. Однако зачастую отсутствуют механизмы воспроизводимого анализа, масштабирования моделей и проведения экспериментов. Поэтому и возникает вопрос как с нуля выстроить data science-платформу в стартапе? Ответу на него и будет посвящена эта серия статей. В качестве основного инструмента взята Google Cloud Platform (GCP). Читатели могут с легкостью сами ее опробовать, – пишут Towars Data Science.
Информация будет полезна тем, кто работает data scientist или аналитиком данных. Много интересного почерпнут для себя те, кто хотят перейти с тренировочных моделей на этап серьезной работы. Серия статей включает в себя рекомендации для специалистов, которые собираются выстраивать работу с данными и разрабатывать продукты для этой работы. Информация может быть полезна и для тех, кто хочет понять, как проводить эксперименты и разрабатывать продукты для данных, работая с data scientist. Содержание текста ориентировано на читателя, имеющего опыт в программировании. Будут рассматриваться примеры кода, в основном, на языках R и Java.
Почему именно Data Science?
Один из первых вопросов, который задают data scientist’у на собеседовании – как data science может улучшить продукт? Например, продуктом компании Windfall Data являются данные. Поэтому назначение data science соответствует целям компании – построить самую точную модель оценки чистых активов предприятия. А, например, в компании по разработке мобильных приложений ответ может быть не столь очевиден. В ней data science может приносить пользу не столько для продукта, сколько для бизнес-процессов. Тем не менее, на ранних этапах обычно целесообразно начинать сбор данных о поведении потребителей. Это поможет совершенствовать продукт в будущем.
Некоторые преимущества применения data science в стартапе:
- Выявление ключевых показателей деятельности предприятия для мониторинга и прогнозов;
- Построение моделей прогнозирования поведения потребителей;
- Проведение экспериментов для тестирования новых особенностей продукта;
- Создание продуктов на основе данных, за счет которых в продукте появляются новые функции.
Многие организации сталкиваются с трудностями на первых двух или трех шагах. Из-за этого они не могут максимально использовать потенциал data science. В этой серии статей показывается, как небольшие команды могут использовать услуги по управлению данными. Как перейти от расчета показателей деятельности предприятия к созданию организации, в которой data science оказывает решающее влияние на разработку продукта? На этот вопрос, в том числе, можно найти ответ далее.
Краткий обзор материала
- Введение (собственно эта статья). Здесь будут рассмотрены основные факторы, мотивирующие на внедрение data science в работу стартапа. Среди прочего затрагиваются темы функций data science, масштабного анализа data science и т. д.
- Отслеживание данных. Этот раздел включает в себя поиск мотивации для сбора данных из приложений и веб-страниц, методы сбора данных для отслеживания. В этом процессе важны такие понятия, как конфиденциальность. Для наглядности приводится пример из Google PubSub.
- Процессы обработки данных. Речь пойдет о различных подходах к сбору данных, которыми пользуются специалисты по аналитике и data science. Работа с неструктурированными файлами, базами данных, озерами данных. Использование PubSub, DataFlow и BigQuery также будут включены сюда. Некоторые статьи будут касаться масштабируемого процесса аналитики и эволюции платформ игровой аналитики.
- Business Intelligence. Здесь рассматриваются распространенные практики ETL, создание автоматизированных отчетов/панелей управления. Также здесь содержится описание процедуры расчета показателей оценки бизнеса и ключевых показателей эффективности на примерах R Shiny and Data Studio.
- Разведочный анализ данных. В этой секции раскрываются типичные методы анализа данных: построение гистограмм, функций распределения, корреляционный анализ, отбор признаков для линейных моделей. Для примера используется процесс анализа на основе открытой базы данных Natality.
- Прогнозирование. Этот раздел посвящен подходам к контролируемому и неконтролируемому обучению. Моделям прогнозирования оттока клиентов и совместного продвижения продукта. Кроме того, здесь описываются методы оценки модели оффлайн.
- Построение модели: советы о том, как расширять оффлайн модели. Также рассматриваются групповой и онлайн-подходы к развертыванию моделей. В некоторых статьях затрагивается вопрос коммерческого использования data science в Twitch и моделей коммерческого внедрения в DataFlow.
- Эксперименты. Эта часть посвящена A/B –тестированию продуктов и концепции проведения экспериментов. Здесь также приводится пример анализа с помощью R и бутстреппинга. Помимо этого затрагивает вопрос A/B –тестирования с поэтапным введением.
- Рекомендательные системы. В этом разделе рассказывается об основах рекомендательных систем, приводится пример внедрения рекомендательной службы в систему производства. Также речь пойдет о создании прототипа рекомендательной службы.
- Глубокое обучение. Здесь содержится небольшое введение в тему проблем data science, которые решаются с помощью глубокого обучения. Одна из таких проблем – пометка оскорбительных сообщений в чатах. Также приводятся примеры создания прототипов моделей с помощью R в Keras и создания продукта с интерфейсом R в CloudML.
Инструментарий
Все примеры будут показаны с помощью Google Cloud Platform. Эта платформа предоставляет удобные управляемые услуги. С их помощью небольшие команды могут легко построить свои процессы обработки данных, подготовить модели своих продуктов к выводу на рынок и использовать глубокое обучение. Google Cloud Platform есть в виде бесплатной пробной версии. При регистрации на счет зачисляется 300 $. Этого должно хватить на ознакомление с вышеперечисленными темами, но для более детального изучения платформы этого будет недостаточно.
Что касается языков, для скриптов будет использоваться R, а для разработки Java. SQL будет использоваться для работы с данными в BigQuery. Дополнительно используется Shiny. Для понимания данного материала необходимо обладать знанием R и Java.