DataOps: новые термины и схожие концепции

Компонентизация, контейнеры и облака – все это характеризует наступление новой, так называемой, эры «Ops». Она начиналась с философии DevOps.

Википедия дает следующее определение DevOps:

«Это культура инженерии и практик программного обеспечения (ПО). Она нацелена на объединении усилий в разработке ПО (Dev) и его эксплуатации (Ops)».

Изначально DevOps акцентировала внимание на процессах инженерии ПО – это создание, тестирование и релиз софта. В последнее время акценты сместились в сторону «Ops» –  изучению вопросов автоматизации эксплуатационного развертывания ПО. Именно «Ops» обеспечивает плавный, надежный и быстрый выпуск ПО на рынок.

Развитие облачных технологий усилило потребность в разработке инструментов DevOps. При переходе к облачным архитектурам программные стеки стали еще более дезинтегрированными. Разработчики софта практиковали использование инструментов, часто называемых, «примитивами». Эти инструменты программирования были разработаны и оптимизированы для достижения очень специфичных целей в программном стеке.

Команды разработчиков столкнулись с проблемой согласования процессов. Возникла необходимость слинковать исполнение и обмен данными для каждого примитива в стеке с целью обеспечения сквозного потока. Ранее в процессе согласования использовались скрипты. В настоящее время практикуется более современный подход — использование специально разработанных инструментов DevOps.

Если применить эту концепцию DevOps к миру данных и аналитики, то возникнет новый предмет – DataOps. Аналитики больших данных и облачных технологий стали проявлять повышенный интерес к DataOps.

Википедия определяет новый предмет таким образом:

«DataOps – это автоматизированная и ориентированная на процессы методология. Она используется командами дата-аналитиков для повышения качества и сокращения временного цикла в аналитике данных»

DataOps также, как и DevOps, обеспечивает скорость, постоянно действующую agility, надежность и масштабируемость процессов дата-аналитики. Обычно DataOps разделяют на 4 уникальные группы:

  1. Инженерия данных.
  2. Обработка данных.
  3. Управление данными.
  4. Безопасность данных. Дата-безопасность и приватность

Инженерия данных/Согласование

Эта часть инструментария DataOps обеспечивает преобразование полученных исходных данных в информацию, которая может быть использована аналитиками и бизнес-командами. Данные инструменты должны повышать продуктивность работы инженера данных, который является основным куратором данных компании.

Инструментарий должен предоставить инженеру данных возможность разработки модели интеграции, трансформации, курирования и организации дата-сетов для конечных потребителей. При этом инструментарий инженера должен учитывать разнообразие навыков и подходов лиц, для которых будут создаваться процессы обработки данных:

  1. Инженерам данных нравится использовать SQL и они достаточно компетентны в преобразовании данных через синтаксис SQL.
  2. Аналитики данных или бизнес-аналитики предпочитают использовать преобразованные данные в табличном  формате. Им нравится проводить интерактивные эксперименты.
  3. Экспертам по аналитическим данным нужны дополнительные средства для feature engineering и продвинутой организации.
  4. Всем специалистам требуются данные в визуальном формате, масштаб которых был достаточен для дальнейших исследований полученных данных.

Обработка данных

После согласования процессов данных последние необходимо обработать. Фактический процесс обработки представляет собой трансформацию исходных данных в желаемые дата-сеты, которые могут быть использованы даунстрим аналитикой.

В мире больших данных это означает дешифрование сложных данных и их обработку в том масштабе, который обеспечит получение требуемых результатов. В процессе обработки существуют два критических компонента:

  1. Оптимизация обработки. Процессы сбора исходных данных могут быть очень сложными, а полученные дата-сеты – чрезвычайно большими. Поэтому обработка данных требует наличия определенного «смарт» — оптимизатора. Он должен знать, как распределить нагрузки и процессы и выполнить работу с максимальной эффективностью и быстротой.
  2. Обеспечение безопасности процессов обработки данных. Вся работа по обработке должна осуществляться в соответствии с требованиями операционной безопасности систем, которые генерируют исходные данные.

Управление данными

В процессах DataOps потребляются, преобразуются и получаются самые разнообразные дата-сеты. В результате создается репозиторий дата-сетов, которыми пользуются команды аналитиков. Некоторые данные в репозитории являются временными, другие требуют постоянного хранения.

Управление данными внутри процессов DataOps может быть трудным и сложным, особенно в условиях, когда в процессы вовлечены вопросы комплаенса. Поэтому ключевым требованием к платформе DataOps является обеспечение возможности упрощения процесса управления данными. Это можно достичь на основе:

  1. Автоматизации партиционирования данных. Это позволит эффективно использовать ресурсы хранения и будет способствовать более результативной и быстрой обработке данных.
  2. Использования продвинутых и автоматизированных мощностей сохранения данных. Эти мощности должны быть способны управлять различными версиями полученных дата-сетов, в основе создания которых лежат различные политики.
  3. Применения аудиторских сервисов. Сервисы могут отслеживать практику использования и управления данными и ее соответствие требованиям комплаенса.

Безопасность данных и приватность

Все большее число аналитиков используют персонально идентифицируемую информацию (PPI). Практика использования этой информации регулируется и контролируется. Некоторые данные содержат конфиденциальную информацию о деятельности компании. Именно поэтому должен быть обеспечен высокий уровень безопасности и приватности PPI и других данных, собираемых аналитиками компаний.

Важней частью системы безопасности является аудиторский сервис. Но и сами платформы DataOps могут обеспечить определенную и дополнительную защиту PPI на основе следующих фичей:

  1. Гранулярное управление доступом на основе ролей к индивидуальным процессам и дата-сетам. Этим обеспечивается контроль над тем, кто имеет доступ к данным, и как он их использует.
  2. Встроенная система шифрования и «затуманивания» данных. Это гарантирует, что PPI не виден различным пользователям и потребителям данных.

Единая платформа для решения множества задач и развития пользователей

Если команда инженеров данных использует низкие уровни примитивов для построения пайплайн данных и управляет ими через различные фреймворки исполнения, то возникают дополнительные проблемы. Инженерам потребуется обеспечить программирование и интеграцию различных аспектов DataOps. Это создает довольно сложный кастомизированный фреймворк для автоматизации DataOps, что снижает скорость, надежность, масштабируемость и agility.

Платформа сквозным управлением данными аналитики имеет очевидные преимущества. Она упрощает работу каждого из членов команды – инженера данных, бизнес-аналитика и IT-специалистов. С этой платформой процессы DataOps создает «управляемое самообслуживание» для использования аналитиками данных. При этом процессы «самообслуживания» для аналитиков успешно сочетаются с хорошо управляемыми процессами для инженеров данных и IT- команд. Такая комбинация беспроигрышна для обеих сторон