DataOps: новые термины и схожие концепции

Компонентизация, контейнеры и облака – все это характеризует наступление новой, так называемой, эры «Ops». Она начиналась с философии DevOps.
Википедия дает следующее определение DevOps:
«Это культура инженерии и практик программного обеспечения (ПО). Она нацелена на объединении усилий в разработке ПО (Dev) и его эксплуатации (Ops)».
Изначально DevOps акцентировала внимание на процессах инженерии ПО – это создание, тестирование и релиз софта. В последнее время акценты сместились в сторону «Ops» – изучению вопросов автоматизации эксплуатационного развертывания ПО. Именно «Ops» обеспечивает плавный, надежный и быстрый выпуск ПО на рынок.
Развитие облачных технологий усилило потребность в разработке инструментов DevOps. При переходе к облачным архитектурам программные стеки стали еще более дезинтегрированными. Разработчики софта практиковали использование инструментов, часто называемых, «примитивами». Эти инструменты программирования были разработаны и оптимизированы для достижения очень специфичных целей в программном стеке.
Команды разработчиков столкнулись с проблемой согласования процессов. Возникла необходимость слинковать исполнение и обмен данными для каждого примитива в стеке с целью обеспечения сквозного потока. Ранее в процессе согласования использовались скрипты. В настоящее время практикуется более современный подход — использование специально разработанных инструментов DevOps.
Если применить эту концепцию DevOps к миру данных и аналитики, то возникнет новый предмет – DataOps. Аналитики больших данных и облачных технологий стали проявлять повышенный интерес к DataOps.
Википедия определяет новый предмет таким образом:
«DataOps – это автоматизированная и ориентированная на процессы методология. Она используется командами дата-аналитиков для повышения качества и сокращения временного цикла в аналитике данных»
DataOps также, как и DevOps, обеспечивает скорость, постоянно действующую agility, надежность и масштабируемость процессов дата-аналитики. Обычно DataOps разделяют на 4 уникальные группы:
- Инженерия данных.
- Обработка данных.
- Управление данными.
- Безопасность данных. Дата-безопасность и приватность
Инженерия данных/Согласование
Эта часть инструментария DataOps обеспечивает преобразование полученных исходных данных в информацию, которая может быть использована аналитиками и бизнес-командами. Данные инструменты должны повышать продуктивность работы инженера данных, который является основным куратором данных компании.
Инструментарий должен предоставить инженеру данных возможность разработки модели интеграции, трансформации, курирования и организации дата-сетов для конечных потребителей. При этом инструментарий инженера должен учитывать разнообразие навыков и подходов лиц, для которых будут создаваться процессы обработки данных:
- Инженерам данных нравится использовать SQL и они достаточно компетентны в преобразовании данных через синтаксис SQL.
- Аналитики данных или бизнес-аналитики предпочитают использовать преобразованные данные в табличном формате. Им нравится проводить интерактивные эксперименты.
- Экспертам по аналитическим данным нужны дополнительные средства для feature engineering и продвинутой организации.
- Всем специалистам требуются данные в визуальном формате, масштаб которых был достаточен для дальнейших исследований полученных данных.
Обработка данных
После согласования процессов данных последние необходимо обработать. Фактический процесс обработки представляет собой трансформацию исходных данных в желаемые дата-сеты, которые могут быть использованы даунстрим аналитикой.
В мире больших данных это означает дешифрование сложных данных и их обработку в том масштабе, который обеспечит получение требуемых результатов. В процессе обработки существуют два критических компонента:
- Оптимизация обработки. Процессы сбора исходных данных могут быть очень сложными, а полученные дата-сеты – чрезвычайно большими. Поэтому обработка данных требует наличия определенного «смарт» — оптимизатора. Он должен знать, как распределить нагрузки и процессы и выполнить работу с максимальной эффективностью и быстротой.
- Обеспечение безопасности процессов обработки данных. Вся работа по обработке должна осуществляться в соответствии с требованиями операционной безопасности систем, которые генерируют исходные данные.
Управление данными
В процессах DataOps потребляются, преобразуются и получаются самые разнообразные дата-сеты. В результате создается репозиторий дата-сетов, которыми пользуются команды аналитиков. Некоторые данные в репозитории являются временными, другие требуют постоянного хранения.
Управление данными внутри процессов DataOps может быть трудным и сложным, особенно в условиях, когда в процессы вовлечены вопросы комплаенса. Поэтому ключевым требованием к платформе DataOps является обеспечение возможности упрощения процесса управления данными. Это можно достичь на основе:
- Автоматизации партиционирования данных. Это позволит эффективно использовать ресурсы хранения и будет способствовать более результативной и быстрой обработке данных.
- Использования продвинутых и автоматизированных мощностей сохранения данных. Эти мощности должны быть способны управлять различными версиями полученных дата-сетов, в основе создания которых лежат различные политики.
- Применения аудиторских сервисов. Сервисы могут отслеживать практику использования и управления данными и ее соответствие требованиям комплаенса.
Безопасность данных и приватность
Все большее число аналитиков используют персонально идентифицируемую информацию (PPI). Практика использования этой информации регулируется и контролируется. Некоторые данные содержат конфиденциальную информацию о деятельности компании. Именно поэтому должен быть обеспечен высокий уровень безопасности и приватности PPI и других данных, собираемых аналитиками компаний.
Важней частью системы безопасности является аудиторский сервис. Но и сами платформы DataOps могут обеспечить определенную и дополнительную защиту PPI на основе следующих фичей:
- Гранулярное управление доступом на основе ролей к индивидуальным процессам и дата-сетам. Этим обеспечивается контроль над тем, кто имеет доступ к данным, и как он их использует.
- Встроенная система шифрования и «затуманивания» данных. Это гарантирует, что PPI не виден различным пользователям и потребителям данных.
Единая платформа для решения множества задач и развития пользователей
Если команда инженеров данных использует низкие уровни примитивов для построения пайплайн данных и управляет ими через различные фреймворки исполнения, то возникают дополнительные проблемы. Инженерам потребуется обеспечить программирование и интеграцию различных аспектов DataOps. Это создает довольно сложный кастомизированный фреймворк для автоматизации DataOps, что снижает скорость, надежность, масштабируемость и agility.
Платформа сквозным управлением данными аналитики имеет очевидные преимущества. Она упрощает работу каждого из членов команды – инженера данных, бизнес-аналитика и IT-специалистов. С этой платформой процессы DataOps создает «управляемое самообслуживание» для использования аналитиками данных. При этом процессы «самообслуживания» для аналитиков успешно сочетаются с хорошо управляемыми процессами для инженеров данных и IT- команд. Такая комбинация беспроигрышна для обеих сторон