Топ-17 инструментов для обработки больших данных

Apache Hadoop

Apache Hadoop является общепризнанным инструментом для анализа больших данных.

Avro

Был разработан Дугом Каттингом, и используется для сериализации данных с целью кодирования файлов Hadoop.

Cassandra

Распределенная система базы данных с открытым исходным кодом. Она была разработана, чтобы справляться с огромным количеством распределенных данных на всех стандартных серверах, предоставляя сервис высокой надежности. Cassandra относится к классу NoSQL-систем, которые изначально были созданы компанией Facebook. Ее используют многие организации, например, Netflix, Cisco и Twitter.

Drill

Распределенная система с открытым исходным кодом, предназначенная для осуществления интерактивного анализа большого массива данных. Она схожа с Dremel, разработанной Google, и принадлежит фонду Apache.

Elasticsearch

Поисковая система с открытым исходным кодом, основанная на Apache Lucene. Она разработана на Java, обеспечивает масштабируемый поиск, который служит основой приложений для обнаружения данных.

Flume

Фреймворк для заполнения Hadoop-данными с веб-серверов, серверов приложений и мобильных устройств. Он как водопровод между источниками информации и Hadoop.

HCatalog

Система централизованного управления метаданными и файлообменник Hadoop. HCatalog обеспечивает единое представление данных в кластерах Hadoop и предоставляет разнообразные инструменты, включая Pig и Hive, для обработки любых единиц данных, при этом нет необходимости знать, где физически хранятся данные в кластере.

Impala

Система обработки быстрых, интерактивных SQL-запросов больших данных, которые хранятся в HDFS или HBase. Impala использует те же самые метаданные, SQL-синтаксис (Hive SQL), драйвер ODBC и пользовательский интерфейс (Hue Beeswax), что и Apach Hive. В результате мы получаем знакомую и унифицированную платформу для пакетно-ориентированных или поступающих в режиме реального времени запросов.

JSON

Многие из сегодняшних NoSQL-баз данных хранят данные в формате JSON, что расшифровывается как «JavaScript Object Notation». Этот формат стал популярным среди веб-разработчиков.

Kafka

Распределенная брокер сообщений, который предлагает решение для управления всеми потоками данных и обработки этих данных на веб-сайте потребителя. Этот тип данных (число просмотров, запросы и другие пользовательские действия) является ключевым компонентом в современных социальных сетях.

MongoDB

NoSQL-база данных, ориентированная на документы, разработанна согласно концепции открытого исходного кода. MongoDB обеспечивает полной поддержкой индексов, гибкостью индексирования любого элемента и горизонтальной масштабированностью, не влияя на функционал.

Neo4j

Графовая база данных, которая может похвастаться улучшенной производительностью в 1000 раз или больше по сравнению с реляционной базой данных.

Oozie

Система управления бизнес-процессами, которая позволяет пользователям определять ряд заданий, написанных на разных языках, такие как Map Reduce, Pig и Hive. В дальнейшем они будут логично связаны один с другим. Oozie позволяет пользователям устанавливать зависимости.

Pig

Язык, базирующийся на Hadoop, разработанный Yahoo. Его относительно легко изучать, а также с ним возможны очень глубокие и очень длинные линии передачи данных.

Storm

Бесплатная система распределенных вычислений в режиме реального времени с открытым исходным кодом. Storm облегчает обработку потоков неструктурированных данных в режиме реального времени. Storm устойчив к сбоям и работает практически со всеми языками программирования, хотя обычно используется Java. Storm берет свое начало из семейства Apache, но сейчас он принадлежит Twitter.

Tableau

Инструмент визуализации данных, который фокусируется прежде всего на интеллектуальном анализе данных. Вы можете создавать карты, гистограммы, графики рассеяния и другое, не обладая навыками программирования. Недавно был выпущен веб-коннектор, который позволяет соединяться с базой данных или программным интерфейсом, тем самым позволяя получать визуальное отображение оперативных данных.

ZooKeeper

Сервис управления данными, который предоставляет централизованную конфигурацию и регистрацию имен с открытым кодом для больших распределенных систем.