Топ-17 инструментов для обработки больших данных

Apache Hadoop

Apache Hadoop является общепризнанным инструментом для анализа больших данных.
Avro
Был разработан Дугом Каттингом, и используется для сериализации данных с целью кодирования файлов Hadoop.
Cassandra
Распределенная система базы данных с открытым исходным кодом. Она была разработана, чтобы справляться с огромным количеством распределенных данных на всех стандартных серверах, предоставляя сервис высокой надежности. Cassandra относится к классу NoSQL-систем, которые изначально были созданы компанией Facebook. Ее используют многие организации, например, Netflix, Cisco и Twitter.
Drill
Распределенная система с открытым исходным кодом, предназначенная для осуществления интерактивного анализа большого массива данных. Она схожа с Dremel, разработанной Google, и принадлежит фонду Apache.
Elasticsearch
Поисковая система с открытым исходным кодом, основанная на Apache Lucene. Она разработана на Java, обеспечивает масштабируемый поиск, который служит основой приложений для обнаружения данных.
Flume
Фреймворк для заполнения Hadoop-данными с веб-серверов, серверов приложений и мобильных устройств. Он как водопровод между источниками информации и Hadoop.
HCatalog
Система централизованного управления метаданными и файлообменник Hadoop. HCatalog обеспечивает единое представление данных в кластерах Hadoop и предоставляет разнообразные инструменты, включая Pig и Hive, для обработки любых единиц данных, при этом нет необходимости знать, где физически хранятся данные в кластере.
Impala
Система обработки быстрых, интерактивных SQL-запросов больших данных, которые хранятся в HDFS или HBase. Impala использует те же самые метаданные, SQL-синтаксис (Hive SQL), драйвер ODBC и пользовательский интерфейс (Hue Beeswax), что и Apach Hive. В результате мы получаем знакомую и унифицированную платформу для пакетно-ориентированных или поступающих в режиме реального времени запросов.
JSON
Многие из сегодняшних NoSQL-баз данных хранят данные в формате JSON, что расшифровывается как «JavaScript Object Notation». Этот формат стал популярным среди веб-разработчиков.
Kafka
Распределенная брокер сообщений, который предлагает решение для управления всеми потоками данных и обработки этих данных на веб-сайте потребителя. Этот тип данных (число просмотров, запросы и другие пользовательские действия) является ключевым компонентом в современных социальных сетях.
MongoDB
NoSQL-база данных, ориентированная на документы, разработанна согласно концепции открытого исходного кода. MongoDB обеспечивает полной поддержкой индексов, гибкостью индексирования любого элемента и горизонтальной масштабированностью, не влияя на функционал.
Neo4j
Графовая база данных, которая может похвастаться улучшенной производительностью в 1000 раз или больше по сравнению с реляционной базой данных.
Oozie
Система управления бизнес-процессами, которая позволяет пользователям определять ряд заданий, написанных на разных языках, такие как Map Reduce, Pig и Hive. В дальнейшем они будут логично связаны один с другим. Oozie позволяет пользователям устанавливать зависимости.
Pig
Язык, базирующийся на Hadoop, разработанный Yahoo. Его относительно легко изучать, а также с ним возможны очень глубокие и очень длинные линии передачи данных.
Storm
Бесплатная система распределенных вычислений в режиме реального времени с открытым исходным кодом. Storm облегчает обработку потоков неструктурированных данных в режиме реального времени. Storm устойчив к сбоям и работает практически со всеми языками программирования, хотя обычно используется Java. Storm берет свое начало из семейства Apache, но сейчас он принадлежит Twitter.
Tableau
Инструмент визуализации данных, который фокусируется прежде всего на интеллектуальном анализе данных. Вы можете создавать карты, гистограммы, графики рассеяния и другое, не обладая навыками программирования. Недавно был выпущен веб-коннектор, который позволяет соединяться с базой данных или программным интерфейсом, тем самым позволяя получать визуальное отображение оперативных данных.
ZooKeeper
Сервис управления данными, который предоставляет централизованную конфигурацию и регистрацию имен с открытым кодом для больших распределенных систем.