Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных

Материал из Викиновостей, свободного источника новостей

29 декабря 2011 года

После шести лет разработки представлен релиз проекта Apache Hadoop 1.0.0, который базируется на стабильной ветке 0.20.203.x и включает в себя поддержку безопасного режима работы кластера (наработки ветки "0.20-security" с поддержкой аутентификации с использованием Kerberos и средств разграничения полномочий), интеграцию работающей поверх Hadoop и HDFS базы данных HBase (аналог Google Bigtable, ранее развиваемый в рамках отдельного проекта Apache), поддержку интерфейса WebHDFS (HTTP REST API для доступа к ФС HDFS), наработки по увеличению производительности HBase при доступе к локальным файлам.

Hadoop является свободной платформой для организации распределённой обработки больших объёмов данных (петабайты) с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. В состав Hadoop входит также реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.

Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce. Одним из крупнейших пользователей и разработчиков Hadoop является компания Yahoo, активно использующая данную систему в своих поисковых кластерах (Hadoop-кластеру Yahoo, состоящему из 40 тысяч узлов, принадлежит мировой рекорд скорости сортировки большого объёма данных). Hadoop-кластер используется в Facebook для обработки одной из самых больших баз данных, в которой хранится около 30 петабайт информации.

Hadoop также лежит в основе платформы Oracle Big Data и активно адаптируется компанией Microsoft для работы с СУБД SQL Server, Windows Server и облачной платформой Azure Cloud с целью создания новых продуктов для организации распределенной обработки больших объёмов данных. Hadoop является одним из ключевых звеньев суперкомпьютера IBM Watson, который выиграл сражение с лучшими игроками телевизионной игры-викторины "Jeopardy!".

Источники[править]


Creative Commons
Creative Commons
Эта статья содержит материалы из статьи «Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии[править]

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.