Анонсирован Apache Spark 1.0

Материал из Викиновостей, свободного источника новостей

30 мая 2014 года

Фонд Apache опубликовал релиз Apache Spark 1.0, высокопроизводительного движка для обработки данных, хранящихся в кластере Hadoop. По сравнению с предоставляемым в Hadoop механизмом MapReduce, Spark обеспечивает в 100 раз более высокую производительность при обработке данных в памяти и 10 раз при размещении данных на дисках. Решения на базе Spark уже внедрены в таких компаниях, как Alibaba, Cloudera, Databricks, IBM, Intel и Yahoo.

Движок может выполняться на узлах кластера Hadoop как при помощи Hadoop YARN, так и в обособленном режиме. Поддерживается обработка данных в хранилищах HDFS, HBase, Cassandra, Hive и любом формате ввода Hadoop (InputFormat). Spark может использоваться как в типичных сценариях обработки данных, похожих на MapReduce, так и для реализации специфичных методов, таких как потоковая обработка, SQL, интерактивные и аналитические запросы, решение задач машинного обучения и работа с графами. Приложения для обработки данных могут создаваться на языках Scala, Java и Python.

Источники[править]


Creative Commons
Creative Commons
Эта статья содержит материалы из статьи «Анонсирован Apache Spark 1.0», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии[править]

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.