Перейти к содержанию

Релиз системы извлечения контента Apache Tika 1.2

Материал из Викиновостей, свободного источника новостей

17 июля 2012 года

Доступен релиз Apache Tika 1.2, набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

Среди новшеств, добавленных в Apache Tika 1.2:

  • Поддержка JAX-RS (Java API для RESTful web-сервисов)
  • Средства для обработки метаданных XMP
  • Интеграция библиотеки с поддержкой используемого в продуктах Mozilla алгоритма автоматического определения кодировок текста
  • Поддержка форматов файлов KML (Keyhole Markup Language), XZ и Pack200
  • Улучшение извлечения контента из файлов iWork
  • Поддержка определения файлов FITS (Flexible Image Transport System)
  • Улучшение извлечения ресурсов из OLE2-документов.

Источники

[править]


Creative Commons
Creative Commons
Эта статья содержит материалы из статьи «Релиз системы извлечения контента Apache Tika 1.2», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии[править]

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.