Sophos и ReversingLabs представили БД с 20 млн данных для ИБ-исследователей
15 декабря 2020 года
ИБ-компании Sophos и ReversingLabs анонсировали выход базы данных SoReL-20M, состоящей из 20 млн файлов Windows Portable Executable. Из них 10 млн файлов являются образами вредоносного ПО.
База данных, предназначенная для улучшения отрасли ИБ, предоставляет метаданные, метки и функции для файлов, а также позволяет заинтересованным сторонам загружать доступные образцы вредоносных программ для дальнейшего исследования. Предполагается, что общедоступный набор данных, содержащий тщательно подобранные образцы и соответствующие метаданные, поможет ускорить исследования в области использования машинного обучения для обнаружения вредоносных программ.
Хотя модели машинного обучения построены на данных, в сфере ИБ отсутствует стандартная крупномасштабная БД, к которой могут легко получить доступ все, начиная от независимых исследователей и заканчивая ИБ-лабораториями и корпорациями. По мнению специалистов Sophos, отсутствие такой БД тормозило развитие сферы информационной безопасности.
«Сбор большого количества тщательно отобранных, маркированных образцов является дорогостоящим и сложным делом, а совместное использование наборов данных часто усложняется проблемами, связанными с интеллектуальной собственностью, и риском предоставления вредоносного ПО неизвестным третьим сторонам. Как результат, в большинстве исследований в области обнаружения вредоносных программ используются частные внутренние наборы данных, поэтому их результаты нельзя сравнивать», - сообщили специалисты Sophos.
База данных промышленного масштаба SoReL-20M, охватывающая 20 млн образцов, включая 10 млн обезвреженных вредоносных программ, призвана решить эту проблему. Для каждого образца в БД представлены функции, извлеченные на основе набора данных EMBER 2.0, метки, метаданные обнаружения и полные двоичные файлы вредоносного ПО.
Кроме того, предоставляются обученные с использованием этих данных модели машинного обучения PyTorch и LightGBM, а также скрипты для загрузки и итерации данных и скрипты для обучения и тестирования моделей.
Sophos допускает вероятность того, что опытные хакеры смогут использовать БД в своих интересах и создать инструменты для осуществления кибератак. Однако, по словам специалистов, в настоящее время существует множество других источников, которые злоумышленники могут использовать для получения доступа к информации о вредоносном ПО.
Источники[править]
Эта статья содержит материалы из статьи «Sophos и ReversingLabs представили БД с 20 млн данных для ИБ-исследователей», опубликованной на сайте SecurityLab.ru и распространяющейся на условиях лицензии Creative Commons Attribution 3.0 Unported (CC-BY 3.0 Unported). |
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии[править]
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.