Как получить функции KDD99 из pcap-файла DARPA?

Недавно я работал с пакетами сетевого трафика DARPA и его производной версией, используемой в KDD99 для оценки обнаружения вторжений.

Извините за мои ограниченные познания в области компьютерных сетей, но я смог получить только 9 признаков из заголовков пакетов DARPA. и Не 41 функция, используемая в KDD99.

Я намерен продолжить свою работу над набором данных для оценки обнаружения вторжений UNB ISCX. Однако я хочу извлечь из файлов pcap 41 функцию, используемую в KDD99, и сохранить их в формате CSV. Есть ли быстрый/простой способ добиться этого?

machine-learning pcap intrusion-detection

amaatouq 30.12.2012 источник

Ответы (1)

arrow_upward
9
arrow_downward

Будьте осторожны с этим набором данных.

http://www.kdnuggets.com/news/2007/n18/4i.html

Некоторые выдержки:

искусственные данные были сгенерированы с использованием закрытой сети, некоторых проприетарных генераторов сетевого трафика и ручных атак.

Среди поднятых вопросов наиболее важным, по-видимому, было то, что никогда не проводилась проверка, чтобы показать, что набор данных DARPA действительно выглядит как реальный сетевой трафик.

В 2003 году Махони и Чан построили простую систему обнаружения вторжений и проверили ее на данных tcpdump DARPA. Они обнаружили многочисленные нарушения, в том числе то, что из-за способа генерации данных все вредоносные пакеты имели TTL 126 или 253, тогда как почти все безопасные пакеты имели TTL 127 или 254.

набор данных DARPA (и, соответственно, набор данных KDD Cup '99) был в корне неверным, и нельзя было сделать никаких выводов из каких-либо экспериментов, проведенных с их использованием

мы настоятельно рекомендуем (1) всем исследователям прекратить использование набора данных KDD Cup '99.

Что касается используемого извлечения признаков. IIRC, большинство функций просто были атрибутами проанализированных заголовков IP/TCP/UDP. Например, номер порта, последний октет IP и некоторые флаги пакетов.

Таким образом, эти данные больше не отражают реалистичные атаки. Сегодняшние стеки TCP/IP намного надежнее, чем во времена создания набора данных, когда ping-запрос мгновенно блокировал хост Windows. Теперь каждый разработчик стека TCP/IP должен знать о риске таких искаженных пакетов и проводить стресс-тестирование стека против таких вещей.

При этом эти функции стали практически бессмысленными. Неправильно установленные SYN-флаги и т.п. больше не используются в сетевых атаках; они намного сложнее; и, скорее всего, атакует уже не стек TCP/IP, а службы, работающие на следующем уровне. Так что я бы не стал выяснять, какие низкоуровневые флаги пакетов использовались в ошибочной симуляции 99-го с использованием атак, которые работали в начале 90-х...

Has QUIT--Anony-Mousse 30.12.2012

comment

(Однако понимание того, что извлечение признаков необходимо обновлять с течением времени, является ценным выводом, который можно сделать из этого набора данных. ;-)) - Has QUIT--Anony-Mousse; 30.12.2012

comment

Большое спасибо за ваш вклад. Я знаю о подводных камнях этого набора данных и планирую использовать набор данных для оценки обнаружения вторжений UNB ISCX. Однако меня больше интересует визуализация поведения сети и попытка (в некоторой степени) ответить на вопрос, можем ли мы отличить аномалии, связанные со вторжениями, от аномалий, связанных с другими факторами. Поэтому мне нужно извлечь как можно больше значимой информации из сетевого трафика. Есть ли инструмент, который мог бы помочь мне в достижении этого? - amaatouq; 31.12.2012

comment

Ну, это не настоящие аномалии, а смоделированные, и они больше не будут выглядеть так в современных сетях. Но вы можете попробовать текстовый экспорт wireshark. Возможно, его можно настроить для подробного перечисления флагов заголовков TCP/IP. В противном случае вам придется искать битовые позиции самостоятельно. Но опять же: они больше не имеют значения для сегодняшних сетей. - Has QUIT--Anony-Mousse; 31.12.2012

comment

Набор данных оценки обнаружения вторжений UNB ISCX (iscx.ca/dataset) датируется 2012 годом и, по мнению некоторых исследователей, является одним из очень немногих, которые действительно отражают сегодняшний сетевой трафик. Я пытался использовать wireshark ... но экспорт текста не дает вам много информации ... какие особенности сетевого трафика, по вашему мнению, представляют собой сегодняшнюю атаку? или если вы можете найти источник для меня :) - amaatouq; 31.12.2012

comment

Сегодняшняя схема атаки в основном требует глубокой проверки пакетов. т.е. смотрите на полезную нагрузку, а не на необработанные пакеты. Самый распространенный шаблон атаки — SQL-инъекция. Он вообще не отображается в заголовках TCP, но будет выглядеть как законный трафик, пока вы не посмотрите на настоящий HTTP-запрос. Набор данных UNB, по-видимому, сосредоточен на DDoS-атаках и атаках грубой силы, которые, вероятно, будут проявляться в виде временных аномальных микрокластеров. Но вам не понадобятся флаги TCP SYN и тому подобное. - Has QUIT--Anony-Mousse; 31.12.2012

Как получить функции KDD99 из pcap-файла DARPA?

Ответы (1)

Похожие вопросы