Как получить функции KDD99 из pcap-файла DARPA?

Недавно я работал с пакетами сетевого трафика DARPA и его производной версией, используемой в KDD99 для оценки обнаружения вторжений.

Извините за мои ограниченные познания в области компьютерных сетей, но я смог получить только 9 признаков из заголовков пакетов DARPA. и Не 41 функция, используемая в KDD99.

Я намерен продолжить свою работу над набором данных для оценки обнаружения вторжений UNB ISCX. Однако я хочу извлечь из файлов pcap 41 функцию, используемую в KDD99, и сохранить их в формате CSV. Есть ли быстрый/простой способ добиться этого?


person amaatouq    schedule 30.12.2012    source источник


Ответы (1)


Будьте осторожны с этим набором данных.

http://www.kdnuggets.com/news/2007/n18/4i.html

Некоторые выдержки:

искусственные данные были сгенерированы с использованием закрытой сети, некоторых проприетарных генераторов сетевого трафика и ручных атак.

Среди поднятых вопросов наиболее важным, по-видимому, было то, что никогда не проводилась проверка, чтобы показать, что набор данных DARPA действительно выглядит как реальный сетевой трафик.

В 2003 году Махони и Чан построили простую систему обнаружения вторжений и проверили ее на данных tcpdump DARPA. Они обнаружили многочисленные нарушения, в том числе то, что из-за способа генерации данных все вредоносные пакеты имели TTL 126 или 253, тогда как почти все безопасные пакеты имели TTL 127 или 254.

набор данных DARPA (и, соответственно, набор данных KDD Cup '99) был в корне неверным, и нельзя было сделать никаких выводов из каких-либо экспериментов, проведенных с их использованием

мы настоятельно рекомендуем (1) всем исследователям прекратить использование набора данных KDD Cup '99.

Что касается используемого извлечения признаков. IIRC, большинство функций просто были атрибутами проанализированных заголовков IP/TCP/UDP. Например, номер порта, последний октет IP и некоторые флаги пакетов.

Таким образом, эти данные больше не отражают реалистичные атаки. Сегодняшние стеки TCP/IP намного надежнее, чем во времена создания набора данных, когда ping-запрос мгновенно блокировал хост Windows. Теперь каждый разработчик стека TCP/IP должен знать о риске таких искаженных пакетов и проводить стресс-тестирование стека против таких вещей.

При этом эти функции стали практически бессмысленными. Неправильно установленные SYN-флаги и т.п. больше не используются в сетевых атаках; они намного сложнее; и, скорее всего, атакует уже не стек TCP/IP, а службы, работающие на следующем уровне. Так что я бы не стал выяснять, какие низкоуровневые флаги пакетов использовались в ошибочной симуляции 99-го с использованием атак, которые работали в начале 90-х...

person Has QUIT--Anony-Mousse    schedule 30.12.2012
comment
(Однако понимание того, что извлечение признаков необходимо обновлять с течением времени, является ценным выводом, который можно сделать из этого набора данных. ;-)) - person Has QUIT--Anony-Mousse; 30.12.2012
comment
Большое спасибо за ваш вклад. Я знаю о подводных камнях этого набора данных и планирую использовать набор данных для оценки обнаружения вторжений UNB ISCX. Однако меня больше интересует визуализация поведения сети и попытка (в некоторой степени) ответить на вопрос, можем ли мы отличить аномалии, связанные со вторжениями, от аномалий, связанных с другими факторами. Поэтому мне нужно извлечь как можно больше значимой информации из сетевого трафика. Есть ли инструмент, который мог бы помочь мне в достижении этого? - person amaatouq; 31.12.2012
comment
Ну, это не настоящие аномалии, а смоделированные, и они больше не будут выглядеть так в современных сетях. Но вы можете попробовать текстовый экспорт wireshark. Возможно, его можно настроить для подробного перечисления флагов заголовков TCP/IP. В противном случае вам придется искать битовые позиции самостоятельно. Но опять же: они больше не имеют значения для сегодняшних сетей. - person Has QUIT--Anony-Mousse; 31.12.2012
comment
Набор данных оценки обнаружения вторжений UNB ISCX (iscx.ca/dataset) датируется 2012 годом и, по мнению некоторых исследователей, является одним из очень немногих, которые действительно отражают сегодняшний сетевой трафик. Я пытался использовать wireshark ... но экспорт текста не дает вам много информации ... какие особенности сетевого трафика, по вашему мнению, представляют собой сегодняшнюю атаку? или если вы можете найти источник для меня :) - person amaatouq; 31.12.2012
comment
Сегодняшняя схема атаки в основном требует глубокой проверки пакетов. т.е. смотрите на полезную нагрузку, а не на необработанные пакеты. Самый распространенный шаблон атаки — SQL-инъекция. Он вообще не отображается в заголовках TCP, но будет выглядеть как законный трафик, пока вы не посмотрите на настоящий HTTP-запрос. Набор данных UNB, по-видимому, сосредоточен на DDoS-атаках и атаках грубой силы, которые, вероятно, будут проявляться в виде временных аномальных микрокластеров. Но вам не понадобятся флаги TCP SYN и тому подобное. - person Has QUIT--Anony-Mousse; 31.12.2012