Тренировочные данные для фишинговых или спам-твитов

Я хочу выполнить обнаружение фишинга/спама в твиттере. Я получил около 500 000 твитов через Streaming API, предоставленный Twitter. Затем я извлекаю URL-адрес из этих твитов и отправляю их в два черных списка — Google Safebrowsing и Phishtanks, чтобы получить общее представление о том, является ли это фишинговой ссылкой или нет. Проблема здесь в том, что по результатам моего эксперимента я не могу набрать достаточное количество образцов фишинговых твитов. Существуют ли какие-либо существующие данные твитов, которые уже помечены как вредоносные/обычные, чтобы я мог продолжать свою работу?


person Charlotte    schedule 09.02.2015    source источник


Ответы (1)


черный список URL-адресов не работает, потому что есть задержка. Вы можете использовать приостановленную учетную запись в качестве метки, но вы должны обратить внимание, что не все приостановленные учетные записи являются фишинговыми учетными записями.

person Li Zude    schedule 27.06.2016