Какой объем текста может обрабатывать Weka?

У меня есть задача анализа настроений, и мне нужно указать, сколько данных (в моем случае текста) может обрабатывать weka. У меня есть корпус из 2500 мнений, уже помеченных. Я знаю, что это небольшой корпус, но мой научный руководитель просит меня конкретно обсудить, сколько данных может обрабатывать Weka.


person anon    schedule 22.09.2014    source источник


Ответы (1)


Ваше ограничение с Weka будет зависеть от того, какой алгоритм обучения вы используете, и сколько памяти у вас есть для обучения. Большинство классификаторов требуют, чтобы весь набор был загружен в память для обучения, но есть и варианты для потоковой передачи данных. Дополнительную информацию см. на странице weka, посвященной большим данным.

Для такого небольшого набора данных, как ваш, у вас не возникнет никаких проблем. Однако с любой проблемой больших данных вы достигаете точки, когда вы больше не можете просто написать сценарий на одной машине. С Weka все так же, и есть способы заставить его работать, как только вы туда доберетесь. Насколько мне известно, нет жесткого ограничения на объем данных, которые вы сможете обработать, при наличии достаточных аппаратных ресурсов, времени и изобретательности.

person ealdent    schedule 22.09.2014