Привет, Христо Зоннев. Спасибо за красивую статью! 👌
Позвольте мне добавить несколько замечаний о привычках или действиях, которые обычно хорошо работают на соревнованиях по науке о данных:
- Читайте решения аналогичных конкурсов или задач. Это время, проведенное не зря, и у вас будет масса идей! Более того, это рецепты, которые просто работают на практике, поэтому вам не придется изобретать велосипед.
- Автоматизируйте свою работу, чтобы сосредоточиться на функциях и моделировании. Просто убедитесь, что вы отслеживаете свой прогресс и сохраняете легко расширяемый код. Для этих целей я использую steppy библиотеку Python, которая упрощает мою жизнь кодирования, и neptune для отслеживания экспериментов, параметров и результатов.
- Начните с хорошего дизайна проверки. Убедитесь, что ваша валидация правильно разработана и вы можете на нее положиться.
Одно замечание о недостающих значениях. Некоторые алгоритмы имеют встроенные подпрограммы, которые обрабатывают отсутствующие значения (или NaNs
вкратце), например XGBoost и LightGBM (оба метода с градиентным усилением). Стоит попробовать, прежде чем вводить некоторые значения. Однако, если вы решите заполнить пробелы, я бы порекомендовал Fancy impute 👉 пакет Python для многомерного вменения и завершения матрицы.