Привет, Христо Зоннев. Спасибо за красивую статью! 👌

Позвольте мне добавить несколько замечаний о привычках или действиях, которые обычно хорошо работают на соревнованиях по науке о данных:

  1. Читайте решения аналогичных конкурсов или задач. Это время, проведенное не зря, и у вас будет масса идей! Более того, это рецепты, которые просто работают на практике, поэтому вам не придется изобретать велосипед.
  2. Автоматизируйте свою работу, чтобы сосредоточиться на функциях и моделировании. Просто убедитесь, что вы отслеживаете свой прогресс и сохраняете легко расширяемый код. Для этих целей я использую steppy библиотеку Python, которая упрощает мою жизнь кодирования, и neptune для отслеживания экспериментов, параметров и результатов.
  3. Начните с хорошего дизайна проверки. Убедитесь, что ваша валидация правильно разработана и вы можете на нее положиться.

Одно замечание о недостающих значениях. Некоторые алгоритмы имеют встроенные подпрограммы, которые обрабатывают отсутствующие значения (или NaNs вкратце), например XGBoost и LightGBM (оба метода с градиентным усилением). Стоит попробовать, прежде чем вводить некоторые значения. Однако, если вы решите заполнить пробелы, я бы порекомендовал Fancy impute 👉 пакет Python для многомерного вменения и завершения матрицы.