Список действительно полезных онлайн-ресурсов.

Как аспирант я довольно хорошо разбираюсь в алгоритмах машинного обучения, но все же считаю собеседования с машинным обучением сложными. Проблема возникает из-за того, что в проекте машинного обучения есть гораздо больше, чем просто подгонка модели. В большинстве учебников освещаются скорее технические детали, которые скрываются под капотом model.train (). Требуются два очень разных набора навыков, чтобы извлечь все из учебника машинного обучения и найти подходящее решение машинного обучения для конкретного случая использования. Кроме того, не шутка раскрыть сложность проекта машинного обучения и связно обсудить его под давлением. Готовясь к собеседованию по машинному обучению в технологических компаниях, я старался сохранить широкий диапазон и проанализировать наиболее широко используемые варианты использования машинного обучения.

  1. Это руководство Facebook служит хорошей общей основой, помимо «проверки и тестирования обучения». Ключевые моменты здесь: поиск источников данных и эксперименты. Часто проекты машинного обучения сосредотачиваются на том, что делать с данными, но более важный вопрос - как найти соответствующие данные. Экспериментирование - еще один аспект, о котором меньше говорят, поскольку большинство созданных моделей машинного обучения не развертываются.


Представляем серию видеороликов Facebook« Полевое руководство по машинному обучению
Полевое руководство Facebook по машинному обучению - это серия видеороликов из шести частей, разработанная с помощью технологии машинного обучения Facebook Ads… research.fb.com »



2. Сообщение в блоге Андрея Карпати великолепно, поскольку в нем описывается весьма практичный процесс глубокого обучения, который начинается с простейшей базовой линии и постепенно повторяется. Я верю в этот процесс. Это отчасти противоречит тому, что делают многие люди, в том смысле, что у них возникает желание немедленно использовать наиболее сложную модель. Кроме того, с точки зрения собеседования, упоминание о модных моделях более опасно, чем впечатляет, если вы действительно не разбираетесь в своих вещах.



3. В этом сообщении в блоге Airbnb рассказывается, как они построили поиск на нескольких этапах. Замечательно, что они поделились столькими подробностями о своем подходе к проблеме. Когда вы расставляете приоритеты в правильных аспектах проблемы, решение появляется естественным образом. Во время собеседования по ML очень важно определить основные цели и знать об ограничениях.



4. Я думаю, что книга Кевина Мерфи является отличным справочником для людей с математическим образованием и терпением, чтобы пройти через нее. Однако книга Hal Daumé III гораздо более лаконична, а в приведенной ниже шпаргалке представлены самые популярные концепции викторин. Вы не хотите пропускать основной вопрос или тратить время на ненужную математику (ради собеседований).





5. Если имеется достаточно высококачественных данных с маркировкой, как в большинстве соревнований Kaggle, использование случайных лесов или градиентное усиление с полки приведет вас к этому. Скорее всего, вы не победите победителя Kaggle, но на практике кого волновало улучшение на 0,1%? В Elements of Statistical Learning есть хорошие главы о случайных лесах и повышении градиента, но ниже - более короткая статья. Кроме того, вероятно, стоит знать, как рассчитывается важность функции в scikit-learn.





6. Алгоритм матричной факторизации Саймона Фанка для приза Netflix на удивление прост, а логика, лежащая в его основе, интуитивно понятна. Мы просто делаем линейную проекцию векторов пользователей и векторов элементов в скрытое пространство, где их сходство определяет вероятность рекомендации. Можно утверждать, что изучение подходящего латентного представления - это суть машинного обучения.



7. На практике, однако, есть много соображений, связанных с конкретными вариантами использования, по сравнению с конкурентами Netflix. Конкуренция Netflix в основном имеет фиксированные данные, но что, если новые данные появляются постоянно? Кроме того, что, если мы сможем включить данные о самих предметах? Этот курс Google предоставляет более подробное руководство.



8. Этот пост в блоге в Instagram определенно выводит дизайн системы рекомендаций на новый уровень. Он основан на вещах, упомянутых выше, и сильно оптимизируется для их конкретных случаев использования.



9. Это видео на Facebook предлагает взгляд на развертывание модели и на удивление раскрывает их решения машинного обучения для нескольких вариантов использования на высоком уровне. Все, кто хочет использовать глубокие нейронные сети для решения каждой проблемы, должны посмотреть это видео.

10. Вернемся к экспериментам: все слышали о многоруком бандите, но как это на самом деле работает?

Https://peterroelants.github.io/posts/multi-armed-bandit-implementation/