Десять элементов собеседований по машинному обучению

Список действительно полезных онлайн-ресурсов.

Как аспирант я довольно хорошо разбираюсь в алгоритмах машинного обучения, но все же считаю собеседования с машинным обучением сложными. Проблема возникает из-за того, что в проекте машинного обучения есть гораздо больше, чем просто подгонка модели. В большинстве учебников освещаются скорее технические детали, которые скрываются под капотом model.train (). Требуются два очень разных набора навыков, чтобы извлечь все из учебника машинного обучения и найти подходящее решение машинного обучения для конкретного случая использования. Кроме того, не шутка раскрыть сложность проекта машинного обучения и связно обсудить его под давлением. Готовясь к собеседованию по машинному обучению в технологических компаниях, я старался сохранить широкий диапазон и проанализировать наиболее широко используемые варианты использования машинного обучения.

Это руководство Facebook служит хорошей общей основой, помимо «проверки и тестирования обучения». Ключевые моменты здесь: поиск источников данных и эксперименты. Часто проекты машинного обучения сосредотачиваются на том, что делать с данными, но более важный вопрос - как найти соответствующие данные. Экспериментирование - еще один аспект, о котором меньше говорят, поскольку большинство созданных моделей машинного обучения не развертываются.

Представляем серию видеороликов Facebook« Полевое руководство по машинному обучению
Полевое руководство Facebook по машинному обучению - это серия видеороликов из шести частей, разработанная с помощью технологии машинного обучения Facebook Ads… research.fb.com »

2. Сообщение в блоге Андрея Карпати великолепно, поскольку в нем описывается весьма практичный процесс глубокого обучения, который начинается с простейшей базовой линии и постепенно повторяется. Я верю в этот процесс. Это отчасти противоречит тому, что делают многие люди, в том смысле, что у них возникает желание немедленно использовать наиболее сложную модель. Кроме того, с точки зрения собеседования, упоминание о модных моделях более опасно, чем впечатляет, если вы действительно не разбираетесь в своих вещах.

Рецепт обучения нейронных сетей
Несколько недель назад я опубликовал твит о« наиболее распространенных ошибках нейронных сетей , в котором перечислены несколько распространенных ошибок, связанных с… karpathy.github.io »

3. В этом сообщении в блоге Airbnb рассказывается, как они построили поиск на нескольких этапах. Замечательно, что они поделились столькими подробностями о своем подходе к проблеме. Когда вы расставляете приоритеты в правильных аспектах проблемы, решение появляется естественным образом. Во время собеседования по ML очень важно определить основные цели и знать об ограничениях.

Поисковый рейтинг Airbnb на основе машинного обучения
Как мы создали и протестировали платформу поискового рейтинга машинного обучения для нового двустороннего рынка и как мы… medium.com

4. Я думаю, что книга Кевина Мерфи является отличным справочником для людей с математическим образованием и терпением, чтобы пройти через нее. Однако книга Hal Daumé III гораздо более лаконична, а в приведенной ниже шпаргалке представлены самые популярные концепции викторин. Вы не хотите пропускать основной вопрос или тратить время на ненужную математику (ради собеседований).

Курс машинного обучения
Машинное обучение - это изучение алгоритмов, которые учатся на основе данных и опыта. Он применяется в большом количестве… ciml.info

Преподавание - CS 229
Хотели бы вы увидеть этот набор шпаргалок на вашем родном языке? Вы можете помочь нам перевести их на GitHub! Мой… stanford.edu

5. Если имеется достаточно высококачественных данных с маркировкой, как в большинстве соревнований Kaggle, использование случайных лесов или градиентное усиление с полки приведет вас к этому. Скорее всего, вы не победите победителя Kaggle, но на практике кого волновало улучшение на 0,1%? В Elements of Statistical Learning есть хорошие главы о случайных лесах и повышении градиента, но ниже - более короткая статья. Кроме того, вероятно, стоит знать, как рассчитывается важность функции в scikit-learn.

Повышение градиента с нуля
Упрощение сложного алгоритма medium.com

Суммирование важности функций в Scikit-learn для набора функций
begingroup $ TL, DR: да, это совершенно верно для суммирования важности по наборам функций. В scikit-learn важность… stats.stackexchange.com

6. Алгоритм матричной факторизации Саймона Фанка для приза Netflix на удивление прост, а логика, лежащая в его основе, интуитивно понятна. Мы просто делаем линейную проекцию векторов пользователей и векторов элементов в скрытое пространство, где их сходство определяет вероятность рекомендации. Можно утверждать, что изучение подходящего латентного представления - это суть машинного обучения.

Обновление Netflix: попробуйте это дома
›] Обновление Netflix: попробуйте дома [Продолжение] Хорошо, вот где я расскажу все о том, как я (теперь мы ) должно быть… sifter.org

7. На практике, однако, есть много соображений, связанных с конкретными вариантами использования, по сравнению с конкурентами Netflix. Конкуренция Netflix в основном имеет фиксированные данные, но что, если новые данные появляются постоянно? Кроме того, что, если мы сможем включить данные о самих предметах? Этот курс Google предоставляет более подробное руководство.

8. Этот пост в блоге в Instagram определенно выводит дизайн системы рекомендаций на новый уровень. Он основан на вещах, упомянутых выше, и сильно оптимизируется для их конкретных случаев использования.

Базовое моделирование в Instagram
У нас в Instagram много команд машинного обучения. Хотя все они работают над разными частями продукта, все они… instagram-engineering.com

9. Это видео на Facebook предлагает взгляд на развертывание модели и на удивление раскрывает их решения машинного обучения для нескольких вариантов использования на высоком уровне. Все, кто хочет использовать глубокие нейронные сети для решения каждой проблемы, должны посмотреть это видео.

10. Вернемся к экспериментам: все слышали о многоруком бандите, но как это на самом деле работает?

Https://peterroelants.github.io/posts/multi-armed-bandit-implementation/

Десять элементов собеседований по машинному обучению

Список действительно полезных онлайн-ресурсов.

Похожие вопросы