С наукой о данных

Есть множество причин, по которым кто-то хотел бы найти уединение в дикой природе, от терапевтического эффекта погружения в природу до нежелания способствовать деградации тропы и эрозии почвы на более загруженных тропах.

Сейчас более чем когда-либо крайне необходима передышка на свежем воздухе. Но в мире после COVID 19, где может быть практически невозможно поддерживать надлежащие меры социального дистанцирования при проезде пешеходов по узкой тропе, особенно важно найти менее посещаемые маршруты для пеших прогулок.

Я поставил перед собой задачу использовать науку о данных и машинное обучение, чтобы найти лучшие малоизвестные тропы в Америке.

Подход

Если вы хоть немного похожи на меня, прежде чем пойти куда-нибудь или что-нибудь купить, прочтите все отзывы.

Когда я впервые подошел к этому проекту, я хотел ответить на вопрос: «Что делает тропу хорошей?» То есть какая комбинация характеристик и статистики о тропе приведет к тому, что она получит высокий общий рейтинг?

Однако я довольно быстро выяснил, что из 35 000 пешеходных маршрутов, которые я соскребал и анализировал, в основном все они получили оценку «довольно хорошо», то есть со средней оценкой пользователей 4,2 из 5 звезд и стандартным отклонением меньше. чем 0,6, было действительно трудно отличить, какие трассы были отличными, а какие просто нормальными, только по их 5-звездочному рейтингу.

Но что было огромным разбросом по всем трассам, так это их популярность, которая выражалась общим количеством отзывов, которые были у каждой трассы. В то время как у подавляющего большинства маршрутов было всего около 100 отзывов, у избранных было несколько тысяч! Что делало эти маршруты такими популярными?

Таким образом, я попытался предсказать не рейтинг следа, а вместо этого определить с помощью модели, управляемой данными, взаимосвязь между различными характеристиками данного следа и его популярностью. Находя общие черты, я мог затем применить эту модель к непопулярным маршрутам, чтобы найти, какие из них отмечены одинаковыми флажками и, вероятно, будут отличными, даже если они еще не обнаружены.

Методология

  1. С помощью Selenium и Beautiful Soup вы можете сканировать веб-страницы, чтобы получить данные о 35000 маршрутах в Соединенных Штатах. Это включало информацию о длине похода, его увеличении высоты, его местоположении и список всех природных особенностей (таких как водопад, дикие цветы, мощение), которые имелась на тропе.
  2. ) Очистите эти данные и создайте фрейм данных Pandas. Это включало фиктивные переменные с горячим кодированием для всех столбцов категориальных функций.
  3. ) Используйте модуль анализа настроений VADER для анализа текстовых обзоров с помощью простой обработки естественного языка для каждого следа и определения среднего суммарного балла.
  4. ) Используйте методологии моделирования линейной регрессии, включая Statsmodels OLS, чтобы определить взаимосвязь между характеристиками следа и его популярностью.
  5. ) Выполните проектирование функций и регуляризацию с помощью LassoCV, чтобы удалить мультиколлинеарность среди этих функций и оптимизировать модель.
  6. ) Примените эту модель к тропам, которые описываются как «слабо посещаемые», чтобы найти маршруты, которые, как ожидается, будут популярны на основе сочетания их характеристик, но пока еще не обнаружены.

Результаты

Модель линейной регрессии соответствовала статистике следа с количеством отзывов (и, следовательно, популярностью), служащими целевой переменной. Модель позволила составить список наиболее влиятельных характеристик, благодаря которым она стала популярной. К ним относятся наличие комиссии, высокий балл анализа тональности, неустойчивость и схватка и без тени, среди прочего.

Я интерпретирую эти важные особенности так:

  • Плата. Если за использование наиболее популярных маршрутов взимается плата, это означает, что они, скорее всего, расположены на территории национальных парков. Поскольку многие национальные парки закрыты из-за COVID или могут быть очень загружены, еще более важно найти альтернативу.
  • Оценка анализа настроений. Поскольку все маршруты имеют примерно одинаковую оценку из 5 звезд, сложно собрать много достоверной информации об их качестве только на основе этого рейтинга. Используя обработку естественного языка для анализа самих текстовых обзоров, я смог получить действительно полезную метрику для определения того, что люди на самом деле думают о тропе. Чем выше оценка (по шкале от -1 = очень отрицательно до +1 = очень положительно), тем более сильные люди относились к тропе положительно, что было очень полезно при поиске скрытых драгоценных камней.
  • Каменистый / скрембл / без тени. Мне это говорит о том, что очень популярные тропы проходят над линией деревьев! Эти особенности встречаются именно в более сложных походах с большим набором высоты. А чем выше высота, тем лучше обзор! Оказывается, людям нравятся эти более сложные трассы.

R² этой модели был оптимизирован до 0,19. Хотя это не очень высокий балл, ниже вы можете увидеть, что это связано с тем, что связь между характеристиками трассы и популярностью просто не является линейной. График остатков ниже, показывающий разницу между прогнозируемыми значениями популярности и фактическими значениями, демонстрирует это довольно четко (если бы это было линейно зависимым, все остатки упали бы в довольно горизонтальную полосу около 0!) Итак, что на самом деле определяет популярность маршрута, если бы он не имел все правильные черты популярной тропы?

Мой главный вывод заключался в том, что при просмотре трейлов пользователям в первую очередь показываются трейлы с наибольшим количеством отзывов, что приводит к некоторой форме смещения рекурсивного подтверждения. Если все маршруты имеют примерно одинаковый рейтинг, пользователи обратятся к обзорам, чтобы определить, хороша ли трасса, выберут одну с большим количеством обзоров, тем самым подпитывая петлю, делая очень немногие самые загруженные маршруты еще более загруженными. Между тем, у других подобных маршрутов может быть много возможностей, но ими пренебрегают.

Так что же делает маршрут популярным?

В Соединенных Штатах есть десятки тысяч походов, которые можно найти в Интернете. Обычно маршруты с наибольшим количеством отзывов получают больше всего походов и, следовательно, еще больше отзывов; в то время как менее известные тропы могут быть просто хорошими, но их труднее найти на веб-сайте, и трудно сказать наверняка, будут ли они хорошей трассой, если у них так мало оценок.

Так что же делает тропу популярной? В конечном итоге алгоритм поиска делает.

Пришло время разорвать эту петлю обратной связи и найти несколько замечательных альтернативных маршрутов, где мы сможем избежать скопления людей. Но как вы узнаете, стоит ли тропа вашего времени? Что ж, я использовал машинное обучение, чтобы сделать эту работу за вас.

Я подобрал лучшую модель для подмножества трасс, которые были обозначены как «слабо посещаемые», и R² для этих трасс составил 0,08. Это на самом деле обнадеживает, учитывая, что это именно набор трасс, которые не популярны, но, судя по всему, с учетом их особенностей, должны быть.

Потенциальной областью будущей работы для этого проекта может быть подгонка модели полиномиальных характеристик вместо линейной. Раннее изучение этого метода дало многообещающее улучшение R² до 0,26, но вызвало некоторую коллинеарность функций за счет дублирования функций, которые должны были быть спроектированы функцией. Я с нетерпением жду продолжения этой работы, когда в моем распоряжении будет больше инструментов машинного обучения! Но я очень рад представить вам этот список лучших малоизвестных маршрутов в Америке в качестве моего первого проекта в области непрерывной науки о данных.

Поход по тропам

Ознакомьтесь с скрытыми жемчужинами в вашем штате ниже!