Джош Ту 4S113 (Лидер), Го Ку Фэн 4S205, Чу Хон Джин 4S202

Мы — группа студентов из Института Хва Чонг, работающих над проектом под названием «Прогнозирование объема трафика на основе корреляционных параметров». Используя машинное обучение, мы стремимся создать программу, которая будет заранее знать о состоянии дорог, таких как интенсивность движения, чтобы пассажиры могли планировать свое движение в соответствии со своим плотным графиком. В настоящее время мы работаем над алгоритмом и используем наборы данных Управления наземного транспорта Сингапура (LTA), а также data.gov.sg, которые позволят нам прогнозировать объем трафика в будущем.

Цели

  1. Выявить условия, влияющие на объем трафика в центральном деловом районе Сингапура.
  2. Изучить различные методы машинного обучения для прогнозирования объема трафика.
  3. Чтобы включить машинное обучение в ситуации реального времени, когда условия движения меняются.

Исследовательские вопросы

  1. Как определенное движение или окружающие условия влияют на интенсивность движения в центральном деловом районе Сингапура?
  2. Как создать алгоритм, который может прогнозировать объем трафика с помощью машинного обучения?
  3. Как внедрить алгоритм в ситуации реального времени, когда дорожные условия меняются?

Обзор литературы

Основы науки о данных

Термин «наука о данных» впервые был использован в 1974 году в книге ученого-компьютерщика Питера Наура «Краткий обзор компьютерных методов» в качестве альтернативного термина для компьютерных наук. Наур (1974) определил это как «науку о работе с данными, как только они были установлены, в то время как отношение данных к тому, что они представляют, делегировано другим областям и наукам». Национальный совет по науке предложил альтернативное определение в своей статье 2005 года «Долгоживущие коллекции цифровых данных: обеспечение исследований и образования в 21 веке», определяя специалистов по данным как тех, кто помогает в «успешном управлении сбором цифровых данных» с « творческое исследование и анализ» с использованием данных (Национальный совет по науке, 2005).

Кливленд (2001) представил концепцию науки о данных как междисциплинарной области статистики, которая включает в себя «достижения в области вычислений с данными». В статье изложены шесть технических областей, в которые вовлечена наука о данных, а именно: междисциплинарные исследования, модели и методы для данных, вычисления с данными, педагогика, оценка инструментов и теория.

Одним из применений в науке о данных является машинное обучение, один из компьютерных алгоритмов анализирует данные, которые автоматизируют построение аналитической модели. Эти алгоритмы могут превзойти традиционные программы и профессионалов — например, в октябре 2015 года Google AlphaGo обыграл профессионального игрока в го с 9 данами (самый высокий рейтинг в го) Ли Седоля со счетом 4–1 без гандикапов, а в августе 2017 года открытый ИИ Илона Маска, который использовал машинное обучение без присмотра обыгрывает лучших профессионалов в популярной онлайн-игре DOTA 2 без форы.

Используемые методы прогнозирования объема трафика

По словам ученого Т. (nd), их первая попытка приблизиться к прогнозированию объема трафика на марокканской сети автомобильных дорог была в основном основана на статистических моделях, но на большинстве станций она дала плохие результаты. Это было связано с большими несезонными колебаниями данных, которые эти традиционные модели не могли объяснить. Затем они решили двигаться дальше, приняв некоторые методы машинного обучения. После тестирования нескольких алгоритмов они выбрали те из них, которые имеют наилучшие показатели точности, в том числе:

Случайный лес. Это контролируемый алгоритм классификации. Как следует из названия, этот алгоритм создает лес из нескольких деревьев. В целом, чем больше деревьев в лесу, тем крепче выглядит лес. Точно так же в классификаторе случайного леса чем больше количество деревьев в лесу, тем выше точность результатов. Его основными параметрами являются: количество деревьев в лесу, количество признаков, которые следует учитывать при поиске наилучшего разделения, минимальное количество выборок, необходимых для разделения внутреннего узла, и минимальное количество выборок, необходимых для того, чтобы быть на листе.

Многослойный персептрон. MLP – это сеть простых нейронов, называемых персептронами. Персептрон вычисляет один выходной сигнал из множества входных данных с действительным знаком, формируя линейную комбинацию в соответствии со своими входными весами, а затем, возможно, пропуская выход через некоторую нелинейную функцию активации. Многослойный Perceptron чувствителен к масштабированию функций, поэтому настоятельно рекомендуется масштабировать данные. Его параметры включают в себя: параметр регуляризации, количество скрытых слоев и количество нейронов в каждом слое и максимальное количество итераций.

Методология

  1. Чтобы прочитать и изучить различные алгоритмы машинного обучения, которые можно использовать для прогнозирования объема трафика.
  2. Чтобы определить любую корреляцию между параметрами и объемом трафика из общедоступных наборов данных, используйте R и Python.
  3. Чтобы смоделировать и свести в таблицу прогноз алгоритма машинного обучения на карте Сингапура для общественного использования пригородных поездов с помощью интерактивных карт, таких как Tableau.

Ссылки

[1] Simplystatistics.org. (2018). Ключевое слово в науке о данных — это не данные, это наука. · Просто статистика. [онлайн] Доступно по адресу: https://simplystatistics.org/2013/12/12/the-key-word-in-data-science-is-not-data-it-is-science/ [Проверено 8 марта , 2018].

[2] Наур, П. (1974). Краткий обзор компьютерных методов. 1-е изд. Лунд: Студенческая литература, стр. Глава 1.1. Проверено 7 марта 2018 г.

[3] Национальный совет по науке. Долгоживущие цифровые коллекции данных, позволяющие проводить исследования и образование в 21 веке. Национальный научный фонд. Проверено 6 марта 2018 г.

[4] Cleveland, WS (2001). Наука о данных: план действий по расширению технических областей области статистики. Международный статистический обзор / Revue Internationale de Statistique, 21–26. Проверено 7 марта 2018 г.

[5] Scientist, T. (nd). Подходы машинного обучения для прогнозирования объемов трафика:. Получено 12 марта 2018 г. с https://www.thesisscientist.com/docs/Articles/a4f09b95-0265-4480-a47e-a8bd6f81cdac