Процесс предсказания будущих событий на основе нескольких записанных чисел из прошлых событий невероятен. Изначально собирались огромные объемы данных, но с ними мало что делалось, кроме некоторой базовой аналитики.

Как только предприятия и организации открыли для себя силу науки о данных, произошел взрывной рост прогнозного анализа с машинным обучением и искусственным интеллектом почти во всех областях.

Хотя есть несколько приложений, я выбрал пять приложений, которые оставили неизгладимый след в соответствующих областях. Я попытаюсь объяснить концепцию, данные, методы предварительной обработки и используемые алгоритмы.

1. Прогнозирование аллергии на окружающую среду:

Организация:Stanford Medicine, Пало-Альто, Калифорния.

Аллергия на окружающую среду — это иммунный ответ на что-то в вашем окружении, которое обычно безвредно для большинства людей. Экологические аллергии варьируются от человека к человеку, но симптомы могут включать чихание, кашель и усталость. Аллергия на окружающую среду — это реакция на триггеры, с которыми вы соприкасаетесь, в вашем окружении или вдыхаете во время своей обычной деятельности.

Если у вас насморк, одышка, зуд, свистящее дыхание, головные боли, чихание и усталость, вы, скорее всего, страдаете от аллергии на окружающую среду. Если это астма, симптомы могут быть тяжелыми, а иногда даже опасными для жизни. Распространенными аллергенами окружающей среды являются пыльца, пылевые клещи, перхоть домашних животных, плесень и сигаретный дым.

К счастью, теперь доступно несколько лекарств, включая антигистаминные препараты и иммунотерапию аллергенами. Аллергия на окружающую среду чрезвычайно разрушительна для нашей повседневной жизни. Несколько миллионов посещений больниц и несколько миллионов дней отсутствия на работе по всему миру связаны с аллергией на окружающую среду.

Если пациенты, а также врачи смогут лучше предсказать риск обострения симптомов, то можно будет принять превентивные меры для смягчения последствий аллергии. Поэтому в этом исследовании предлагается использовать модели машинного обучения, чтобы предсказать, когда у пациентов может развиться аллергия. Это делается путем интеграции данных датчиков смартфонов с дневниками симптомов, которые ведут пациенты.

Описание данных и предварительная обработка:

Используемые данные — это данные, собранные с мобильных телефонов, и дневники симптомов, которые ведут пациенты.

При предварительной обработке данных учитываются демографические данные участников, а основными признаками являются аллергические симптомы и течение заболевания. Обычными триггерами являются аллергены, выбранные пациентами, включая пыльцу, пылевых клещей и холодный воздух.

Были выполнены обычные методы предварительной обработки для работы с выбросами, т. е. отбрасывание невозможных выбросов и добавление возможных выбросов. Другие методы предварительной обработки включали замену данных оценками и удаление нежелательных факторов и нежелательных данных из набора данных.

Используемый алгоритм и обоснование:

Было проведено сравнение семи контролируемых методов классификации. Данные были обработаны с помощью логистической регрессии, KNN, SVM, наивного Байеса, дерева решений, случайного леса и мешков.

И обучающие, и тестовые данные были стратифицированы в соотношении 80 к 20.

По результатам модель случайного леса Байеса показала точность 0,816 и 0,8 в обучающем и тестовом наборах соответственно. В модели была дополнительно выполнена точная настройка количества деревьев и глубины дерева для повышения производительности модели.

Вывод:

Это исследование немного отличается, потому что теперь акцент делается на том, что пациент вводит данные. Таким образом, это модель, обращенная к пациенту, а не большинство других исследований, которые сосредоточены на клиницистах, принимающих клинические решения и использующих модели для прогнозирования.

Но по мере того, как отрасль здравоохранения становится все более активной, модели такого типа, вероятно, будут более широко использоваться в будущем.

Ссылки:

  1. https://www.medrxiv.org/content/10.1101/2020.09.21.20199224v1.full.pdf
  2. https://www.sciencedirect.com/science/article/abs/pii/S1746809421002780
  3. https://www.healthline.com/health/allergies/environmental-allergies#home-remedies

2. Допродажи и перекрестные продажи:

Организация:Университет Восточного Лондона, Великобритания.

Мы все видели, как Amazon и другие подобные сайты электронной коммерции предлагают более дорогие продукты, когда мы ищем товары по более низкой цене.

Мы все видели мобильный телефон за 11 999 фунтов стерлингов, когда искали мобильный телефон за 10 000 фунтов стерлингов. Это допродажи.

Если они могут заставить вас купить товар по более высокой цене, то это допродажа.

Помните, всякий раз, когда мы покупаем мобильный телефон, мы получаем дополнительные продукты, такие как экран из закаленного стекла или чехол для мобильного телефона, которые продают товары, которые, по их мнению, вам понадобятся. Допродажа — это когда вы рекомендуете покупателю купить более дорогой вариант продукта, который он выбрал, или это может быть дополнительная функция, такая как расширенная гарантия. Кросс-продажи — это когда вы рекомендуете сопутствующий продукт, который дополняет текущую покупку клиента. Этот товар может относиться к другой категории, но будет полезен для потребности, неудовлетворенной при первоначальной покупке.

Скажем, вы покупаете камеру, интернет-магазин предлагает штатив или какой-то специальный объектив, то есть кросс-продажи. Если коммерческий сайт предлагает другую камеру по более высокой цене и, возможно, с лучшими характеристиками, то это допродажа.

Рекомендации по кросс-продажам и допродажам — это не просто случайные рекомендации. Они следуют точной науке прогностического анализа и искусственного интеллекта, используя различные переменные-предикторы, такие как покупательское поведение клиента, прошлые покупки, оценка покупательной способности, демография, социальный статус и частота покупок.

Прогнозный анализ также суммирует вероятность реакции клиента на дополнительные и перекрестные продажи. Это очень мощный инструмент для сайтов электронной коммерции, позволяющий объединять нужные продукты и услуги, чтобы максимизировать их продажи и прибыль. Большая часть успеха дополнительных и перекрестных продаж заключается в предоставлении высоко персонализированных рекомендаций, основанных на прогнозах с прогнозным анализом.

В нашем тематическом исследовании оценка транзакционного поведения предназначена не только для подтверждения наличия хороших претендентов на кредит или раскрытия потенциала перекрестных продаж между соответствующими портфелями продуктов и услуг финансовых учреждений, но также используется для исключения плохих претендентов на кредит в потоке транзакционных платежей. .

Описание данных и предварительная обработка:

Набор данных обычно представляет собой таблицу значений, разделенных запятыми, созданную на основе кредитных рейтингов и предыдущих транзакционных историй клиента. Этот набор данных необходимо дополнительно обработать, при этом определяются признаки и метки переменных. Основными факторами, которые будут способствовать перекрестным продажам и дополнительным продажам, должна быть история транзакций.

Любые выбросы в данных необходимо обрабатывать в зависимости от того, являются ли они возможными выбросами или невозможными выбросами. Любые отсутствующие данные должны быть заменены точной оценкой или средним значением других данных.

Исследовательский анализ данных выполняется путем визуализации доступных данных до применения каких-либо моделей машинного обучения. Предварительно обработанные данные затем разбиваются на тестовые и обучающие данные, обычно 30% и 70% или 20% и 80%.

Дерево решений и случайный лес одинаково хороши для анализа данных и прогнозирования или идентификации клиентов, подходящих для дополнительных и перекрестных продаж. Но поскольку мы рассматриваем 2 переменные, лучше использовать лес решений 2 классов, чтобы проверить как личность кандидатов на перекрестные продажи, так и кредитоспособность их транзакций.

Используемые алгоритмы и обоснование:

Несколько контролируемых и неконтролируемых алгоритмов на машинном языке могут использоваться для вычисления диапазона кредитных баллов кандидатов на перекрестные продажи. Но их оптимизация обратно пропорциональна предварительно обработанному набору данных.

Дальнейшие эксперименты показывают, что двухклассный лес решений является эффективным алгоритмом для расчета и определения как кандидатов на перекрестные продажи, так и кредитоспособности их клиентов.

Вывод:

В заключение, апселлинг и кросс-продажи больше не являются интуитивными ручными задачами.

Все мы помним официанта, который предлагал: «Могу ли я предложить вам десерт вскоре после еды?»

Теперь все это берет на себя чистая наука о данных с анализом данных, прогнозным анализом и искусственным интеллектом, выявляя клиентов, которые будут восприимчивы к дополнительным и перекрестным продажам, а также продукты, основанные на покупках клиентов. Машинное обучение и анализ данных стали бесценным инструментом увеличения прибыли бизнеса.

Amazon, крупнейший в мире сайт электронной коммерции, сообщил, что 35% его доходов приходится на дополнительные и перекрестные продажи.

Успех дополнительных и перекрестных продаж обусловлен персонализированными и релевантными рекомендациями по продуктам, а все благодаря искусственному интеллекту и прогнозной аналитике.

Ссылки:

  1. https://repository.uel.ac.uk/download/75d6a3e81c8ac007966a36b58ae6465e34f14f8dcba2a195e36a93e9a3a52f03/12561629/2019_DProf_Harrach.pdf
  2. https://www.sayonetech.com/blog/how-upsell-and-cross-sell-better-predictive-analytics/
  3. https://www.analyticsvidhya.com/blog/2021/09/cross-sell-prediction-using-machine-learning-in-python/

3. Интернет вещей (IoT)

Организация:Центр передового опыта в области ИТ, Институт управленческих наук, Пакистан.

Интернет вещей, т. е. использование интеллектуальных объектов в доме и других средах, привел к развитию киберинтеллектуальных сред. IoT имеет множество применений, наиболее интересными из которых являются здравоохранение. IoT революционизирует современное здравоохранение с многообещающими технологическими экономическими и социальными перспективами.

Внедрение IoT значительно влияет на снижение затрат на здравоохранение и улучшает результаты лечения пациентов, особенно в условиях этой пандемии COVID. IoT позволил системе здравоохранения осуществлять полезный мониторинг пациентов с COVID-19 за счет использования взаимосвязанной сети.

В дополнение к этому приложение, которое мы здесь увидим, предназначено для прогнозирования пандемии COVID с использованием прогнозного анализа и прогнозного моделирования. Аналитика больших данных с использованием данных, собранных датчиками Интернета вещей, стала ценным инструментом для прогнозирования пандемии, и именно этот пример мы собираемся обсудить здесь сегодня. Система мониторинга состояния здоровья позволила быстро собирать большие данные, визуализировать информацию о пандемии, анализировать сопутствующий эпидемический риск, отслеживать и отслеживать подтвержденные случаи COVID, уровни профилактики и адекватно оценивать методы профилактики и борьбы с COVID.

Описание данных и предварительная обработка:

Набор данных, использованный в этом тематическом исследовании, представляет собой 26000 записей о разных пациентах, как мужчинах, так и женщинах, из разных возрастных групп в определенном регионе Пакистана. Сюда входят данные о результатах лабораторных исследований и выживаемости пациентов после диагностики вируса.

Учитываются несколько атрибутов, в том числе общие симптомы заболевания, результаты лабораторных исследований, возраст и демографические данные.

В дополнение к предварительной обработке, определяющей атрибуты и факторы, как описано выше, выбросы рассматривались по отдельности, а любые отсутствующие данные заменялись средним или оценочным средним.

Используемые алгоритмы и обоснование:

Модель машинного обучения нейронной сети была выбрана после того, как были рассмотрены различные другие модели машинного обучения, такие как KNN, логистическая регрессия и наивный байесовский подход.

Было обнаружено, что модель нейронной сети имеет точность более 99%.

Он был настолько точным, что даже выявил случаи COVID, которые были пропущены лабораторными результатами!

Вывод:

С использованием аналитики больших данных был проведен описательный, диагностический, предсказательный и предписывающий анализ. Анализ позволяет сделать основной вывод о том, что большинство пациентов, страдающих этим заболеванием, выздоровели. Во времена социального дистанцирования и пандемического уровня людей, пострадавших от COVID, структура IoT играет важную роль в удаленном мониторинге и оценке ситуации, а также в развертывании эффективных профилактических и контрольных мер.

Прогнозирование следующих пиковых уровней пандемии очень полезно для больниц и правительства.

Ссылки:

  1. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8058615/
  2. https://ieeexplore.ieee.org/abstract/document/7113786

4. Прогностическое обслуживание с использованием RNN и распределений Вейбулла:

Организация:IBM Services

Очень важно, особенно в системах, критически важных для машин, проводить профилактическое обслуживание до того, как система действительно выйдет из строя и вызовет ошибки или потерю обслуживания. Машинное обучение и аналитика данных играют важную роль в предотвращении непредвиденных сбоев и в прогнозировании того, когда может произойти следующий сбой.

Мы можем инициировать корректирующие меры, используя подходящие методы технического обслуживания. Этот подход с использованием машинного обучения для прогнозирования сбоев любого компонента можно использовать в любой другой области приложений.

Профилактическое обслуживание важно, потому что ремонт чего-либо до того, как он сломается, более эффективен и экономичен, чем ремонт после того, как он сломается. Это помогает избежать простоев и повышает производительность. Это также снижает стоимость и сложность ремонта.

Описание данных и предварительная обработка:

В настоящее время большинство систем имеют встроенные датчики и детекторы неисправностей или ошибок. Таким образом, данные для нашего исследования поступают от реальных машин, компьютеров, транспортных средств или приспособлений.

Большой объем данных должен быть урезан, и учитываются только те переменные, которые действительно способствуют отказу. Затем данные предварительно обрабатываются, как и прежде, все выбросы обрабатываются подходящими методами, а все пропущенные значения обычно заполняются оценкой или средним значением.

Нормализация данных может потребоваться из-за различных параметров, используемых в таких исследованиях.

Используемые алгоритмы и обоснование:

Предпочтительным выбором алгоритмов обычно являются рекуррентные нейронные сети, поскольку это позволяет нам тренироваться с произвольными длинами данных, чтобы предсказывать только фиксированное событие во времени.

Вывод:

В заключение, эффективное профилактическое обслуживание использует конвергенцию данных от контрольно-измерительных приборов и Интернета вещей. Технологии искусственного интеллекта помогают нам прогнозировать и предотвращать сбои системы.

Опрос, в ходе которого 558 компаний, использующих профилактическое обслуживание, продемонстрировали в среднем сокращение времени простоя оборудования на 20,1% и экономию затрат на материалы на 19,4%.

Следовательно, мы можем сделать вывод, что профилактическое обслуживание является очень важным и полезным применением прогнозного анализа.

Ссылки:

  1. https://www.ibm.com/services/technology-support/multivendor-it/predictive-maintenance
  2. https://datasciencevademecum.com/2018/02/06/deep-time-to-failure-predictive-maintenance-using-rnns-and-weibull-distributions/

5. Оценки учащихся:

Организация:Высший технологический колледж, Маскат, Оман.

Представьте, если бы я мог назвать все ваши оценки с этого момента и до конца вашего курса. Разве это не здорово?

В определенной степени это возможно с использованием прогнозного моделирования и анализа данных. Для преподавателя важно постоянно отслеживать успеваемость студентов в течение всего учебного года. Это помогает инструктору понять способности, отношение и мотивацию студентов.

Прогноз успеваемости учащихся поможет инициировать корректирующие действия в течение года, чтобы помочь им получить более высокие оценки в конце года.

Аналитика данных и прогнозное моделирование помогают преподавателям прогнозировать успеваемость учащихся.

Описание данных и предварительная обработка:

Данные, используемые для прогнозирования итоговых результатов экзамена, — это внутренние оценки, сделанные в течение года.

Применяются обычные методы предварительной обработки, крайние выбросы, невозможные выбросы опускаются, а возможные выбросы включаются, а недостающие данные заполняются оценками.

Используемые алгоритмы и обоснование:

Наиболее часто применяемые модели регрессионного анализа данных используются для прогнозирования итоговой оценки учащихся на основе их результатов во внутренних оценках.

Применяемые модели

  1. Ускоренная регрессия деревьев
  2. Регрессия деревьев решений
  3. Случайная регрессия леса
  4. Линейная регрессия

Был использован Python и реализовано, обучено и протестировано 4 модели.

С этим конкретным набором данных линейная регрессия была определена как лучшая модель регрессии для прогнозирования оценок учащихся за выпускные экзамены.

Вывод:

В заключение, использование прогностического анализа для прогнозирования успеваемости учащихся в течение года очень полезно для выявления учащихся, которым может потребоваться дополнительная помощь, — это различные методы или способы обучения, которые можно применять в течение года, поэтому что итоговые оценки выше, чем они могли бы быть без вмешательства.

Ссылки:

  1. https://www.researchgate.net/publication/344581801_Projection_of_Students%27_Exam_Marks_using_Predictive_Data_Analytics
  2. https://www.ijert.org/prediction-of-students-academic-performance-using-data-mining-analysis