Введение в платформу геномной аналитики

Основной причиной того, что теперь можно обрабатывать геномные данные и геномные исследования, является эволюция в области аналитики больших данных. Доктор Роберт Грин (профессор медицины в Harvard Medical) охарактеризовал связь больших данных и геномной аналитики такими словами: Геномика — это большие данные, «большие данные — это геномика, и это, я думаю, явно одно из передовых направлений». путей интеграции больших данных в медицинскую практику».

Данные генома, существующие в теле одного человека, можно рассматривать как размер вселенной. Первый геном человека был секвенирован в период с 1998 по 2001 год, что стоило около 2,8 миллиарда долларов. Но из-за существования аналитики данных и различных технологий больших данных теперь требуется около трех дней и 1000 долларов США в качестве затрат на секвенирование генома одного человеческого тела.

Геномная аналитика отвечает не только за неинвазивные диагностические тесты поколений, но и вскоре эта технология станет ответом на проблемы, связанные с диагностическим тестом и клиническим скринингом, что приведет к расширению работы, связанной с геномной медициной.

Говоря об использовании этого метода на биомедицинском жаргоне, с помощью геномики и науки о данных можно найти аномалии в секвенировании генома, которые вызывают такие заболевания, как рак, аутизм и сердечные заболевания. Рассмотрим случай наследственных заболеваний, которые встречаются редко и могут быть диагностированы с помощью секвенирования генома отдельных членов.

Итак, как можно реализовать эту технику, какие шаги следует предпринять и как на ней можно адаптировать платформу. Давайте узнаем в следующем разделе.

Технологические идеи — машинное обучение в геномной перспективе

Машинное обучение (с учетом глубокого обучения как его подмножества) само по себе состоит из множества различных методов, которые можно использовать для решения различных проблем геномики с ее преимуществами и приложениями.

Одна из самых известных архитектур моделей глубокого обучения, CNN может быть обучена для глобальной и локальной характеристики геномных данных. Специализация CNN на адаптивном извлечении признаков во время обучения становится для нее большим плюсом при обработке геномных данных. В последнее время он используется для таких задач, как моделирование специфичности последовательности связывания белка и изучение функциональной активности последовательности ДНК.

RNN, которая известна своей способностью справляться с задачами распознавания речи, также используется для данных, которые являются последовательными и используются для обработки последовательности ДНК своей геномики. RNN используется для разработки DeepNano для вызова базы, DanQ для количественной оценки функции некодирующей DNS и, что наиболее важно, LSTM, который также является сверточным, разработан для предсказания субклеточной локализации белка на основе последовательностей белков.

Это лишь некоторые примеры обработки геномной аналитики с использованием глубокого обучения. Существуют и другие примеры этих типов моделей, такие как автокодировщики и другие формирующиеся глубинные архитектуры.

Построение модели ML/DL в наши дни не считается типичной задачей, так как уже доступно так много фреймворков, библиотек и функций, которые облегчают эту задачу. Но проблема этого нового мира заключается в том, как реализовать модель ML/DL.

Есть несколько моментов, которые будут полезны и учтены при Производстве модели DL/ML —

  • Уделите особое внимание интерпретации модели и ее компонентам.
  • Использование трансферного обучения и многозадачного обучения.
  • Используйте многопрофильное обучение.

Риск того, что модели машинного обучения не работают хорошо, является постоянным и требует постоянного мониторинга и оценки, если они работают в ожидаемых пределах.

Источник – Платформа MLOps — производство моделей машинного обучения

Преимущества использования геномной аналитики

Используя платформу Genomics Analytics, можно экспортировать значение из данных генома человека, которые в дальнейшем можно использовать для сравнения с другим существующим геномом. Для этого требуется обширная база данных.

Используя паттерны геномной аналитики, прогнозной аналитики и предписывающей аналитики, можно прогнозировать меры по назначению диеты человеку, способному улучшить здоровье и предотвратить заболевания.

Редактирование генома с использованием различных методов приведет к появлению показателя, который можно использовать для предложения улучшений с помощью широкого спектра решений в сельском хозяйстве, которые могут помочь фермерам в увеличении производства сельскохозяйственных культур.

Проблемы создания платформы геномной аналитики

  • Обработка необходимости больших наборов геномных данных, которые могут быть переданы алгоритмам глубокого обучения для анализа, сравнения и прогнозирования.
  • Генетическое секвенирование легко извлечь, поскольку есть частные фирмы, которые предлагают эти услуги, но после передачи данных секвенирования пользователю. Эти фирмы могут свободно делиться данными этого человека где угодно, что может привести к нарушению конфиденциальности данных.
  • Еще одна проблема состоит в том, чтобы преднамеренно делиться этими данными, не нарушая конфиденциальности и прав пациентов.

Приложения геномной аналитики

Экспрессия генов. Процесс, дающий клетке возможность справляться с изменениями в окружающей среде и реагировать на них, известен как экспрессия генов. Это может сделать клетка, регулируя функции, контролируя тип белков и количество, производимое геном автоматическим способом. Ген может кодировать белки, и эти белки могут определять функции клеток. Области экспрессии генов, на которые влияет использование глубокого обучения:

  • Прогнозы экспрессии генов
  • Классификация экспрессии генов

Огромные объемы геномных данных позволяют биоинформатикам и биологам-вычислителям обнаруживать новые варианты ДНК, которые невозможно было обнаружить с помощью небольших наборов данных.

Источник – Ускорьте открытия в области точной медицины с помощью геномной аналитики

Регуляторная геномика. Эта наука связана с регуляцией экспрессии генов, которая представляет собой клеточную операцию, которая может регулировать уровень экспрессии генных продуктов (РНК или белка), когда он становится высоким или низким. Количество продуцируемого белка, РНК, а также место и время активации генов в совокупности обрабатываются генами, белками, молекулами РНК и другими компонентами. Глубокое обучение, основанное на значении информации о последовательности, может быть использовано для решения следующих задач:

  • Мутации и вызов вариантов
  • Субклеточная локализация
  • Факторы транскрипции и РНК-связывающие белки
  • Сращивание
  • Функциональная деятельность
  • Промоутеры и энхансеры

Комплексный подход

Эффективно систематизируйте и анализируйте большие объемы геномной информации с помощью решений для обработки данных в реальном времени и обеспечения безопасности данных.

Первоначально опубликовано на https://www.xenonstack.com 6 мая 2019 г.