В новой статье представлено приложение для смартфонов, которое распознает нарисованные от руки химические структуры и молекулы в повседневных вещах.

Только что вышла новая статья группы Тодда Мартинеса из Стэнфорда, в которой представлено впечатляющее новое приложение для смартфонов, которое распознает химические вещества на фотографиях или анализирует нарисованные от руки молекулярные структуры, а затем запускает их 3D-изображения в дополненной реальности на вашем телефоне. Приложение называется MolAR, и вы можете найти его в магазине Apple (очевидно, на момент написания этой статьи нет выпусков для Android).

Я попробовал это сам, и это прекрасно работает:

Помимо очевидного применения этого приложения в обучении химии, статья и связанные с ней работы (с комментариями ниже), несомненно, представляют интерес для читателей Towards Data Science, поскольку они иллюстрируют конкретные применения методов машинного обучения, здесь связано со зрительным распознаванием. Кроме того, приложение использует расширенную реальность, еще одну ключевую технологическую веху современности, особенно по мере развития Метавселенной.



Обзор MolAR и принцип его работы

AR и VR для молекулярной визуализации

Просмотр трехмерных молекулярных структур имеет решающее значение для понимания того, как мир устроен на атомном уровне. Но молекулы по своей сути являются трехмерными объектами, и долгое время мы застряли с двухмерными представлениями на плоских экранах. Хотя много раз 3D-визуализация с помощью дополненной и виртуальной реальности (AR/VR) пыталась внести изменения, в основном они были неэффективными и безумно дорогими до недавнего времени, когда AR в телефонах стал доступен, и даже гарнитуры VR высокого класса снизили стоимость. Большая часть моей работы в EPFL (EPFL Tech4Impact Школа повышения квалификации EPFL Center for Intelligent Systems CIS EPFL Клуб предпринимателей EPFL) на самом деле занимается разработкой новых инструментов для недорогих приложений AR и VR в химии:





Ключ в MolAR: бесшовный ввод и связь химии с повседневной жизнью

Преимущества просмотра молекул в AR и VR становятся все более очевидными, а технологии становятся все более простыми в использовании. Тем не менее, группа Мартинеса осознала еще одну важную проблему: как вводить молекулярные структуры в приложение более интерактивным способом? Пока что инструменты либо включают предустановленный список молекул, либо позволяют рисовать их вручную. в 2D на компьютере или искать их, набрав название молекулы, и только потом запускать в AR или VR. MolAR предлагает совершенно другой подход, который позволяет легко и просто вводить молекулярные структуры.

MolAR использует технологии глубокого обучения для ввода молекул двумя способами:

  • Путем распознавания и разбора молекул, нарисованных от руки на листе бумаги, доске и т. д. Это основано на системе, разработанной группой ранее под названием ChemPix.
  • Распознавая объекты из повседневной жизни, а затем извлекая из базы данных их наиболее важные молекулы, такие как кофеин, если пользователь наводит камеру телефона на чашку кофе, как в примере выше.

Будучи бесплатным приложением, работающим прямо на смартфонах без необходимости внешнего оборудования или вспомогательного программного обеспечения, а также с такими простыми способами введения молекул, MolAR предоставляет платформу для визуализации и взаимодействия с трехмерными молекулярными структурами с очень захватывающим способом с очень небольшими усилиями.

Приложение MolAR написано на Swift с помощью комплекта разработки программного обеспечения (SDK), специально предназначенного для iPhone и iPad, поэтому, вероятно, будет нелегко увидеть портирование этого классного приложения на Android. Для достижения дополненной реальности MolAR использует модуль ARKit SDK, который включает в себя функции обработки визуальной сцены, отслеживания движения и отображения графики на точке привязки. Окклюзия объектов в этом режиме дополненной реальности работает прекрасно, так что вы можете указать на части молекулы пальцем и четко увидеть это на экране — то, что очень немногие системы дополненной реальности поддерживают и правильно отображают.

Интересно, что в отличие от других инструментов распознавание и анализ объектов и химических структур происходит на сервере, как я расскажу в следующих двух разделах.

Разбор рисунков от руки с помощью MolAR

Для анализа нарисованных от руки структур сервер пропускает изображение, полученное из приложения, через нейронную сеть, которая преобразует изображение в код SMILES, который представляет собой упрощенное текстовое представление молекулярных структур. Эта нейронная сеть под названием ChemPix также была разработана группой Мартинеса в предыдущей работе, которую вы должны прочитать, если вас интересуют приложения глубокого обучения для анализа изображений в целом, особенно если это касается химии:



Вкратце, ChemPix сначала закодировал изображение, закодированное с помощью сверточной нейронной сети, а затем декодировал его с помощью сети с долговременной кратковременной памятью, которая создает код SMILES. На сервере MolAR этот код SMILES затем преобразуется в 3D-координаты с помощью транслятора, доступного в качестве одного из многих конечных точек вычислительной химии Национальных институтов рака США, как это делают наборы виртуального моделирования нашего MoleculARweb.

3D-координаты атомов окончательно преобразуются в 3D-модели с помощью примитивов сферы и цилиндра, как и в любой другой системе AR/VR для молекулярного отображения.



Разбор объектов

Для распознавания объектов сервер MolAR использует Google Cloud Vision API и Amazon Rekognition. API-интерфейсы, подобные этим, предоставляют простые способы извлечь выгоду из превосходных ресурсов, созданных другими, обладающими опытом, которого может не быть у отдельных пользователей, или которые могут потребовать вычислительной мощности, недоступной для отдельных конечных пользователей. API-интерфейсы упрощают разработку новых интересных инструментов и в процессе демонстрируют полную интегрируемость различных пакетов и работы разрозненных людей, даже если у них разные конкретные конечные цели. И, конечно же, они демонстрируют силу знания того, что уже готово к использованию. Для меня API — одно из самых крутых изобретений в области компьютерных технологий, особенно для веб-программирования.

Возвращаясь к MolAR и тому, как он анализирует объекты, он объединяет выходные данные Google Cloud Vision API и Amazon Rekognition, чтобы составить список объектов, которые, вероятно, присутствуют в веб-канале. Эти объекты представляют собой ключевые слова, такие как «молоко», «помидор» или «чашка», сопоставленные в базе данных с молекулами, относящимися к объектам. Например, «молоко» соответствует «лактозе», «помидор» — «ликопину», а «чашка» — «кофеину». Действительно очень простой подход, но вполне практичный, если база данных пар объект-молекула достаточно велика.

Конечно, инструмент не будет знать, действительно ли напиток на изображении представляет собой кофе без кофеина, а не обычный кофе; и точно так же он, вероятно, правильно выберет красное вино как «вино», но не белое вино (которое на самом деле можно спутать с другими напитками).

Это может показаться очевидной проблемой (кстати, очень трудно решить), но на самом деле это очень важно, если инструмент предназначен для использования в обучении химии. Что, если студент наивно захочет сравнить, что MolAR говорит о чашке обычного кофе и кофе без кофеина? Я хочу просто отметить, что какими бы крутыми ни казались инструменты, их нужно применять в классах с большой осторожностью.

Заключение и дальнейшее чтение

Технологии развиваются очень быстро, и, что лучше всего, они становятся достаточно практичными, чтобы их можно было использовать для конкретных приложений, которые помогают нам в этом случае лучше преподавать и учиться. Как вы видели, разработка веб-технологий MolAR в сочетании с машинным обучением для распознавания объектов с помощью видеоанализа и даже дополненной реальности с оценкой позы с учетом местоположения.

Все это было бы невозможно всего десять лет назад, а теперь оно есть в инструментарии разработчиков программного обеспечения и в смартфонах пользователей.

Дальнейшие чтения

Рецензируемый документ: https://aip.scitation.org/doi/abs/10.1063/5.0090482

Кроме того, вы можете бесплатно получить доступ к препринту здесь:



Чтобы узнать больше об интересных исследованиях и разработках программного обеспечения этой группы, посетите ее главную страницу: https://mtzweb.stanford.edu/.

www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.