Построение предиктора растворимости

Нейронные сети во имя науки

Люди спят на одном из самых ярких событий 21 века; пересечение технологий и наук. Подобно столкновению двух галактик, наука и технологии продолжают стирать границы между отраслями, поскольку мы начинаем осознавать и пожинать плоды сотрудничества.

Одно из наиболее заметных совместных действий - это новые многообещающие отношения между ИИ и химией. То, что началось как хеминформатика, ускорило архаичные исследовательские процессы прошлого и превратило исследовательские группы в промышленность и научные круги в равной степени стремятся к ускорению химических инноваций. Эти новые идеи открыли новые возможности для исследований и позволили получить очень важный побочный продукт: данные.

Наше понимание науки позволило нам увидеть более широкую картину, и сейчас более очевидно, чем когда-либо, то, что мало что отделяет физику от биологии, электронику от текстиля и любой другой области. Наш метод исследования перешел от эмпиризма к подходу, основанному на данных, особенно по мере того, как мы начинаем понимать основные закономерности в данных, которые у нас есть.

Данные полезны для прогнозирования, моделирования и использования в целом ряде вычислительных процессов, ускоряющих научный метод на несколько лет; и он становится только быстрее по мере того, как мы собираем больше данных.

Несмотря на то, что их все еще не хватает, особенно по сравнению с огромными наборами текстовых, числовых и графических данных, химические данные медленно растут, и положительные стороны ясны; мы все ближе и ближе к технологической конвергенции. Юваль Ноа Харари считает, что именно эта конвергенция данных / искусственного интеллекта и биологии / биотехнологии определит будущее человечества. Если биология - это действительно инь по отношению к янь данных, то физика и химия - катализаторы этого супружества. В конце концов:

Биология - это просто живая химия, а химия технически - это просто прикладная физика.

Тем не менее, направление ясно; Искусственный интеллект и химия - это союз, заключенный на небесах.

Проект распущен

Используя формат молекулярного представления SMILES, я построил нейронную сеть, способную предсказывать растворимость данной молекулы. Обученный на наборе данных из более чем 1000 точек данных, предсказатель способен предсказывать растворимость молекул с приличной точностью.

Проект разделен на 4 части.

Импорт, форматирование и нормализация помеченного набора данных SMILES
Преобразование улыбок в молекулы, а затем в бинарные отпечатки пальцев
Построение глубокой модели NN
Компиляция, подгонка, обучение и тестирование модели

Используя ту же технику, что и моя нейронная сеть классификатора молекулярного заряда, я превратил строки SMILE в двоичные отпечатки пальцев по 256 бит каждая. Это позволяло алгоритму вводить один бит на входной нейрон (отсюда входной слой из 256 нейронов). Поскольку растворимость может быть отрицательной, я использовал функцию активации tanh, поскольку tanh учитывает отрицательные значения.

В качестве функции потерь в этом проекте использовалась среднеквадратическая ошибка с оптимизатором Adam, поскольку оба они хорошо подходят для прогнозов с одним выходом. С моим набором данных из 1000 молекул я обучил алгоритм со скоростью обучения 0,0005 и размером пакета 5, более 200 эпох. 10% из 1000 строк SMILE были сохранены в качестве данных проверки.

После тренировки я понял, что, хотя потери действительно уменьшались, точность постоянно была меньше 1%. После долгих поисков возможных ошибок я понял, что проблема не в алгоритме или моей технике предварительной обработки данных; проблема была в самих данных. После некоторых исследований я узнал, что растворимость определяется как компонентом, так и структурой. Это очень важно, поскольку мой формат данных не указывает трехмерную структуру, а только компоненты молекулы.

Однако более важными являются переменные среды. Внешние условия, такие как температура и давление, влияют на растворимость молекул. Ни одно из этих условий не указано в алгоритме, следовательно, алгоритм не может быть обучен.

По сути, есть несколько факторов, которые могли бы усилить и устранить эти проблемы:

Указанные параметры окружающей среды
Больше помеченных точек данных
Более продуманный метод молекулярного представления

В конечном итоге алгоритм не смог предсказать растворимость 10 тестовых молекул, которые были отложены со значительной точностью. Тот же алгоритм можно использовать для других целей, поэтому я загрузил код на Github. Репозиторий включает 2 набора данных и файл модели.

Чтобы продолжить изучение взаимовыгодных отношений между AI и Chemistry, необходимо помнить о некоторых необходимых действиях:

Делитесь данными по обоим полям
Сотрудничайте с экспертами обоих направлений
Развивайте общий язык / точки соприкосновения
Развивайте импульс и автоматизируйте процессы

Если мы продолжим идти по этому пути, не будет преувеличением сказать, что, возможно, однажды химические инновации будут в надежных руках наших творений искусственного интеллекта.

Ключевые выводы

Будущее зависит от инноваций, которые мы придумываем, когда сталкиваются наука, технологии и промышленность.
Граница между науками пересекается благодаря технологиям; в частности, благодаря данным
Нейронные сети выигрывают от большого количества доступных данных, что позволяет делать прогнозы, классификации и полученные результаты более точными.
A.I учится на шаблонах в заданном наборе данных; если корреляции нет, вывод AI будет очень неточным.
Когда мы объединяем наши человеческие ресурсы, языки и данные, мы можем гораздо более целенаправленно подходить к ускорению разработки.

Построение предиктора растворимости

Нейронные сети во имя науки

Проект распущен

Ключевые выводы

Похожие вопросы