Нейронные сети во имя науки
Люди спят на одном из самых ярких событий 21 века; пересечение технологий и наук. Подобно столкновению двух галактик, наука и технологии продолжают стирать границы между отраслями, поскольку мы начинаем осознавать и пожинать плоды сотрудничества.
Одно из наиболее заметных совместных действий - это новые многообещающие отношения между ИИ и химией. То, что началось как хеминформатика, ускорило архаичные исследовательские процессы прошлого и превратило исследовательские группы в промышленность и научные круги в равной степени стремятся к ускорению химических инноваций. Эти новые идеи открыли новые возможности для исследований и позволили получить очень важный побочный продукт: данные.
Наше понимание науки позволило нам увидеть более широкую картину, и сейчас более очевидно, чем когда-либо, то, что мало что отделяет физику от биологии, электронику от текстиля и любой другой области. Наш метод исследования перешел от эмпиризма к подходу, основанному на данных, особенно по мере того, как мы начинаем понимать основные закономерности в данных, которые у нас есть.
Данные полезны для прогнозирования, моделирования и использования в целом ряде вычислительных процессов, ускоряющих научный метод на несколько лет; и он становится только быстрее по мере того, как мы собираем больше данных.
Несмотря на то, что их все еще не хватает, особенно по сравнению с огромными наборами текстовых, числовых и графических данных, химические данные медленно растут, и положительные стороны ясны; мы все ближе и ближе к технологической конвергенции. Юваль Ноа Харари считает, что именно эта конвергенция данных / искусственного интеллекта и биологии / биотехнологии определит будущее человечества. Если биология - это действительно инь по отношению к янь данных, то физика и химия - катализаторы этого супружества. В конце концов:
Биология - это просто живая химия, а химия технически - это просто прикладная физика.
Тем не менее, направление ясно; Искусственный интеллект и химия - это союз, заключенный на небесах.
Проект распущен
Используя формат молекулярного представления SMILES, я построил нейронную сеть, способную предсказывать растворимость данной молекулы. Обученный на наборе данных из более чем 1000 точек данных, предсказатель способен предсказывать растворимость молекул с приличной точностью.
Проект разделен на 4 части.
- Импорт, форматирование и нормализация помеченного набора данных SMILES
- Преобразование улыбок в молекулы, а затем в бинарные отпечатки пальцев
- Построение глубокой модели NN
- Компиляция, подгонка, обучение и тестирование модели
Используя ту же технику, что и моя нейронная сеть классификатора молекулярного заряда, я превратил строки SMILE в двоичные отпечатки пальцев по 256 бит каждая. Это позволяло алгоритму вводить один бит на входной нейрон (отсюда входной слой из 256 нейронов). Поскольку растворимость может быть отрицательной, я использовал функцию активации tanh, поскольку tanh учитывает отрицательные значения.
В качестве функции потерь в этом проекте использовалась среднеквадратическая ошибка с оптимизатором Adam, поскольку оба они хорошо подходят для прогнозов с одним выходом. С моим набором данных из 1000 молекул я обучил алгоритм со скоростью обучения 0,0005 и размером пакета 5, более 200 эпох. 10% из 1000 строк SMILE были сохранены в качестве данных проверки.
После тренировки я понял, что, хотя потери действительно уменьшались, точность постоянно была меньше 1%. После долгих поисков возможных ошибок я понял, что проблема не в алгоритме или моей технике предварительной обработки данных; проблема была в самих данных. После некоторых исследований я узнал, что растворимость определяется как компонентом, так и структурой. Это очень важно, поскольку мой формат данных не указывает трехмерную структуру, а только компоненты молекулы.
Однако более важными являются переменные среды. Внешние условия, такие как температура и давление, влияют на растворимость молекул. Ни одно из этих условий не указано в алгоритме, следовательно, алгоритм не может быть обучен.
По сути, есть несколько факторов, которые могли бы усилить и устранить эти проблемы:
- Указанные параметры окружающей среды
- Больше помеченных точек данных
- Более продуманный метод молекулярного представления
В конечном итоге алгоритм не смог предсказать растворимость 10 тестовых молекул, которые были отложены со значительной точностью. Тот же алгоритм можно использовать для других целей, поэтому я загрузил код на Github. Репозиторий включает 2 набора данных и файл модели.
Чтобы продолжить изучение взаимовыгодных отношений между AI и Chemistry, необходимо помнить о некоторых необходимых действиях:
- Делитесь данными по обоим полям
- Сотрудничайте с экспертами обоих направлений
- Развивайте общий язык / точки соприкосновения
- Развивайте импульс и автоматизируйте процессы
Если мы продолжим идти по этому пути, не будет преувеличением сказать, что, возможно, однажды химические инновации будут в надежных руках наших творений искусственного интеллекта.
Ключевые выводы
- Будущее зависит от инноваций, которые мы придумываем, когда сталкиваются наука, технологии и промышленность.
- Граница между науками пересекается благодаря технологиям; в частности, благодаря данным
- Нейронные сети выигрывают от большого количества доступных данных, что позволяет делать прогнозы, классификации и полученные результаты более точными.
- A.I учится на шаблонах в заданном наборе данных; если корреляции нет, вывод AI будет очень неточным.
- Когда мы объединяем наши человеческие ресурсы, языки и данные, мы можем гораздо более целенаправленно подходить к ускорению разработки.