Путешествие по GSoC, часть 3. Анализ данных

Выбор функций и обучение модели

Пожалуйста, ознакомьтесь с Частью 1 и 2 серии GSoC, если вы еще этого не сделали. Весь код можно найти здесь.

Теперь, когда мы собрали данные как из Ensembl, так и из RefSeq, пришло время сгенерировать функции, которые будут входным слоем для наших моделей машинного обучения.

А) Генерация признаков

Всего мы создали 12 и более фич, здесь я расскажу о самых важных —

Функция перекрытия: перекрывающийся ген — это ген, экспрессируемая нуклеотидная последовательность которого частично перекрывается с экспрессируемой нуклеотидной последовательностью другого гена. >. Таким образом, последовательность нуклеотидов может вносить вклад в функцию одного или нескольких продуктов гена.
→ Чтобы объяснить это, предположим, что есть два гена, а именно GeneA и GeneB, имеющие начальные и конечные координаты как (startA, endA) и (startB, endB).
→ Если начальная (или конечная) координата одного гена находится между начальной иконечной координатой другого гена; тогда говорят, что гены являются перекрывающимися генами!
→ Основной подход/логика функции перекрытия:
a) Очистить данные (упорядочить в восходящей области хромосомы и удалить последовательность регионы NW, NT для refseq и M, K, G для ансамбля)
б) Обнаруживаются перекрытия между генами, лежащими в одних и тех же участках хромосомы.
в) Для гена1, лежащего в хромосоме1, найти все перекрытия гена2…гена N, лежащего в хромосоме1.
d) Повторите пункт c) для всех генов во всех областях хромосом.
ORF (открытая рамка считывания):в молекулярной генетике открытая рамка считывания (ORF) – это часть рамки считывания, способная быть переведены. ORF представляет собой непрерывный участок кодонов, который начинается со стартового кодона (обычно AUG) и заканчивается стоп-кодоном (обычно UAA, UAG или UGA).

Здесь мы нашли ОРС перекрывающихся генов между RefSeq и Ensembl и сохранили те, которые дали максимальную длину ОРС.
→Мы также нашли нет. аминокислот, присутствующих в максимальной длине ORF.

Подход/логика поиска ORF:

а) Использована функция ORF из библиотеки biopython.

б) Расчетное количество. аминокислот, присутствующих в ORF.

c) Рассчитанный GC% всей последовательности (Ensembl и RefSeq) везде, где имело место перекрытие ч/б ens-ref.

3. Выравнивание последовательностей:в биоинформатике выравнивание последовательностей — это способ упорядочения последовательностей ДНК, РНК или белка для выявления областей сходства, которые могут быть следствием функциональных, структурных или эволюционные отношения между последовательностями.
→ Чтобы ясно понять это, выровняйте 2 последовательности генов вместе (параллельно друг другу) и теперь проверьте, совпадают ли нуклеотиды друг с другом. То есть A должен совпадать с A, G с G и т. д.
→ Пары генов с высоким уровнем выравнивания получают высокий показатель выравнивания последовательности.

4. Максимальное количество экзонов и длина:между 2 генами найдите максимальное количество экзонов в транскриптах. т. е. любой транскрипт имеет максимальное количество. экзонов, которые перекрываются.

а) Найдите показатель seq_align для тех транскриптов, у которых максимальное количество экзонных перекрытий.

б) Также сохраните максимальную длину перекрытия экзонов.

Для выбора остальных функций, пожалуйста, проверьте это.

Б) Машинное обучение

Запуск различных классификаторов

Теперь, когда мы собрали все наши функции, пришло время применить машинное обучение!

На изображении выше показаны гистограммы для всех наших функций. Мы можем ясно видеть, что некоторые из кривых имеют нормальное распределение, а другие — перекошенные.

→ Наш окончательный набор данных для обучения состоял из [ 635 X полных признаков ] точек данных. Поскольку выходная матрица является двоичной, 0 или 1, поэтому мы можем применить здесь классификаторы sklearn.
ПРИМЕЧАНИЕ:- Поскольку данных меньше, поэтому глубокое обучение здесь не сработает.

На приведенном ниже изображении показано общее распределение классов: