Подробное описание работы смотрите в Часть 1, 2 и 3.
Найдите весь мой код здесь.
Ученик: Шриджан Верма (vermasrijan)
Организация: гены, геномы и вариации (ансамбл)
Наставник: Даниэль Зербино
Какая работа была проделана?
- Данные, собранные из Ensembl.
→ Использовались RESTful API для получения числовых данных.
→ Для получения данных последовательности использовались файлы gff3 и fasta. - Данные собраны из RefSeq
→ Для этого использовались файлы gff3 и fasta. - Очистка данных: M, K, G seq_regions удалены из Ensembl, а NW и NT удалены из RefSeq.
→ Сортировка данных по возрастанию chr - Генерация признаков
→ Функция перекрытия:
а) Найдены перекрывающиеся гены, транскрипты и экзоны.
б) Сохранена длина перекрытия генов
в) Расчетное количество. экзонов, которые перекрываются
b) Максимальное количество и длина перекрытия
→ ORF:
a) Расчетная максимальная длина ORF
b) Расчетное количество присутствующих аминокислот.
c) Найдено GC% от всей последовательности.
→ Оценка выравнивания последовательности:
а) Использован биопитон для нахождения оценки выравнивания последовательности между парой генов.
→ Подробная информация об остальных функциях, найденных здесь. - Разработка модели:
а) Использовались различные классификаторы для анализа,
б) Создавались графики Hist для признаков
c) Сравнивались графики Hist для неправильно классифицированных данных
d) Достигнута точность ~88% по тестовым данным.
Будущая разработка (после периода GSoC)
- Разверните модель в HGNC в качестве веб-инструмента
- Создайте API для простого доступа к модели
- Добавьте функцию загрузки предварительно обученных весов в новую модель(Перенесите обучениедля нового набора данных, чтобы избежать обучения с нуля с нуля)
- Создайте графический интерфейс для пользователей Ensembl для доступа к данным и для проверки достоверных вызовов Ensembl/RefSeq (истинно положительные/ложноположительные случаи).
Эти 3 месяца изменили мою жизнь. Я чрезвычайно благодарен всему сообществу Гены, геномы и вариации, особенно моему наставнику — Даниэлю Зербино.
Свяжитесь со мной:
1. LinkedIn : vermasrijan
2. GitHub: вермасриан
3. Среда: @verma.srijan
4. Персональный сайт: srijanverma