Подробное описание работы смотрите в Часть 1, 2 и 3.

Найдите весь мой код здесь.

Ученик: Шриджан Верма (vermasrijan)

Организация: гены, геномы и вариации (ансамбл)

Наставник: Даниэль Зербино

Какая работа была проделана?

  1. Данные, собранные из Ensembl.
    → Использовались RESTful API для получения числовых данных.
    → Для получения данных последовательности использовались файлы gff3 и fasta.
  2. Данные собраны из RefSeq
    → Для этого использовались файлы gff3 и fasta.
  3. Очистка данных: M, K, G seq_regions удалены из Ensembl, а NW и NT удалены из RefSeq.
    → Сортировка данных по возрастанию chr
  4. Генерация признаков
    → Функция перекрытия:
    а) Найдены перекрывающиеся гены, транскрипты и экзоны.
    б) Сохранена длина перекрытия генов
    в) Расчетное количество. экзонов, которые перекрываются
    b) Максимальное количество и длина перекрытия
    → ORF:
    a) Расчетная максимальная длина ORF
    b) Расчетное количество присутствующих аминокислот.
    c) Найдено GC% от всей последовательности.
    → Оценка выравнивания последовательности:
    а) Использован биопитон для нахождения оценки выравнивания последовательности между парой генов.
    → Подробная информация об остальных функциях, найденных здесь.
  5. Разработка модели:
    а) Использовались различные классификаторы для анализа,
    б) Создавались графики Hist для признаков
    c) Сравнивались графики Hist для неправильно классифицированных данных
    d) Достигнута точность ~88% по тестовым данным.

Будущая разработка (после периода GSoC)

  1. Разверните модель в HGNC в качестве веб-инструмента
  2. Создайте API для простого доступа к модели
  3. Добавьте функцию загрузки предварительно обученных весов в новую модель​(Перенесите обучениедля нового набора данных, чтобы избежать обучения с нуля ​с нуля​)
  4. Создайте графический интерфейс для пользователей Ensembl для доступа к данным и для проверки достоверных вызовов Ensembl/RefSeq (истинно положительные/ложноположительные случаи).

Эти 3 месяца изменили мою жизнь. Я чрезвычайно благодарен всему сообществу Гены, геномы и вариации, особенно моему наставнику — Даниэлю Зербино.

Свяжитесь со мной:

1. LinkedIn : vermasrijan

2. GitHub: вермасриан

3. Среда: @verma.srijan

4. Персональный сайт: srijanverma