Итеративный BLAST для поиска гомологичных генов

Я новичок в программировании. Последние пару недель я работал над проблемой биоинформатики, и прогресс был крайне ограничен.

У меня есть большой файл FASTA с многочисленными геномами, я хочу запустить поиск BLAST «все против всех», который идентифицирует гомологов / ортологов (которые будут идентифицированы по сходству последовательностей> = 95% по их длине с использованием -outfmt 6) в пределах мой файл и напечатать эти и негомологичные/ортологичные гены в матрицу присутствия/отсутствия организм-против-гена («1» = присутствует, «0» = отсутствует. Мне сообщили, что интерактивный BLAST «все против всех», который обновляет все гомологии/ортологии в файл, затем удаляет их из базы данных и повторяет процедуру до тех пор, пока не перестанут выполняться более релевантные поиски BLAST, возможно, это подход, но, несмотря на мои усилия, я не могу понять, как это сделать. предпочел бы делать это на Python и/или Unix/Linux, где это возможно.

Кто-нибудь может помочь?

Например:

Если у меня есть 3 организма и 4 гена, если результаты BLAST показывают, что Gene_1 присутствует в Organisms_1 и 2; Ген_2 присутствует во всех Организмах, Ген_3 присутствует только в Организме_1, а Ген_4 присутствует только в Организме_3.

    Gene_1  Gene_2  Gene_3  Gene_4
Org_1   1       1       1       0       
Org_2   1       1       0       0
Org_3   0       1       0       1

person Gloom    schedule 04.08.2015    source источник
comment
Вы можете попытаться сделать это с помощью BioPython, но имеет смысл просто используйте инструмент командной строки blastp или blastn из пакета ncbi-blast+ (это его название в Ubuntu)(руководство пользователя здесь). Вы можете увидеть соответствующее использование в ОП здесь.   -  person wflynny    schedule 05.08.2015
comment
Спасибо за ваш ответ. Я использовал blastp из командной строки, однако, когда я углубился в это, он не отображал гомологичные гены таким образом.   -  person Gloom    schedule 05.08.2015
comment
Думаю, я хотел сказать, что вы можете обернуть blastp/n в subprocess.process и самостоятельно выполнить итеративную процедуру в сценарии. Но чтобы хоть как-то помочь, мне нужен игрушечный файл Fasta, который даст результат, описанный выше. Без примера входного файла вы вряд ли получите большую помощь на этом сайте, поскольку он больше ориентирован на код. Возможно, вам повезет больше на SeqAnswers или BioStars, учитывая текущее состояние вашего вопроса.   -  person wflynny    schedule 05.08.2015


Ответы (1)


Если я правильно понимаю, вам нужно получить следующую информацию:

-какие гены являются гомологами/ортологами

-В каких видах они представлены

Есть программа, которая почти все это делает, позвольте представить вам SiLiX.

http://lbbe.univ-lyon1.fr/SiLiX

Вы можете загрузить его и настроить его на свою 95% личность, вы «скармливаете» результат своего взрыва «все против всех». И вы получите файл с нужной вам информацией!

Файл легко анализируется (особенно в python), поэтому из него вы можете извлечь всю необходимую информацию. поэтому из него вы можете создать свою матрицу.

person Edelk    schedule 13.11.2015