Я новичок в программировании. Последние пару недель я работал над проблемой биоинформатики, и прогресс был крайне ограничен.
У меня есть большой файл FASTA с многочисленными геномами, я хочу запустить поиск BLAST «все против всех», который идентифицирует гомологов / ортологов (которые будут идентифицированы по сходству последовательностей> = 95% по их длине с использованием -outfmt 6) в пределах мой файл и напечатать эти и негомологичные/ортологичные гены в матрицу присутствия/отсутствия организм-против-гена («1» = присутствует, «0» = отсутствует. Мне сообщили, что интерактивный BLAST «все против всех», который обновляет все гомологии/ортологии в файл, затем удаляет их из базы данных и повторяет процедуру до тех пор, пока не перестанут выполняться более релевантные поиски BLAST, возможно, это подход, но, несмотря на мои усилия, я не могу понять, как это сделать. предпочел бы делать это на Python и/или Unix/Linux, где это возможно.
Кто-нибудь может помочь?
Например:
Если у меня есть 3 организма и 4 гена, если результаты BLAST показывают, что Gene_1 присутствует в Organisms_1 и 2; Ген_2 присутствует во всех Организмах, Ген_3 присутствует только в Организме_1, а Ген_4 присутствует только в Организме_3.
Gene_1 Gene_2 Gene_3 Gene_4
Org_1 1 1 1 0
Org_2 1 1 0 0
Org_3 0 1 0 1
blastp
илиblastn
из пакетаncbi-blast+
(это его название в Ubuntu)(руководство пользователя здесь). Вы можете увидеть соответствующее использование в ОП здесь. - person wflynny   schedule 05.08.2015blastp/n
вsubprocess.process
и самостоятельно выполнить итеративную процедуру в сценарии. Но чтобы хоть как-то помочь, мне нужен игрушечный файл Fasta, который даст результат, описанный выше. Без примера входного файла вы вряд ли получите большую помощь на этом сайте, поскольку он больше ориентирован на код. Возможно, вам повезет больше на SeqAnswers или BioStars, учитывая текущее состояние вашего вопроса. - person wflynny   schedule 05.08.2015