Я хотел бы получить кодирующую аминокислоту, когда в последовательности ДНК есть определенный образец. Например, шаблон может быть таким: АТАГТА. Итак, при наличии:
Входной файл:
>sequence1
ATGGCGCATAGTAATGC
>sequence2
ATGATAGTAATGCGCGC
Идеальным выходом была бы таблица, содержащая для каждой аминокислоты количество раз, закодированных шаблоном. Здесь в последовательности 1 паттерн кодирует только одну аминокислоту, а в последовательности 2 — две. Я хотел бы, чтобы этот инструмент работал для масштабирования до тысяч последовательностей. Я думал о том, как это сделать, но я думал только о том, чтобы заменить все нуклеотиды, отличные от шаблона, перевести то, что осталось, и получить сводку закодированных аминокислот.
Пожалуйста, дайте мне знать, можно ли выполнить эту задачу с помощью уже имеющегося инструмента.
Спасибо за вашу помощь. Всего наилучшего, Бернардо
Изменить (из-за путаницы, вызванной моим сообщением):
Пожалуйста, забудьте исходный пост, а также последовательность1 и последовательность2.
Привет всем, и извините за путаницу. Входной файл fasta представляет собой файл *.ffn, полученный из файла GenBank с помощью инструмента FeatureExtract (http://www.cbs.dtu.dk/services/FeatureExtract/download.php), поэтому можно представить, что они уже в кадре (+1) и нет необходимости получать аминокислоты кодируется в кадре, отличном от +1.
Я хотел бы знать, какую аминокислоту кодируют следующие последовательности:
AGAGAG
GAGAGA
CTCTCT
TCTCTC
Уникальные строки, которые я хочу получить, кодирующие аминокислоты, являются повторами трех AG, GA, CT или TC, то есть (AG)3, (GA)3, (CT)3 и (TC)3 соответственно. Я не хочу, чтобы программа извлекала кодирующие аминокислоты для повторов из четырех или более.
Еще раз спасибо, Бернардо
ATAGTA
не отображается ни в одной последовательности? - person Jotne   schedule 11.11.2013ATGGCGC<ATAGTA>ATGC
,ATG<ATAGTA>ATGCGCGC
. Я не понимаю, что означают коды для двух. - person choroba   schedule 11.11.2013sorry for the confusion
, за которым сразу следуетThe input fasta file is a *.ffn file derived from a GenBank file using 'FeatureExtract' tool (http://www.cbs.dtu.dk/services/FeatureExtract/download.php), so a can imagine they are already in frame (+1) and there is no need to get amino-acids coded in a frame different than +1.
. Абсолютно веселый - я все еще улыбаюсь (и даже близко не понимаю, в чем вопрос, но мне уже все равно, это было здорово)! - person Ed Morton   schedule 14.11.2013