Вопросы по теме 'dna-sequence'

Строковые повторяющиеся подпоследовательности и сжатие
Я хотел бы сделать какой-то алгоритм «поиска и замены», который будет, по возможности, эффективным образом идентифицировать подстроку строки, которая встречается более одного раза, и заменять все вхождения этой подстроки токеном. Например, учитывая...
555 просмотров
schedule 13.12.2022

Какой объем памяти потребуется для хранения генома человека?
Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т. д.), необходимый для хранения одного генома человека. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах и у меня есть некоторые приблизительные предположения, но прежде чем...
86909 просмотров

Мне нужно найти шаблон в строке заголовка моего файла и объединить следующую строку с Perl
Мой многофастовый архив в таком формате: >miRNA65 dvex2345 CGATGCTAGATGCTATGACAACGATGCCTCG-G >miRNA60 dvex1234 T-TAA-ACTCATCATCATCATACTCATCATCATCATCAGCATATTAACAAG >miRNA65 dvex2345 T-TAA-ACTTATCATCATCATACTCATCATCATCATCAGCATATTAACAAG...
151 просмотров

Поиск аминокислотных мотивов в белковой последовательности
У меня есть простая поисковая система, состоящая из словаря, в который включены коды и последовательности UniProt для нескольких записей. В конце концов я хотел бы найти некоторые мотивы во всех этих последовательностях и напечатать их...
1721 просмотров
schedule 19.02.2022

Поиск последовательности в строке. ДНК
Мне нужно сделать программу, которая отделяет 3 от размера строки и сравнивает с другими последовательностями 3 в той же строке. Я собираюсь объяснить это. Пользователь вводит эту строку ДНК = "ACTGCGACGGTACGCTTCGACGTAG", например. Начнем с n =...
3520 просмотров
schedule 26.02.2022

выравнивание последовательностей ДНК и маркировка SNP
Имею два фаста файла. Каждый файл содержит последовательности коротких геномных участков крысы или мыши с известным видоспецифическим SNP. File_1 : >Rat_1 GGTGCCTGTGTATTGCCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT >Rat_2...
62 просмотров
schedule 17.02.2022

Tajimas D для последовательностей разной длины
Я пытаюсь использовать adegent в R для расчета D Tajima. У меня есть объект DNA.bin, содержащий мои последовательности из разных популяций. Последовательности имеют разную длину из-за SNP и вставок в них. Я получаю следующую ошибку при запуске...
829 просмотров
schedule 15.08.2022

Счетчик Python GC — Розалинд
Я пытаюсь написать программу, которая будет вычислять содержимое GC в каждой из серий последовательностей (ввод в формате fasta), а затем возвращать имя последовательности с наибольшим процентом и ее процент GC. Согласно этой задаче Розалинды ....
1853 просмотров
schedule 20.03.2023

Я пытаюсь обратно дополнить последовательность ДНК fasta
Я пытался обратно комплементировать последовательность ДНК fasta. Вот мой код: fastafile=open('sequence (3).fasta','r') entries=[] reverse="" sequence=['A','T','G','C','N'] for line in fastafile: if not line.startswith('>'): line =...
1999 просмотров

Найдите все повторяющиеся 4-меры в последовательности ДНК - Perl
Привет, Я пытаюсь написать программу, которая читает файл в формате FASTA, содержащий несколько последовательностей ДНК, идентифицирует все повторяющиеся 4-мерные (т. Е. Все 4-мерные, встречающиеся более одного раза) в последовательности и...
456 просмотров
schedule 16.06.2023

Использование потоков для анализа последовательности ДНК с помощью Perl
У меня есть пример последовательности ДНК, такой как: S = ATGCGGGCGTGCTGCTGGGCTGCT.... длиной 5 МБ. Кроме того, у меня есть координаты гена для каждого гена, например: Gene no. Start End 1 1 50 2 60 100 3 110...
96 просмотров

Найдите самую частотную последовательность среди других последовательностей
Мне дали 10 последовательностей ДНК, каждая из которых состоит из 18 оснований, и меня попросили написать программу, которая вычисляет наиболее часто встречающуюся последовательность (консенсус) среди всех этих последовательностей. Например,...
87 просмотров
schedule 14.06.2023

Неожиданный результат при рандомизированном поиске мотивов в цепочках ДНК
У меня есть следующие t=5 цепочки ДНК: DNA = '''CGCCCCTCTCGGGGGTGTTCAGTAAACGGCCA GGGCGAGGTATGTGTAAGTGCCAAGGTGCCAG TAGTACCGAGACCGAAAGAAGTATACAGGCGT TAGATCAAGTTTCAGGTGCACGTCGGTGAACC AATCCACCAGCTCCACGTGCAATGTTGGCCTA''' k = 8 t = 5 Я пытаюсь...
837 просмотров

Решение, необходимое для идентификации частично совпадающих строк (последовательностей ДНК) в data.frame с большим количеством строк
Ищу решение следующей проблемы: У меня есть фреймворк с более чем 6 миллионами строк, который содержит информацию о секвенировании (последовательность ДНК) в одной строке. В зависимости от способа представления набора данных во фрейме данных будут...
127 просмотров
schedule 11.05.2023

Как создать гистограмму данных микробиоты с одним цветом для более высокого таксономического ранга и градиентным цветом
У меня есть объект Phyloseq с моей таблицей OTU и таблицей TAX. Я хотел бы создать гистограмму, например, на уровне семьи, но семьи, принадлежащие к одному и тому же типу, будут отображаться одним цветом и отличаться градиентом этого цвета....
1033 просмотров
schedule 31.12.2022

Ошибка при использовании ABySS для сборки последовательности SRA
У меня возникли проблемы с использованием ABySS для сборки чтений, загруженных из NCBI SRA. Команда, которую я использовал: abyss-pe name=SRR530529_1 k=27 in=/home/bilalm/H_glaber_quality_filtering/AfterQC/good_reads/SRR530529.good.fq Но...
98 просмотров

Сгенерировать все перестановки с не более чем d несоответствиями
Я решал задачу на сопоставление с образцом с расстоянием Хэмминга до d для последовательности ДНК. Regex спас меня там. Но сейчас столкнулся с другой проблемой. Учитывая длинную последовательность ДНК, я должен найти наиболее частые несовпадающие...
258 просмотров

Найти положение строки (последовательности ДНК) по ссылке с несовпадениями (N)
Я пытаюсь найти начальную и конечную позиции вдоль выравнивания генома для области прайминга, которая не является смежной, поэтому, по сути, есть 2 области. Вот упрощенный пример: genome =...
96 просмотров