Необходима ли сортировка для объединения файлов BAM с помощью BamTools?

У меня есть пара файлов чтения с парным концом Illumina (например, A_1.fastq.gz и A_2.fastq.gz), созданных из одного бактериального изолята для вызова вариантов. Прежде всего, я использовал FLASH, чтобы объединить перекрывающиеся чтения из-за длины чтения (100 бит / с ), размер вставки (около 230 п.н.) и его стандартное отклонение (около 50 п.н.). FLASH произвел три файла для чтения, два для неперекрывающихся парных чтений и один для объединенных чтений (односторонних). Затем я сопоставил их с общим эталонным геномом с помощью Bowtie, что сгенерировало два файла BAM (один для парных чтений, а другой для односторонних чтений).

Чтобы получить больший охват и глубину чтения для вызова вариантов, я хотел бы объединить оба файла BAM в один. Я планирую использовать BamTools для этой задачи, поскольку он предназначен для обработки файлов BAM. Однако я не уверен, нужно ли сортировать входные файлы BAM перед вызовом команды «bamtools merge»? Это не рассматривается ни в руководстве по программному обеспечению, ни где-либо еще. Я был бы признателен, если бы вы могли помочь.


person Wan    schedule 22.11.2017    source источник


Ответы (1)


Что ж, это слияние, поэтому, по определению, ввод должен быть отсортирован. Иначе слияния не будет.

Слияние - это действие объединения двух или более отсортированных списков с сохранением порядка. Преимущество слияния в том, что вам не нужно выполнять дополнительную сортировку, когда ваши входные данные уже отсортированы.

Если входные данные не отсортированы, вы можете просто объединить их и отсортировать окончательный результат или отсортировать входные данные и объединить промежуточные результаты.

Кстати, вполне вероятно, что если вы скармливаете несортированные кадры команде слияния, она будет жаловаться на это.

person Poshi    schedule 29.06.2018