PLINK и удаление части данных

У меня есть файл SNP, который был обработан с помощью PLINK. У меня есть список из нескольких тысяч SNP. В файле им присвоен один из NA, 0, 1 или 2. Я хочу удалить список SNP, у которых есть NA, т.е. они мономорфны. Проблема в том, что файл перечисляет все несколько тысяч SNP по порядку, а затем перечисляет их соответствующие значения после этого в одной строке, разделенной пробелами. На основе ручной проверки очень сложно увидеть, какие значения соответствуют какому SNP.

Есть ли простой способ удалить мономорфные SNP из файла с помощью PLINK? Или это лучше всего сделать с помощью Python?


person Robert A. Fettikowski    schedule 28.07.2010    source источник
comment
Думал, он сказал плинк на секунду!   -  person    schedule 28.07.2010


Ответы (2)


Если вы еще этого не обнаружили, вы можете удалить мономорфные SNP с помощью PLINK --maf.

Удалите мономорфные SNP в наборе данных (те, у которых MAF = 0,0) http://www.shapeit.fr/pages/pedmap.html

person KevinL    schedule 02.09.2012

Эм, разве NA не означает, что в некоторых snps отсутствуют значения данных? Чтобы удалить их, вы должны использовать команду --geno. Процитируем документы:

--geno отфильтровывает все варианты с отсутствующими скоростями вызовов, превышающими предоставленное значение (по умолчанию 0,1), которые необходимо удалить.

Однако команда --maf удаляет мономорфные snps. Установка --maf немного выше 0 может быть разумной, потому что, если аллель обнаруживается с очень низкой частотой, это, вероятно, представляет собой ошибку генотипирования.

В общем, вы можете захотеть вставить контроль качества следующего типа в вашу команду plink:

--geno 0.03 --hwe 0.00001 --maf 0.00001

(hwe — это обычное равновесие Харди-Вайнберга).

person Endre Bakken Stovner    schedule 23.05.2014