Алгоритмы выбора признаков, используемые для фильтрации значимых однонуклеотидных полиморфизмов (SNP) для заданного результата

Я немного новичок в анализе типов полногеномных ассоциаций (GWAS). В одном из моих проектов мне нужно выбрать наиболее значимые SNP (не семьи, а индивидуальные SNP) для заданной переменной результата (например: - Наличие сердечного приступа событие, которое кодируется как 0 или 1). В моем наборе данных SNP были закодированы как 0,1 или 2.

Обратите внимание, что у меня более 700 000 SNP, а также еще 30 переменных в базе данных и более 4800 участников. Мы сохраним остальные 30 переменных в модели, поскольку наша цель состоит в том, чтобы выбрать SNP для переменной результата, скорректированной для этих переменных. Тем более, что у нас есть время и на мероприятие.

Я знаю, что стандартным методом в этом случае будет запуск регрессии Кокса для переменной результата для каждого SNP за раз (как в цикле). >) с другими 30 переменными и выберите SNP с наименьшим значением p (используя пороговое значение). Однако этот подход не эффективен, и на обычном компьютере на его выполнение уйдут месяцы.

Поэтому мне просто интересно, какие методы выбора функций используются в литературе в этой области, и было бы здорово, если бы вы разместили здесь несколько ссылок.

Очень ценю вашу помощь. Сан


person San Silva    schedule 03.05.2021    source источник