Какой объем памяти потребуется для хранения генома человека?

Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т. д.), необходимый для хранения одного генома человека. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах и у меня есть некоторые приблизительные предположения, но прежде чем раскрывать что-либо, я хотел бы посмотреть, как другие подходят к этому вопросу.

Альтернативным вопросом может быть количество атомов в ДНК человека, но это не тема для этого сайта.

Я понимаю, что это будет приблизительно, поэтому я ищу минимальное значение, которое сможет сохранить ДНК любого человека.


person Milan Babuškov    schedule 21.01.2012    source источник
comment
Что касается количества атомов, то это зависит от состава. Молекулы A и T меньше, чем G и C. Структура молекулы — это говядина, а не ее атомный состав, так что это не очень полезный расчет. (Для чего это стоит, например, молекула A, также известная как деоксиаденозин, представляет собой C10H13N5O3, то есть 31 атом.)   -  person tripleee    schedule 30.08.2015
comment
См. также biostars.org/p/5514.   -  person Ondra Žižka    schedule 02.12.2015
comment
За исключением пользователей slayton, Paul Amstrong и rauchen, все остальные данные ответы совершенно неверны по своей сути или далеки от завершения. В ответах пользователь (не смог) упомянул методы сжатия или плохо объяснил. Смотрите мой ответ, чтобы прояснить 4-кратное сокращение генома, как видно во многих ответах.   -  person ZF007    schedule 01.03.2018
comment
Я голосую за то, чтобы закрыть этот вопрос как не по теме, потому что здесь он не по теме, должен быть на bioinformatics.stackexchange.com   -  person Chris_Rands    schedule 27.11.2019
comment
938 мегабайт в сжатом виде. Вот ссылка на репозиторий, содержащий его в файле с именем: hg38 .chromFa.tar.gz   -  person SurpriseDog    schedule 27.05.2021


Ответы (11)


Если вы доверяете таким вещам, вот что утверждает Википедия (из http://en.wikipedia.org/wiki/Human_genome#Information_content). ):

2,9 миллиарда пар оснований гаплоидного генома человека соответствуют примерно 725 мегабайтам данных, поскольку каждая пара оснований может быть закодирована двумя битами. Поскольку отдельные геномы отличаются друг от друга менее чем на 1%, их можно без потерь сжать примерно до 4 мегабайт.

person Oliver Charlesworth    schedule 21.01.2012
comment
Чтобы добавить немного биологического комментария, гаплоид здесь означает только одну копию каждой хромосомы. Эталонная сборка человека гаплоидна (и представляет собой мозаику из нескольких людей). Фактический индивидуальный геном будет диплоидным (по 2 копии каждой хромосомы, кроме X и Y), но опять же только вариант между двумя копиями в небольшом подмножестве сайтов. - person Alex Stoddard; 23.01.2012
comment
Подумал об этом в течение дня и понял следующее: если вы сохранили некоторую базовую человеческую ДНК, любую последующую человеческую ДНК нужно будет хранить только как разницу между ней и базовым случаем. Для представителей одного пола ДНК на 99,9% совпадает. И среди полов это около 98,5%. - person Costa Michailidis; 22.05.2015
comment
это имеет смысл. пары оснований в основном 4-нарные. 4-значное число составляет 2 бита, поэтому его размер удваивается. так что это 5,8 гигабит или 5,8/8 гигабайт, что составляет 0,725 ГБ или 725 МБ. «сжатие» возможно только потому, что вы можете хранить различия с сопоставленным геномом вместо сохранения всего генома. - person Dave Cousineau; 02.10.2017
comment
@Annarfych Это крайне вводит в заблуждение, поскольку эпигенетическая информация по определению не наследуется (несмотря на ошибочные утверждения об обратном в популярной прессе). Наследуемая информация хранится только в ДНК. - person Konrad Rudolph; 02.07.2019
comment
@KonradRudolph, это неправильно. Эпигенетическая информация по определению наследуема. - person cowlinator; 18.06.2020
comment
@cowlinator Категорически нет. И, чтобы сократить это, я провел исследование в области эпигенетики для своей докторской и постдок. На этот раз я действительно знаю, о чем говорю. - person Konrad Rudolph; 18.06.2020
comment
@KonradRudolph, значит, эпигенетика - это не изучение наследственных изменений фенотипа, которые не связаны с изменениями в последовательности ДНК? Что такое эпигенетика? (Я спрашиваю, потому что это определение используется Википедией и Merriam-Webster) - person cowlinator; 19.06.2020
comment
@cowlinator Эти определения… плохие. «Наследуемый» в данном случае означает «наследуемый» между делящимися материнскими и дочерними клетками, но не наследуемый между многоклеточными организмами и их потомством (это было бы трансгенерационным эпигенетическим наследованием, которое существует, но встречается невероятно редко, и большинство заявленных случаев основаны на плохой науке и, как правило, не принимаются экспертами). Но человек, написавший это предложение, вероятно, не совсем понимает, что он имеет в виду, потому что нет оправдания плохой формулировке предложения. Загляните на страницу «Обсуждение» статьи в Википедии. - person Konrad Rudolph; 19.06.2020

Вы не храните всю ДНК в одном потоке, большую часть времени она хранится в хромосомах.

Большая хромосома занимает около 300 МБ, а маленькая около 50 МБ.


Редактировать:

Я думаю, что первая причина, по которой он не сохраняется в 2 бита на пару оснований, заключается в том, что это затруднит работу с данными. Большинство людей не знали бы, как его преобразовать. И даже когда дали бы программу для конвертации, многие люди в крупных компаниях или НИИ не имеют права/необходимости спрашивать или не умеют устанавливать программы...

1 ГБ хранилища ничего не стоит, даже загрузка 3 ГБ занимает всего 4 минуты со скоростью 100 Мбит/с, и у большинства компаний скорость выше.

Еще один момент заключается в том, что данные не так просты, как вам говорят.

например Метод секвенирования, изобретенный Craig_Venter, был большим прорывом, но у него есть свои недостатки. Он не мог разделить длинные цепи одной и той же пары оснований, поэтому не всегда на 100% ясно, есть ли 8 А или 9 А. Вещи, о которых вы должны позаботиться позже...

Другим примером является метилирование ДНК, потому что вы не можете хранить эту информацию в 2-битном представлении. .

person rauschen    schedule 21.01.2012
comment
+1 от меня. Однако я понятия не имею, что означает большая или маленькая хромосома? - person Milan Babuškov; 23.01.2012
comment
Эти цифры не соответствуют тому, что говорит Википедия (см. таблицу на en.wikipedia.org/wiki). /Human_genome#Information_content); Я не говорю, что вы не правы, но можете ли вы объяснить несоответствие? - person Oliver Charlesworth; 23.01.2012
comment
Похоже, он цитирует Mbp (миллион пар оснований, каждая пара оснований представляет собой одну позицию в геноме), а не MB, который может предполагать 2-битное кодирование каждой позиции. - person Alex Stoddard; 24.01.2012
comment
Некоторая часть метилирования ДНК генома меняется в течение жизни организма. Включение данных о метилировании ДНК для генома человека будет больше похоже на подробный снимок человека в конкретный момент, а не на общее описание человека. Хотя ОП не уточнил, чего они хотят. - person cowlinator; 18.06.2020
comment
Зачем хранить все для каждого? 99% ДНК одинаковы у людей, поэтому вам нужно будет хранить только отклонения каждого человека от среднего. - person SurpriseDog; 27.05.2021

По сути, каждая пара оснований занимает 2 бита (вы можете использовать 00, 01, 10, 11 для T, G, C и A). Поскольку в геноме человека около 2,9 миллиарда пар оснований, (2 * 2,9 миллиарда) бит ~= 691 мегабайт.

Я не эксперт, однако на странице Геном человека в Википедии говорится следующее:

Сырой МБ:

  • Мужчина (XY): 770 МБ
  • Женский (ХХ): 756 МБ

Я не уверен, откуда взялась их дисперсия, но я уверен, что вы можете понять это.

person Paul Armstrong    schedule 21.01.2012
comment
В действительности требуется более 2 бит, так как в информации о последовательности хранятся другие основания (например, N, где данные не могут быть отображены и, следовательно, неизвестны). Нуклеотидные коды IUPAC включают больше стандартных четырех, и это может увеличить накладные расходы на хранение. ebi.ac.uk/2can/tutorials/aa.html - person Alex Reynolds; 30.01.2012
comment
@AlexReynolds неработающая ссылка:/ - person o0'.; 01.05.2015
comment
@AlexReynolds @o0' bioinformatics.org/sms2/iupac.html — лучшая ссылка для этих кодов IUPAC. AIUI, для конкретного сканирования генома требуется более 2 битов из-за неточности, таким образом, R для A или G, N для любого основания, . для пробела и т. д. Если бы мы могли идеально прочитать геном, это было бы всего 2 бита на основание. - person skierpage; 12.01.2017
comment
Х-хромосома одинарна у женщин. Самцы имеют дополнительный Y хром. быть закодированным, что, как мы все знаем, отличается от X кром. - person ZF007; 01.03.2018
comment
Это также зависит от того, как вы определяете Мегабайт: двоичные 2^20 или метрические 10^6 байт. Вы используете двоичный код, поэтому ваш номер меньше. - person il--ya; 06.07.2018
comment
@ ZF007 человеческие женщины имеют ДВЕ Х-хромосомы. У самцов один X и один Y. - person xbello; 24.08.2019
comment
@xbello .. вы предполагаете, что разница между обоими X более чем в 100 000 б.п. имеет значение для включения вдвое большей информации, или мы можем предположить, что она составляет ‹1.000 п.н.? И при этом пренебрежительно-способен в обсуждении?! - person ZF007; 24.08.2019
comment
Х-хромосома несет около 5-6 миллионов вариантов, поэтому можно с уверенностью сказать, что между ними вероятна разница в 100 тысяч. Если вы хотите сохранить только гаплоидный геном человека, то да, вы можете отказаться от целой Х-хромосомы вместе с половиной аутосом. Но в реальном мире мы должны хранить каждый вариант И его зиготность, чтобы иметь действительно хранилище без потерь. - person xbello; 24.08.2019
comment
... в таком случае мы должны компенсировать ... еще 44 хромосомы. Я думаю, что это станет другим вопросом, потому что тогда вам нужно знать, нужно ли вам иметь в виду реальные замены (только уровень белка) или/и также уровень РНК-укладки и т. д.? Итак ... если вы хотите покопаться в этом посте, задайте новый вопрос и бросьте @. - person ZF007; 25.08.2019

Да, минимальный объем оперативной памяти, необходимый для целой ДНК человека, составляет около 770 МБ. Однако 2-битное представление нецелесообразно. Трудно искать или делать какие-то вычисления на нем. Поэтому некоторые математики разработали более эффективный способ хранения этих последовательностей оснований... и используют их в алгоритмах поиска и сравнения, таких как, например, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Это приложение работает на моем компьютере прямо сейчас, так что я могу сказать вам... что ДНК практически хранится примерно в: 1 563 МБ.

person Filip OvertoneSinger Rydlo    schedule 25.01.2014

только что тоже сделал. исходная последовательность составляет ~ 700 МБ. если кто-то использует фиксированную последовательность хранения или алгоритм хранения фиксированной последовательности - и тот факт, что изменения составляют 1%, я вычисляю ~ 120 МБ с хранилищем дельта-смещения-последовательности-последовательности. это все для хранения.

person betheguest    schedule 14.03.2014

Геном человека содержит 2,9 миллиарда пар оснований. Итак, если вы представите каждую пару оснований в виде байта, это займет 2,9 миллиарда байтов или 2,9 ГБ. Вероятно, вы могли бы придумать более творческий способ хранения пар оснований, поскольку для каждой пары оснований требуется всего 2 бита. Таким образом, вы, вероятно, могли бы хранить 4 пары оснований на байт, в результате чего общая сумма составила бы менее ГБ.

person slayton    schedule 21.01.2012
comment
биты ~= байты. 2,9 миллиарда бит — это около 350 МБ. - person SDGuero; 23.04.2014
comment
@SDGuero, пары оснований имеют основание 4, а не основание 2, поэтому вам нужно как минимум 2 бита для представления пары оснований. - person slayton; 24.04.2014
comment
BS на битовом жаргоне ... каждое основание нуклеотида составляет 1 символ и, следовательно, 1 байт, независимо от используемой таблицы преобразования символов (AscII, UTF-8 и т. д.); не включая 2-байтовое азиатское кодирование. - person ZF007; 01.03.2018
comment
@ zf007 Пары оснований представлены ТОКЕНАМИ a, c, g и t. Токен — это не то же самое, что персонаж. Нет причин, по которым a не может быть закодировано как 00, c как 01, g как 10 и t как 11 - person MatBailie; 18.12.2019
comment
@MatBailie .. Пожалуйста, уточните и включите в свой комментарий то, что вы хотите сделать, потому что на данный момент оно отсутствует. Вы читали мой ответ, который касается стиля кодирования («A» как 1 байт или «ATCG» или любой другой четверки, представленной в 1 байте) и требования иметь строку ДНК, удобочитаемую для человека в файлах fasta? - person ZF007; 18.12.2019
comment
Есть несоответствие; вы утверждаете, что вам нужен удобочитаемый файл, которого нет в исходном сообщении. - person MatBailie; 19.12.2019

Наша ДНК состоит из 4 нуклеотидных оснований: A, C, G, T, поэтому каждое основание в ДНК занимает 2 бита. Существует около 2,9 миллиардов баз, так что это около 700 мегабайт. Странно то, что это заполнило бы обычный компакт-диск с данными! стечение обстоятельств?!?

person Matthew McGuinness    schedule 24.04.2012

Большинство ответов, кроме пользователей slayton, rauchen, Paul Amstrong, совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.

Геном человека с 3Gb нуклеотидов соответствует 3Gb байтам, а не ~750MB. Сконструированный «гаплоидный» геном по данным NCBI в настоящее время имеет размер 3436687kb или 3,436687 Gb. Проверьте сами здесь.

Гаплоид = единственная копия хромосомы. Диплоид = две версии гаплоида. У людей 22 уникальные хромосомы x 2 = 44. Мужская 23-я хромосома - это X, Y, всего 46. Суки 23 хром. равно X, X и, таким образом, всего 46.

Для мужчин это будет 23 + 1 хромосома в хранилище данных на жестком диске, а для женщин 23 хромосомы, что объясняет небольшие различия, которые время от времени упоминаются в ответах. X хром. у самцов равен Х кром. от самок.

Таким образом, загрузка генома (23+1) в память осуществляется по частям через BLAST с использованием сконструированных баз данных из fasta-файлов. Независимо от заархивированных версий или нет, нуклеотиды практически не сжимаются. Раньше одним из используемых приемов была замена тандемных повторов (GACGACGAC более коротким кодированием, например, «3GAC»; 9 байтов на 4 байта). Причина заключалась в экономии места на жестком диске (площадь пластин жесткого диска 500bm-2GB со скоростью вращения 7200 об/мин и разъемами SCSI). Для поиска последовательности это также было сделано с запросом.

Если хранение "кодированных нуклеотидов" будет 2-битным на букву, то вы получите для байта:

A = 00
C = 01
G = 10
T = 11

Только так вы полностью зарабатываете на позициях 1,2,3,4,5,6,7 и 8 на 1 байт кодирования. Например, комбинация 00.01.10.11 (как байт 00011011) будет соответствовать «ACTG» (и отображаться в текстовом файле как неузнаваемый символ). Одно только это отвечает за четырехкратное уменьшение размера файла, как мы видим в других ответах. Таким образом, 3,4 Гб будут уменьшены до 0,85917175 Гб... ~860 Мб, включая необходимую программу преобразования (23 КБ-4 Мб).

Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатия gzip более чем достаточно. В разархивированном виде вы все еще можете прочитать его. Если использовалось такое байтовое заполнение, читать данные становится сложнее. Вот почему fasta-файлы на самом деле являются обычными текстовыми файлами.

person ZF007    schedule 01.03.2018
comment
Вы также можете хранить его как изображение, аудиозапись или даже видео - и это займет терабаты для хранения. Но это не обязательно и минимально, как просили. - person il--ya; 06.07.2018
comment
@il--ya... Я упускаю из виду то, что вы пытаетесь донести... (Думаю, вам нравится перемещать около 250 км ленты TDK... весом 600 кг, перемотка которой занимает три часа)? - person ZF007; 09.07.2018
comment
Дело в том, что 1 из 4 пар оснований кодируется 2 битами информации. Именно столько данных необходимо для кодирования — меньше кодировать нельзя. Но вы можете закодировать его по-другому: вы можете использовать целый байт, или нарисовать картинку, которая занимает несколько килобайт, или сделать аудиозапись. Все это по-прежнему позволяло бы хранить необходимую информацию, но это не было бы требуемым или минимальным кодированием. Вы произвольно установили критерии удобочитаемости (используя стандартный текстовый редактор), а это не то, что было задано в исходном вопросе. - person il--ya; 11.07.2018
comment
К сожалению, в биологии это не так. Способ общения между учеными — устный, бумажный или в виде текстовых файлов, которые легко читаются с экрана. В случае, если у вас есть одна базовая пара, достаточно заполнить байт нулями или единицами. Однако есть 4 основания (2 пары). В байте у вас есть 4 позиции для базовой пары и 4 позиции, которые указывают тип базовой пары. Сжатие данных работает, но людям нужна удобочитаемость. Один пиксель в коде RGB (3 значения и значение интенсивности) занимает 32 байта. Всего 8 бит на букву. Таким образом, нет смысла делать из него Мону Лизу, верно? - person ZF007; 19.07.2018
comment
ZF007, вы упустили мою мысль о минимальности. Вопрос заключался в следующем: сколько памяти требуется для хранения ДНК человека? с дальнейшими подробностями ... Я ищу минимальное значение, которое могло бы хранить ДНК любого человека. Вы пытаетесь ответить на другой вопрос, а именно: сколько памяти потребуется для хранения ДНК человека в удобочитаемой форме, используемой биологами для передачи данных генома? если вы сжимаете читаемые текстовые данные с помощью хорошего алгоритма сжатия, это приведет к тому, что их размер будет значительно ниже 2 бит на пару оснований. - person il--ya; 20.07.2018
comment
как заявил OP Я хотел бы посмотреть, как другие подойдут к этой проблеме. Решение этой проблемы означает, что информация должна быть удобочитаемой для человека без необходимых для установки причудливых инструментов, что является общим правилом NO-GO Life Sciences. Минимализм, как вы утверждаете, il—ya — это, по сути, операция кодирования/шифрования/сжатия строки двоичного кода и, таким образом, становится недоступной для поиска. Кроме того, в долгосрочной перспективе продолжающиеся действия по сжатию/распаковке более или менее недоступных наборов данных значительно замедляют поиск генома/хромосомы, что стоит больше денег, чем дополнительный SDD/HDD или 2 гигабайта оперативной памяти. - person ZF007; 02.07.2019
comment
Хороший ответ. Кстати, эта ссылка сейчас не работает. - person sdanse; 10.03.2020
comment
@sdanse ... действительно кажется просроченной ссылкой. Его можно найти здесь, приложив некоторые усилия, если вы скачаете фаст самостоятельно: ncbi.nlm .nih.gov/grc/human/data - person ZF007; 11.03.2020
comment
@sdanse ... вот он: ftp.ncbi.nih. gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3 - person ZF007; 11.03.2020

Во всех ответах не учитывается тот факт, что nuDNA — не единственная ДНК, определяющая геном человека. МтДНК также передается по наследству и вносит дополнительные 16 500 пар оснований в геном человека, что больше соответствует предположению Википедии о 770 МБ для мужчин и 756 МБ для женщин.

Это не означает, что геном человека можно легко сохранить на USB-накопителе объемом 4 ГБ. Биты не представляют информацию сами по себе, это комбинация битов, которые представляют информацию. Таким образом, в случае nuDNA и mtDNA биты кодируются (не путать со сжатыми) для представления белков и ферментов, которые сами по себе требуют многих МБ необработанных данных для представления, особенно с точки зрения функциональности.

Пища для размышлений: 80% человеческого генома называется «некодирующей» ДНК, так вы действительно верили, что все человеческое тело и мозг могут быть представлены всего лишь 151–154 МБ необработанных данных?

person ar18    schedule 17.02.2019

Существует только 2 типа пар оснований, цитозин может связываться только с гуанином, а аденин может связываться только с тимином, поэтому каждую пару оснований можно рассматривать как один бит. Это означает, что целая цепочка ДНК человека ~3 миллиарда «битов» будет около ~350 мегабайт.

person The Linux Fanboy    schedule 18.05.2017
comment
У вас есть 2 типа пар, и они могут быть в двух направлениях — поэтому вам нужно два бита для каждой пары. Вот почему в большинстве сообщений выше написано ~ 700 МБ, а не 350 МБ. - person Trondster; 23.10.2017

Одно основание — T, C, A, G (в системе счисления с основанием 4: 0, 1, 2, 3) — кодируется как два бита ( не один), поэтому одна базовая пара кодируется четырьмя битами.

person Henry K O Norman    schedule 29.04.2018
comment
За исключением того, что основания в паре дополняют друг друга, поэтому не добавляйте никакой информации. Таким образом, и основание, и пара оснований могут быть закодированы двумя битами. - person il--ya; 06.07.2018
comment
Если у вас есть пятерка, чем вы ее дополняете? AC AG AT действительны. Аналогичным образом, если у вас есть T, TG TC TA действительны, так что вы делаете? - person Roger Johansson; 01.11.2018
comment
@RogerJohansson Нет, в ДНК допустима только пара оснований «AT». Аналогично для «TA», «CG» и «GC». Никакой другой комбинации пар оснований не существует. - person Konrad Rudolph; 18.02.2019
comment
@KonradRudolph существует как минимум девять пуринов (en.wikipedia.org/wiki/Purine). Все они могут быть использованы для замены A или G. Это сделало бы решение вопроса ОП более сложным. Я согласен быть простым и придерживаться A, G, T и C. - person ZF007; 02.07.2019
comment
@ ZF007 Они существуют, но не встречаются стабильно в геномах человека и поэтому не имеют отношения к хранению генома. Их биологическая значимость важна только в контексте мутаций (и то только временных) и модификаций РНК. В частности (в контексте этого ответа), геномные данные не хранятся в виде «пар оснований», они хранятся в виде последовательности одиночных оснований, и каждая позиция может быть закодирована двумя битами. Это не теория, это фактически это делается (за исключением того, что для большинства приложений генетические данные хранятся в (сжатом gzip) ASCII, а не сжатом по битам). - person Konrad Rudolph; 02.07.2019