Какой объем памяти потребуется для хранения генома человека?

Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т. д.), необходимый для хранения одного генома человека. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах и у меня есть некоторые приблизительные предположения, но прежде чем раскрывать что-либо, я хотел бы посмотреть, как другие подходят к этому вопросу.

Альтернативным вопросом может быть количество атомов в ДНК человека, но это не тема для этого сайта.

Я понимаю, что это будет приблизительно, поэтому я ищу минимальное значение, которое сможет сохранить ДНК любого человека.

Milan Babuškov 21.01.2012 источник

comment

Что касается количества атомов, то это зависит от состава. Молекулы A и T меньше, чем G и C. Структура молекулы — это говядина, а не ее атомный состав, так что это не очень полезный расчет. (Для чего это стоит, например, молекула A, также известная как деоксиаденозин, представляет собой C10H13N5O3, то есть 31 атом.) - tripleee 30.08.2015

comment

См. также biostars.org/p/5514. - Ondra Žižka 02.12.2015

comment

За исключением пользователей slayton, Paul Amstrong и rauchen, все остальные данные ответы совершенно неверны по своей сути или далеки от завершения. В ответах пользователь (не смог) упомянул методы сжатия или плохо объяснил. Смотрите мой ответ, чтобы прояснить 4-кратное сокращение генома, как видно во многих ответах. - ZF007 01.03.2018

comment

Я голосую за то, чтобы закрыть этот вопрос как не по теме, потому что здесь он не по теме, должен быть на bioinformatics.stackexchange.com - Chris_Rands 27.11.2019

comment

938 мегабайт в сжатом виде. Вот ссылка на репозиторий, содержащий его в файле с именем: hg38 .chromFa.tar.gz - SurpriseDog 27.05.2021

Ответы (11)

arrow_upward
73
arrow_downward

Если вы доверяете таким вещам, вот что утверждает Википедия (из http://en.wikipedia.org/wiki/Human_genome#Information_content). ):

2,9 миллиарда пар оснований гаплоидного генома человека соответствуют примерно 725 мегабайтам данных, поскольку каждая пара оснований может быть закодирована двумя битами. Поскольку отдельные геномы отличаются друг от друга менее чем на 1%, их можно без потерь сжать примерно до 4 мегабайт.

Oliver Charlesworth 21.01.2012

comment

Чтобы добавить немного биологического комментария, гаплоид здесь означает только одну копию каждой хромосомы. Эталонная сборка человека гаплоидна (и представляет собой мозаику из нескольких людей). Фактический индивидуальный геном будет диплоидным (по 2 копии каждой хромосомы, кроме X и Y), но опять же только вариант между двумя копиями в небольшом подмножестве сайтов. - Alex Stoddard; 23.01.2012

comment

Подумал об этом в течение дня и понял следующее: если вы сохранили некоторую базовую человеческую ДНК, любую последующую человеческую ДНК нужно будет хранить только как разницу между ней и базовым случаем. Для представителей одного пола ДНК на 99,9% совпадает. И среди полов это около 98,5%. - Costa Michailidis; 22.05.2015

comment

Также стоит помнить, что не вся информация, закодированная в парах оснований ДНК, также является эпигенетической информацией. - Annarfych; 19.06.2017

comment

это имеет смысл. пары оснований в основном 4-нарные. 4-значное число составляет 2 бита, поэтому его размер удваивается. так что это 5,8 гигабит или 5,8/8 гигабайт, что составляет 0,725 ГБ или 725 МБ. «сжатие» возможно только потому, что вы можете хранить различия с сопоставленным геномом вместо сохранения всего генома. - Dave Cousineau; 02.10.2017

comment

@Annarfych Это крайне вводит в заблуждение, поскольку эпигенетическая информация по определению не наследуется (несмотря на ошибочные утверждения об обратном в популярной прессе). Наследуемая информация хранится только в ДНК. - Konrad Rudolph; 02.07.2019

comment

@KonradRudolph, это неправильно. Эпигенетическая информация по определению наследуема. - cowlinator; 18.06.2020

comment

@cowlinator Категорически нет. И, чтобы сократить это, я провел исследование в области эпигенетики для своей докторской и постдок. На этот раз я действительно знаю, о чем говорю. - Konrad Rudolph; 18.06.2020

comment

@KonradRudolph, значит, эпигенетика - это не изучение наследственных изменений фенотипа, которые не связаны с изменениями в последовательности ДНК? Что такое эпигенетика? (Я спрашиваю, потому что это определение используется Википедией и Merriam-Webster) - cowlinator; 19.06.2020

comment

@cowlinator Эти определения… плохие. «Наследуемый» в данном случае означает «наследуемый» между делящимися материнскими и дочерними клетками, но не наследуемый между многоклеточными организмами и их потомством (это было бы трансгенерационным эпигенетическим наследованием, которое существует, но встречается невероятно редко, и большинство заявленных случаев основаны на плохой науке и, как правило, не принимаются экспертами). Но человек, написавший это предложение, вероятно, не совсем понимает, что он имеет в виду, потому что нет оправдания плохой формулировке предложения. Загляните на страницу «Обсуждение» статьи в Википедии. - Konrad Rudolph; 19.06.2020

arrow_upward
27
arrow_downward

Вы не храните всю ДНК в одном потоке, большую часть времени она хранится в хромосомах.

Большая хромосома занимает около 300 МБ, а маленькая около 50 МБ.

Редактировать:

Я думаю, что первая причина, по которой он не сохраняется в 2 бита на пару оснований, заключается в том, что это затруднит работу с данными. Большинство людей не знали бы, как его преобразовать. И даже когда дали бы программу для конвертации, многие люди в крупных компаниях или НИИ не имеют права/необходимости спрашивать или не умеют устанавливать программы...

1 ГБ хранилища ничего не стоит, даже загрузка 3 ГБ занимает всего 4 минуты со скоростью 100 Мбит/с, и у большинства компаний скорость выше.

Еще один момент заключается в том, что данные не так просты, как вам говорят.

например Метод секвенирования, изобретенный Craig_Venter, был большим прорывом, но у него есть свои недостатки. Он не мог разделить длинные цепи одной и той же пары оснований, поэтому не всегда на 100% ясно, есть ли 8 А или 9 А. Вещи, о которых вы должны позаботиться позже...

Другим примером является метилирование ДНК, потому что вы не можете хранить эту информацию в 2-битном представлении. .

rauschen 21.01.2012

comment

+1 от меня. Однако я понятия не имею, что означает большая или маленькая хромосома? - Milan Babuškov; 23.01.2012

comment

Эти цифры не соответствуют тому, что говорит Википедия (см. таблицу на en.wikipedia.org/wiki). /Human_genome#Information_content); Я не говорю, что вы не правы, но можете ли вы объяснить несоответствие? - Oliver Charlesworth; 23.01.2012

comment

Похоже, он цитирует Mbp (миллион пар оснований, каждая пара оснований представляет собой одну позицию в геноме), а не MB, который может предполагать 2-битное кодирование каждой позиции. - Alex Stoddard; 24.01.2012

comment

Некоторая часть метилирования ДНК генома меняется в течение жизни организма. Включение данных о метилировании ДНК для генома человека будет больше похоже на подробный снимок человека в конкретный момент, а не на общее описание человека. Хотя ОП не уточнил, чего они хотят. - cowlinator; 18.06.2020

comment

Зачем хранить все для каждого? 99% ДНК одинаковы у людей, поэтому вам нужно будет хранить только отклонения каждого человека от среднего. - SurpriseDog; 27.05.2021

arrow_upward
15
arrow_downward

По сути, каждая пара оснований занимает 2 бита (вы можете использовать 00, 01, 10, 11 для T, G, C и A). Поскольку в геноме человека около 2,9 миллиарда пар оснований, (2 * 2,9 миллиарда) бит ~= 691 мегабайт.

Я не эксперт, однако на странице Геном человека в Википедии говорится следующее:

Сырой МБ:

Мужчина (XY): 770 МБ
Женский (ХХ): 756 МБ

Я не уверен, откуда взялась их дисперсия, но я уверен, что вы можете понять это.

Paul Armstrong 21.01.2012

comment

В действительности требуется более 2 бит, так как в информации о последовательности хранятся другие основания (например, N, где данные не могут быть отображены и, следовательно, неизвестны). Нуклеотидные коды IUPAC включают больше стандартных четырех, и это может увеличить накладные расходы на хранение. ebi.ac.uk/2can/tutorials/aa.html - Alex Reynolds; 30.01.2012

comment

@AlexReynolds неработающая ссылка:/ - o0'.; 01.05.2015

comment

@AlexReynolds @o0' bioinformatics.org/sms2/iupac.html — лучшая ссылка для этих кодов IUPAC. AIUI, для конкретного сканирования генома требуется более 2 битов из-за неточности, таким образом, R для A или G, N для любого основания, . для пробела и т. д. Если бы мы могли идеально прочитать геном, это было бы всего 2 бита на основание. - skierpage; 12.01.2017

comment

Х-хромосома одинарна у женщин. Самцы имеют дополнительный Y хром. быть закодированным, что, как мы все знаем, отличается от X кром. - ZF007; 01.03.2018

comment

Это также зависит от того, как вы определяете Мегабайт: двоичные 2^20 или метрические 10^6 байт. Вы используете двоичный код, поэтому ваш номер меньше. - il--ya; 06.07.2018

comment

@ ZF007 человеческие женщины имеют ДВЕ Х-хромосомы. У самцов один X и один Y. - xbello; 24.08.2019

comment

@xbello .. вы предполагаете, что разница между обоими X более чем в 100 000 б.п. имеет значение для включения вдвое большей информации, или мы можем предположить, что она составляет ‹1.000 п.н.? И при этом пренебрежительно-способен в обсуждении?! - ZF007; 24.08.2019

comment

Х-хромосома несет около 5-6 миллионов вариантов, поэтому можно с уверенностью сказать, что между ними вероятна разница в 100 тысяч. Если вы хотите сохранить только гаплоидный геном человека, то да, вы можете отказаться от целой Х-хромосомы вместе с половиной аутосом. Но в реальном мире мы должны хранить каждый вариант И его зиготность, чтобы иметь действительно хранилище без потерь. - xbello; 24.08.2019

comment

... в таком случае мы должны компенсировать ... еще 44 хромосомы. Я думаю, что это станет другим вопросом, потому что тогда вам нужно знать, нужно ли вам иметь в виду реальные замены (только уровень белка) или/и также уровень РНК-укладки и т. д.? Итак ... если вы хотите покопаться в этом посте, задайте новый вопрос и бросьте @. - ZF007; 25.08.2019

arrow_upward
10
arrow_downward

Да, минимальный объем оперативной памяти, необходимый для целой ДНК человека, составляет около 770 МБ. Однако 2-битное представление нецелесообразно. Трудно искать или делать какие-то вычисления на нем. Поэтому некоторые математики разработали более эффективный способ хранения этих последовательностей оснований... и используют их в алгоритмах поиска и сравнения, таких как, например, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Это приложение работает на моем компьютере прямо сейчас, так что я могу сказать вам... что ДНК практически хранится примерно в: 1 563 МБ.

Filip OvertoneSinger Rydlo 25.01.2014

arrow_upward
4
arrow_downward

только что тоже сделал. исходная последовательность составляет ~ 700 МБ. если кто-то использует фиксированную последовательность хранения или алгоритм хранения фиксированной последовательности - и тот факт, что изменения составляют 1%, я вычисляю ~ 120 МБ с хранилищем дельта-смещения-последовательности-последовательности. это все для хранения.

betheguest 14.03.2014

arrow_upward
3
arrow_downward

Геном человека содержит 2,9 миллиарда пар оснований. Итак, если вы представите каждую пару оснований в виде байта, это займет 2,9 миллиарда байтов или 2,9 ГБ. Вероятно, вы могли бы придумать более творческий способ хранения пар оснований, поскольку для каждой пары оснований требуется всего 2 бита. Таким образом, вы, вероятно, могли бы хранить 4 пары оснований на байт, в результате чего общая сумма составила бы менее ГБ.

slayton 21.01.2012

comment

биты ~= байты. 2,9 миллиарда бит — это около 350 МБ. - SDGuero; 23.04.2014

comment

@SDGuero, пары оснований имеют основание 4, а не основание 2, поэтому вам нужно как минимум 2 бита для представления пары оснований. - slayton; 24.04.2014

comment

BS на битовом жаргоне ... каждое основание нуклеотида составляет 1 символ и, следовательно, 1 байт, независимо от используемой таблицы преобразования символов (AscII, UTF-8 и т. д.); не включая 2-байтовое азиатское кодирование. - ZF007; 01.03.2018

comment

@ zf007 Пары оснований представлены ТОКЕНАМИ a, c, g и t. Токен — это не то же самое, что персонаж. Нет причин, по которым a не может быть закодировано как 00, c как 01, g как 10 и t как 11 - MatBailie; 18.12.2019

comment

@MatBailie .. Пожалуйста, уточните и включите в свой комментарий то, что вы хотите сделать, потому что на данный момент оно отсутствует. Вы читали мой ответ, который касается стиля кодирования («A» как 1 байт или «ATCG» или любой другой четверки, представленной в 1 байте) и требования иметь строку ДНК, удобочитаемую для человека в файлах fasta? - ZF007; 18.12.2019

comment

Есть несоответствие; вы утверждаете, что вам нужен удобочитаемый файл, которого нет в исходном сообщении. - MatBailie; 19.12.2019

arrow_upward
3
arrow_downward

Наша ДНК состоит из 4 нуклеотидных оснований: A, C, G, T, поэтому каждое основание в ДНК занимает 2 бита. Существует около 2,9 миллиардов баз, так что это около 700 мегабайт. Странно то, что это заполнило бы обычный компакт-диск с данными! стечение обстоятельств?!?

Matthew McGuinness 24.04.2012

arrow_upward
3
arrow_downward

Большинство ответов, кроме пользователей slayton, rauchen, Paul Amstrong, совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.

Геном человека с 3Gb нуклеотидов соответствует 3Gb байтам, а не ~750MB. Сконструированный «гаплоидный» геном по данным NCBI в настоящее время имеет размер 3436687kb или 3,436687 Gb. Проверьте сами здесь.

Гаплоид = единственная копия хромосомы. Диплоид = две версии гаплоида. У людей 22 уникальные хромосомы x 2 = 44. Мужская 23-я хромосома - это X, Y, всего 46. Суки 23 хром. равно X, X и, таким образом, всего 46.

Для мужчин это будет 23 + 1 хромосома в хранилище данных на жестком диске, а для женщин 23 хромосомы, что объясняет небольшие различия, которые время от времени упоминаются в ответах. X хром. у самцов равен Х кром. от самок.

Таким образом, загрузка генома (23+1) в память осуществляется по частям через BLAST с использованием сконструированных баз данных из fasta-файлов. Независимо от заархивированных версий или нет, нуклеотиды практически не сжимаются. Раньше одним из используемых приемов была замена тандемных повторов (GACGACGAC более коротким кодированием, например, «3GAC»; 9 байтов на 4 байта). Причина заключалась в экономии места на жестком диске (площадь пластин жесткого диска 500bm-2GB со скоростью вращения 7200 об/мин и разъемами SCSI). Для поиска последовательности это также было сделано с запросом.

Если хранение "кодированных нуклеотидов" будет 2-битным на букву, то вы получите для байта:

A = 00
C = 01
G = 10
T = 11

Только так вы полностью зарабатываете на позициях 1,2,3,4,5,6,7 и 8 на 1 байт кодирования. Например, комбинация 00.01.10.11 (как байт 00011011) будет соответствовать «ACTG» (и отображаться в текстовом файле как неузнаваемый символ). Одно только это отвечает за четырехкратное уменьшение размера файла, как мы видим в других ответах. Таким образом, 3,4 Гб будут уменьшены до 0,85917175 Гб... ~860 Мб, включая необходимую программу преобразования (23 КБ-4 Мб).

Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатия gzip более чем достаточно. В разархивированном виде вы все еще можете прочитать его. Если использовалось такое байтовое заполнение, читать данные становится сложнее. Вот почему fasta-файлы на самом деле являются обычными текстовыми файлами.

ZF007 01.03.2018

comment

Вы также можете хранить его как изображение, аудиозапись или даже видео - и это займет терабаты для хранения. Но это не обязательно и минимально, как просили. - il--ya; 06.07.2018

comment

@il--ya... Я упускаю из виду то, что вы пытаетесь донести... (Думаю, вам нравится перемещать около 250 км ленты TDK... весом 600 кг, перемотка которой занимает три часа)? - ZF007; 09.07.2018

comment

Дело в том, что 1 из 4 пар оснований кодируется 2 битами информации. Именно столько данных необходимо для кодирования — меньше кодировать нельзя. Но вы можете закодировать его по-другому: вы можете использовать целый байт, или нарисовать картинку, которая занимает несколько килобайт, или сделать аудиозапись. Все это по-прежнему позволяло бы хранить необходимую информацию, но это не было бы требуемым или минимальным кодированием. Вы произвольно установили критерии удобочитаемости (используя стандартный текстовый редактор), а это не то, что было задано в исходном вопросе. - il--ya; 11.07.2018

comment

К сожалению, в биологии это не так. Способ общения между учеными — устный, бумажный или в виде текстовых файлов, которые легко читаются с экрана. В случае, если у вас есть одна базовая пара, достаточно заполнить байт нулями или единицами. Однако есть 4 основания (2 пары). В байте у вас есть 4 позиции для базовой пары и 4 позиции, которые указывают тип базовой пары. Сжатие данных работает, но людям нужна удобочитаемость. Один пиксель в коде RGB (3 значения и значение интенсивности) занимает 32 байта. Всего 8 бит на букву. Таким образом, нет смысла делать из него Мону Лизу, верно? - ZF007; 19.07.2018

comment

ZF007, вы упустили мою мысль о минимальности. Вопрос заключался в следующем: сколько памяти требуется для хранения ДНК человека? с дальнейшими подробностями ... Я ищу минимальное значение, которое могло бы хранить ДНК любого человека. Вы пытаетесь ответить на другой вопрос, а именно: сколько памяти потребуется для хранения ДНК человека в удобочитаемой форме, используемой биологами для передачи данных генома? если вы сжимаете читаемые текстовые данные с помощью хорошего алгоритма сжатия, это приведет к тому, что их размер будет значительно ниже 2 бит на пару оснований. - il--ya; 20.07.2018

comment

как заявил OP Я хотел бы посмотреть, как другие подойдут к этой проблеме. Решение этой проблемы означает, что информация должна быть удобочитаемой для человека без необходимых для установки причудливых инструментов, что является общим правилом NO-GO Life Sciences. Минимализм, как вы утверждаете, il—ya — это, по сути, операция кодирования/шифрования/сжатия строки двоичного кода и, таким образом, становится недоступной для поиска. Кроме того, в долгосрочной перспективе продолжающиеся действия по сжатию/распаковке более или менее недоступных наборов данных значительно замедляют поиск генома/хромосомы, что стоит больше денег, чем дополнительный SDD/HDD или 2 гигабайта оперативной памяти. - ZF007; 02.07.2019

comment

Хороший ответ. Кстати, эта ссылка сейчас не работает. - sdanse; 10.03.2020

comment

@sdanse ... действительно кажется просроченной ссылкой. Его можно найти здесь, приложив некоторые усилия, если вы скачаете фаст самостоятельно: ncbi.nlm .nih.gov/grc/human/data - ZF007; 11.03.2020

comment

@sdanse ... вот он: ftp.ncbi.nih. gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3 - ZF007; 11.03.2020

arrow_upward
0
arrow_downward

Во всех ответах не учитывается тот факт, что nuDNA — не единственная ДНК, определяющая геном человека. МтДНК также передается по наследству и вносит дополнительные 16 500 пар оснований в геном человека, что больше соответствует предположению Википедии о 770 МБ для мужчин и 756 МБ для женщин.

Это не означает, что геном человека можно легко сохранить на USB-накопителе объемом 4 ГБ. Биты не представляют информацию сами по себе, это комбинация битов, которые представляют информацию. Таким образом, в случае nuDNA и mtDNA биты кодируются (не путать со сжатыми) для представления белков и ферментов, которые сами по себе требуют многих МБ необработанных данных для представления, особенно с точки зрения функциональности.

Пища для размышлений: 80% человеческого генома называется «некодирующей» ДНК, так вы действительно верили, что все человеческое тело и мозг могут быть представлены всего лишь 151–154 МБ необработанных данных?

ar18 17.02.2019

arrow_upward
-3
arrow_downward

Существует только 2 типа пар оснований, цитозин может связываться только с гуанином, а аденин может связываться только с тимином, поэтому каждую пару оснований можно рассматривать как один бит. Это означает, что целая цепочка ДНК человека ~3 миллиарда «битов» будет около ~350 мегабайт.

The Linux Fanboy 18.05.2017

comment

У вас есть 2 типа пар, и они могут быть в двух направлениях — поэтому вам нужно два бита для каждой пары. Вот почему в большинстве сообщений выше написано ~ 700 МБ, а не 350 МБ. - Trondster; 23.10.2017

arrow_upward
-3
arrow_downward

Одно основание — T, C, A, G (в системе счисления с основанием 4: 0, 1, 2, 3) — кодируется как два бита ( не один), поэтому одна базовая пара кодируется четырьмя битами.

Henry K O Norman 29.04.2018

comment

За исключением того, что основания в паре дополняют друг друга, поэтому не добавляйте никакой информации. Таким образом, и основание, и пара оснований могут быть закодированы двумя битами. - il--ya; 06.07.2018

comment

Если у вас есть пятерка, чем вы ее дополняете? AC AG AT действительны. Аналогичным образом, если у вас есть T, TG TC TA действительны, так что вы делаете? - Roger Johansson; 01.11.2018

comment

@RogerJohansson Нет, в ДНК допустима только пара оснований «AT». Аналогично для «TA», «CG» и «GC». Никакой другой комбинации пар оснований не существует. - Konrad Rudolph; 18.02.2019

comment

@KonradRudolph существует как минимум девять пуринов (en.wikipedia.org/wiki/Purine). Все они могут быть использованы для замены A или G. Это сделало бы решение вопроса ОП более сложным. Я согласен быть простым и придерживаться A, G, T и C. - ZF007; 02.07.2019

comment

@ ZF007 Они существуют, но не встречаются стабильно в геномах человека и поэтому не имеют отношения к хранению генома. Их биологическая значимость важна только в контексте мутаций (и то только временных) и модификаций РНК. В частности (в контексте этого ответа), геномные данные не хранятся в виде «пар оснований», они хранятся в виде последовательности одиночных оснований, и каждая позиция может быть закодирована двумя битами. Это не теория, это фактически это делается (за исключением того, что для большинства приложений генетические данные хранятся в (сжатом gzip) ASCII, а не сжатом по битам). - Konrad Rudolph; 02.07.2019

Какой объем памяти потребуется для хранения генома человека?

Ответы (11)

Похожие вопросы