Большинство ответов, кроме пользователей slayton, rauchen, Paul Amstrong, совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.
Геном человека с 3Gb нуклеотидов соответствует 3Gb байтам, а не ~750MB. Сконструированный «гаплоидный» геном по данным NCBI в настоящее время имеет размер 3436687kb или 3,436687 Gb. Проверьте сами здесь.
Гаплоид = единственная копия хромосомы. Диплоид = две версии гаплоида. У людей 22 уникальные хромосомы x 2 = 44. Мужская 23-я хромосома - это X, Y, всего 46. Суки 23 хром. равно X, X и, таким образом, всего 46.
Для мужчин это будет 23 + 1 хромосома в хранилище данных на жестком диске, а для женщин 23 хромосомы, что объясняет небольшие различия, которые время от времени упоминаются в ответах. X хром. у самцов равен Х кром. от самок.
Таким образом, загрузка генома (23+1) в память осуществляется по частям через BLAST с использованием сконструированных баз данных из fasta-файлов. Независимо от заархивированных версий или нет, нуклеотиды практически не сжимаются. Раньше одним из используемых приемов была замена тандемных повторов (GACGACGAC более коротким кодированием, например, «3GAC»; 9 байтов на 4 байта). Причина заключалась в экономии места на жестком диске (площадь пластин жесткого диска 500bm-2GB со скоростью вращения 7200 об/мин и разъемами SCSI). Для поиска последовательности это также было сделано с запросом.
Если хранение "кодированных нуклеотидов" будет 2-битным на букву, то вы получите для байта:
A = 00
C = 01
G = 10
T = 11
Только так вы полностью зарабатываете на позициях 1,2,3,4,5,6,7 и 8 на 1 байт кодирования. Например, комбинация 00.01.10.11 (как байт 00011011
) будет соответствовать «ACTG» (и отображаться в текстовом файле как неузнаваемый символ). Одно только это отвечает за четырехкратное уменьшение размера файла, как мы видим в других ответах. Таким образом, 3,4 Гб будут уменьшены до 0,85917175 Гб... ~860 Мб, включая необходимую программу преобразования (23 КБ-4 Мб).
Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатия gzip более чем достаточно. В разархивированном виде вы все еще можете прочитать его. Если использовалось такое байтовое заполнение, читать данные становится сложнее. Вот почему fasta-файлы на самом деле являются обычными текстовыми файлами.
person
ZF007
schedule
01.03.2018