Я понял это сам после небольшой работы. В спецификации tar-файла фактически указано все, что вам нужно знать.
Во-первых, каждый файл начинается с 512-байтового заголовка, поэтому вы можете представить его с помощью char [512] или char *, указывающих где-нибудь в вашем большом массиве char (например, если у вас есть весь файл, загруженный в один массив).
Заголовок выглядит так:
location size field
0 100 File name
100 8 File mode
108 8 Owner's numeric user ID
116 8 Group's numeric user ID
124 12 File size in bytes
136 12 Last modification time in numeric Unix time format
148 8 Checksum for header block
156 1 Link indicator (file type)
157 100 Name of linked file
Так что, если вам нужно имя файла, вы можете взять его прямо здесь с помощью string filename(buffer[0], 100);
. Имя файла дополняется нулем, поэтому вы можете проверить, есть ли хотя бы один нуль, а затем оставить размер, если вы хотите сэкономить место.
Теперь мы хотим знать, файл это или папка. Эта информация содержится в поле «индикатор ссылки», поэтому:
// Note that we're comparing to ascii numbers, not ints
switch(buffer[156]){
case '0': // intentionally dropping through
case '\0':
// normal file
break;
case '1':
// hard link
break;
case '2':
// symbolic link
break;
case '3':
// device file/special file
break;
case '4':
// block device
break;
case '5':
// directory
break;
case '6':
// named pipe
break;
}
На данный момент у нас уже есть вся необходимая информация о каталогах, но нам нужно еще кое-что из обычных файлов: фактическое содержимое файла.
Длина файла может быть сохранена двумя разными способами: либо в виде восьмеричной строки с нулевым символом в конце, дополненной нулями или пробелами, либо в виде «кодировки base-256, которая указывается установкой старшего бита крайнего левого байта. числового поля ».
Числовые значения кодируются восьмеричными числами с использованием цифр ASCII с ведущими нулями. По историческим причинам следует использовать последний символ NUL или пробел. Таким образом, хотя для хранения размера файла зарезервировано 12 байтов, можно сохранить только 11 восьмеричных цифр. Это дает максимальный размер заархивированных файлов 8 гигабайт. Чтобы преодолеть это ограничение, в 2001 году компания Star ввела кодировку base-256, которая указывается установкой старшего бита крайнего левого байта числового поля. GNU-tar и BSD-tar последовали этой идее. Кроме того, в версиях tar, предшествующих первому стандарту POSIX 1988 г., значения добавляются пробелами вместо нулей.
Вот как вы читали бы восьмеричный формат, но я не писал код для версии base-256:
// in one function
int size_of_file = octal_string_to_int(&buffer[124], 11);
// elsewhere
int octal_string_to_int(char *current_char, unsigned int size){
unsigned int output = 0;
while(size > 0){
output = output * 8 + *current_char - '0';
current_char++;
size--;
}
return output;
}
Итак, теперь у нас есть все, кроме фактического содержимого файла. Все, что нам нужно сделать, это взять следующие size
байтов данных из tar-файла, и у нас будет содержимое нашего файла:
// Get to the next block after the header ends
location += 512;
file_contents = new char[size];
memcpy(file_contents, &buffer[location], size);
// Go to the next block by rounding up to 512
// This isn't necessarily the most efficient way to do this,
// but it's the most obvious.
location += (int)ceil(size / 512.0)
person
Brendan Long
schedule
24.03.2010
man tar
говорит мне-t List archive contents to stdout.
Ты этого хочешь? - person Potatoswatter   schedule 24.03.2010