]> wimlib.net Git - wimlib/blob - src/resource.c
1e64f260a2c5e696d48870b0027e1dff3eaea1db
[wimlib] / src / resource.c
1 /*
2  * resource.c
3  *
4  * Read uncompressed and compressed metadata and file resources from a WIM file.
5  */
6
7 /*
8  * Copyright (C) 2012, 2013 Eric Biggers
9  *
10  * This file is part of wimlib, a library for working with WIM files.
11  *
12  * wimlib is free software; you can redistribute it and/or modify it under the
13  * terms of the GNU General Public License as published by the Free Software
14  * Foundation; either version 3 of the License, or (at your option) any later
15  * version.
16  *
17  * wimlib is distributed in the hope that it will be useful, but WITHOUT ANY
18  * WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR
19  * A PARTICULAR PURPOSE. See the GNU General Public License for more details.
20  *
21  * You should have received a copy of the GNU General Public License along with
22  * wimlib; if not, see http://www.gnu.org/licenses/.
23  */
24
25 #ifdef HAVE_CONFIG_H
26 #  include "config.h"
27 #endif
28
29 #include "wimlib.h"
30 #include "wimlib/endianness.h"
31 #include "wimlib/error.h"
32 #include "wimlib/file_io.h"
33 #include "wimlib/lookup_table.h"
34 #include "wimlib/lzms.h"
35 #include "wimlib/resource.h"
36 #include "wimlib/sha1.h"
37
38 #ifdef __WIN32__
39 /* for read_win32_file_prefix(), read_win32_encrypted_file_prefix() */
40 #  include "wimlib/win32.h"
41 #endif
42
43 #ifdef WITH_NTFS_3G
44 /* for read_ntfs_file_prefix() */
45 #  include "wimlib/ntfs_3g.h"
46 #endif
47
48 #ifdef HAVE_ALLOCA_H
49 #  include <alloca.h>
50 #endif
51 #include <errno.h>
52 #include <fcntl.h>
53 #include <stdlib.h>
54 #include <unistd.h>
55
56 /*
57  *                         Compressed WIM resources
58  *
59  * A compressed resource in a WIM consists of a number of compressed chunks,
60  * each of which decompresses to a fixed chunk size (given in the WIM header;
61  * usually 32768) except possibly the last, which always decompresses to any
62  * remaining bytes.  In addition, immediately before the chunks, a table (the
63  * "chunk table") provides the offset, in bytes relative to the end of the chunk
64  * table, of the start of each compressed chunk, except for the first chunk
65  * which is omitted as it always has an offset of 0.  Therefore, a compressed
66  * resource with N chunks will have a chunk table with N - 1 entries.
67  *
68  * Additional information:
69  *
70  * - Entries in the chunk table are 4 bytes each, except if the uncompressed
71  *   size of the resource is greater than 4 GiB, in which case the entries in
72  *   the chunk table are 8 bytes each.  In either case, the entries are unsigned
73  *   little-endian integers.
74  *
75  * - The chunk table is included in the compressed size of the resource provided
76  *   in the corresponding entry in the WIM's stream lookup table.
77  *
78  * - The compressed size of a chunk is never greater than the uncompressed size.
79  *   From the compressor's point of view, chunks that would have compressed to a
80  *   size greater than or equal to their original size are in fact stored
81  *   uncompressed.  From the decompresser's point of view, chunks with
82  *   compressed size equal to their uncompressed size are in fact uncompressed.
83  *
84  * Furthermore, wimlib supports its own "pipable" WIM format, and for this the
85  * structure of compressed resources was modified to allow piped reading and
86  * writing.  To make sequential writing possible, the chunk table is placed
87  * after the chunks rather than before the chunks, and to make sequential
88  * reading possible, each chunk is prefixed with a 4-byte header giving its
89  * compressed size as a 32-bit, unsigned, little-endian integer.  Otherwise the
90  * details are the same.
91  */
92
93
94 /* Decompress the specified chunk that uses the specified compression type
95  * @ctype, part of a WIM with default chunk size @wim_chunk_size.  For LZX the
96  * separate @wim_chunk_size is needed because it determines the window size used
97  * for LZX compression.  */
98 static int
99 decompress(const void *cchunk, unsigned clen, void *uchunk, unsigned ulen,
100            int ctype, u32 wim_chunk_size)
101 {
102         switch (ctype) {
103         case WIMLIB_COMPRESSION_TYPE_LZX:
104                 return wimlib_lzx_decompress2(cchunk, clen,
105                                               uchunk, ulen, wim_chunk_size);
106         case WIMLIB_COMPRESSION_TYPE_XPRESS:
107                 return wimlib_xpress_decompress(cchunk, clen,
108                                                 uchunk, ulen);
109         case WIMLIB_COMPRESSION_TYPE_LZMS:
110                 return lzms_decompress(cchunk, clen,
111                                        uchunk, ulen, wim_chunk_size);
112         default:
113                 wimlib_assert(0);
114                 return -1;
115         }
116 }
117
118 /* Read data from a compressed WIM resource.  Assumes parameters were already
119  * verified by read_partial_wim_resource().  */
120 static int
121 read_compressed_wim_resource(const struct wim_resource_spec * const rspec,
122                              const u64 size, const consume_data_callback_t cb,
123                              const u32 cb_chunk_size, void * const ctx_or_buf,
124                              const int flags, const u64 offset)
125 {
126         int ret;
127         int errno_save;
128
129         const u32 orig_chunk_size = rspec->cchunk_size;
130         const u32 orig_chunk_order = bsr32(orig_chunk_size);
131
132         wimlib_assert(is_power_of_2(orig_chunk_size));
133
134         /* Handle the trivial case.  */
135         if (size == 0)
136                 return 0;
137
138         u64 *chunk_offsets = NULL;
139         u8 *out_buf = NULL;
140         u8 *tmp_buf = NULL;
141         void *compressed_buf = NULL;
142         bool chunk_offsets_malloced = false;
143         bool out_buf_malloced = false;
144         bool tmp_buf_malloced = false;
145         bool compressed_buf_malloced = false;
146
147         /* Get the file descriptor for the WIM.  */
148         struct filedes * const in_fd = &rspec->wim->in_fd;
149
150         /* Determine if we're reading a pipable resource from a pipe or not.  */
151         const bool is_pipe_read = !filedes_is_seekable(in_fd);
152
153         /* Calculate the number of chunks the resource is divided into.  */
154         const u64 num_chunks = (rspec->uncompressed_size + orig_chunk_size - 1) >> orig_chunk_order;
155
156         /* Calculate the 0-based index of the chunk at which the read starts.
157          */
158         const u64 start_chunk = offset >> orig_chunk_order;
159
160         /* For pipe reads, we always must start from the 0th chunk.  */
161         const u64 actual_start_chunk = (is_pipe_read ? 0 : start_chunk);
162
163         /* Calculate the offset, within the start chunk, of the first byte of
164          * the read.  */
165         const u32 start_offset_in_chunk = offset & (orig_chunk_size - 1);
166
167         /* Calculate the index of the chunk that contains the last byte of the
168          * read.  */
169         const u64 end_chunk = (offset + size - 1) >> orig_chunk_order;
170
171         /* Calculate the offset, within the end chunk, of the last byte of the
172          * read.  */
173         const u32 end_offset_in_chunk = (offset + size - 1) & (orig_chunk_size - 1);
174
175         /* Calculate the number of entries in the chunk table; it's one less
176          * than the number of chunks, since the first chunk has no entry.  */
177         const u64 num_chunk_entries = num_chunks - 1;
178
179         /* Set the size of each chunk table entry based on the resource's
180          * uncompressed size.  */
181         const u64 chunk_entry_size = (rspec->uncompressed_size > (1ULL << 32)) ? 8 : 4;
182
183         /* Calculate the size, in bytes, of the full chunk table.  */
184         const u64 chunk_table_size = num_chunk_entries * chunk_entry_size;
185
186         /* Current offset to read from.  */
187         u64 cur_read_offset = rspec->offset_in_wim;
188         if (!is_pipe_read) {
189                 /* Read the chunk table into memory.  */
190
191                 /* Calculate the number of chunk entries are actually needed to
192                  * read the requested part of the resource.  Include an entry
193                  * for the first chunk even though that doesn't exist in the
194                  * on-disk table, but take into account that if the last chunk
195                  * required for the read is not the last chunk of the resource,
196                  * an extra chunk entry is needed so that the compressed size of
197                  * the last chunk of the read can be determined.  */
198                 const u64 num_alloc_chunk_entries = end_chunk - start_chunk +
199                                                     1 + (end_chunk != num_chunks - 1);
200
201                 /* Allocate a buffer to hold a subset of the chunk table.  It
202                  * will only contain offsets for the chunks that are actually
203                  * needed for this read.  For speed, allocate the buffer on the
204                  * stack unless it's too large.  */
205                 if ((size_t)(num_alloc_chunk_entries * sizeof(u64)) !=
206                             (num_alloc_chunk_entries * sizeof(u64)))
207                         goto oom;
208
209                 if (num_alloc_chunk_entries <= STACK_MAX / sizeof(u64)) {
210                         chunk_offsets = alloca(num_alloc_chunk_entries * sizeof(u64));
211                 } else {
212                         chunk_offsets = MALLOC(num_alloc_chunk_entries * sizeof(u64));
213                         if (chunk_offsets == NULL)
214                                 goto oom;
215                         chunk_offsets_malloced = true;
216                 }
217
218                 /* Set the implicit offset of the first chunk if it's included
219                  * in the needed chunks.  */
220                 if (start_chunk == 0)
221                         chunk_offsets[0] = 0;
222
223                 /* Calculate the index of the first needed entry in the chunk
224                  * table.  */
225                 const u64 start_table_idx = (start_chunk == 0) ?
226                                 0 : start_chunk - 1;
227
228                 /* Calculate the number of entries that need to be read from the
229                  * chunk table.  */
230                 const u64 num_needed_chunk_entries = (start_chunk == 0) ?
231                                 num_alloc_chunk_entries - 1 : num_alloc_chunk_entries;
232
233                 /* Calculate the number of bytes of data that need to be read
234                  * from the chunk table.  */
235                 const size_t chunk_table_needed_size =
236                                 num_needed_chunk_entries * chunk_entry_size;
237
238                 /* Calculate the byte offset, in the WIM file, of the first
239                  * chunk table entry to read.  Take into account that if the WIM
240                  * file is in the special "pipable" format, then the chunk table
241                  * is at the end of the resource, not the beginning.  */
242                 const u64 file_offset_of_needed_chunk_entries =
243                         rspec->offset_in_wim
244                         + (start_table_idx * chunk_entry_size)
245                         + (rspec->is_pipable ? (rspec->size_in_wim - chunk_table_size) : 0);
246
247                 /* Read the needed chunk table entries into the end of the
248                  * chunk_offsets buffer.  */
249                 void * const chunk_tab_data = (u8*)&chunk_offsets[num_alloc_chunk_entries] -
250                                               chunk_table_needed_size;
251                 ret = full_pread(in_fd, chunk_tab_data, chunk_table_needed_size,
252                                  file_offset_of_needed_chunk_entries);
253                 if (ret)
254                         goto read_error;
255
256                 /* Now fill in chunk_offsets from the entries we have read in
257                  * chunk_tab_data.  Careful: chunk_offsets aliases
258                  * chunk_tab_data, which breaks C's aliasing rules when we read
259                  * 32-bit integers and store 64-bit integers.  But since the
260                  * operations are safe as long as the compiler doesn't mess with
261                  * their order, we use the gcc may_alias extension to tell the
262                  * compiler that loads from the 32-bit integers may alias stores
263                  * to the 64-bit integers.  */
264                 {
265                         typedef le64 __attribute__((may_alias)) aliased_le64_t;
266                         typedef le32 __attribute__((may_alias)) aliased_le32_t;
267                         u64 * const chunk_offsets_p = chunk_offsets + (start_chunk == 0);
268                         u64 i;
269
270                         if (chunk_entry_size == 4) {
271                                 aliased_le32_t *raw_entries = (aliased_le32_t*)chunk_tab_data;
272                                 for (i = 0; i < num_needed_chunk_entries; i++)
273                                         chunk_offsets_p[i] = le32_to_cpu(raw_entries[i]);
274                         } else {
275                                 aliased_le64_t *raw_entries = (aliased_le64_t*)chunk_tab_data;
276                                 for (i = 0; i < num_needed_chunk_entries; i++)
277                                         chunk_offsets_p[i] = le64_to_cpu(raw_entries[i]);
278                         }
279                 }
280
281                 /* Set offset to beginning of first chunk to read.  */
282                 cur_read_offset += chunk_offsets[0];
283                 if (rspec->is_pipable)
284                         cur_read_offset += start_chunk * sizeof(struct pwm_chunk_hdr);
285                 else
286                         cur_read_offset += chunk_table_size;
287         }
288
289         /* If using a callback function, allocate a temporary buffer that will
290          * hold data being passed to it.  If writing directly to a buffer
291          * instead, arrange to write data directly into it.  */
292         size_t out_buf_size;
293         u8 *out_buf_end, *out_p;
294         if (cb) {
295                 out_buf_size = max(cb_chunk_size, orig_chunk_size);
296                 if (out_buf_size <= STACK_MAX) {
297                         out_buf = alloca(out_buf_size);
298                 } else {
299                         out_buf = MALLOC(out_buf_size);
300                         if (out_buf == NULL)
301                                 goto oom;
302                         out_buf_malloced = true;
303                 }
304         } else {
305                 out_buf_size = size;
306                 out_buf = ctx_or_buf;
307         }
308         out_buf_end = out_buf + out_buf_size;
309         out_p = out_buf;
310
311         /* Unless the raw compressed data was requested, allocate a temporary
312          * buffer for reading compressed chunks, each of which can be at most
313          * @orig_chunk_size - 1 bytes.  This excludes compressed chunks that are
314          * a full @orig_chunk_size bytes, which are actually stored
315          * uncompressed.  */
316         if (!(flags & WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS)) {
317                 if (orig_chunk_size - 1 <= STACK_MAX) {
318                         compressed_buf = alloca(orig_chunk_size - 1);
319                 } else {
320                         compressed_buf = MALLOC(orig_chunk_size - 1);
321                         if (compressed_buf == NULL)
322                                 goto oom;
323                         compressed_buf_malloced = true;
324                 }
325         }
326
327         /* Allocate yet another temporary buffer, this one for decompressing
328          * chunks for which only part of the data is needed.  */
329         if (start_offset_in_chunk != 0 ||
330             (end_offset_in_chunk != orig_chunk_size - 1 &&
331              offset + size != rspec->uncompressed_size))
332         {
333                 if (orig_chunk_size <= STACK_MAX) {
334                         tmp_buf = alloca(orig_chunk_size);
335                 } else {
336                         tmp_buf = MALLOC(orig_chunk_size);
337                         if (tmp_buf == NULL)
338                                 goto oom;
339                         tmp_buf_malloced = true;
340                 }
341         }
342
343         /* Read, and possibly decompress, each needed chunk, either writing the
344          * data directly into the @ctx_or_buf buffer or passing it to the @cb
345          * callback function.  */
346         for (u64 i = actual_start_chunk; i <= end_chunk; i++) {
347
348                 /* Calculate uncompressed size of next chunk.  */
349                 u32 chunk_usize;
350                 if ((i == num_chunks - 1) && (rspec->uncompressed_size & (orig_chunk_size - 1)))
351                         chunk_usize = (rspec->uncompressed_size & (orig_chunk_size - 1));
352                 else
353                         chunk_usize = orig_chunk_size;
354
355                 /* Calculate compressed size of next chunk.  */
356                 u32 chunk_csize;
357                 if (is_pipe_read) {
358                         struct pwm_chunk_hdr chunk_hdr;
359
360                         ret = full_pread(in_fd, &chunk_hdr,
361                                          sizeof(chunk_hdr), cur_read_offset);
362                         if (ret)
363                                 goto read_error;
364                         chunk_csize = le32_to_cpu(chunk_hdr.compressed_size);
365                 } else {
366                         if (i == num_chunks - 1) {
367                                 chunk_csize = rspec->size_in_wim -
368                                               chunk_table_size -
369                                               chunk_offsets[i - start_chunk];
370                                 if (rspec->is_pipable)
371                                         chunk_csize -= num_chunks * sizeof(struct pwm_chunk_hdr);
372                         } else {
373                                 chunk_csize = chunk_offsets[i + 1 - start_chunk] -
374                                               chunk_offsets[i - start_chunk];
375                         }
376                 }
377                 if (chunk_csize == 0 || chunk_csize > chunk_usize) {
378                         ERROR("Invalid chunk size in compressed resource!");
379                         errno = EINVAL;
380                         ret = WIMLIB_ERR_DECOMPRESSION;
381                         goto out_free_memory;
382                 }
383                 if (rspec->is_pipable)
384                         cur_read_offset += sizeof(struct pwm_chunk_hdr);
385
386                 if (i >= start_chunk) {
387                         /* Calculate how much of this chunk needs to be read.  */
388                         u32 chunk_needed_size;
389                         u32 start_offset = 0;
390                         u32 end_offset = orig_chunk_size - 1;
391
392                         if (flags & WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS) {
393                                 chunk_needed_size = chunk_csize;
394                         } else {
395                                 if (i == start_chunk)
396                                         start_offset = start_offset_in_chunk;
397
398                                 if (i == end_chunk)
399                                         end_offset = end_offset_in_chunk;
400
401                                 chunk_needed_size = end_offset + 1 - start_offset;
402                         }
403
404                         if (chunk_csize == chunk_usize ||
405                             (flags & WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS))
406                         {
407                                 /* Read the raw chunk data.  */
408
409                                 ret = full_pread(in_fd,
410                                                  out_p,
411                                                  chunk_needed_size,
412                                                  cur_read_offset + start_offset);
413                                 if (ret)
414                                         goto read_error;
415                         } else {
416                                 /* Read and decompress the chunk.  */
417
418                                 u8 *target;
419
420                                 ret = full_pread(in_fd,
421                                                  compressed_buf,
422                                                  chunk_csize,
423                                                  cur_read_offset);
424                                 if (ret)
425                                         goto read_error;
426
427                                 if (chunk_needed_size == chunk_usize)
428                                         target = out_p;
429                                 else
430                                         target = tmp_buf;
431
432                                 ret = decompress(compressed_buf,
433                                                  chunk_csize,
434                                                  target,
435                                                  chunk_usize,
436                                                  rspec->ctype,
437                                                  orig_chunk_size);
438                                 if (ret) {
439                                         ERROR("Failed to decompress data!");
440                                         ret = WIMLIB_ERR_DECOMPRESSION;
441                                         errno = EINVAL;
442                                         goto out_free_memory;
443                                 }
444                                 if (chunk_needed_size != chunk_usize)
445                                         memcpy(out_p, tmp_buf + start_offset,
446                                                chunk_needed_size);
447                         }
448
449                         out_p += chunk_needed_size;
450
451                         if (cb) {
452                                 /* Feed the data to the callback function.  */
453
454                                 if (flags & WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS) {
455                                         ret = cb(out_buf, out_p - out_buf, ctx_or_buf);
456                                         if (ret)
457                                                 goto out_free_memory;
458                                         out_p = out_buf;
459                                 } else if (i == end_chunk || out_p == out_buf_end) {
460                                         size_t bytes_sent;
461                                         const u8 *p;
462
463                                         for (p = out_buf; p != out_p; p += bytes_sent) {
464                                                 bytes_sent = min(cb_chunk_size, out_p - p);
465                                                 ret = cb(p, bytes_sent, ctx_or_buf);
466                                                 if (ret)
467                                                         goto out_free_memory;
468                                         }
469                                         out_p = out_buf;
470                                 }
471                         }
472                         cur_read_offset += chunk_csize;
473                 } else {
474                         u8 dummy;
475
476                         /* Skip data only.  */
477                         cur_read_offset += chunk_csize;
478                         ret = full_pread(in_fd, &dummy, 1, cur_read_offset - 1);
479                         if (ret)
480                                 goto read_error;
481                 }
482         }
483
484         if (is_pipe_read
485             && size == rspec->uncompressed_size
486             && chunk_table_size)
487         {
488                 u8 dummy;
489                 /* Skip chunk table at end of pipable resource.  */
490
491                 cur_read_offset += chunk_table_size;
492                 ret = full_pread(in_fd, &dummy, 1, cur_read_offset - 1);
493                 if (ret)
494                         goto read_error;
495         }
496         ret = 0;
497 out_free_memory:
498         errno_save = errno;
499         if (chunk_offsets_malloced)
500                 FREE(chunk_offsets);
501         if (out_buf_malloced)
502                 FREE(out_buf);
503         if (compressed_buf_malloced)
504                 FREE(compressed_buf);
505         if (tmp_buf_malloced)
506                 FREE(tmp_buf);
507         errno = errno_save;
508         return ret;
509
510 oom:
511         ERROR("Not enough memory available to read size=%"PRIu64" bytes "
512               "from compressed resource!", size);
513         errno = ENOMEM;
514         ret = WIMLIB_ERR_NOMEM;
515         goto out_free_memory;
516
517 read_error:
518         ERROR_WITH_ERRNO("Error reading compressed file resource!");
519         goto out_free_memory;
520 }
521
522 /* Read raw data from a file descriptor at the specified offset.  */
523 static int
524 read_raw_file_data(struct filedes *in_fd, u64 size, consume_data_callback_t cb,
525                    u32 cb_chunk_size, void *ctx_or_buf, u64 offset)
526 {
527         int ret;
528         u8 *tmp_buf;
529         bool tmp_buf_malloced = false;
530
531         if (cb) {
532                 /* Send data to callback function in chunks.  */
533                 if (cb_chunk_size <= STACK_MAX) {
534                         tmp_buf = alloca(cb_chunk_size);
535                 } else {
536                         tmp_buf = MALLOC(cb_chunk_size);
537                         if (tmp_buf == NULL) {
538                                 ret = WIMLIB_ERR_NOMEM;
539                                 goto out;
540                         }
541                         tmp_buf_malloced = true;
542                 }
543
544                 while (size) {
545                         size_t bytes_to_read = min(cb_chunk_size, size);
546                         ret = full_pread(in_fd, tmp_buf, bytes_to_read,
547                                          offset);
548                         if (ret)
549                                 goto read_error;
550                         ret = cb(tmp_buf, bytes_to_read, ctx_or_buf);
551                         if (ret)
552                                 goto out;
553                         size -= bytes_to_read;
554                         offset += bytes_to_read;
555                 }
556         } else {
557                 /* Read data directly into buffer.  */
558                 ret = full_pread(in_fd, ctx_or_buf, size, offset);
559                 if (ret)
560                         goto read_error;
561         }
562         ret = 0;
563         goto out;
564
565 read_error:
566         ERROR_WITH_ERRNO("Read error");
567 out:
568         if (tmp_buf_malloced)
569                 FREE(tmp_buf);
570         return ret;
571 }
572
573 /*
574  * read_partial_wim_resource()-
575  *
576  * Read a range of data from an uncompressed or compressed resource in a WIM
577  * file.  Data is written into a buffer or fed into a callback function, as
578  * documented in read_stream_prefix().
579  *
580  * By default, this function provides the uncompressed data of the resource, and
581  * @size and @offset and interpreted relative to the uncompressed contents of
582  * the resource.  This behavior can be modified by either of the following
583  * flags:
584  *
585  * WIMLIB_READ_RESOURCE_FLAG_RAW_FULL:
586  *      Read @size bytes at @offset of the raw contents of the compressed
587  *      resource.  In the case of pipable resources, this excludes the stream
588  *      header.  Exclusive with WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS.
589  *
590  * WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS:
591  *      Read the raw compressed chunks of the compressed resource.  @size must
592  *      be the full uncompressed size, @offset must be 0, and @cb_chunk_size
593  *      must be the resource chunk size.
594  *
595  * Return values:
596  *      WIMLIB_ERR_SUCCESS (0)
597  *      WIMLIB_ERR_READ                   (errno set)
598  *      WIMLIB_ERR_UNEXPECTED_END_OF_FILE (errno set to 0)
599  *      WIMLIB_ERR_NOMEM                  (errno set to ENOMEM)
600  *      WIMLIB_ERR_DECOMPRESSION          (errno set to EINVAL)
601  *
602  *      or other error code returned by the @cb function.
603  */
604 int
605 read_partial_wim_resource(const struct wim_lookup_table_entry *lte,
606                           u64 size, consume_data_callback_t cb,
607                           u32 cb_chunk_size, void *ctx_or_buf,
608                           int flags, u64 offset)
609 {
610         const struct wim_resource_spec *rspec;
611         struct filedes *in_fd;
612
613         /* Verify parameters.  */
614         wimlib_assert(lte->resource_location == RESOURCE_IN_WIM);
615         rspec = lte->rspec;
616         in_fd = &rspec->wim->in_fd;
617         if (cb)
618                 wimlib_assert(is_power_of_2(cb_chunk_size));
619         if (flags & WIMLIB_READ_RESOURCE_FLAG_RAW_CHUNKS) {
620                 /* Raw chunks mode is subject to the restrictions noted.  */
621                 wimlib_assert(!lte_is_partial(lte));
622                 wimlib_assert(!(flags & WIMLIB_READ_RESOURCE_FLAG_RAW_FULL));
623                 wimlib_assert(cb_chunk_size == rspec->cchunk_size);
624                 wimlib_assert(size == rspec->uncompressed_size);
625                 wimlib_assert(offset == 0);
626         } else if (flags & WIMLIB_READ_RESOURCE_FLAG_RAW_FULL) {
627                 /* Raw full mode:  read must not overrun end of store size.  */
628                 wimlib_assert(!lte_is_partial(lte));
629                 wimlib_assert(offset + size >= size &&
630                               offset + size <= rspec->size_in_wim);
631         } else {
632                 /* Normal mode:  read must not overrun end of original size.  */
633                 wimlib_assert(offset + size >= size &&
634                               offset + size <= rspec->uncompressed_size);
635         }
636
637         DEBUG("Reading WIM resource: %"PRIu64" @ +%"PRIu64"[+%"PRIu64"] "
638               "from %"PRIu64"(%"PRIu64") @ +%"PRIu64" "
639               "(readflags 0x%08x, resflags 0x%02x%s)",
640               size, offset, lte->offset_in_res,
641               rspec->size_in_wim,
642               rspec->uncompressed_size,
643               rspec->offset_in_wim,
644               flags, lte->flags,
645               (rspec->is_pipable ? ", pipable" : ""));
646
647         if ((flags & WIMLIB_READ_RESOURCE_FLAG_RAW_FULL) ||
648             rspec->ctype == WIMLIB_COMPRESSION_TYPE_NONE)
649         {
650                 return read_raw_file_data(in_fd,
651                                           size,
652                                           cb,
653                                           cb_chunk_size,
654                                           ctx_or_buf,
655                                           offset + rspec->offset_in_wim);
656         } else {
657                 return read_compressed_wim_resource(rspec, size, cb,
658                                                     cb_chunk_size,
659                                                     ctx_or_buf, flags, offset + lte->offset_in_res);
660         }
661 }
662
663 int
664 read_partial_wim_stream_into_buf(const struct wim_lookup_table_entry *lte,
665                                  size_t size, u64 offset, void *buf)
666 {
667         return read_partial_wim_resource(lte, size, NULL, 0, buf, 0, offset);
668 }
669
670 static int
671 read_wim_stream_prefix(const struct wim_lookup_table_entry *lte, u64 size,
672                        consume_data_callback_t cb, u32 cb_chunk_size,
673                        void *ctx_or_buf, int flags)
674 {
675         return read_partial_wim_resource(lte, size, cb, cb_chunk_size,
676                                          ctx_or_buf, flags, 0);
677 }
678
679 #ifndef __WIN32__
680 /* This function handles reading stream data that is located in an external
681  * file,  such as a file that has been added to the WIM image through execution
682  * of a wimlib_add_command.
683  *
684  * This assumes the file can be accessed using the standard POSIX open(),
685  * read(), and close().  On Windows this will not necessarily be the case (since
686  * the file may need FILE_FLAG_BACKUP_SEMANTICS to be opened, or the file may be
687  * encrypted), so Windows uses its own code for its equivalent case.
688  */
689 static int
690 read_file_on_disk_prefix(const struct wim_lookup_table_entry *lte, u64 size,
691                          consume_data_callback_t cb, u32 cb_chunk_size,
692                          void *ctx_or_buf, int _ignored_flags)
693 {
694         int ret;
695         int raw_fd;
696         struct filedes fd;
697
698         wimlib_assert(size <= lte->size);
699         DEBUG("Reading %"PRIu64" bytes from \"%"TS"\"", size, lte->file_on_disk);
700
701         raw_fd = open(lte->file_on_disk, O_BINARY | O_RDONLY);
702         if (raw_fd < 0) {
703                 ERROR_WITH_ERRNO("Can't open \"%"TS"\"", lte->file_on_disk);
704                 return WIMLIB_ERR_OPEN;
705         }
706         filedes_init(&fd, raw_fd);
707         ret = read_raw_file_data(&fd, size, cb, cb_chunk_size, ctx_or_buf, 0);
708         filedes_close(&fd);
709         return ret;
710 }
711 #endif /* !__WIN32__ */
712
713 /* This function handles the trivial case of reading stream data that is, in
714  * fact, already located in an in-memory buffer.  */
715 static int
716 read_buffer_prefix(const struct wim_lookup_table_entry *lte,
717                    u64 size, consume_data_callback_t cb,
718                    u32 cb_chunk_size, void *ctx_or_buf, int _ignored_flags)
719 {
720         wimlib_assert(size <= lte->size);
721
722         if (cb) {
723                 /* Feed the data into the callback function in
724                  * appropriately-sized chunks.  */
725                 int ret;
726                 u32 chunk_size;
727
728                 for (u64 offset = 0; offset < size; offset += chunk_size) {
729                         chunk_size = min(cb_chunk_size, size - offset);
730                         ret = cb((const u8*)lte->attached_buffer + offset,
731                                  chunk_size, ctx_or_buf);
732                         if (ret)
733                                 return ret;
734                 }
735         } else {
736                 /* Copy the data directly into the specified buffer.  */
737                 memcpy(ctx_or_buf, lte->attached_buffer, size);
738         }
739         return 0;
740 }
741
742 typedef int (*read_stream_prefix_handler_t)(const struct wim_lookup_table_entry *lte,
743                                             u64 size, consume_data_callback_t cb,
744                                             u32 cb_chunk_size, void *ctx_or_buf,
745                                             int flags);
746
747 /*
748  * read_stream_prefix()-
749  *
750  * Reads the first @size bytes from a generic "stream", which may be located in
751  * any one of several locations, such as in a WIM file (compressed or
752  * uncompressed), in an external file, or directly in an in-memory buffer.
753  *
754  * This function feeds the data either to a callback function (@cb != NULL,
755  * passing it @ctx_or_buf), or write it directly into a buffer (@cb == NULL,
756  * @ctx_or_buf specifies the buffer, which must have room for at least @size
757  * bytes).
758  *
759  * When (@cb != NULL), @cb_chunk_size specifies the maximum size of data chunks
760  * to feed the callback function.  @cb_chunk_size must be positive, and if the
761  * stream is in a WIM file, must be a power of 2.  All chunks, except possibly
762  * the last one, will be this size.  If (@cb == NULL), @cb_chunk_size is
763  * ignored.
764  *
765  * If the stream is located in a WIM file, @flags can be set as documented in
766  * read_partial_wim_resource().  Otherwise @flags are ignored.
767  *
768  * Returns 0 on success; nonzero on error.  A nonzero value will be returned if
769  * the stream data cannot be successfully read (for a number of different
770  * reasons, depending on the stream location), or if a callback function was
771  * specified and it returned nonzero.
772  */
773 int
774 read_stream_prefix(const struct wim_lookup_table_entry *lte, u64 size,
775                    consume_data_callback_t cb, u32 cb_chunk_size,
776                    void *ctx_or_buf, int flags)
777 {
778         /* This function merely verifies several preconditions, then passes
779          * control to an appropriate function for understanding each possible
780          * stream location.  */
781         static const read_stream_prefix_handler_t handlers[] = {
782                 [RESOURCE_IN_WIM]             = read_wim_stream_prefix,
783         #ifdef __WIN32__
784                 [RESOURCE_IN_FILE_ON_DISK]    = read_win32_file_prefix,
785         #else
786                 [RESOURCE_IN_FILE_ON_DISK]    = read_file_on_disk_prefix,
787         #endif
788                 [RESOURCE_IN_ATTACHED_BUFFER] = read_buffer_prefix,
789         #ifdef WITH_FUSE
790                 [RESOURCE_IN_STAGING_FILE]    = read_file_on_disk_prefix,
791         #endif
792         #ifdef WITH_NTFS_3G
793                 [RESOURCE_IN_NTFS_VOLUME]     = read_ntfs_file_prefix,
794         #endif
795         #ifdef __WIN32__
796                 [RESOURCE_WIN32_ENCRYPTED]    = read_win32_encrypted_file_prefix,
797         #endif
798         };
799         wimlib_assert(lte->resource_location < ARRAY_LEN(handlers)
800                       && handlers[lte->resource_location] != NULL);
801         wimlib_assert(cb == NULL || cb_chunk_size > 0);
802         return handlers[lte->resource_location](lte, size, cb, cb_chunk_size,
803                                                 ctx_or_buf, flags);
804 }
805
806 /* Read the full uncompressed data of the specified stream into the specified
807  * buffer, which must have space for at least lte->size bytes.  */
808 int
809 read_full_stream_into_buf(const struct wim_lookup_table_entry *lte, void *buf)
810 {
811         return read_stream_prefix(lte, lte->size, NULL, 0, buf, 0);
812 }
813
814 /* Read the full uncompressed data of the specified stream.  A buffer sufficient
815  * to hold the data is allocated and returned in @buf_ret.  */
816 int
817 read_full_stream_into_alloc_buf(const struct wim_lookup_table_entry *lte,
818                                 void **buf_ret)
819 {
820         int ret;
821         void *buf;
822
823         if ((size_t)lte->size != lte->size) {
824                 ERROR("Can't read %"PRIu64" byte stream into "
825                       "memory", lte->size);
826                 return WIMLIB_ERR_NOMEM;
827         }
828
829         buf = MALLOC(lte->size);
830         if (buf == NULL)
831                 return WIMLIB_ERR_NOMEM;
832
833         ret = read_full_stream_into_buf(lte, buf);
834         if (ret) {
835                 FREE(buf);
836                 return ret;
837         }
838
839         *buf_ret = buf;
840         return 0;
841 }
842
843 /* Retrieve the full uncompressed data of the specified WIM resource.  */
844 static int
845 wim_resource_spec_to_data(struct wim_resource_spec *rspec, void **buf_ret)
846 {
847         int ret;
848         struct wim_lookup_table_entry *lte;
849
850         lte = new_lookup_table_entry();
851         if (lte == NULL)
852                 return WIMLIB_ERR_NOMEM;
853
854         lte->unhashed = 1;
855         lte_bind_wim_resource_spec(lte, rspec);
856         lte->flags = rspec->flags;
857         lte->size = rspec->uncompressed_size;
858         lte->offset_in_res = 0;
859
860         ret = read_full_stream_into_alloc_buf(lte, buf_ret);
861
862         lte_unbind_wim_resource_spec(lte);
863         free_lookup_table_entry(lte);
864         return ret;
865 }
866
867 /* Retrieve the full uncompressed data of the specified WIM resource.  */
868 int
869 wim_reshdr_to_data(const struct wim_reshdr *reshdr, WIMStruct *wim, void **buf_ret)
870 {
871         DEBUG("offset_in_wim=%"PRIu64", size_in_wim=%"PRIu64", "
872               "uncompressed_size=%"PRIu64,
873               reshdr->offset_in_wim, reshdr->size_in_wim, reshdr->uncompressed_size);
874
875         struct wim_resource_spec rspec;
876         wim_res_hdr_to_spec(reshdr, wim, &rspec);
877         return wim_resource_spec_to_data(&rspec, buf_ret);
878 }
879
880 struct extract_ctx {
881         SHA_CTX sha_ctx;
882         consume_data_callback_t extract_chunk;
883         void *extract_chunk_arg;
884 };
885
886 static int
887 extract_chunk_sha1_wrapper(const void *chunk, size_t chunk_size, void *_ctx)
888 {
889         struct extract_ctx *ctx = _ctx;
890
891         sha1_update(&ctx->sha_ctx, chunk, chunk_size);
892         return ctx->extract_chunk(chunk, chunk_size, ctx->extract_chunk_arg);
893 }
894
895 /* Extracts the first @size bytes of a stream to somewhere.  In the process, the
896  * SHA1 message digest of the uncompressed stream is checked if the full stream
897  * is being extracted.
898  *
899  * @extract_chunk is a function that will be called to extract each chunk of the
900  * stream.  */
901 int
902 extract_stream(const struct wim_lookup_table_entry *lte, u64 size,
903                consume_data_callback_t extract_chunk, void *extract_chunk_arg)
904 {
905         int ret;
906         if (size == lte->size) {
907                 /* Do SHA1 */
908                 struct extract_ctx ctx;
909                 ctx.extract_chunk = extract_chunk;
910                 ctx.extract_chunk_arg = extract_chunk_arg;
911                 sha1_init(&ctx.sha_ctx);
912                 ret = read_stream_prefix(lte, size,
913                                          extract_chunk_sha1_wrapper,
914                                          lte_cchunk_size(lte),
915                                          &ctx, 0);
916                 if (ret == 0) {
917                         u8 hash[SHA1_HASH_SIZE];
918                         sha1_final(hash, &ctx.sha_ctx);
919                         if (!hashes_equal(hash, lte->hash)) {
920                                 if (wimlib_print_errors) {
921                                         ERROR("Invalid SHA1 message digest "
922                                               "on the following WIM stream:");
923                                         print_lookup_table_entry(lte, stderr);
924                                         if (lte->resource_location == RESOURCE_IN_WIM)
925                                                 ERROR("The WIM file appears to be corrupt!");
926                                 }
927                                 ret = WIMLIB_ERR_INVALID_RESOURCE_HASH;
928                         }
929                 }
930         } else {
931                 /* Don't do SHA1 */
932                 ret = read_stream_prefix(lte, size, extract_chunk,
933                                          lte_cchunk_size(lte),
934                                          extract_chunk_arg, 0);
935         }
936         return ret;
937 }
938
939 static int
940 extract_wim_chunk_to_fd(const void *buf, size_t len, void *_fd_p)
941 {
942         struct filedes *fd = _fd_p;
943         int ret = full_write(fd, buf, len);
944         if (ret)
945                 ERROR_WITH_ERRNO("Error writing to file descriptor");
946         return ret;
947 }
948
949 /* Extract the first @size bytes of the specified stream to the specified file
950  * descriptor.  If @size is the full size of the stream, its SHA1 message digest
951  * is also checked.  */
952 int
953 extract_stream_to_fd(const struct wim_lookup_table_entry *lte,
954                      struct filedes *fd, u64 size)
955 {
956         return extract_stream(lte, size, extract_wim_chunk_to_fd, fd);
957 }
958
959
960 static int
961 sha1_chunk(const void *buf, size_t len, void *ctx)
962 {
963         sha1_update(ctx, buf, len);
964         return 0;
965 }
966
967 /* Calculate the SHA1 message digest of a stream, storing it in @lte->hash.  */
968 int
969 sha1_stream(struct wim_lookup_table_entry *lte)
970 {
971         int ret;
972         SHA_CTX sha_ctx;
973
974         sha1_init(&sha_ctx);
975         ret = read_stream_prefix(lte, lte->size,
976                                  sha1_chunk, lte_cchunk_size(lte),
977                                  &sha_ctx, 0);
978         if (ret == 0)
979                 sha1_final(lte->hash, &sha_ctx);
980
981         return ret;
982 }
983
984 /* Convert a WIM resource header to a stand-alone resource specification.  */
985 void
986 wim_res_hdr_to_spec(const struct wim_reshdr *reshdr, WIMStruct *wim,
987                     struct wim_resource_spec *spec)
988 {
989         spec->wim = wim;
990         spec->offset_in_wim = reshdr->offset_in_wim;
991         spec->size_in_wim = reshdr->size_in_wim;
992         spec->uncompressed_size = reshdr->uncompressed_size;
993         INIT_LIST_HEAD(&spec->lte_list);
994         spec->flags = reshdr->flags;
995         spec->is_pipable = wim_is_pipable(wim);
996         if (spec->flags & (WIM_RESHDR_FLAG_COMPRESSED | WIM_RESHDR_FLAG_CONCAT)) {
997                 spec->ctype = wim->compression_type;
998                 spec->cchunk_size = wim->chunk_size;
999         } else {
1000                 spec->ctype = WIMLIB_COMPRESSION_TYPE_NONE;
1001                 spec->cchunk_size = 0;
1002         }
1003 }
1004
1005 /* Convert a stand-alone resource specification to a WIM resource header.  */
1006 void
1007 wim_res_spec_to_hdr(const struct wim_resource_spec *rspec,
1008                     struct wim_reshdr *reshdr)
1009 {
1010         reshdr->offset_in_wim     = rspec->offset_in_wim;
1011         reshdr->size_in_wim       = rspec->size_in_wim;
1012         reshdr->flags             = rspec->flags;
1013         reshdr->uncompressed_size = rspec->uncompressed_size;
1014 }
1015
1016 /* Translates a WIM resource header from the on-disk format into an in-memory
1017  * format.  */
1018 int
1019 get_wim_reshdr(const struct wim_reshdr_disk *disk_reshdr,
1020                struct wim_reshdr *reshdr)
1021 {
1022         reshdr->offset_in_wim = le64_to_cpu(disk_reshdr->offset_in_wim);
1023         reshdr->size_in_wim = (((u64)disk_reshdr->size_in_wim[0] <<  0) |
1024                               ((u64)disk_reshdr->size_in_wim[1] <<  8) |
1025                               ((u64)disk_reshdr->size_in_wim[2] << 16) |
1026                               ((u64)disk_reshdr->size_in_wim[3] << 24) |
1027                               ((u64)disk_reshdr->size_in_wim[4] << 32) |
1028                               ((u64)disk_reshdr->size_in_wim[5] << 40) |
1029                               ((u64)disk_reshdr->size_in_wim[6] << 48));
1030         reshdr->uncompressed_size = le64_to_cpu(disk_reshdr->uncompressed_size);
1031         reshdr->flags = disk_reshdr->flags;
1032
1033         /* Truncate numbers to 62 bits to avoid possible overflows.  */
1034         if (reshdr->offset_in_wim & 0xc000000000000000ULL)
1035                 return WIMLIB_ERR_INVALID_LOOKUP_TABLE_ENTRY;
1036
1037         if (reshdr->uncompressed_size & 0xc000000000000000ULL)
1038                 return WIMLIB_ERR_INVALID_LOOKUP_TABLE_ENTRY;
1039
1040         return 0;
1041 }
1042
1043 /* Translates a WIM resource header from an in-memory format into the on-disk
1044  * format.  */
1045 void
1046 put_wim_reshdr(const struct wim_reshdr *reshdr,
1047                struct wim_reshdr_disk *disk_reshdr)
1048 {
1049         disk_reshdr->size_in_wim[0] = reshdr->size_in_wim  >>  0;
1050         disk_reshdr->size_in_wim[1] = reshdr->size_in_wim  >>  8;
1051         disk_reshdr->size_in_wim[2] = reshdr->size_in_wim  >> 16;
1052         disk_reshdr->size_in_wim[3] = reshdr->size_in_wim  >> 24;
1053         disk_reshdr->size_in_wim[4] = reshdr->size_in_wim  >> 32;
1054         disk_reshdr->size_in_wim[5] = reshdr->size_in_wim  >> 40;
1055         disk_reshdr->size_in_wim[6] = reshdr->size_in_wim  >> 48;
1056         disk_reshdr->flags = reshdr->flags;
1057         disk_reshdr->offset_in_wim = cpu_to_le64(reshdr->offset_in_wim);
1058         disk_reshdr->uncompressed_size = cpu_to_le64(reshdr->uncompressed_size);
1059 }