]> wimlib.net Git - wimlib/blob - src/dentry.c
4bb170e7d8fad3e394c0fd7c99437d94c65e77fe
[wimlib] / src / dentry.c
1 /*
2  * dentry.c - see description below
3  */
4
5 /*
6  * Copyright (C) 2012, 2013, 2014 Eric Biggers
7  *
8  * This file is part of wimlib, a library for working with WIM files.
9  *
10  * wimlib is free software; you can redistribute it and/or modify it under the
11  * terms of the GNU General Public License as published by the Free Software
12  * Foundation; either version 3 of the License, or (at your option) any later
13  * version.
14  *
15  * wimlib is distributed in the hope that it will be useful, but WITHOUT ANY
16  * WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR
17  * A PARTICULAR PURPOSE. See the GNU General Public License for more details.
18  *
19  * You should have received a copy of the GNU General Public License along with
20  * wimlib; if not, see http://www.gnu.org/licenses/.
21  */
22
23 /*
24  * This file contains logic to deal with WIM directory entries, or "dentries":
25  *
26  *  - Reading a dentry tree from a metadata resource in a WIM file
27  *  - Writing a dentry tree to a metadata resource in a WIM file
28  *  - Iterating through a tree of WIM dentries
29  *  - Path lookup: translating a path into a WIM dentry or inode
30  *  - Creating, modifying, and deleting WIM dentries
31  *
32  * Notes:
33  *
34  *  - A WIM file can contain multiple images, each of which has an independent
35  *    tree of dentries.  "On disk", the dentry tree for an image is stored in
36  *    the "metadata resource" for that image.
37  *
38  *  - Multiple dentries in an image may correspond to the same inode, or "file".
39  *    When this occurs, it means that the file has multiple names, or "hard
40  *    links".  A dentry is not a file, but rather the name of a file!
41  *
42  *  - Inodes are not represented explicitly in the WIM file format.  Instead,
43  *    the metadata resource provides a "hard link group ID" for each dentry.
44  *    wimlib handles pulling out actual inodes from this information, but this
45  *    occurs in inode_fixup.c and not in this file.
46  *
47  *  - wimlib does not allow *directory* hard links, so a WIM image really does
48  *    have a *tree* of dentries (and not an arbitrary graph of dentries).
49  *
50  *  - wimlib indexes dentries both case-insensitively and case-sensitively,
51  *    allowing either behavior to be used for path lookup.
52  *
53  *  - Multiple dentries in a directory might have the same case-insensitive
54  *    name.  But wimlib enforces that at most one dentry in a directory can have
55  *    a given case-sensitive name.
56  */
57
58 #ifdef HAVE_CONFIG_H
59 #  include "config.h"
60 #endif
61
62 #include "wimlib/case.h"
63 #include "wimlib/dentry.h"
64 #include "wimlib/encoding.h"
65 #include "wimlib/endianness.h"
66 #include "wimlib/error.h"
67 #include "wimlib/lookup_table.h"
68 #include "wimlib/metadata.h"
69 #include "wimlib/paths.h"
70 #include "wimlib/resource.h"
71 #include "wimlib/security.h"
72 #include "wimlib/sha1.h"
73 #include "wimlib/timestamp.h"
74
75 #include <errno.h>
76
77 /* On-disk format of a WIM dentry (directory entry), located in the metadata
78  * resource for a WIM image.  */
79 struct wim_dentry_on_disk {
80
81         /* Length of this directory entry in bytes, not including any alternate
82          * data stream entries.  Should be a multiple of 8 so that the following
83          * dentry or alternate data stream entry is aligned on an 8-byte
84          * boundary.  (If not, wimlib will round it up.)  It must be at least as
85          * long as the fixed-length fields of the dentry (WIM_DENTRY_DISK_SIZE),
86          * plus the lengths of the file name and/or short name if present.
87          *
88          * It is also possible for this field to be 0.  This situation, which is
89          * undocumented, indicates the end of a list of sibling nodes in a
90          * directory.  It also means the real length is 8, because the dentry
91          * included only the length field, but that takes up 8 bytes.  */
92         le64 length;
93
94         /* Attributes of the file or directory.  This is a bitwise OR of the
95          * FILE_ATTRIBUTE_* constants and should correspond to the value
96          * retrieved by GetFileAttributes() on Windows. */
97         le32 attributes;
98
99         /* A value that specifies the security descriptor for this file or
100          * directory.  If -1, the file or directory has no security descriptor.
101          * Otherwise, it is a 0-based index into the WIM image's table of
102          * security descriptors (see: `struct wim_security_data') */
103         sle32 security_id;
104
105         /* Offset, in bytes, from the start of the uncompressed metadata
106          * resource of this directory's child directory entries, or 0 if this
107          * directory entry does not correspond to a directory or otherwise does
108          * not have any children. */
109         le64 subdir_offset;
110
111         /* Reserved fields */
112         le64 unused_1;
113         le64 unused_2;
114
115         /* Creation time, last access time, and last write time, in
116          * 100-nanosecond intervals since 12:00 a.m UTC January 1, 1601.  They
117          * should correspond to the times gotten by calling GetFileTime() on
118          * Windows. */
119         le64 creation_time;
120         le64 last_access_time;
121         le64 last_write_time;
122
123         /* Vaguely, the SHA-1 message digest ("hash") of the file's contents.
124          * More specifically, this is for the "unnamed data stream" rather than
125          * any "alternate data streams".  This hash value is used to look up the
126          * corresponding entry in the WIM's stream lookup table to actually find
127          * the file contents within the WIM.
128          *
129          * If the file has no unnamed data stream (e.g. is a directory), then
130          * this field will be all zeroes.  If the unnamed data stream is empty
131          * (i.e. an "empty file"), then this field is also expected to be all
132          * zeroes.  (It will be if wimlib created the WIM image, at least;
133          * otherwise it can't be ruled out that the SHA-1 message digest of 0
134          * bytes of data is given explicitly.)
135          *
136          * If the file has reparse data, then this field will instead specify
137          * the SHA-1 message digest of the reparse data.  If it is somehow
138          * possible for a file to have both an unnamed data stream and reparse
139          * data, then this is not handled by wimlib.
140          *
141          * As a further special case, if this field is all zeroes but there is
142          * an alternate data stream entry with no name and a nonzero SHA-1
143          * message digest field, then that hash must be used instead of this
144          * one.  In fact, when named data streams are present, some versions of
145          * Windows PE contain a bug where they only look in the alternate data
146          * stream entries for the unnamed data stream, not here.
147          */
148         u8 unnamed_stream_hash[SHA1_HASH_SIZE];
149
150         /* The format of the following data is not yet completely known and they
151          * do not correspond to Microsoft's documentation.
152          *
153          * If this directory entry is for a reparse point (has
154          * FILE_ATTRIBUTE_REPARSE_POINT set in the attributes field), then the
155          * version of the following fields containing the reparse tag is valid.
156          * Furthermore, the field notated as not_rpfixed, as far as I can tell,
157          * is supposed to be set to 1 if reparse point fixups (a.k.a. fixing the
158          * targets of absolute symbolic links) were *not* done, and otherwise 0.
159          *
160          * If this directory entry is not for a reparse point, then the version
161          * of the following fields containing the hard_link_group_id is valid.
162          * All MS says about this field is that "If this file is part of a hard
163          * link set, all the directory entries in the set will share the same
164          * value in this field.".  However, more specifically I have observed
165          * the following:
166          *    - If the file is part of a hard link set of size 1, then the
167          *    hard_link_group_id should be set to either 0, which is treated
168          *    specially as indicating "not hardlinked", or any unique value.
169          *    - The specific nonzero values used to identity hard link sets do
170          *    not matter, as long as they are unique.
171          *    - However, due to bugs in Microsoft's software, it is actually NOT
172          *    guaranteed that directory entries that share the same hard link
173          *    group ID are actually hard linked to each either.  See
174          *    inode_fixup.c for the code that handles this.
175          */
176         union {
177                 struct {
178                         le32 rp_unknown_1;
179                         le32 reparse_tag;
180                         le16 rp_unknown_2;
181                         le16 not_rpfixed;
182                 } _packed_attribute reparse;
183                 struct {
184                         le32 rp_unknown_1;
185                         le64 hard_link_group_id;
186                 } _packed_attribute nonreparse;
187         };
188
189         /* Number of alternate data stream entries that directly follow this
190          * dentry on-disk. */
191         le16 num_alternate_data_streams;
192
193         /* If nonzero, this is the length, in bytes, of this dentry's UTF-16LE
194          * encoded short name (8.3 DOS-compatible name), excluding the null
195          * terminator.  If zero, then the long name of this dentry does not have
196          * a corresponding short name (but this does not exclude the possibility
197          * that another dentry for the same file has a short name).  */
198         le16 short_name_nbytes;
199
200         /* If nonzero, this is the length, in bytes, of this dentry's UTF-16LE
201          * encoded "long" name, excluding the null terminator.  If zero, then
202          * this file has no long name.  The root dentry should not have a long
203          * name, but all other dentries in the image should have long names.  */
204         le16 file_name_nbytes;
205
206         /* Beginning of optional, variable-length fields  */
207
208         /* If file_name_nbytes != 0, the next field will be the UTF-16LE encoded
209          * long file name.  This will be null-terminated, so the size of this
210          * field will really be file_name_nbytes + 2.  */
211         /*utf16lechar file_name[];*/
212
213         /* If short_name_nbytes != 0, the next field will be the UTF-16LE
214          * encoded short name.  This will be null-terminated, so the size of
215          * this field will really be short_name_nbytes + 2.  */
216         /*utf16lechar short_name[];*/
217
218         /* If there is still space in the dentry (according to the 'length'
219          * field) after 8-byte alignment, then the remaining space will be a
220          * variable-length list of tagged metadata items.  See tagged_items.c
221          * for more information.  */
222         /* u8 tagged_items[] _aligned_attribute(8); */
223
224 } _packed_attribute;
225         /* If num_alternate_data_streams != 0, then there are that many
226          * alternate data stream entries following the dentry, on an 8-byte
227          * aligned boundary.  They are not counted in the 'length' field of the
228          * dentry.  */
229
230 /* Calculate the minimum unaligned length, in bytes, of an on-disk WIM dentry
231  * that has names of the specified lengths.  (Zero length means the
232  * corresponding name actually does not exist.)  The returned value excludes
233  * tagged metadata items as well as any alternate data stream entries that may
234  * need to follow the dentry.  */
235 static u64
236 dentry_min_len_with_names(u16 file_name_nbytes, u16 short_name_nbytes)
237 {
238         u64 length = sizeof(struct wim_dentry_on_disk);
239         if (file_name_nbytes)
240                 length += (u32)file_name_nbytes + 2;
241         if (short_name_nbytes)
242                 length += (u32)short_name_nbytes + 2;
243         return length;
244 }
245
246 static void
247 do_dentry_set_name(struct wim_dentry *dentry, utf16lechar *file_name,
248                    size_t file_name_nbytes)
249 {
250         FREE(dentry->file_name);
251         dentry->file_name = file_name;
252         dentry->file_name_nbytes = file_name_nbytes;
253
254         if (dentry_has_short_name(dentry)) {
255                 FREE(dentry->short_name);
256                 dentry->short_name = NULL;
257                 dentry->short_name_nbytes = 0;
258         }
259 }
260
261 /*
262  * Set the name of a WIM dentry from a UTF-16LE string.
263  *
264  * This sets the long name of the dentry.  The short name will automatically be
265  * removed, since it may not be appropriate for the new long name.
266  *
267  * The @name string need not be null-terminated, since its length is specified
268  * in @name_nbytes.
269  *
270  * If @name_nbytes is 0, both the long and short names of the dentry will be
271  * removed.
272  *
273  * Only use this function on unlinked dentries, since it doesn't update the name
274  * indices.  For dentries that are currently linked into the tree, use
275  * rename_wim_path().
276  *
277  * Returns 0 or WIMLIB_ERR_NOMEM.
278  */
279 int
280 dentry_set_name_utf16le(struct wim_dentry *dentry, const utf16lechar *name,
281                         size_t name_nbytes)
282 {
283         utf16lechar *dup = NULL;
284
285         if (name_nbytes) {
286                 dup = utf16le_dupz(name, name_nbytes);
287                 if (!dup)
288                         return WIMLIB_ERR_NOMEM;
289         }
290         do_dentry_set_name(dentry, dup, name_nbytes);
291         return 0;
292 }
293
294
295 /*
296  * Set the name of a WIM dentry from a 'tchar' string.
297  *
298  * This sets the long name of the dentry.  The short name will automatically be
299  * removed, since it may not be appropriate for the new long name.
300  *
301  * If @name is NULL or empty, both the long and short names of the dentry will
302  * be removed.
303  *
304  * Only use this function on unlinked dentries, since it doesn't update the name
305  * indices.  For dentries that are currently linked into the tree, use
306  * rename_wim_path().
307  *
308  * Returns 0 or an error code resulting from string conversion.
309  */
310 int
311 dentry_set_name(struct wim_dentry *dentry, const tchar *name)
312 {
313         utf16lechar *name_utf16le = NULL;
314         size_t name_utf16le_nbytes = 0;
315         int ret;
316
317         if (name && *name) {
318                 ret = tstr_to_utf16le(name, tstrlen(name) * sizeof(tchar),
319                                       &name_utf16le, &name_utf16le_nbytes);
320                 if (ret)
321                         return ret;
322         }
323
324         do_dentry_set_name(dentry, name_utf16le, name_utf16le_nbytes);
325         return 0;
326 }
327
328 /* Return the length, in bytes, required for the specified alternate data stream
329  * (ADS) entry on-disk.  This accounts for the fixed-length portion of the ADS
330  * entry, the {stream name and its null terminator} if present, and the padding
331  * after the entry to align the next ADS entry or dentry on an 8-byte boundary
332  * in the uncompressed metadata resource buffer.  */
333 static u64
334 ads_entry_out_total_length(const struct wim_ads_entry *entry)
335 {
336         u64 len = sizeof(struct wim_ads_entry_on_disk);
337         if (entry->stream_name_nbytes)
338                 len += (u32)entry->stream_name_nbytes + 2;
339         return (len + 7) & ~7;
340 }
341
342 /*
343  * Determine whether to include a "dummy" stream when writing a WIM dentry.
344  *
345  * Some versions of Microsoft's WIM software (the boot driver(s) in WinPE 3.0,
346  * for example) contain a bug where they assume the first alternate data stream
347  * (ADS) entry of a dentry with a nonzero ADS count specifies the unnamed
348  * stream, even if it has a name and the unnamed stream is already specified in
349  * the hash field of the dentry itself.
350  *
351  * wimlib has to work around this behavior by carefully emulating the behavior
352  * of (most versions of) ImageX/WIMGAPI, which move the unnamed stream reference
353  * into the alternate stream entries whenever there are named data streams, even
354  * though there is already a field in the dentry itself for the unnamed stream
355  * reference, which then goes to waste.
356  */
357 static inline bool
358 inode_needs_dummy_stream(const struct wim_inode *inode)
359 {
360         return (inode->i_num_ads > 0 &&
361                 inode->i_num_ads < 0xffff && /* overflow check */
362                 inode->i_canonical_streams); /* assume the dentry is okay if it
363                                                 already had an unnamed ADS entry
364                                                 when it was read in  */
365 }
366
367 /* Calculate the total number of bytes that will be consumed when a dentry is
368  * written.  This includes the fixed-length portion of the dentry, the name
369  * fields, any tagged metadata items, and any alternate data stream entries.
370  * Also includes all alignment bytes.  */
371 u64
372 dentry_out_total_length(const struct wim_dentry *dentry)
373 {
374         const struct wim_inode *inode = dentry->d_inode;
375         u64 len;
376
377         len = dentry_min_len_with_names(dentry->file_name_nbytes,
378                                         dentry->short_name_nbytes);
379         len = (len + 7) & ~7;
380
381         if (inode->i_extra_size) {
382                 len += inode->i_extra_size;
383                 len = (len + 7) & ~7;
384         }
385
386         if (unlikely(inode->i_num_ads)) {
387                 if (inode_needs_dummy_stream(inode))
388                         len += ads_entry_out_total_length(&(struct wim_ads_entry){});
389
390                 for (u16 i = 0; i < inode->i_num_ads; i++)
391                         len += ads_entry_out_total_length(&inode->i_ads_entries[i]);
392         }
393
394         return len;
395 }
396
397 /* Internal version of for_dentry_in_tree() that omits the NULL check  */
398 static int
399 do_for_dentry_in_tree(struct wim_dentry *dentry,
400                       int (*visitor)(struct wim_dentry *, void *), void *arg)
401 {
402         int ret;
403         struct wim_dentry *child;
404
405         ret = (*visitor)(dentry, arg);
406         if (unlikely(ret))
407                 return ret;
408
409         for_dentry_child(child, dentry) {
410                 ret = do_for_dentry_in_tree(child, visitor, arg);
411                 if (unlikely(ret))
412                         return ret;
413         }
414         return 0;
415 }
416
417 /* Internal version of for_dentry_in_tree_depth() that omits the NULL check  */
418 static int
419 do_for_dentry_in_tree_depth(struct wim_dentry *dentry,
420                             int (*visitor)(struct wim_dentry *, void *), void *arg)
421 {
422         int ret;
423         struct wim_dentry *child;
424
425         for_dentry_child_postorder(child, dentry) {
426                 ret = do_for_dentry_in_tree_depth(child, visitor, arg);
427                 if (unlikely(ret))
428                         return ret;
429         }
430         return unlikely((*visitor)(dentry, arg));
431 }
432
433 /*
434  * Call a function on all dentries in a tree.
435  *
436  * @arg will be passed as the second argument to each invocation of @visitor.
437  *
438  * This function does a pre-order traversal --- that is, a parent will be
439  * visited before its children.  It also will visit siblings in order of
440  * case-sensitive filename.  Equivalently, this function visits the entire tree
441  * in the case-sensitive lexicographic order of the full paths.
442  *
443  * It is safe to pass NULL for @root, which means that the dentry tree is empty.
444  * In this case, this function does nothing.
445  *
446  * @visitor must not modify the structure of the dentry tree during the
447  * traversal.
448  *
449  * The return value will be 0 if all calls to @visitor returned 0.  Otherwise,
450  * the return value will be the first nonzero value returned by @visitor.
451  */
452 int
453 for_dentry_in_tree(struct wim_dentry *root,
454                    int (*visitor)(struct wim_dentry *, void *), void *arg)
455 {
456         if (unlikely(!root))
457                 return 0;
458         return do_for_dentry_in_tree(root, visitor, arg);
459 }
460
461 /* Like for_dentry_in_tree(), but do a depth-first traversal of the dentry tree.
462  * That is, the visitor function will be called on a dentry's children before
463  * itself.  It will be safe to free a dentry when visiting it.  */
464 static int
465 for_dentry_in_tree_depth(struct wim_dentry *root,
466                          int (*visitor)(struct wim_dentry *, void *), void *arg)
467 {
468         if (unlikely(!root))
469                 return 0;
470         return do_for_dentry_in_tree_depth(root, visitor, arg);
471 }
472
473 /*
474  * Calculate the full path to @dentry within the WIM image, if not already done.
475  *
476  * The full name will be saved in the cached value 'dentry->_full_path'.
477  *
478  * Whenever possible, use dentry_full_path() instead of calling this and
479  * accessing _full_path directly.
480  *
481  * Returns 0 or an error code resulting from string conversion.
482  */
483 int
484 calculate_dentry_full_path(struct wim_dentry *dentry)
485 {
486         size_t ulen;
487         size_t dummy;
488         const struct wim_dentry *d;
489
490         if (dentry->_full_path)
491                 return 0;
492
493         ulen = 0;
494         d = dentry;
495         do {
496                 ulen += d->file_name_nbytes / sizeof(utf16lechar);
497                 ulen++;
498                 d = d->d_parent;  /* assumes d == d->d_parent for root  */
499         } while (!dentry_is_root(d));
500
501         utf16lechar ubuf[ulen];
502         utf16lechar *p = &ubuf[ulen];
503
504         d = dentry;
505         do {
506                 p -= d->file_name_nbytes / sizeof(utf16lechar);
507                 memcpy(p, d->file_name, d->file_name_nbytes);
508                 *--p = cpu_to_le16(WIM_PATH_SEPARATOR);
509                 d = d->d_parent;  /* assumes d == d->d_parent for root  */
510         } while (!dentry_is_root(d));
511
512         wimlib_assert(p == ubuf);
513
514         return utf16le_to_tstr(ubuf, ulen * sizeof(utf16lechar),
515                                &dentry->_full_path, &dummy);
516 }
517
518 /*
519  * Return the full path to the @dentry within the WIM image, or NULL if the full
520  * path could not be determined due to a string conversion error.
521  *
522  * The returned memory will be cached in the dentry, so the caller is not
523  * responsible for freeing it.
524  */
525 tchar *
526 dentry_full_path(struct wim_dentry *dentry)
527 {
528         calculate_dentry_full_path(dentry);
529         return dentry->_full_path;
530 }
531
532 static int
533 dentry_calculate_subdir_offset(struct wim_dentry *dentry, void *_subdir_offset_p)
534 {
535         if (dentry_is_directory(dentry)) {
536                 u64 *subdir_offset_p = _subdir_offset_p;
537                 struct wim_dentry *child;
538
539                 /* Set offset of directory's child dentries  */
540                 dentry->subdir_offset = *subdir_offset_p;
541
542                 /* Account for child dentries  */
543                 for_dentry_child(child, dentry)
544                         *subdir_offset_p += dentry_out_total_length(child);
545
546                 /* Account for end-of-directory entry  */
547                 *subdir_offset_p += 8;
548         } else {
549                 /* Not a directory; set subdir_offset to 0  */
550                 dentry->subdir_offset = 0;
551         }
552         return 0;
553 }
554
555 /*
556  * Calculate the subdir offsets for a dentry tree, in preparation of writing
557  * that dentry tree to a metadata resource.
558  *
559  * The subdir offset of each dentry is the offset in the uncompressed metadata
560  * resource at which its child dentries begin, or 0 if that dentry has no
561  * children.
562  *
563  * The caller must initialize *subdir_offset_p to the first subdir offset that
564  * is available to use after the root dentry is written.
565  *
566  * When this function returns, *subdir_offset_p will have been advanced past the
567  * size needed for the dentry tree within the uncompressed metadata resource.
568  */
569 void
570 calculate_subdir_offsets(struct wim_dentry *root, u64 *subdir_offset_p)
571 {
572         for_dentry_in_tree(root, dentry_calculate_subdir_offset, subdir_offset_p);
573 }
574
575 /* Compare the UTF-16LE long filenames of two dentries case insensitively.  */
576 static int
577 dentry_compare_names_case_insensitive(const struct wim_dentry *d1,
578                                       const struct wim_dentry *d2)
579 {
580         return cmp_utf16le_strings(d1->file_name,
581                                    d1->file_name_nbytes / 2,
582                                    d2->file_name,
583                                    d2->file_name_nbytes / 2,
584                                    true);
585 }
586
587 /* Compare the UTF-16LE long filenames of two dentries case sensitively.  */
588 static int
589 dentry_compare_names_case_sensitive(const struct wim_dentry *d1,
590                                     const struct wim_dentry *d2)
591 {
592         return cmp_utf16le_strings(d1->file_name,
593                                    d1->file_name_nbytes / 2,
594                                    d2->file_name,
595                                    d2->file_name_nbytes / 2,
596                                    false);
597 }
598
599 static int
600 _avl_dentry_compare_names_ci(const struct avl_tree_node *n1,
601                              const struct avl_tree_node *n2)
602 {
603         const struct wim_dentry *d1, *d2;
604
605         d1 = avl_tree_entry(n1, struct wim_dentry, d_index_node_ci);
606         d2 = avl_tree_entry(n2, struct wim_dentry, d_index_node_ci);
607         return dentry_compare_names_case_insensitive(d1, d2);
608 }
609
610 static int
611 _avl_dentry_compare_names(const struct avl_tree_node *n1,
612                           const struct avl_tree_node *n2)
613 {
614         const struct wim_dentry *d1, *d2;
615
616         d1 = avl_tree_entry(n1, struct wim_dentry, d_index_node);
617         d2 = avl_tree_entry(n2, struct wim_dentry, d_index_node);
618         return dentry_compare_names_case_sensitive(d1, d2);
619 }
620
621 /* Default case sensitivity behavior for searches with
622  * WIMLIB_CASE_PLATFORM_DEFAULT specified.  This can be modified by passing
623  * WIMLIB_INIT_FLAG_DEFAULT_CASE_SENSITIVE or
624  * WIMLIB_INIT_FLAG_DEFAULT_CASE_INSENSITIVE to wimlib_global_init().  */
625 bool default_ignore_case =
626 #ifdef __WIN32__
627         true
628 #else
629         false
630 #endif
631 ;
632
633 /* Case-sensitive dentry lookup.  Only @file_name and @file_name_nbytes of
634  * @dummy must be valid.  */
635 static struct wim_dentry *
636 dir_lookup(const struct wim_inode *dir, const struct wim_dentry *dummy)
637 {
638         struct avl_tree_node *node;
639
640         node = avl_tree_lookup_node(dir->i_children,
641                                     &dummy->d_index_node,
642                                     _avl_dentry_compare_names);
643         if (!node)
644                 return NULL;
645         return avl_tree_entry(node, struct wim_dentry, d_index_node);
646 }
647
648 /* Case-insensitive dentry lookup.  Only @file_name and @file_name_nbytes of
649  * @dummy must be valid.  */
650 static struct wim_dentry *
651 dir_lookup_ci(const struct wim_inode *dir, const struct wim_dentry *dummy)
652 {
653         struct avl_tree_node *node;
654
655         node = avl_tree_lookup_node(dir->i_children_ci,
656                                     &dummy->d_index_node_ci,
657                                     _avl_dentry_compare_names_ci);
658         if (!node)
659                 return NULL;
660         return avl_tree_entry(node, struct wim_dentry, d_index_node_ci);
661 }
662
663 /* Given a UTF-16LE filename and a directory, look up the dentry for the file.
664  * Return it if found, otherwise NULL.  This has configurable case sensitivity,
665  * and @name need not be null-terminated.  */
666 struct wim_dentry *
667 get_dentry_child_with_utf16le_name(const struct wim_dentry *dentry,
668                                    const utf16lechar *name,
669                                    size_t name_nbytes,
670                                    CASE_SENSITIVITY_TYPE case_ctype)
671 {
672         const struct wim_inode *dir = dentry->d_inode;
673         bool ignore_case = will_ignore_case(case_ctype);
674         struct wim_dentry dummy;
675         struct wim_dentry *child;
676
677         dummy.file_name = (utf16lechar*)name;
678         dummy.file_name_nbytes = name_nbytes;
679
680         if (!ignore_case)
681                 /* Case-sensitive lookup.  */
682                 return dir_lookup(dir, &dummy);
683
684         /* Case-insensitive lookup.  */
685
686         child = dir_lookup_ci(dir, &dummy);
687         if (!child)
688                 return NULL;
689
690         if (likely(list_empty(&child->d_ci_conflict_list)))
691                 /* Only one dentry has this case-insensitive name; return it */
692                 return child;
693
694         /* Multiple dentries have the same case-insensitive name.  Choose the
695          * dentry with the same case-sensitive name, if one exists; otherwise
696          * print a warning and choose one of the possible dentries arbitrarily.
697          */
698         struct wim_dentry *alt = child;
699         size_t num_alts = 0;
700
701         do {
702                 num_alts++;
703                 if (!dentry_compare_names_case_sensitive(&dummy, alt))
704                         return alt;
705                 alt = list_entry(alt->d_ci_conflict_list.next,
706                                  struct wim_dentry, d_ci_conflict_list);
707         } while (alt != child);
708
709         WARNING("Result of case-insensitive lookup is ambiguous\n"
710                 "          (returning \"%"TS"\" of %zu "
711                 "possible files, including \"%"TS"\")",
712                 dentry_full_path(child),
713                 num_alts,
714                 dentry_full_path(list_entry(child->d_ci_conflict_list.next,
715                                             struct wim_dentry,
716                                             d_ci_conflict_list)));
717         return child;
718 }
719
720 /* Given a 'tchar' filename and a directory, look up the dentry for the file.
721  * If the filename was successfully converted to UTF-16LE and the dentry was
722  * found, return it; otherwise return NULL.  This has configurable case
723  * sensitivity.  */
724 struct wim_dentry *
725 get_dentry_child_with_name(const struct wim_dentry *dentry, const tchar *name,
726                            CASE_SENSITIVITY_TYPE case_type)
727 {
728         int ret;
729         const utf16lechar *name_utf16le;
730         size_t name_utf16le_nbytes;
731         struct wim_dentry *child;
732
733         ret = tstr_get_utf16le_and_len(name, &name_utf16le,
734                                        &name_utf16le_nbytes);
735         if (ret)
736                 return NULL;
737
738         child = get_dentry_child_with_utf16le_name(dentry,
739                                                    name_utf16le,
740                                                    name_utf16le_nbytes,
741                                                    case_type);
742         tstr_put_utf16le(name_utf16le);
743         return child;
744 }
745
746 /* This is the UTF-16LE version of get_dentry(), currently private to this file
747  * because no one needs it besides get_dentry().  */
748 static struct wim_dentry *
749 get_dentry_utf16le(WIMStruct *wim, const utf16lechar *path,
750                    CASE_SENSITIVITY_TYPE case_type)
751 {
752         struct wim_dentry *cur_dentry;
753         const utf16lechar *name_start, *name_end;
754
755         /* Start with the root directory of the image.  Note: this will be NULL
756          * if an image has been added directly with wimlib_add_empty_image() but
757          * no files have been added yet; in that case we fail with ENOENT.  */
758         cur_dentry = wim_get_current_root_dentry(wim);
759
760         name_start = path;
761         for (;;) {
762                 if (cur_dentry == NULL) {
763                         errno = ENOENT;
764                         return NULL;
765                 }
766
767                 if (*name_start && !dentry_is_directory(cur_dentry)) {
768                         errno = ENOTDIR;
769                         return NULL;
770                 }
771
772                 while (*name_start == cpu_to_le16(WIM_PATH_SEPARATOR))
773                         name_start++;
774
775                 if (!*name_start)
776                         return cur_dentry;
777
778                 name_end = name_start;
779                 do {
780                         ++name_end;
781                 } while (*name_end != cpu_to_le16(WIM_PATH_SEPARATOR) && *name_end);
782
783                 cur_dentry = get_dentry_child_with_utf16le_name(cur_dentry,
784                                                                 name_start,
785                                                                 (u8*)name_end - (u8*)name_start,
786                                                                 case_type);
787                 name_start = name_end;
788         }
789 }
790
791 /*
792  * WIM path lookup: translate a path in the currently selected WIM image to the
793  * corresponding dentry, if it exists.
794  *
795  * @wim
796  *      The WIMStruct for the WIM.  The search takes place in the currently
797  *      selected image.
798  *
799  * @path
800  *      The path to look up, given relative to the root of the WIM image.
801  *      Characters with value WIM_PATH_SEPARATOR are taken to be path
802  *      separators.  Leading path separators are ignored, whereas one or more
803  *      trailing path separators cause the path to only match a directory.
804  *
805  * @case_type
806  *      The case-sensitivity behavior of this function, as one of the following
807  *      constants:
808  *
809  *    - WIMLIB_CASE_SENSITIVE:  Perform the search case sensitively.  This means
810  *      that names must match exactly.
811  *
812  *    - WIMLIB_CASE_INSENSITIVE:  Perform the search case insensitively.  This
813  *      means that names are considered to match if they are equal when
814  *      transformed to upper case.  If a path component matches multiple names
815  *      case-insensitively, the name that matches the path component
816  *      case-sensitively is chosen, if existent; otherwise one
817  *      case-insensitively matching name is chosen arbitrarily.
818  *
819  *    - WIMLIB_CASE_PLATFORM_DEFAULT:  Perform either case-sensitive or
820  *      case-insensitive search, depending on the value of the global variable
821  *      default_ignore_case.
822  *
823  *    In any case, no Unicode normalization is done before comparing strings.
824  *
825  * Returns a pointer to the dentry that is the result of the lookup, or NULL if
826  * no such dentry exists.  If NULL is returned, errno is set to one of the
827  * following values:
828  *
829  *      ENOTDIR if one of the path components used as a directory existed but
830  *      was not, in fact, a directory.
831  *
832  *      ENOENT otherwise.
833  *
834  * Additional notes:
835  *
836  *    - This function does not consider a reparse point to be a directory, even
837  *      if it has FILE_ATTRIBUTE_DIRECTORY set.
838  *
839  *    - This function does not dereference symbolic links or junction points
840  *      when performing the search.
841  *
842  *    - Since this function ignores leading slashes, the empty path is valid and
843  *      names the root directory of the WIM image.
844  *
845  *    - An image added with wimlib_add_empty_image() does not have a root
846  *      directory yet, and this function will fail with ENOENT for any path on
847  *      such an image.
848  */
849 struct wim_dentry *
850 get_dentry(WIMStruct *wim, const tchar *path, CASE_SENSITIVITY_TYPE case_type)
851 {
852         int ret;
853         const utf16lechar *path_utf16le;
854         struct wim_dentry *dentry;
855
856         ret = tstr_get_utf16le(path, &path_utf16le);
857         if (ret)
858                 return NULL;
859         dentry = get_dentry_utf16le(wim, path_utf16le, case_type);
860         tstr_put_utf16le(path_utf16le);
861         return dentry;
862 }
863
864 /* Modify @path, which is a null-terminated string @len 'tchars' in length,
865  * in-place to produce the path to its parent directory.  */
866 static void
867 to_parent_name(tchar *path, size_t len)
868 {
869         ssize_t i = (ssize_t)len - 1;
870         while (i >= 0 && path[i] == WIM_PATH_SEPARATOR)
871                 i--;
872         while (i >= 0 && path[i] != WIM_PATH_SEPARATOR)
873                 i--;
874         while (i >= 0 && path[i] == WIM_PATH_SEPARATOR)
875                 i--;
876         path[i + 1] = T('\0');
877 }
878
879 /* Similar to get_dentry(), but returns the dentry named by @path with the last
880  * component stripped off.
881  *
882  * Note: The returned dentry is NOT guaranteed to be a directory.  */
883 struct wim_dentry *
884 get_parent_dentry(WIMStruct *wim, const tchar *path,
885                   CASE_SENSITIVITY_TYPE case_type)
886 {
887         size_t path_len = tstrlen(path);
888         tchar buf[path_len + 1];
889
890         tmemcpy(buf, path, path_len + 1);
891         to_parent_name(buf, path_len);
892         return get_dentry(wim, buf, case_type);
893 }
894
895 /*
896  * Create an unlinked dentry.
897  *
898  * @name specifies the long name to give the new dentry.  If NULL or empty, the
899  * new dentry will be given no long name.
900  *
901  * The new dentry will have no short name and no associated inode.
902  *
903  * On success, returns 0 and a pointer to the new, allocated dentry is stored in
904  * *dentry_ret.  On failure, returns WIMLIB_ERR_NOMEM or an error code resulting
905  * from string conversion.
906  */
907 int
908 new_dentry(const tchar *name, struct wim_dentry **dentry_ret)
909 {
910         struct wim_dentry *dentry;
911         int ret;
912
913         dentry = CALLOC(1, sizeof(struct wim_dentry));
914         if (!dentry)
915                 return WIMLIB_ERR_NOMEM;
916
917         if (name && *name) {
918                 ret = dentry_set_name(dentry, name);
919                 if (ret) {
920                         FREE(dentry);
921                         ERROR("Failed to set name on new dentry with name \"%"TS"\"",
922                               name);
923                         return ret;
924                 }
925         }
926         dentry->d_parent = dentry;
927         *dentry_ret = dentry;
928         return 0;
929 }
930
931 static int
932 _new_dentry_with_inode(const tchar *name, struct wim_dentry **dentry_ret,
933                        bool timeless)
934 {
935         struct wim_dentry *dentry;
936         int ret;
937
938         ret = new_dentry(name, &dentry);
939         if (ret)
940                 return ret;
941
942         if (timeless)
943                 dentry->d_inode = new_timeless_inode();
944         else
945                 dentry->d_inode = new_inode();
946         if (dentry->d_inode == NULL) {
947                 free_dentry(dentry);
948                 return WIMLIB_ERR_NOMEM;
949         }
950
951         inode_add_dentry(dentry, dentry->d_inode);
952         *dentry_ret = dentry;
953         return 0;
954 }
955
956 /* Like new_dentry(), but also allocate an inode and associate it with the
957  * dentry.  The timestamps for the inode will be set to the current time.  */
958 int
959 new_dentry_with_inode(const tchar *name, struct wim_dentry **dentry_ret)
960 {
961         return _new_dentry_with_inode(name, dentry_ret, false);
962 }
963
964 /* Like new_dentry_with_inode(), but don't bother setting the timestamps for the
965  * new inode; instead, just leave them as 0, under the presumption that the
966  * caller will set them itself.  */
967 int
968 new_dentry_with_timeless_inode(const tchar *name, struct wim_dentry **dentry_ret)
969 {
970         return _new_dentry_with_inode(name, dentry_ret, true);
971 }
972
973 /* Create an unnamed dentry with a new inode for a directory with the default
974  * metadata.  */
975 int
976 new_filler_directory(struct wim_dentry **dentry_ret)
977 {
978         int ret;
979         struct wim_dentry *dentry;
980
981         ret = new_dentry_with_inode(NULL, &dentry);
982         if (ret)
983                 return ret;
984         /* Leave the inode number as 0; this is allowed for non
985          * hard-linked files. */
986         dentry->d_inode->i_resolved = 1;
987         dentry->d_inode->i_attributes = FILE_ATTRIBUTE_DIRECTORY;
988         *dentry_ret = dentry;
989         return 0;
990 }
991
992 static int
993 dentry_clear_inode_visited(struct wim_dentry *dentry, void *_ignore)
994 {
995         dentry->d_inode->i_visited = 0;
996         return 0;
997 }
998
999 void
1000 dentry_tree_clear_inode_visited(struct wim_dentry *root)
1001 {
1002         for_dentry_in_tree(root, dentry_clear_inode_visited, NULL);
1003 }
1004
1005 /*
1006  * Free a WIM dentry.
1007  *
1008  * In addition to freeing the dentry itself, this decrements the link count of
1009  * the corresponding inode (if any).  If the inode's link count reaches 0, the
1010  * inode is freed as well.
1011  */
1012 void
1013 free_dentry(struct wim_dentry *dentry)
1014 {
1015         if (dentry) {
1016                 FREE(dentry->file_name);
1017                 FREE(dentry->short_name);
1018                 FREE(dentry->_full_path);
1019                 if (dentry->d_inode)
1020                         put_inode(dentry->d_inode);
1021                 FREE(dentry);
1022         }
1023 }
1024
1025 static int
1026 do_free_dentry(struct wim_dentry *dentry, void *_ignore)
1027 {
1028         free_dentry(dentry);
1029         return 0;
1030 }
1031
1032 static int
1033 do_free_dentry_and_unref_streams(struct wim_dentry *dentry, void *lookup_table)
1034 {
1035         inode_unref_streams(dentry->d_inode, lookup_table);
1036         free_dentry(dentry);
1037         return 0;
1038 }
1039
1040 /*
1041  * Free all dentries in a tree.
1042  *
1043  * @root:
1044  *      The root of the dentry tree to free.  If NULL, this function has no
1045  *      effect.
1046  *
1047  * @lookup_table:
1048  *      A pointer to the lookup table for the WIM, or NULL if not specified.  If
1049  *      specified, this function will decrement the reference counts of the
1050  *      single-instance streams referenced by the dentries.
1051  *
1052  * This function also releases references to the corresponding inodes.
1053  *
1054  * This function does *not* unlink @root from its parent directory, if it has
1055  * one.  If @root has a parent, the caller must unlink @root before calling this
1056  * function.
1057  */
1058 void
1059 free_dentry_tree(struct wim_dentry *root, struct wim_lookup_table *lookup_table)
1060 {
1061         int (*f)(struct wim_dentry *, void *);
1062
1063         if (lookup_table)
1064                 f = do_free_dentry_and_unref_streams;
1065         else
1066                 f = do_free_dentry;
1067
1068         for_dentry_in_tree_depth(root, f, lookup_table);
1069 }
1070
1071 /* Insert the @child dentry into the case sensitive index of the @dir directory.
1072  * Return NULL if successfully inserted, otherwise a pointer to the
1073  * already-inserted duplicate.  */
1074 static struct wim_dentry *
1075 dir_index_child(struct wim_inode *dir, struct wim_dentry *child)
1076 {
1077         struct avl_tree_node *duplicate;
1078
1079         duplicate = avl_tree_insert(&dir->i_children,
1080                                     &child->d_index_node,
1081                                     _avl_dentry_compare_names);
1082         if (!duplicate)
1083                 return NULL;
1084         return avl_tree_entry(duplicate, struct wim_dentry, d_index_node);
1085 }
1086
1087 /* Insert the @child dentry into the case insensitive index of the @dir
1088  * directory.  Return NULL if successfully inserted, otherwise a pointer to the
1089  * already-inserted duplicate.  */
1090 static struct wim_dentry *
1091 dir_index_child_ci(struct wim_inode *dir, struct wim_dentry *child)
1092 {
1093         struct avl_tree_node *duplicate;
1094
1095         duplicate = avl_tree_insert(&dir->i_children_ci,
1096                                     &child->d_index_node_ci,
1097                                     _avl_dentry_compare_names_ci);
1098         if (!duplicate)
1099                 return NULL;
1100         return avl_tree_entry(duplicate, struct wim_dentry, d_index_node_ci);
1101 }
1102
1103 /* Remove the specified dentry from its directory's case-sensitive index.  */
1104 static void
1105 dir_unindex_child(struct wim_inode *dir, struct wim_dentry *child)
1106 {
1107         avl_tree_remove(&dir->i_children, &child->d_index_node);
1108 }
1109
1110 /* Remove the specified dentry from its directory's case-insensitive index.  */
1111 static void
1112 dir_unindex_child_ci(struct wim_inode *dir, struct wim_dentry *child)
1113 {
1114         avl_tree_remove(&dir->i_children_ci, &child->d_index_node_ci);
1115 }
1116
1117 /* Return true iff the specified dentry is in its parent directory's
1118  * case-insensitive index.  */
1119 static bool
1120 dentry_in_ci_index(const struct wim_dentry *dentry)
1121 {
1122         return !avl_tree_node_is_unlinked(&dentry->d_index_node_ci);
1123 }
1124
1125 /*
1126  * Link a dentry into the tree.
1127  *
1128  * @parent:
1129  *      The dentry that will be the parent of @child.  It must name a directory.
1130  *
1131  * @child:
1132  *      The dentry to link.  It must be currently unlinked.
1133  *
1134  * Returns NULL if successful.  If @parent already contains a dentry with the
1135  * same case-sensitive name as @child, returns a pointer to this duplicate
1136  * dentry.
1137  */
1138 struct wim_dentry *
1139 dentry_add_child(struct wim_dentry *parent, struct wim_dentry *child)
1140 {
1141         struct wim_dentry *duplicate;
1142         struct wim_inode *dir;
1143
1144         wimlib_assert(parent != child);
1145
1146         dir = parent->d_inode;
1147
1148         wimlib_assert(inode_is_directory(dir));
1149
1150         duplicate = dir_index_child(dir, child);
1151         if (duplicate)
1152                 return duplicate;
1153
1154         duplicate = dir_index_child_ci(dir, child);
1155         if (duplicate) {
1156                 list_add(&child->d_ci_conflict_list, &duplicate->d_ci_conflict_list);
1157                 avl_tree_node_set_unlinked(&child->d_index_node_ci);
1158         } else {
1159                 INIT_LIST_HEAD(&child->d_ci_conflict_list);
1160         }
1161         child->d_parent = parent;
1162         return NULL;
1163 }
1164
1165 /* Unlink a dentry from the tree.  */
1166 void
1167 unlink_dentry(struct wim_dentry *dentry)
1168 {
1169         struct wim_inode *dir;
1170
1171         /* Do nothing if the dentry is root or it's already unlinked.  Not
1172          * actually necessary based on the current callers, but we do the check
1173          * here to be safe.  */
1174         if (unlikely(dentry->d_parent == dentry))
1175                 return;
1176
1177         dir = dentry->d_parent->d_inode;
1178
1179         dir_unindex_child(dir, dentry);
1180
1181         if (dentry_in_ci_index(dentry)) {
1182
1183                 dir_unindex_child_ci(dir, dentry);
1184
1185                 if (!list_empty(&dentry->d_ci_conflict_list)) {
1186                         /* Make a different case-insensitively-the-same dentry
1187                          * be the "representative" in the search index.  */
1188                         struct list_head *next;
1189                         struct wim_dentry *other;
1190                         struct wim_dentry *existing;
1191
1192                         next = dentry->d_ci_conflict_list.next;
1193                         other = list_entry(next, struct wim_dentry, d_ci_conflict_list);
1194                         existing = dir_index_child_ci(dir, other);
1195                         wimlib_assert(existing == NULL);
1196                 }
1197         }
1198         list_del(&dentry->d_ci_conflict_list);
1199
1200         /* Not actually necessary, but to be safe don't retain the now-obsolete
1201          * parent pointer.  */
1202         dentry->d_parent = dentry;
1203 }
1204
1205 static int
1206 read_extra_data(const u8 *p, const u8 *end, struct wim_inode *inode)
1207 {
1208         while (((uintptr_t)p & 7) && p < end)
1209                 p++;
1210
1211         if (unlikely(p < end)) {
1212                 inode->i_extra = memdup(p, end - p);
1213                 if (!inode->i_extra)
1214                         return WIMLIB_ERR_NOMEM;
1215                 inode->i_extra_size = end - p;
1216         }
1217         return 0;
1218 }
1219
1220 /* Read a dentry, including all alternate data stream entries that follow it,
1221  * from an uncompressed metadata resource buffer.  */
1222 static int
1223 read_dentry(const u8 * restrict buf, size_t buf_len,
1224             u64 *offset_p, struct wim_dentry **dentry_ret)
1225 {
1226         u64 offset = *offset_p;
1227         u64 length;
1228         const u8 *p;
1229         const struct wim_dentry_on_disk *disk_dentry;
1230         struct wim_dentry *dentry;
1231         struct wim_inode *inode;
1232         u16 short_name_nbytes;
1233         u16 file_name_nbytes;
1234         u64 calculated_size;
1235         int ret;
1236
1237         BUILD_BUG_ON(sizeof(struct wim_dentry_on_disk) != WIM_DENTRY_DISK_SIZE);
1238
1239         /* Before reading the whole dentry, we need to read just the length.
1240          * This is because a dentry of length 8 (that is, just the length field)
1241          * terminates the list of sibling directory entries. */
1242
1243         /* Check for buffer overrun.  */
1244         if (unlikely(offset + sizeof(u64) > buf_len ||
1245                      offset + sizeof(u64) < offset))
1246         {
1247                 ERROR("Directory entry starting at %"PRIu64" ends past the "
1248                       "end of the metadata resource (size %zu)",
1249                       offset, buf_len);
1250                 return WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1251         }
1252
1253         /* Get pointer to the dentry data.  */
1254         p = &buf[offset];
1255         disk_dentry = (const struct wim_dentry_on_disk*)p;
1256
1257         /* Get dentry length.  */
1258         length = le64_to_cpu(disk_dentry->length);
1259
1260         /* Check for end-of-directory.  */
1261         if (length <= 8) {
1262                 *dentry_ret = NULL;
1263                 return 0;
1264         }
1265
1266         /* Validate dentry length.  */
1267         if (unlikely(length < sizeof(struct wim_dentry_on_disk))) {
1268                 ERROR("Directory entry has invalid length of %"PRIu64" bytes",
1269                       length);
1270                 return WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1271         }
1272
1273         /* Check for buffer overrun.  */
1274         if (unlikely(offset + length > buf_len ||
1275                      offset + length < offset))
1276         {
1277                 ERROR("Directory entry at offset %"PRIu64" and with size "
1278                       "%"PRIu64" ends past the end of the metadata resource "
1279                       "(size %zu)", offset, length, buf_len);
1280                 return WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1281         }
1282
1283         /* Allocate new dentry structure, along with a preliminary inode.  */
1284         ret = new_dentry_with_timeless_inode(NULL, &dentry);
1285         if (ret)
1286                 return ret;
1287
1288         inode = dentry->d_inode;
1289
1290         /* Read more fields: some into the dentry, and some into the inode.  */
1291         inode->i_attributes = le32_to_cpu(disk_dentry->attributes);
1292         inode->i_security_id = le32_to_cpu(disk_dentry->security_id);
1293         dentry->subdir_offset = le64_to_cpu(disk_dentry->subdir_offset);
1294         inode->i_creation_time = le64_to_cpu(disk_dentry->creation_time);
1295         inode->i_last_access_time = le64_to_cpu(disk_dentry->last_access_time);
1296         inode->i_last_write_time = le64_to_cpu(disk_dentry->last_write_time);
1297         copy_hash(inode->i_hash, disk_dentry->unnamed_stream_hash);
1298
1299         /* I don't know what's going on here.  It seems like M$ screwed up the
1300          * reparse points, then put the fields in the same place and didn't
1301          * document it.  So we have some fields we read for reparse points, and
1302          * some fields in the same place for non-reparse-points.  */
1303         if (inode->i_attributes & FILE_ATTRIBUTE_REPARSE_POINT) {
1304                 inode->i_rp_unknown_1 = le32_to_cpu(disk_dentry->reparse.rp_unknown_1);
1305                 inode->i_reparse_tag = le32_to_cpu(disk_dentry->reparse.reparse_tag);
1306                 inode->i_rp_unknown_2 = le16_to_cpu(disk_dentry->reparse.rp_unknown_2);
1307                 inode->i_not_rpfixed = le16_to_cpu(disk_dentry->reparse.not_rpfixed);
1308                 /* Leave inode->i_ino at 0.  Note that this means the WIM file
1309                  * cannot archive hard-linked reparse points.  Such a thing
1310                  * doesn't really make sense anyway, although I believe it's
1311                  * theoretically possible to have them on NTFS.  */
1312         } else {
1313                 inode->i_rp_unknown_1 = le32_to_cpu(disk_dentry->nonreparse.rp_unknown_1);
1314                 inode->i_ino = le64_to_cpu(disk_dentry->nonreparse.hard_link_group_id);
1315         }
1316         inode->i_num_ads = le16_to_cpu(disk_dentry->num_alternate_data_streams);
1317
1318         /* Now onto reading the names.  There are two of them: the (long) file
1319          * name, and the short name.  */
1320
1321         short_name_nbytes = le16_to_cpu(disk_dentry->short_name_nbytes);
1322         file_name_nbytes = le16_to_cpu(disk_dentry->file_name_nbytes);
1323
1324         if (unlikely((short_name_nbytes & 1) | (file_name_nbytes & 1))) {
1325                 ERROR("Dentry name is not valid UTF-16 (odd number of bytes)!");
1326                 ret = WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1327                 goto err_free_dentry;
1328         }
1329
1330         /* We now know the length of the file name and short name.  Make sure
1331          * the length of the dentry is large enough to actually hold them.
1332          *
1333          * The calculated length here is unaligned to allow for the possibility
1334          * that the dentry's length is unaligned, although this would be
1335          * unexpected.  */
1336         calculated_size = dentry_min_len_with_names(file_name_nbytes,
1337                                                     short_name_nbytes);
1338
1339         if (unlikely(length < calculated_size)) {
1340                 ERROR("Unexpected end of directory entry! (Expected "
1341                       "at least %"PRIu64" bytes, got %"PRIu64" bytes.)",
1342                       calculated_size, length);
1343                 ret = WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1344                 goto err_free_dentry;
1345         }
1346
1347         /* Advance p to point past the base dentry, to the first name.  */
1348         p += sizeof(struct wim_dentry_on_disk);
1349
1350         /* Read the filename if present.  Note: if the filename is empty, there
1351          * is no null terminator following it.  */
1352         if (file_name_nbytes) {
1353                 dentry->file_name = utf16le_dupz((const utf16lechar *)p,
1354                                                  file_name_nbytes);
1355                 if (dentry->file_name == NULL) {
1356                         ret = WIMLIB_ERR_NOMEM;
1357                         goto err_free_dentry;
1358                 }
1359                 dentry->file_name_nbytes = file_name_nbytes;
1360                 p += (u32)file_name_nbytes + 2;
1361         }
1362
1363         /* Read the short filename if present.  Note: if there is no short
1364          * filename, there is no null terminator following it. */
1365         if (short_name_nbytes) {
1366                 dentry->short_name = utf16le_dupz((const utf16lechar *)p,
1367                                                   short_name_nbytes);
1368                 if (dentry->short_name == NULL) {
1369                         ret = WIMLIB_ERR_NOMEM;
1370                         goto err_free_dentry;
1371                 }
1372                 dentry->short_name_nbytes = short_name_nbytes;
1373                 p += (u32)short_name_nbytes + 2;
1374         }
1375
1376         /* Read extra data at end of dentry (but before alternate data stream
1377          * entries).  This may contain tagged items.  */
1378         ret = read_extra_data(p, &buf[offset + length], inode);
1379         if (ret)
1380                 goto err_free_dentry;
1381
1382         /* Align the dentry length.  */
1383         length = (length + 7) & ~7;
1384
1385         offset += length;
1386
1387         /* Read the alternate data streams, if present.  inode->i_num_ads tells
1388          * us how many they are, and they will directly follow the dentry in the
1389          * metadata resource buffer.
1390          *
1391          * Note that each alternate data stream entry begins on an 8-byte
1392          * aligned boundary, and the alternate data stream entries seem to NOT
1393          * be included in the dentry->length field for some reason.  */
1394         if (unlikely(inode->i_num_ads != 0)) {
1395                 size_t orig_bytes_remaining;
1396                 size_t bytes_remaining;
1397
1398                 if (offset > buf_len) {
1399                         ret = WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1400                         goto err_free_dentry;
1401                 }
1402                 bytes_remaining = buf_len - offset;
1403                 orig_bytes_remaining = bytes_remaining;
1404                 ret = read_ads_entries(&buf[offset], inode, &bytes_remaining);
1405                 if (ret)
1406                         goto err_free_dentry;
1407                 offset += (orig_bytes_remaining - bytes_remaining);
1408         }
1409
1410         *offset_p = offset;  /* Sets offset of next dentry in directory  */
1411         *dentry_ret = dentry;
1412         return 0;
1413
1414 err_free_dentry:
1415         free_dentry(dentry);
1416         return ret;
1417 }
1418
1419 /* Is the dentry named "." or ".." ?  */
1420 static bool
1421 dentry_is_dot_or_dotdot(const struct wim_dentry *dentry)
1422 {
1423         if (dentry->file_name_nbytes <= 4) {
1424                 if (dentry->file_name_nbytes == 4) {
1425                         if (dentry->file_name[0] == cpu_to_le16('.') &&
1426                             dentry->file_name[1] == cpu_to_le16('.'))
1427                                 return true;
1428                 } else if (dentry->file_name_nbytes == 2) {
1429                         if (dentry->file_name[0] == cpu_to_le16('.'))
1430                                 return true;
1431                 }
1432         }
1433         return false;
1434 }
1435
1436 static int
1437 read_dentry_tree_recursive(const u8 * restrict buf, size_t buf_len,
1438                            struct wim_dentry * restrict dir)
1439 {
1440         u64 cur_offset = dir->subdir_offset;
1441
1442         /* Check for cyclic directory structure, which would cause infinite
1443          * recursion if not handled.  */
1444         for (struct wim_dentry *d = dir->d_parent;
1445              !dentry_is_root(d); d = d->d_parent)
1446         {
1447                 if (unlikely(d->subdir_offset == cur_offset)) {
1448                         ERROR("Cyclic directory structure detected: children "
1449                               "of \"%"TS"\" coincide with children of \"%"TS"\"",
1450                               dentry_full_path(dir), dentry_full_path(d));
1451                         return WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1452                 }
1453         }
1454
1455         for (;;) {
1456                 struct wim_dentry *child;
1457                 struct wim_dentry *duplicate;
1458                 int ret;
1459
1460                 /* Read next child of @dir.  */
1461                 ret = read_dentry(buf, buf_len, &cur_offset, &child);
1462                 if (ret)
1463                         return ret;
1464
1465                 /* Check for end of directory.  */
1466                 if (child == NULL)
1467                         return 0;
1468
1469                 /* All dentries except the root should be named.  */
1470                 if (unlikely(!dentry_has_long_name(child))) {
1471                         WARNING("Ignoring unnamed dentry in "
1472                                 "directory \"%"TS"\"", dentry_full_path(dir));
1473                         free_dentry(child);
1474                         continue;
1475                 }
1476
1477                 /* Don't allow files named "." or "..".  */
1478                 if (unlikely(dentry_is_dot_or_dotdot(child))) {
1479                         WARNING("Ignoring file named \".\" or \"..\"; "
1480                                 "potentially malicious archive!!!");
1481                         free_dentry(child);
1482                         continue;
1483                 }
1484
1485                 /* Link the child into the directory.  */
1486                 duplicate = dentry_add_child(dir, child);
1487                 if (unlikely(duplicate)) {
1488                         /* We already found a dentry with this same
1489                          * case-sensitive long name.  Only keep the first one.
1490                          */
1491                         WARNING("Ignoring duplicate file \"%"TS"\" "
1492                                 "(the WIM image already contains a file "
1493                                 "at that path with the exact same name)",
1494                                 dentry_full_path(duplicate));
1495                         free_dentry(child);
1496                         continue;
1497                 }
1498
1499                 /* If this child is a directory that itself has children, call
1500                  * this procedure recursively.  */
1501                 if (child->subdir_offset != 0) {
1502                         if (likely(dentry_is_directory(child))) {
1503                                 ret = read_dentry_tree_recursive(buf,
1504                                                                  buf_len,
1505                                                                  child);
1506                                 if (ret)
1507                                         return ret;
1508                         } else {
1509                                 WARNING("Ignoring children of "
1510                                         "non-directory file \"%"TS"\"",
1511                                         dentry_full_path(child));
1512                         }
1513                 }
1514         }
1515 }
1516
1517 /*
1518  * Read a tree of dentries from a WIM metadata resource.
1519  *
1520  * @buf:
1521  *      Buffer containing an uncompressed WIM metadata resource.
1522  *
1523  * @buf_len:
1524  *      Length of the uncompressed metadata resource, in bytes.
1525  *
1526  * @root_offset
1527  *      Offset in the metadata resource of the root of the dentry tree.
1528  *
1529  * @root_ret:
1530  *      On success, either NULL or a pointer to the root dentry is written to
1531  *      this location.  The former case only occurs in the unexpected case that
1532  *      the tree began with an end-of-directory entry.
1533  *
1534  * Return values:
1535  *      WIMLIB_ERR_SUCCESS (0)
1536  *      WIMLIB_ERR_INVALID_METADATA_RESOURCE
1537  *      WIMLIB_ERR_NOMEM
1538  */
1539 int
1540 read_dentry_tree(const u8 *buf, size_t buf_len,
1541                  u64 root_offset, struct wim_dentry **root_ret)
1542 {
1543         int ret;
1544         struct wim_dentry *root;
1545
1546         DEBUG("Reading dentry tree (root_offset=%"PRIu64")", root_offset);
1547
1548         ret = read_dentry(buf, buf_len, &root_offset, &root);
1549         if (ret)
1550                 return ret;
1551
1552         if (likely(root != NULL)) {
1553                 if (unlikely(dentry_has_long_name(root) ||
1554                              dentry_has_short_name(root)))
1555                 {
1556                         WARNING("The root directory has a nonempty name; "
1557                                 "removing it.");
1558                         dentry_set_name(root, NULL);
1559                 }
1560
1561                 if (unlikely(!dentry_is_directory(root))) {
1562                         ERROR("The root of the WIM image is not a directory!");
1563                         ret = WIMLIB_ERR_INVALID_METADATA_RESOURCE;
1564                         goto err_free_dentry_tree;
1565                 }
1566
1567                 if (likely(root->subdir_offset != 0)) {
1568                         ret = read_dentry_tree_recursive(buf, buf_len, root);
1569                         if (ret)
1570                                 goto err_free_dentry_tree;
1571                 }
1572         } else {
1573                 WARNING("The metadata resource has no directory entries; "
1574                         "treating as an empty image.");
1575         }
1576         *root_ret = root;
1577         return 0;
1578
1579 err_free_dentry_tree:
1580         free_dentry_tree(root, NULL);
1581         return ret;
1582 }
1583
1584 /*
1585  * Write a WIM alternate data stream (ADS) entry to an output buffer.
1586  *
1587  * @ads_entry:
1588  *      The ADS entry to write.
1589  *
1590  * @hash:
1591  *      The hash field to use (instead of the one stored directly in the ADS
1592  *      entry, which isn't valid if the inode has been "resolved").
1593  *
1594  * @p:
1595  *      The memory location to which to write the data.
1596  *
1597  * Returns a pointer to the byte after the last byte written.
1598  */
1599 static u8 *
1600 write_ads_entry(const struct wim_ads_entry *ads_entry,
1601                 const u8 *hash, u8 * restrict p)
1602 {
1603         struct wim_ads_entry_on_disk *disk_ads_entry =
1604                         (struct wim_ads_entry_on_disk*)p;
1605         u8 *orig_p = p;
1606
1607         disk_ads_entry->reserved = cpu_to_le64(ads_entry->reserved);
1608         copy_hash(disk_ads_entry->hash, hash);
1609         disk_ads_entry->stream_name_nbytes = cpu_to_le16(ads_entry->stream_name_nbytes);
1610         p += sizeof(struct wim_ads_entry_on_disk);
1611         if (ads_entry->stream_name_nbytes) {
1612                 p = mempcpy(p, ads_entry->stream_name,
1613                             (u32)ads_entry->stream_name_nbytes + 2);
1614         }
1615         /* Align to 8-byte boundary */
1616         while ((uintptr_t)p & 7)
1617                 *p++ = 0;
1618         disk_ads_entry->length = cpu_to_le64(p - orig_p);
1619         return p;
1620 }
1621
1622 /*
1623  * Write a WIM dentry to an output buffer.
1624  *
1625  * This includes any alternate data stream entries that may follow the dentry
1626  * itself.
1627  *
1628  * @dentry:
1629  *      The dentry to write.
1630  *
1631  * @p:
1632  *      The memory location to which to write the data.
1633  *
1634  * Returns a pointer to the byte following the last written.
1635  */
1636 static u8 *
1637 write_dentry(const struct wim_dentry * restrict dentry, u8 * restrict p)
1638 {
1639         const struct wim_inode *inode;
1640         struct wim_dentry_on_disk *disk_dentry;
1641         const u8 *orig_p;
1642         const u8 *hash;
1643         bool use_dummy_stream;
1644         u16 num_ads;
1645
1646         wimlib_assert(((uintptr_t)p & 7) == 0); /* 8 byte aligned */
1647         orig_p = p;
1648
1649         inode = dentry->d_inode;
1650         use_dummy_stream = inode_needs_dummy_stream(inode);
1651         disk_dentry = (struct wim_dentry_on_disk*)p;
1652
1653         disk_dentry->attributes = cpu_to_le32(inode->i_attributes);
1654         disk_dentry->security_id = cpu_to_le32(inode->i_security_id);
1655         disk_dentry->subdir_offset = cpu_to_le64(dentry->subdir_offset);
1656
1657         disk_dentry->unused_1 = cpu_to_le64(0);
1658         disk_dentry->unused_2 = cpu_to_le64(0);
1659
1660         disk_dentry->creation_time = cpu_to_le64(inode->i_creation_time);
1661         disk_dentry->last_access_time = cpu_to_le64(inode->i_last_access_time);
1662         disk_dentry->last_write_time = cpu_to_le64(inode->i_last_write_time);
1663         if (use_dummy_stream)
1664                 hash = zero_hash;
1665         else
1666                 hash = inode_stream_hash(inode, 0);
1667         copy_hash(disk_dentry->unnamed_stream_hash, hash);
1668         if (inode->i_attributes & FILE_ATTRIBUTE_REPARSE_POINT) {
1669                 disk_dentry->reparse.rp_unknown_1 = cpu_to_le32(inode->i_rp_unknown_1);
1670                 disk_dentry->reparse.reparse_tag = cpu_to_le32(inode->i_reparse_tag);
1671                 disk_dentry->reparse.rp_unknown_2 = cpu_to_le16(inode->i_rp_unknown_2);
1672                 disk_dentry->reparse.not_rpfixed = cpu_to_le16(inode->i_not_rpfixed);
1673         } else {
1674                 disk_dentry->nonreparse.rp_unknown_1 = cpu_to_le32(inode->i_rp_unknown_1);
1675                 disk_dentry->nonreparse.hard_link_group_id =
1676                         cpu_to_le64((inode->i_nlink == 1) ? 0 : inode->i_ino);
1677         }
1678         num_ads = inode->i_num_ads;
1679         if (use_dummy_stream)
1680                 num_ads++;
1681         disk_dentry->num_alternate_data_streams = cpu_to_le16(num_ads);
1682         disk_dentry->short_name_nbytes = cpu_to_le16(dentry->short_name_nbytes);
1683         disk_dentry->file_name_nbytes = cpu_to_le16(dentry->file_name_nbytes);
1684         p += sizeof(struct wim_dentry_on_disk);
1685
1686         wimlib_assert(dentry_is_root(dentry) != dentry_has_long_name(dentry));
1687
1688         if (dentry_has_long_name(dentry))
1689                 p = mempcpy(p, dentry->file_name, (u32)dentry->file_name_nbytes + 2);
1690
1691         if (dentry_has_short_name(dentry))
1692                 p = mempcpy(p, dentry->short_name, (u32)dentry->short_name_nbytes + 2);
1693
1694         /* Align to 8-byte boundary */
1695         while ((uintptr_t)p & 7)
1696                 *p++ = 0;
1697
1698         if (inode->i_extra_size) {
1699                 /* Extra tagged items --- not usually present.  */
1700                 p = mempcpy(p, inode->i_extra, inode->i_extra_size);
1701                 while ((uintptr_t)p & 7)
1702                         *p++ = 0;
1703         }
1704
1705         disk_dentry->length = cpu_to_le64(p - orig_p);
1706
1707         if (use_dummy_stream) {
1708                 hash = inode_unnamed_stream_hash(inode);
1709                 p = write_ads_entry(&(struct wim_ads_entry){}, hash, p);
1710         }
1711
1712         /* Write the alternate data streams entries, if any. */
1713         for (u16 i = 0; i < inode->i_num_ads; i++) {
1714                 hash = inode_stream_hash(inode, i + 1);
1715                 p = write_ads_entry(&inode->i_ads_entries[i], hash, p);
1716         }
1717
1718         return p;
1719 }
1720
1721 static int
1722 write_dir_dentries(struct wim_dentry *dir, void *_pp)
1723 {
1724         if (dir->subdir_offset != 0) {
1725                 u8 **pp = _pp;
1726                 u8 *p = *pp;
1727                 struct wim_dentry *child;
1728
1729                 /* write child dentries */
1730                 for_dentry_child(child, dir)
1731                         p = write_dentry(child, p);
1732
1733                 /* write end of directory entry */
1734                 *(u64*)p = 0;
1735                 p += 8;
1736                 *pp = p;
1737         }
1738         return 0;
1739 }
1740
1741 /*
1742  * Write a directory tree to the metadata resource.
1743  *
1744  * @root:
1745  *      The root of a dentry tree on which calculate_subdir_offsets() has been
1746  *      called.  This cannot be NULL; if the dentry tree is empty, the caller is
1747  *      expected to first generate a dummy root directory.
1748  *
1749  * @p:
1750  *      Pointer to a buffer with enough space for the dentry tree.  This size
1751  *      must have been obtained by calculate_subdir_offsets().
1752  *
1753  * Returns a pointer to the byte following the last written.
1754  */
1755 u8 *
1756 write_dentry_tree(struct wim_dentry *root, u8 *p)
1757 {
1758         DEBUG("Writing dentry tree.");
1759
1760         wimlib_assert(root != NULL);
1761
1762         /* write root dentry and end-of-directory entry following it */
1763         p = write_dentry(root, p);
1764         *(u64*)p = 0;
1765         p += 8;
1766
1767         /* write the rest of the dentry tree */
1768         for_dentry_in_tree(root, write_dir_dentries, &p);
1769
1770         return p;
1771 }