Fix up LZ77 compression code and prepare v1.0.3
[wimlib] / README
1                                    WIMLIB                                    
2
3 This is wimlib version 1.0.3 (September 2012).  wimlib can be used to read,
4 write, and mount files in the Windows Imaging Format (WIM files).  These
5 files are normally created by using the `imagex.exe' utility on Windows,
6 but this library provides a free implementation of imagex for UNIX-based
7 systems.
8
9                                    WIM FILES
10
11 A Windows Imaging (WIM) file is an archive.  Like some other archive formats
12 such as ZIP, files in WIM archives may be compressed.  WIM archives support two
13 Microsoft-specific compression formats:  LZX and XPRESS.  Both are based on LZ77
14 and Huffman encoding, and both are supported by wimlib.
15
16 Unlike ZIP files, WIM files can contain multiple independent toplevel directory
17 trees known as images.  While each image has its own metadata describing a
18 directory tree and file access modes, files are not duplicated for each image;
19 instead, each file is included only once in the entire WIM.  Microsoft did this
20 so that in one WIM file, they could do things like have 5 different versions of
21 Windows that are almost exactly the same.
22
23 Microsoft provides documentation for the WIM file format, XPRESS compression
24 format, and LZX compression format.  The XPRESS documentation is acceptable, but
25 the LZX documentation is not entirely correct, and the WIM documentation itself
26 is very incomplete and is of unacceptable quality.
27
28 A WIM file may be either stand-alone or split into multiple parts.
29
30                                    WINDOWS PE
31
32 A major use for this library is to create customized images of Windows PE, the
33 Windows Preinstallation Environment, without having to rely on Windows.  Windows
34 PE is a lightweight version of Windows that can run entirely from memory and can
35 be used to install Windows from local media or a network drive or perform
36 maintenance.  Windows PE is the operating system that runs when you boot from
37 the Windows installation media.
38
39 You can find Windows PE on the installation DVD for Windows Vista, Windows 7, or
40 Windows 8, in the file `sources/boot.wim'.  Windows PE can also be found in the
41 Windows Automated Installation Kit (WAIK), which is free to download from
42 Microsoft, inside the `WinPE.cab' file, which you can extract if you install
43 either the `cabextract' or `p7zip' programs.
44
45 In addition, Windows installations and recovery partitions frequently contain a
46 WIM containing an image of the Windows Recovery Environment, which is similar to
47 Windows PE.
48
49                                   NTFS SUPPORT
50
51 As of version 1.0.0, wimlib supports capturing and applying images directly to
52 NTFS volumes.  This was made possible with the help of libntfs-3g from the
53 NTFS-3g project.  This feature supports capturing and restoring NTFS-specific
54 data such as security descriptors, alternate data streams, and reparse point
55 data.
56
57 The code for NTFS image capture and image application is complete enough that it
58 is possible to apply an image from the "install.wim" contained in recent Windows
59 installation media (Vista, Windows 7, or Windows 8) directly to a NTFS volume,
60 and then boot Windows from it after preparing the Boot Configuration Data.  In
61 addition, a Windows installation can be captured (or backed up) into a WIM file,
62 and then re-applied later.
63
64                                     PROGRAMS
65
66 wimlib provides a public API for other programs to use, but also comes with two
67 programs: `imagex' and `mkwinpeimg'.  
68
69 `imagex' is intended to be like the imagex.exe program from Windows.  `imagex'
70 can be used to create, extract, and mount WIM files.  Both read-only and
71 read-write mounts are supported.  See the man page `doc/imagex.1' for more
72 details.
73
74 `mkwinpeimg' is shell script that makes it easy to create a customized bootable
75 image of Windows PE that can be put on a CD or USB drive, or published on a
76 server for PXE booting.  See the main page `doc/mkwinpeiso.1' for more details.
77
78                                COMPRESSION RATIO
79
80 wimlib can create XPRESS or LZX compressed WIM archives.  As of wimlib v1.0.3,
81 the XPRESS compression ratio is slightly better than that provided by
82 Microsoft's software, while the LZX compression ratio is approaching that of
83 Microsoft's software but is not quite there yet.  Running time is as good as or
84 better than Microsoft's software.
85
86 The following tables compare the compression ratio and performance for creating
87 a compressed Windows PE image (disk usage of about 524 MB, uncompressed WIM size
88 361 MB):
89
90         Table 1. WIM size
91
92                                         XPRESS Compression      LZX Compression
93         wimlib imagex (v1.0.2):         145,283,871 bytes       139,288,293 bytes
94         wimlib imagex (v1.0.3):         139,288,293 bytes       131,379,869 bytes
95         Microsoft imagex.exe:           140,406,981 bytes       127,249,176 bytes
96
97         Table 2. Time to create WIM
98
99                                         XPRESS Compression      LZX Compression
100         wimlib imagex (v1.0.2):         18 sec                  49 sec
101         wimlib imagex (v1.0.3):         19 sec                  30 sec
102         Microsoft imagex.exe:           25 sec                  89 sec
103
104
105                                   DEPENDENCIES
106
107 * libxml2
108         This is a commonly used free library to read and write XML files.  You
109         likely already have it installed as a dependency for some other program.
110         For more information see http://xmlsoft.org/.
111
112 * libfuse
113         Unless configured with --without-fuse, wimlib requires a non-ancient
114         version of libfuse to be installed.  Most GNU/Linux distributions
115         already include this, but make sure you have the libfuse package
116         installed, and also libfuse-dev if your distribution distributes header
117         files separately.  FUSE also requires a kernel module.  If the kernel
118         module is available it will automatically be loaded if you try to mount
119         a WIM file.  For more information see http://fuse.sourceforge.net/.
120         FUSE is also available for FreeBSD.
121
122 * libntfs-3g
123         Unless configured with --without-ntfs-3g, wimlib requires the library
124         and headers for libntfs-3g version 2011-4-12 or later to be installed.
125         Versions dated 2010-3-6 and earlier do not work because they are missing
126         the header xattrs.h (and the file xattrs.c, which contains functions we
127         need).
128
129 * cdrkit (optional)
130 * mtools (optional)
131 * syslinux (optional)
132 * cabextract (optional)
133         The `mkwinpeimg' shell script will look for several other programs
134         depending on what options are given to it.  Depending on your GNU/Linux
135         distribution, you may already have these programs installed, or they may
136         be in the software repository.  Making an ISO filesystem requires
137         `mkisofs' from `cdrkit' (http://www.cdrkit.org).  Making a disk image
138         requires `mtools' (http://www.gnu.org/software/mtools) and `syslinux'
139         (http://www.syslinux.org).  Retrieving files from the Windows Automated
140         Installation Kit requires `cabextract' (http://www.cabextract.org.uk).
141
142
143                                  CONFIGURATION
144
145 Besides the various well-known options, the following options can be passed to
146 wimlib's `configure' script:
147
148 --without-ntfs-3g
149         If libntfs-3g is not available or is not the correct version, we can
150         build without it.  wimlib will then not be able to apply or capture
151         images directly to NTFS volumes.
152
153 --without-fuse
154         If libfuse or the FUSE kernel module is not available, wimlib can be
155         compiled with --without-fuse.  This will remove the ability to mount and
156         unmount WIM files.  wimlib_mount() and wimlib_unmount() will fail with
157         WIMLIB_ERR_UNSUPPORTED.
158
159 --without-libcrypto
160         Build in functions for SHA1 rather than using external SHA1 functions
161         from libcrypto (part of OpenSSL).  The default is to use libcrypto if it
162         is found on the system.
163
164 --enable-xattr, --disable-xattr
165         Enable or disable support for the extended-attributes interface to NTFS
166         alternate data streams in mounted WIMs.  To support these, we require
167         the setxattr() function and the attr/xattr.h header be available.  The
168         default is to autodetect whether support is possible.
169
170 --enable-ssse3-sha1
171         Use a very fast assembly language implementation of SHA1 from Intel.
172         Only use this if the build target supports the SSSE3 instructions.
173
174 --disable-custom-memory-allocator
175         If this option is given, MALLOC(), FREE(), CALLOC(), and STRDUP() will
176         directly call the appropriate functions in the C library.
177         wimlib_set_memory_allocator() will fail with WIMLIB_ERR_UNSUPPORTED.
178
179 --disable-verify-compression
180         Unless this option is given, every time wimlib compresses a data block
181         it will decompress it into a temporary buffer and abort() the program
182         with an error message if the decompressed data does not exactly match
183         the original data.  This is to find bugs.
184
185 --disable-error-messages
186         Removes all error messages from the library.  If left in, they still
187         have to explicitly turned on with wimlib_set_print_errors() in order to
188         see them.  Also, error codes will still be returned regardless of
189         whether error messages are printed or not.  
190
191         If --disable-error-messages is given, wimlib_set_print_errors() will
192         fail with WIMLIB_ERR_UNSUPPORTED if the action is to turn error messages
193         on.
194
195 --disable-assertions
196         Remove all assertions.  Without this option, wimlib will abort() the
197         program if an assertion fails.  An assertion failure should only occur
198         if there is a bug in wimlib.
199
200 --enable-debug
201         Include debugging messages.  Only use this option if you have found a
202         bug in the library.
203
204 --enable-more-debug
205         Include more debugging messages.  Only use this option if you have found
206         a bug in the library.
207
208                                   PORTABILITY
209
210 wimlib has mostly been developed and tested on x86_64 (64-bit) GNU/Linux.
211
212 It has been tested on x86 (32-bit) GNU/Linux occasionally.
213
214 wimlib may work on FreeBSD.  However, this is not well tested.  If you do not
215 have libntfs-3g 2011-4-12 or later available, you must configure with
216 --without-ntfs-3g.  Also, GNU coreutils is needed to run the test suite.  Before
217 mounting a WIM you need to load the POSIX message queue module (run `kldload
218 mqueuefs').  
219
220 wimlib should work on big endian machines but it has not been tested.
221
222 There are no plans to port wimlib to Windows since the programming interface on
223 Windows is very different and Microsoft's imagex.exe is already available.
224
225                                    REFERENCES 
226
227 The WIM file format is specified in a document that can be found in the
228 Microsoft Download Center.  There is a similar document that specifies the LZX
229 compression format, and a document that specifies the XPRESS compression format.
230 However, many parts of these formats are poorly documented, and some parts have
231 no documentation whatsoever.  Some particularly poorly documented parts of the
232 formats have had comments added in various places in the library.  Please see
233 the code and/or ask me if you have any questions about the WIM file format as it
234 exists in reality and not as it exists in Microsoft's poorly written
235 documentation.
236
237 The code in ntfs-apply.c and ntfs-capture.c uses the NTFS-3g library, which is a
238 library for reading and writing to NTFS filesystems (the filesystem used by
239 recent versions of Windows).  Additionally, the code in ntfs-3g-security.c is
240 mostly copied from NTFS-3g, but I'm hoping to get rid of this file eventually.
241 See http://www.tuxera.com/community/ntfs-3g-download/ for more information.
242
243 lzx-decomp.c, the code to decompress WIM file resources that are compressed
244 using LZX compression, is originally based on code from the cabextract project
245 (http://www.cabextract.org.uk).  
246
247 lzx-comp.c, the code to compress WIM file resources using LZX compression, is
248 originally based on code written by Matthew Russotto (www.russotto.net/chm/).
249
250 lz.c, the code to find LZ77 matches (used for both XPRESS and LZX compression),
251 is based on code from zlib.
252
253 A very limited number of other free programs can handle some parts of the WIM
254 file format.  7-zip is able to extract and create WIMs (as well as files in many
255 other archive formats).  However, wimlib is designed specifically to handle WIM
256 files and provides features previously only available in Microsoft's imagex.exe,
257 such as the ability to mount WIMs read-write as well as read-only, and the
258 ability to create LZX or XPRESS compressed WIMs.
259
260 An earlier version of wimlib is being used to deploy Windows 7 from the Ultimate
261 Deployment Appliance.  For more information see
262 http://www.ultimatedeployment.org/.  
263
264 You can see the documentation about Microsoft's version of the imagex program at 
265 http://technet.microsoft.com/en-us/library/cc749447(v=ws.10).aspx, so you can
266 see how it compares.
267
268                                 MORE INFORMATION
269
270 See the manual pages for `imagex', the manual pages for the subcommands of
271 `imagex', and the manual page for `mkwinpeimg'.
272
273 As of version 0.5.0, wimlib's public API is documented.  Doxygen is required to
274 build the documentation.  To build the documentation, run `configure', then
275 enter the directory `doc' and run `doxygen'.  The HTML documentation will be
276 created in a directory named `html'.
277
278                                     LICENSE
279
280 As of version 1.0.0, wimlib is released under the GNU GPL version 3.0 or later.
281 This includes the files in the `programs' directory as well as the files in the
282 `src' directory.
283
284 wimlib is independently developed and does not contain any code, data, or files
285 copyrighted by Microsoft.  It is not known to be affected by any patents.
286
287                                    DISCLAIMER 
288
289 wimlib is experimental.  Use Microsoft's `imagex.exe' if you want to make sure
290 your WIM files are made correctly (but beware: Microsoft's version contains some
291 bugs).  
292
293 Please submit a bug report (to ebiggers3@gmail.com) if you find a bug in wimlib.
294
295 Some parts of the WIM file format are poorly documented or even completely
296 undocumented, so I've just had to do the best I can to read and write WIMs that
297 appear to be compatible with Microsoft's software.