归档和压缩

归档(打包)和压缩是两步(曾经以为是一步操作),先执行归档,再执行压缩。

归档,指的是一个或多个文件或目录的合集,被存储在一个文件中。因此,该文件所占用的空间是其中所有文件和目录的总和。

压缩open in new window,是利用算法字典对归档的文件进行处理,实现保留最大的文件信息,缩小文件体积。基本原理为,查找文件内的重复字节、连续字节(这也是首先需要归档的原因),从而建立字典文件,压缩时进行替换,当然压缩算法一直在在进步的,详情可查阅相关资料。压缩分为有损压缩和无损压缩,有损压缩常用于音视频图像文件。

tar

最常用的归档(打包)命令就是 tar,该命令可以将多个文件保存到一个文件中。该命令还可以从归档文件中还原所需文件,也就是解包。

1. 命令格式

DANGER

tar [选项...] [FILE]...

2. 常用选项

选项含义
-c将多个文件或目录进行打包。
-x对 tar 包进行解包操作。
-A追加 tar 文件到归档文件。
-f 包名指定包的文件名。包的扩展名是用来给管理员识别格式的,所以一定要正确指定扩展名。
-v显示打包/解包文件过程。
-t只查看 tar 包中有哪些文件,不对 tar 包做解包操作。
-C指定解包位置。

3. 示例

  • 打包文件和目录:

    # 文件
    tar -cvf test.md.tar test.md
    ls # 验证
    # 目录
    mkdir test
    touch test/test{1..3}.txt
    tree test # 验证
    tar -cvf testfile.tar test/
    ls # 验证
    
  • 解包文件:

    # 当前目录
    tar -xvf testfile.tar
    tree test # 验证
    # 指定目录
    tar -xvf testfile.tar -C test
    tree test # 验证
    # 仅查看压缩包中有哪些文件,不解包
    tar -tvf testfile.tar
    

4. 加强

其实 tar 也可以同时打包压缩。常用的选项有两个:

  • -z:压缩和解压 .tar.gz 格式;
  • -j:压缩和解压 .tar.bz2 格式。

添加上压缩、解压的操作为:

  • 打包压缩

    tar -zcvf testfile.tar.gz test
    tar -tvf testfile.tar.gz # 验证
    
    # bz2 格式
    tar -jcvf testfile.tar.bz2 test
    
  • 解压解包

    tar -zxvf testfile.tar.gz
    tree test # 验证
    
    # bz2 格式
    tar -jxvf testfile.tar.bz2
    

zip

zip 是几种主流的压缩格式之一。与之对应的是 unzip。

1. 命令格式

DANGER

zip [选项...] 压缩包名 源文件或源目录

DANGER

unzip [选项] 压缩包名

2. 常用选项

zip 常用选项:

选项含义
-r递归压缩目录,及将制定目录下的所有文件以及子目录全部压缩。
-m将文件压缩之后,删除原始文件,相当于把文件移到压缩文件中。
-v显示详细的压缩过程信息。
-q在压缩的时候不显示命令的执行过程。
-压缩级别压缩级别是从 1~9 的数字,-1 代表压缩速度更快,-9 代表压缩效果更好。
-u更新压缩文件,即往压缩文件中添加新文件。

unzip 常用选项:

选项含义
-d将压缩文件解压到指定目录下。
-n解压时并不覆盖已经存在的文件。
-o解压时覆盖已经存在的文件,并且无需用户确认。
-v查看压缩文件的详细信息,但并不做解压操作。
-t测试压缩文件有无损坏,但并不解压。
-x 文件列表解压文件,但不包含文件列表中指定的文件。

3. 示例

  • 打包压缩文件和目录:

    # 文件(多个文件不需要 -r)
    zip testfile.zip test.txt
    ls -l testfile.zip # 验证
    # 目录
    zip -r testfile.zip test
    ls -l testfile.zip # 验证
    
  • 解压解包:

    # 当前目录
    unzip testfile.zip
    tree test # 验证
    # 指定目录
    unzip testfile.zip -d test/test
    tree test # 验证
    

gzip

gzip 是用来对文件进行压缩和解压的命令,其扩展为 .gz,gzip 一般需要配合 tar 使用(归档为文件),因为其只能压缩文件,即使指定了目录也只能压缩目录内的文件。与之对应的是 gunzip。

1. 命令格式

DANGER

gzip [选项] 源文件

DANGER

gunzip [选项] 源文件

2. 常用选项

gzip 常用选项:

选项含义
-c将压缩数据输出到标准输出中,并保留源文件。
-r递归压缩指定目录下以及子目录下的所有文件。
-v对于每个压缩和解压缩的文件,显示相应的文件名和压缩比。
-l显示以下字段: 压缩文件的大小;未压缩文件的大小;压缩比;未压缩文件的名称。
-数字用于指定压缩等级,-1 压缩等级最低;-9 压缩比最高。默认压缩比是 -6。
-d对压缩文件进行解压缩。

gunzip 常用选项:

选项含义
-r递归处理,解压缩指定目录下以及子目录下的所有文件。
-c把解压缩后的文件输出到标准输出设备。
-f强制解压缩文件,不理会文件是否已存在等情况。
-l列出压缩文件内容。
-v显示命令执行过程。
-t测试压缩文件是否正常,但不对其做解压缩操作。

3. 示例

  • 压缩文件:

    # 移除源文件
    gzip  test.txt
    ls -l test.txt.gz # 验证
    # 保留源文件
    gzip -c test.txt >test.txt.gz
    ls -l test.txt test.txt.gz # 验证
    
  • 压缩目录:

    并不能压缩目录,只能分别压缩目录内的文件。

    gzip -r test # 切记,会递归压缩其中所有文件,小心
    tree test # 验证
    gzip -rd test # 撤销打包
    
  • 解压:

    gunzip test.txt.gz
    gunzip -r test 
    

bzip2

bzip2 命令与 gzip 目录类似,只能对文件进行压缩,其扩展为 .bz2。从理论上来说, .bz2 算法更先进,压缩比更好,而 .gz 相对而言压缩耗时更短。

1. 命令格式

DANGER

bzip2 [选项] 源文件

DANGER

bunzip2 [选项] 源文件

2. 常用选项

bzip2 常用选项:

选项含义
-d执行解压缩,此时该选项后的源文件应为标记有 .bz2 后缀的压缩包文件。
-kbzip2 在压缩或解压缩任务完成后,会删除原始文件,若要保留原始文件,可使用此选项。
-fbzip2 在压缩或解压缩时,若输出文件与现有文件同名,默认不会覆盖现有文件,若使用此选项,则会强制覆盖现有文件。
-t测试压缩包文件的完整性。
-v压缩或解压缩文件时,显示详细信息。
-数字这个参数和 gzip 命令的作用一样,用于指定压缩等级,-1 压缩等级最低,压缩比最差;-9 压缩比最高

bunzip2 常用选项:

选项含义
-k解压缩后,默认会删除原来的压缩文件。若要保留压缩文件,需使用此参数。
-f解压缩时,若输出的文件与现有文件同名时,默认不会覆盖现有的文件。若要覆盖,可使用此选项。
-v显示命令执行过程。
-L列出压缩文件内容。

3. 示例

参考 gzip 示例即可。