几个基本概念

Linux下的链接文件可以分为硬链接(hard link)与软链接(soft link)。要理解它们,必须先要理解几个基本概念。

inode

文件除了纯数据本身之外,还必须包含有对这些纯数据的管理信息,如文件名、访问权限、文件的属主以及该文件的数据所对应的磁盘块等等,这些管理信息称之为元数据(mata data),保存在文件的inode节点之中。我们可以通过stat命令查看一个文件的inode信息:

$ stat /etc/passwd
  File: "/etc/passwd"
  Size: 936             Blocks: 8          IO Block: 4096   普通文件
Device: fd00h/64768d    Inode: 137143      Links: 1
Access: (0644/-rw-r--r--)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2016-08-05 23:01:39.905999995 +0800
Modify: 2016-07-15 16:36:12.802999997 +0800
Change: 2016-07-15 16:36:12.809000014 +0800

$ ls -l /etc/passwd
-rw-r--r-- 1 root root 936 7月  15 16:36 /etc/passwd

这里我们查看了/etc/passwd文件的元数据信息。ls -l命令也会列出一些文件的元数据信息(由左至右分别为:权限、硬链接数、属主、属组、文件大小、最近更改时间、文件名),但相比之下,stat命令输出的信息更加完整。我们注意到,stat输出的信息中,文件有三个时间戳:最近访问、最近更改和最近改动,对应于英文分别为Access、Modify和Change。 Access time比较好理解,当每次访问这个文件的数据(注意,不是元数据),这个时间就会更新。比如用cat或者more命令读取文件内容时,会更新access time,而用ls或者stat命令,由于只是访问了文件的inode,所以不会更新access time值。Modify time是文件数据最后一次被修改时间,比如用vim编辑文件后保存文件,此时就会更新该文件modify time。Change time是文件元数据(即inode)最后一次被修改的时间,比如用chown命令修改文件的属主,此时就会更新文件的change time。

其实最初当我们创建分区并用mkfs.ext4等命令创建文系统的时候,就已经在文件系统的固定区域保留了inode节点区。我们可以通过df -i命令查看某文件系统inode节点区域的大小及使用情况:

# df -ih /dev/mapper/pdc_bcfaffjfaj2

文件系统                    Inode 已用(I) 可用(I) 已用(I)% 挂载点                                                            

/dev/mapper/pdc_bcfaffjfaj2   18M    127K     18M       1% /home   

可以看到,在笔者的Linux Mint17.3系统中,分区/dev/mapper/pdc_bcfaffjfaj2共保留了18M的inode区域,这个区域目前已经使用了127K。有没有可能出现某分区尚有空间而inode区域已用完的情况呢?有的。当小文件特别多的时候就会出现这种情况!这个时候即使文件系统还有空间可用,但我们仍然无法继续在这个文件系统内创建新的文件了。那假如在我的应用环境中真的小文件非常多该怎么办?其实我们在建立ext4文件系统时候是可以手动指定inode区域所占的比例大小的,可以man mkfs.ext4查看相关的参数和选项,这里不再详述。

刚才用stat查看文件的inode信息时,我们看到输出的信息中有一行Inode: 137143,这个是/etc/passwd文件的inode号。每个inode都有一个全文件系统唯一的inode号,操作系统内核正是通过inode号而非文件名来识别不同的文件。文件名仅仅是为了方便用户使用而已,内核是通过文件名找到inode,然后通过inode访问实际文件数据的。有没有可能有多个文件名对应于同一个inode呢?有的,这样就产生了所谓硬链接文件。

dentry

虽然每个文件对应了唯一的inode号,但inode号是杂乱而毫无意义的,不方面用户记忆和使用,我们希望对每个文件取一个有意义的文件名。现代文件系统提供的一个基本功能是按名存取,所以我们还需要建立文件名到inode号的对应,这就引出了目录项(directory entry即dentry)的概念。在Linux文件系统中有一类特殊的文件称为“目录”,目录就保存了该目录下所有文件的文件名到inode号的对应关系,这里的每个对应关系就称为一个dentry。而Linux把所有的文件和目录构建成了一个倒立的树状结构,这样,我们只要确定了根目录的inode号,就可以对整个文件系统进行按名存取了。

hard link

硬链接的实质是现有文件在目录树中的另一个入口。也就是说,硬链接与原文件是分居于不同或相同目录下的的dentry而已,它们指向同一个inode,对应于相同的磁盘数据块(data block),具有相同的访问权限、属性等。简而言之,硬链接其实就是给现有的文件起了一个别名。如果把文件系统比喻成一本书的话,硬链接就是在书本的目录中,有两个目录项指向了同一页码的同一章节。