edsionte's TechBlog

No Pains, No Gains

open()在Linux内核的实现(2)-路径查找

10 2 月, 2015 by edsionte 无评论 »

1.基本说明

文件的打开操作在内核中的实现思路很简单：即通过用户态传递的路径逐项查找文件；如果该文件存在，那么内核将为该文件创建file结构；同时将该file结构与files数组关联，最终返回数组的索引作为用户态的文件描述符。

路径查找是对给定的文件路径以目录项为单位进行逐级解析。主要包括以下几项内容：

1.确定路径查找的起始位置。比如，起始位置可能是current->fs->cwd或current->fs->root；

2.当前进程是否有对目录项关联的inode进行访问的权限；

3.根据当前的目录项，对下一级目录项进行查找；这里的查找可能是向下查找子文件，也可能是向上反查父目录（比如下一级目录项为“..”）；

4.处理挂载点问题；当前目录项如果是挂载点，那么必须处理不同文件系统之间的跨越；

5.处理符号链接文件；如果当前目录项为一个符号链接文件，那么必须追随（follow）该文件所指向的真实文件；

6.查找并创建文件路径中所缺失的部分；比如，通过open()创建一个新文件时，那么所传递的路径中可能有部分目录项当前是不存在的；

其中，第1项是路径查找的首要工作；2~6项是在路径查找过程中，针对每个目录项进行检查确认的。

负责open系统调用基本实现的是do_sys_open()，其内部所调用的do_filp_open函数承担了大部分open的实现过程，其中就包括路径查找。

2.函数分析

2.1.do_filp_open

open操作的核心函数为do_filp_open，它解析文件路径并新建file结构。该函数内部创建nd变量，传入并调用了path_openat()。nameidata类型的nd在整个路径查找过程中充当中间变量，它既可以为当前查找输入数据，又可以保存本次查找的结果。

struct file *do_filp_open(int dfd, const char *pathname,
		const struct open_flags *op, int flags)
{
	struct nameidata nd;
	struct file *filp;

	filp = path_openat(dfd, pathname, &nd, op, flags | LOOKUP_RCU);
	if (unlikely(filp == ERR_PTR(-ECHILD)))
		filp = path_openat(dfd, pathname, &nd, op, flags);
	if (unlikely(filp == ERR_PTR(-ESTALE)))
		filp = path_openat(dfd, pathname, &nd, op, flags | LOOKUP_REVAL);
	return filp;
}

在这个函数中，path_openat有可能会被调用三次。通常内核为了提高效率，会首先在RCU模式（rcu-walk）下进行文件打开操作；如果在此方式下打开失败，则进入普通模式（ref-walk）。第三次调用比较少用，目前只有在nfs文件系统才有可能会被使用。接下来将主要说明前两种调用方式。

2.2.path_openat

path_openat()其函数声明如下：

static struct file *path_openat(int dfd, const char *pathname,
		struct nameidata *nd, const struct open_flags *op, int flags);

该函数描述了整个路径查找过程的基本步骤，这里做简单说明。每个具体步骤的实现过程，将在本文以及后续文章中做详析说明。

1.首先通过get_empty_flip()分配一个新的file结构，分配前会对当前进程的权限和文件最大数进行判断；

2.path_init()对接下来的路径遍历做一些准备工作，主要用于判断路径遍历的起始位置，即通过根目录/，或当前路径（pwd），或指定路径（openat系统调用可以指定）；

3.将当前进程的total_link_count置为0；

3.link_path_walk()对所打开文件路径进行逐一解析，每个目录项的解析结果都存在nd参数中；

4.根据最后一个目录项的结果，do_last()将填充filp所指向的file结构；

5.如果上一步中的filp所指为空，将说明当前文件为符号链接文件；

6.如果设置了LOOKUP_FOLLOW标志，则通过follow_link()进入符号链接文件所指文件，填充file；否则，直接返回当前符号链接文件的filp；

7.最终返回file结构；

2.3.path_init

path_init()用于设置路径搜寻的起始位置，主要体现在设置nd变量。其函数声明如下：

static struct file *path_openat(int dfd, const char *pathname,
		struct nameidata *nd, const struct open_flags *op, int flags);

如果flags设置了LOOKUP_ROOT标志，则表示该函数被open_by_handle_at函数调用，该函数将指定一个路径作为根；这属于特殊情况，这里暂不分析；接下来path_init主要分三种情况设置nd。

1.如果路径名name以/为起始，则表示当前路径是一个绝对路径，通过set_root设置nd；否则，表示路径name是一个相对路径；

2.如果dfd为AT_FDCWD，那么表示这个相对路径是以当前路径pwd作为起始的，因此通过pwd设置nd；

3.如果dfd不是AT_FDCWD，表示这个相对路径是用户设置的，需要通过dfd获取具体相对路径信息，进而设置nd；

上述步骤2和3都表示要打开的文件路径是以相对路径为起始的，但是两者稍有不同。步骤2为我们通常默认的open操作，而步骤3具体指的是openat系统调用，这一点体现在不同打开系统调用向do_sys_open中dfd参数所传递的值。

不管上述哪一种打开情况，均要设置nd变量，它是一个nameidata类型。在path_init中，nd的last_type都被默认设置成了LAST_ROOT。

在path_init中，如果为上述步骤1，则通过当前进程的fs->root字段更新nd的root字段，并且nd的path字段也指向root字段；如果为步骤2，则通当前进程fs->pwd更新nd的path字段；如果为步骤3，则先通过文件描述符dfd获取用户指定的工作目录file结构，然后通过file的f_path字段更新nd的path字段。需要注意的，步骤2和步骤3均未设置root字段。最终，nd中的inode字段均由path.dentry->d_inode更新。

2.4.link_path_walk

link_path_walk()主要用于对各目录项逐级遍历。其函数声明如下：

static int link_path_walk(const char *name, struct nameidata *nd);

该函数核心部分是通过一个循环完成的。在进入这个循环之前，如果路径name是一个绝对路径，那么该函数还对路径进行了一些处理，即过滤掉绝对路径/前多余的符号/。

在循环中，所要做的工作包含如下：

1.next为path类型的变量，指向下一个目录项；name指向被搜索的路径；this为qstr类型变量，表示当前搜索路径所处目录项的哈希值，用type指明当前目录项类型；

2.如果有必要，为当前目录项更新哈希值，并保存在this中；

3.如果当前目录项为“.”，则type为LAST_DOT；如果目录项为“..”，则type为LAST_DOTDOT；否则，type默认为LAST_NORM；

4.如果当前目录项紧邻的分隔符/有多个（比如/home///edsionte），则将其过滤，即使name指向最后一个/；

5.通过walk_component()处理当前目录项，更新nd和next；如果当前目录项为符号链接文件，则只更新next；

6.如果当前目录项为符号链接文件，则通过nested_symlink()进行处理，更新nd；

7.如果name中的目录项遍历完毕，则结束；否则进行下一轮循环；

通过上述循环，将用户所指定的路径name从头至尾进行了搜索，至此nd保存了最后一个目录项的信息，但是内核并没有确定最后一个目录项是否真的存在，这些工作将在do_last()中进行。

2.5.walk_component

walk_component()位于link_path_walk函数之中。该函数声明如下：

static inline int walk_component(struct nameidata *nd, struct path *path,
		struct qstr *name, int type, int follow)

在每次循环中，它将获取当前目录项的dentry结构以及inode结构等信息，即更新nd。如果当前目录项对应的inode不存在，那么将向用户态返回ENOENT；在该函数中，定义了变量inode，它将保存当前目录项对应的索引节点。

根据当前目录项类型的不同，对目录项的处理流程也不同。该函数的具体流程如下：

1.如果type为LAST_DOT和LAST_DOTDOT，将进入handle_dots()对当前目录项进行“walk”；

2.如果当前目录项为普通目录项，则通过do_lookup()对其进行处理；

3.如果should_follow_link()获知当前目录项为符号链接文件，则退出当前函数。具体的，如果当前walk模式为rcu，则直接返回-ECHILD，否则返回1。返回-ECHILD时候，将直接返回到do_filp_open()，进行ref-walk模式重新查找；如果返回1，则返回至上层函数link_path_walk()，进入netsted_symlink()进行符号链接目录项的处理；

也就是说，一旦当前目录项为符号链接文件，则需要通过ref-walk进行处理。这是因为处理符号链接文件需要通过具体文件的处理函数进行实现，这个过程可能会导致阻塞，这与rcu方式是违背的，因此需要先转换到ref-walk；

4.至此，如果当前目录项查找成功，则通过path_to_nameidata()更新nd；

3.总结

本文重点说明了open实现过程中的路径查找过程。open中的路径查找是针对用户所传递路径，按照目录项逐级进行遍历查找；对于路径中的每个目录项，不同类型的目录项有不同的处理方法。如果需要了解对“.”、“..”以及符号连接文件的处理方法，可以阅读本系列后续文章。

参考资料：

1.Linux源码3.2.69；

2.Linux系统调用open七日游：http://blog.chinaunix.net/uid-20522771-id-4419666.html

3.深入理解Linux内核：http://book.douban.com/subject/2287506/；

4.深入Linux内核架构：http://book.douban.com/subject/4843567/；

5.Linux内核探秘：http://book.douban.com/subject/25817503/；

无评论 »

Posted in Linux内核源码分析, 文件系统

Tags: path_walk 源码分析路径查找

open()在Linux内核的实现(1)-基本实现

4 1 月, 2015 by edsionte 无评论 »

1.基本说明

在用户态使用open()时，必须向该函数传入文件路径和打开权限。这两个参数传入内核后，内核首先检查这个文件路径存在的合法性，同时还需检查使用者是否有合法权限打开该文件。如果一切顺利，那么内核将对访问该文件的进程创建一个file结构。

在用户态，通常open()在操作成功时返回的是一个非负整数，即所谓的文件描述符（fd，file descriptor）；并且，用户态后续对文件的读写操作等都是通过fd来完成的。由此可见fd与file结构在内核中有一定的关联。

具体的，内核使用进程描述符task_struct来描述一个进程，而该进程所有已打开文件对应的file结构将形成一个数组files（其为files_struct结构），内核向用户返回的fd便是该数组中具体file结构的索引。默认情况下，每个进程创建后都已打开了标准输入文件、标准输出文件、标准错误文件，因此他们的文件描述符依次为0、1和2。

2.函数分析

2.1.do_sys_open

明白了上述原理，那么open系统调用在内核中的基本实现过程就很清晰。根据系统调用入口函数的命名规则，open系统调用的入口函数应该为sys_open。不过，目前内核统一使用SYSCALL_DEFINEn宏来描述系统调用入口函数，因此可以在open.c文件中找到该入口函数，具体如下所示：

SYSCALL_DEFINE3(open, const char __user *, filename, int, flags, int, mode);

该函数内部直接调用了do_sys_open函数，具体声明如下：

long do_sys_open(int dfd, const char __user *filename, int flags, int mode);

这个函数的参数基本上与open系统调用的参数一致。

该函数可以简单概括open系统调用的功能：

1.通过build_open_flags()将用户态的flags和mode转换成对应的内核态标志；

2.由于filename是用户态的内存缓冲区（使用了__user修饰），因此通过getname()将文件名从用户态拷贝至内核态；

3.get_unused_fd_flags()为即将打开的文件分配文件描述符；也就是在当前进程的files数组中寻找一个未使用的位置；

4.通过do_filp_open()为文件创建file结构体；

5.如果创建file成功，则通过fd_install()将fd和file进行关联；如果创建file失败，通过put_unused_fd()将已分配的fd返回至系统，并且根据file生成错误的fd；

6.通过putname()释放在内核分配的路径缓冲区；

7.返回fd；

当open系统调用执行完毕后，fd返回用户态，内核态新建了与其关联的file；对于每个进程而言，通过files_struct来记录其所打开的文件，具体通过fd_array数据保存fd和file的对应关系，fd本质为该数组的索引。

3.总结

至此，open的基本实现过程已经分析完毕。不过do_sys_open函数没有直接体现文件路径的查找过程，这部分将是整个open系统调用内核实现的重要部分。如果对此感兴趣，可以继续阅读本系列后续文章。

参考资料：

1.Linux源码3.2.69；

2.Linux系统调用open七日游：http://blog.chinaunix.net/uid-20522771-id-4419666.html

3.深入理解Linux内核：http://book.douban.com/subject/2287506/；

4.深入Linux内核架构：http://book.douban.com/subject/4843567/；

5.Linux内核探秘：http://book.douban.com/subject/25817503/；

无评论 »

Posted in Linux内核源码分析, 文件系统

Tags: do_sys_open open open内核实现系统调用

open()在Linux内核的实现-准备工作

4 1 月, 2015 by edsionte 无评论 »

1.基本说明

“open()在Linux内核的实现”系列文章将分析open系统调用在Linux内核中的实现过程。本系列文章分为六篇，每篇文章都描述 open()实现的一部分内容，与前后的系列文章保持相对独立。本文属于前序文章，集中说明后续文章涉及到的基本原理和基本数据结构，并且对整个分析过程进行Q&A。

本系列文章参考Linux内核源码版本为3.2.69。

2.数据结构

dentry结构

对于打开文件这个操作来说，它是通过路径名查找对应文件inode的过程，这里用户直面的是文件路径，而内核关注的inode。在文件路径和inode之间通过目录项（dentry）缓存进行关联，dentry缓存加快了vfs对文件的查找。所有的目录项通过散列表进行组织，这样可以快速对dentry进行查找；此外，内核将常用的dentry通过LRU算法进行组织，这样可以快速查到最近一段时间经常使用的dentry。

下面将对dentry中的部分字段进行说明。

d_inode：该字段指向目录项所关联的文件。如果该字段为空，则说明当前目录项指向的是一个并不存在的文件。

d_name:该字段表示目录项名称（并不是整个路径名），但它并不是单纯的字符串，而是将字符串文件名、字符串长度和散列值封装成qstr（quick string）结构，这样可以加速目录项的查找工作；

d_iname：当目录项名称长度小于DNAME_INLINE_LEN时，则该字符串名称则直接通过该字段进行存储；

d_parent：一个路径中的目录项形成层级结构。该字段指向当前目录项的父目录dentry实例；特别的，对于根目录项来说，这个字段指向自己；

d_subdirs：当前目录项如果代表目录，则该目录下的所有文件对应的dentry将形成d_subdirs链表（表头）；

d_child：这个字段是父目录dentry中d_subdirs链表中的结点；

d_alias：一个文件可能有多个名称（硬链接），即多个dentry，则一个文件的所有目录项则形成一个链表，这个链表头位于该文件inode中的i_dentry字段，d_alias充当的该链表中的结点；

vfsmount结构

每个挂载在内核目录树中的文件系统都将对应一个vfsmount结构，下面将对该结构中的部分字段进行说明。假设设备/dev/sdc为ntfs文件系统，现需要将其挂载在文件系统为ext3的/home/edsionte/work下。因此，/home/edsionte/work可以被称为ntfs文件系统的挂载点，并且称ntfs文件系统与ext3文件系统形成父子文件文件系统关系。同时ntfs也可称为源文件系统，而ext3也可称为目的文件系统。

mnt_hash：内核将系统内所有已挂载的文件系统通过散列表的形式进行组织，每个vfsmount将处于其对应哈希值的冲突链表当中。mnt_hash字段则为具体冲突链表的元素。

mnt_mounts：如果当前文件系统下挂载了其他的子文件系统，那么这些子文件系统将通过自身vfsmount中的mnt_child字段组成一个链表，该链表头为父文件系统中的mnt_mounts字段。

mnt_child：当前文件系统将通过该字段与其他父文件系统下的子文件系统组成一个链表。

mnt_parent：该字段指向父文件系统对应的vfsmount结构。即指向ext3文件系统对应的vfsmount结构。

mnt_mountpoint：该字段表示源文件系统在目的文件系统中挂载点对应的dentry结构。/home/edsionte/work为挂载点，则该字段指向目录项work。

mnt_root：指向当前文件系统的根目录项。对于源文件系统ntfs来说，根目录项相对为/，但在整个系统目录树中，根目录项为work。

mnt_sb：每个文件系统都将对应一个super_block结构，该字段指向/dev/sdc设备上文件系统对应的超级块。

mnt_list：所有处于一个名字空间的文件系统通过mnt_list字段链接在一起，而该链表的表头为该名字空间结构中的list字段。

mnt_ns：该字段表示当前vfsmount所对应的名字空间结构。

nameidata结构

文件路径是由各级别的目录项组成的，因此路径的查找过程是对目录项的逐级查找。nameidata结构是路径查找过程中的核心数据结构，在每一级目录项查找过程中，它向查找函数输入参数，并且保存本次查找的结果，因此它是不断变化的。

下面对nameidata结构中的部分字段进行说明。

path：该字段用于保存当前目录项。该字段是path结构，该结构将目录项和该目录项所关联的vfsmount结构进行封装。

last：该字段为qstr结构，表示当前目录项的名称。

root：该字段为path结构，表示根目录。

last_type：表示当前目录项的类型。

inode：表示当前目录项对应的inode，它的取值来自于path.dentry.d_inode。

depth：表示符号链接当前的嵌套级别，最大不能超过MAX_NESTED_LINKS；

saved_names：该字符串数组表示符号链接每个嵌套级别的名称；

目录项的类型包括以下几种情况：

LAST_NORM:普通目录项；

LAST_ROOT：当前目录项为/；

LAST_DOT：当前目录项为.；

LAST_DOTDOT：当前目录项为..；

LAST_BIND：当前目录项为符号链接文件；

3.基本原理

rcu机制

写时拷贝（rcu，Read-Copy-Update）是Linux内核的一种锁机制，它是一种改良的rwlock（但并不能代替），适合读者多写者少的情景，可以保证读写者操作同时进行。

对于读者而言，rcu机制可以保证多个读者在不申请锁的情况下直接对临界区资源进行访问。对于写者而言，它之所以可以与读者同时访问共享资源，是因为在读者读取原始数据的同时它修改的是原始数据的备份。当所有读者都退出访问该共享资源时，写着将用修改后的新数据替换原始数据。同时，rcu中的回收机制将对原始数据进行回收。

与rwlock相比，在读多写少的情况下，rcu的效率会高很多。因为rcu所提供的拷贝技术使读写者可以同时访问共享资源，因此免去了读写者申请锁时所花费的开销。

由于rcu机制的自身特点，它所使用的上下文必须是不可睡眠的。因为，写者在替换原始数据之前会等待所有读者退出临界区，而此时如果读者处于阻塞状态，那么系统将进入死锁状态。

rcu-walk和ref-walk

内核中的路径查找提供两种模式：ref-walk和rcu-walk。前者是内核中传统的路径查找方式，而ref-walk是基于rcu所机制的一种路径查找模式。由于路径查找正好是一个读多写少的情景，基于rcu机制快速高效的特点，该模式可以高效的进行路径查找。不过，rcu-walk并不是万能的，如果路径查找过程中需要睡眠，那么必须将查找模式由rcu-walk切换到ref-walk。

4.总结

本篇对open()在内核实现中所涉及的数据结构和原理进行实现说明，并且针对open()实现过程的一些问题进行Q&A。可以在阅读open()内核源码之前阅读本文，也可在阅读之后再次阅读本文。

参考资料：

1.Linux源码3.2.69；

2.深入理解Linux内核：http://book.douban.com/subject/2287506/；

3.深入Linux内核架构：http://book.douban.com/subject/4843567/；

4.Linux内核探秘：http://book.douban.com/subject/25817503/；

无评论 »

Posted in Linux内核源码分析, 文件系统

Tags: open 内核源码分析系统调用

在VMware10中为Solaris11.1安装图形界面

8 5 月, 2014 by edsionte 无评论 »

在VMware10下通过官方提供的镜像安装Solaris11.1后为文本模式，本文将介绍如何在此基础上安装图形界面。

1.VMware启动Solaris11.1后，由于没有安装VMTools，系统界面不能随着虚拟机窗口大小自动调整，而且主机与客机之间的鼠标切换也需要每次通过Ctrl+Alt才能生效，这样操作十分不方便。不过由于Solaris11.1默认安装了SSH，因此可以在主机上通过secureCRT连接虚拟机；

2.安装图形界面需要下载官方提供的软件仓库镜像（Repository Image），再通过ftp传送至虚拟机；

3.在传送前，需要通过启动Solaris中的ftp服务；

svcadm enable ftp;

4.镜像文件分为a和b文件，将两个文件合而为一；

cat sol-11_1-repo-full.iso-a sol-11_1-repo-full.iso-b > sol-11_1-repo-full.iso

5.挂载镜像

lofiadm -a sol-11-1111-repo-full.iso
mount -F hsfs -o ro /dev/lofi/1 /mnt

6.将该镜像设置为本地的软件仓库

pkg set-publisher -Pe -O file:///mnt/repo/ solaris

7.安装桌面环境

pkg install solaris-desktop

8.重启即可

无评论 »

Posted in 开发技术

Tags: solaris vmware 图形界面

通过call_usermodehelper()在内核态执行用户程序

24 3 月, 2014 by edsionte 无评论 »

背景

如何在Linux内核中执行某些用户态程序或系统命令？在用户态中，可以通过execve()实现；在内核态，则可以通过call_usermodehelpere()实现该功能。如果您查阅了call_usermodehelper()内核函数的源码实现，就可以发现该函数最终会执行do_execve()。而execve系统调用在经历内核的系统调用流程后，也会最终调用do_execve()。

使用举例

1.无输出的可执行文件测试

加载函数demo如下所示：

static int __init call_usermodehelper_init(void)
{
	int ret = -1;
	char path[] = "/bin/mkdir";
	char *argv[] = {path, "-p", "/home/tester/new/new_dir", NULL};

	printk("call_usermodehelper module is starting..!\n");
	ret = call_usermodehelper(path, argv, envp, UMH_WAIT_PROC);
	printk("ret=%d\n", ret);
	return 0;
}

卸载函数demo如下所示：

static void __exit call_usermodehelper_exit(void)
{
	int ret = -1;
	char path[] = "/bin/rm";
	char *argv[] = {path, "-r", "/home/tester/new", NULL};
	char *envp[] = {NULL};

	printk("call_usermodehelper module is starting..!\n");
	ret = call_usermodehelper(path, argv, envp, UMH_WAIT_PROC);
	printk("ret=%d\n", ret);
}

2.有输出的可执行文件测试

如果该可执行文件有输出，则可以利用输出重定向，不过此时的可执行文件应该是/bin/bash，而实际的可执行文件则称为bash的参数。比如如果想在内核执行ls -la命令，并且将其输出重定向到ls_output中，则在上述的argv[]={“/bin/bash”, “-c”, “ls”, “-la”, “>”, “/home/tester/ls_output”, NULL};

本文虽然说明的是在内核态如何调用用户态程序，不过可以将这种方法抽象一下，看作是内核态主动向用户态发起通信的一种方式。

edsionte's TechBlog

open()在Linux内核的实现(2)-路径查找

1.基本说明

2.函数分析

2.1.do_filp_open

2.2.path_openat

2.3.path_init

2.4.link_path_walk

2.5.walk_component

3.总结

open()在Linux内核的实现(1)-基本实现

1.基本说明

2.函数分析

2.1.do_sys_open

3.总结

open()在Linux内核的实现-准备工作

1.基本说明

2.数据结构

3.基本原理

4.总结

在VMware10中为Solaris11.1安装图形界面

通过call_usermodehelper()在内核态执行用户程序

背景

使用举例

本博客中的所有文字、图片及代码均可任意转载，但是请在转载时以超链接形式标明文章原始出处和作者信息。

windows 7 ultimate product key

winrar download free

winzip registration code

winzip free download

winzip activation code

windows 7 key generator

winzip freeware

winzip free download full version

free winrar download

free winrar

windows 7 crack

windows xp product key

windows 7 activation crack

free winzip

winrar free download

winrar free

download winrar free

windows 7 product key