释放双眼，带上耳机，听听看~！

1. 序曲

在用户态，读写文件可以通过read和write这两个系统调用来完成(C库函数实际上是对系统调用的封装)。但是，在内核态没有这样的系统调用，我们又该如何读写文件呢？

阅读linux内核源码，可以知道陷入内核执行的是实际执行的是sys_read和sys_write这两个函数，但是这两个函数没有使用EXPORT_SYMBOL导出，也就是说其他模块不能使用。

在fs/open.c中系统调用具体实现如下(内核版本2.6.34.1)：

SYSCALL_DEFINE3(open, const char __user *, filename, int, flags, int, mode)

{

long ret;

if (force_o_largefile())

flags |= O_LARGEFILE;

ret = do_sys_open(AT_FDCWD, filename, flags, mode);

/* avoid REGPARM breakage on x86: */

asmlinkage_protect(3, ret, filename, flags, mode);

return ret;

}

跟踪do_sys_open()函数，就会发现它主要使用了do_filp_open()函数该函数在fs/namei.c中，而在该文件中，filp_open函数也是调用了do_filp_open函数，并且接口和sys_open函数极为相似，调用参数也和sys_open一样，并且使用EXPORT_SYMBOL导出了，所以我们猜想该函数可以打开文件，功能和open一样。

使用同样的方法，找出了一组在内核操作文件的函数，如下：


功能	函数原型
打开文件	struct file filp_open(const char filename, int flags, int mode)
读文件	ssize_t vfs_read(struct file file, char __user buf, size_t count, loff_t *pos)
写文件	ssize_t vfs_write(struct file file, const char __user buf, size_t count, loff_t *pos)
关闭文件	int filp_close(struct file *filp, fl_owner_t id)

2. 内核空间与用户空间

在vfs_read和vfs_write函数中，其参数buf指向的用户空间的内存地址，如果我们直接使用内核空间的指针，则会返回-EFALUT。这是因为使用的缓冲区超过了用户空间的地址范围。一般系统调用会要求你使用的缓冲区不能在内核区。这个可以用set_fs()、get_fs()来解决。

在include/asm/uaccess.h中，有如下定义：

#define MAKE_MM_SEG(s) ((mm_segment_t) { (s) })

#define KERNEL_DS MAKE_MM_SEG(0xFFFFFFFF)

#define USER_DS MAKE_MM_SEG(PAGE_OFFSET)

#define get_ds() (KERNEL_DS)

#define get_fs() (current->addr_limit)

#define set_fs(x) (current->addr_limit = (x))

如果使用，如下：

mm_segment_t fs = get_fs();

set_fs(KERNEL_FS);

//vfs_write();

vfs_read();

set_fs(fs);

**详尽解释：**系统调用本来是提供给用户空间的程序访问的，所以，对传递给它的参数（比如上面的buf），它默认会认为来自用户空间，在read或write()函数中，为了保护内核空间，一般会用get_fs()得到的值来和USER_DS进行比较，从而防止用户空间程序“蓄意”破坏内核空间；而现在要在内核空间使用系统调用，此时传递给read或write（）的参数地址就是内核空间的地址了，在USER_DS之上(USER_DS ~ KERNEL_DS)，如果不做任何其它处理，在write()函数中，会认为该地址超过了USER_DS范围，所以会认为是用户空间的“蓄意破坏”，从而不允许进一步的执行；为了解决这个问题； set_fs(KERNEL_DS);将其能访问的空间限制扩大到KERNEL_DS,这样就可以在内核顺利使用系统调用了！

在VFS的支持下，用户态进程读写任何类型的文件系统都可以使用read和write着两个系统调用，但是在linux内核中没有这样的系统调用我们如何操作文件呢？我们知道read和write在进入内核态之后，实际执行的是sys_read和sys_write，但是查看内核源代码，发现这些操作文件的函数都没有导出(使用EXPORT_SYMBOL导出)，也就是说在内核模块中是不能使用的，那如何是好？

通过查看sys_open的源码我们发现，其主要使用了do_filp_open()函数，该函数在fs/namei.c中，而在改文件中，filp_open函数也是调用了do_filp_open函数，并且接口和sys_open函数极为相似，调用参数也和sys_open一样，并且使用EXPORT_SYMBOL导出了，所以我们猜想该函数可以打开文件，功能和open一样。使用同样的查找方法，我们找出了一组在内核中操作文件的函数，如下：


功能	函数原型
打开文件	struct file filp_open(const char filename,int flags,int mode)
读取文件	ssize_t vfs_read(struct file file,char __user buf,size_t count, loff_t *pos)
写文件	ssize_t vfs_write(struct file file,const char __user buf,size_t count, loff_t *pos)
关闭文件	int filp_close(struct file *filp, fl_owner_t id)

我们注意到在vfs_read和vfs_write函数中，其参数buf指向的用户空间的内存地址，如果我们直接使用内核空间的指针，则会返回-EFALUT。所以我们需要使用
set_fs()和get_fs()宏来改变内核对内存地址检查的处理方式，所以在内核空间对文件的读写流程为：

mm_segment_t

fs

get_fs
()
;

set_fs

(
KERNEL_FS
)
;

//vfs_write();
vfs_read

()
;

set_fs

(
fs
)
;

下面为一个在内核中对文件操作的例子：

#include

<
linux/module.h

#include

<
linux/init.h

#include

<
linux/fs.h

#include

<
linux/uaccess.h

static

char

buf
[]

"
你好
"
;

static

char

buf1
[
10
]
;

__init

hello_init
(
void
)

{

struct

file
*
fp
;

mm_segment_t

fs
;

loff_t

pos
;

printk
(
"
hello enter
/
n
"
)
;

fp

filp_open
(
"
/home/niutao/kernel_file
"
,
O_RDWR
|
O_CREAT
,
0644
)
;

if

(
IS_ERR
(
fp
))

{

printk
(
"
create file error
/
n
"
)
;

return

1
;

}

fs

get_fs
()
;

set_fs
(
KERNEL_DS
)
;

pos

0
;

vfs_write
(
fp
,
buf
,
sizeof
(
buf
)
, &
pos
)
;

pos

0
;

vfs_read
(
fp
,
buf1
,
sizeof
(
buf
)
, &
pos
)
;

printk
(
"
read: %s
/
n
"
,
buf1
)
;

filp_close
(
fp
,
NULL
)
;

set_fs
(
fs
)
;

return

0
;

}
void

__exit

hello_exit
(
void
)

{

printk
(
"
hello exit
/
n
"
)
;

}
module_init

(
hello_init
)
;

module_exit

(
hello_exit
)
;

MODULE_LICENSE

(
"
GPL
"
)
;

有时候需要在Linux kernel－－大多是在需要调试的驱动程序－－中读写文件数据。在kernel中操作文件没有标准库可用，需要利用kernel的一些函数，这些函数主要有： filp_open() filp_close(), vfs_read() vfs_write()，set_fs()，get_fs()等，这些函数在linux/fs.h和asm/uaccess.h头文件中声明。下面介绍主要步骤

1. 打开文件

filp_open()在kernel中可以打开文件，其原形如下：

strcut file* filp_open(const char* filename, int open_mode, int mode);

该函数返回strcut file*结构指针，供后继函数操作使用，该返回值用IS＿ERR（）来检验其有效性。

参数说明

filename：表明要打开或创建文件的名称（包括路径部分）。在内核中打开的文件时需要注意打开的时机，很容易出现需要打开文件的驱动很早就加载并打开文件，但需要打开的文件所在设备还不有挂载到文件系统中，而导致打开失败。

open_mode：文件的打开方式，其取值与标准库中的open相应参数类似，可以取O_CREAT,O_RDWR,O_RDONLY等。

mode：创建文件时使用，设置创建文件的读写权限，其它情况可以匆略设为0

2. 读写文件

kernel中文件的读写操作可以使用vfs_read()和vfs_write，在使用这两个函数前需要说明一下get_fs()和 set_fs()这两个函数。

vfs_read() vfs_write()两函数的原形如下：

ssize_t vfs_read(struct file* filp, char __user* buffer, size_t len, loff_t* pos);

ssize_t vfs_write(struct file* filp, const char __user* buffer, size_t len, loff_t* pos);

注意这两个函数的第二个参数buffer，前面都有__user修饰符，这就要求这两个buffer指针都应该指向用空的内存，如果对该参数传递kernel空间的指针，这两个函数都会返回失败-EFAULT。但在Kernel中，我们一般不容易生成用户空间的指针，或者不方便独立使用用户空间内存。要使这两个读写函数使用kernel空间的buffer指针也能正确工作，需要使用set_fs()函数或宏（set_fs()可能是宏定义），如果为函数，其原形如下：

void set_fs(mm_segment_t fs);

该函数的作用是改变kernel对内存地址检查的处理方式，其实该函数的参数fs只有两个取值：USER＿DS，KERNEL＿DS，分别代表用户空间和内核空间，默认情况下，kernel取值为USER_DS，即对用户空间地址检查并做变换。那么要在这种对内存地址做检查变换的函数中使用内核空间地址，就需要使用set_fs(KERNEL_DS)进行设置。get_fs()一般也可能是宏定义，它的作用是取得当前的设置，这两个函数的一般用法为：

mm_segment_t old_fs;

old_fs = get_fs();

set_fs(KERNEL_DS);

…… //与内存有关的操作

set_fs(old_fs);

还有一些其它的内核函数也有用__user修饰的参数，在kernel中需要用kernel空间的内存代替时，都可以使用类似办法。

使用vfs_read()和vfs_write()最后需要注意的一点是最后的参数loff_t * pos，pos所指向的值要初始化，表明从文件的什么地方开始读写。

3. 关闭读写文件

int filp_close(struct file*filp, fl_owner_t id);

该函数的使用很简单，第二个参数一般传递NULL值，也有用current->files作为实参的。

使用以上函数的其它注意点：

其实Linux Kernel组成员不赞成在kernel中独立的读写文件（这样做可能会影响到策略和安全问题），对内核需要的文件内容，最好由应用层配合完成。
在可加载的kernel module中使用这种方式读写文件可能使模块加载失败，原因是内核可能没有EXPORT你所需要的所有这些函数。
分析以上某些函数的参数可以看出，这些函数的正确运行需要依赖于进程环境，因此，有些函数不能在中断的handle或Kernel中不属于任可进程的代码中执行，否则可能出现崩溃，要避免这种情况发生，可以在kernel中创建内核线程，将这些函数放在线程环境下执行(创建内核线程的方式请参数kernel_thread()函数）。

{{userData.name}}已认证

linux内核中读写文件

fs

buf
[]

fp

return

fs

pos

pos

WordPress网站专用docker容器环境带Waf

运维安全-Gitlab管理员权限安全思考

{{userData.name}}已认证

fs

buf []

fp

return

fs

pos

pos

Related posts:

WordPress网站专用docker容器环境带Waf

运维安全-Gitlab管理员权限安全思考

Elasticsearch 安装

史上最全面的mysql调优(下)：高级篇

mysql性能优化

高并发解决方案之一 ——负载均衡

buf
[]