系統呼叫
主要內容:
- 什麼是系統調用
- Linux上的系統調用實現原理
- 一個簡單的系統調用的實現
1. 什麼是系統調用
簡單來說,系統調用就是用戶程序和硬件設備之間的橋樑。
用戶程序在需要的時候,通過系統調用來使用硬件設備。
系統調用的存在,有以下重要的意義:
1)用戶程序通過系統調用來使用硬件,而不用關心具體的硬件設備,這樣大大簡化了用戶程序的開發。
比如:用戶程序通過write()系統調用就可以將數據寫入文件,而不必關心文件是在磁盤上還是軟盤上,或者其他存儲上。
2)系統調用使得用戶程序有更好的可移植性。
只要操作系統提供的系統調用接口相同,用戶程序就可在不用修改的情況下,從一個系統遷移到另一個操作系統。
3)系統調用使得內核能更好的管理用戶程序,增強了系統的穩定性。
因為系統調用是內核實現的,內核通過系統調用來控制開放什麼功能及什麼權限給用戶程序。
這樣可以避免用戶程序不正確的使用硬件設備,從而破壞了其他程序。
4)系統調用有效的分離了用戶程序和內核的開發。
用戶程序只需關心繫統調用API,通過這些API來開發自己的應用,不用關心API的具體實現。
內核則只要關心繫統調用API的實現,而不必管它們是被如何調用的。
用戶程序,系統調用,內核,硬件設備的調用關係如下圖:
2. Linux上的系統調用實現原理
要想實現系統調用,主要實現以下幾個方面:
- 通知內核調用一個哪個系統調用
- 用戶程序把系統調用的參數傳遞給內核
- 用戶程序獲取內核返回的系統調用返回值 下面看看Linux是如何實現上面3個功能的。
2.1 通知內核調用一個哪個系統調用
每個系統調用都有一個系統調用號,系統調用發生時,內核就是根據傳入的系統調用號來知道是哪個系統調用的。
在x86架構中,用戶空間將系統調用號是放在eax中的,系統調用處理程序通過eax取得系統調用號。
系統調用號定義在內核代碼:arch/alpha/include/asm/unistd.h 中,可以看出linux的系統調用不是很多。
2.2 用戶程序把系統調用的參數傳遞給內核
系統調用的參數也是通過寄存器傳給內核的,在x86系統上,系統調用的前5個參數放在ebx,ecx,edx,esi和edi中,如果參數多的話,還需要用個單獨的寄存器存放指向所有參數在用戶空間地址的指針。
一般的系統調用都是通過C庫(最常用的是glibc庫)來訪問的,Linux內核提供一個從用戶程序直接訪問系統調用的方法。
參見內核代碼:arch/cris/include/arch-v10/arch/unistd.h
裡面定義了6個宏,分別可以調用參數個數為0~6的系統調用
_syscall0(type,name)
_syscall1(type,name,type1,arg1)
_syscall2(type,name,type1,arg1,type2,arg2)
_syscall3(type,name,type1,arg1,type2,arg2,type3,arg3)
_syscall4(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4)
_syscall5(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4,type5,arg5)
_syscall6(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4,type5,arg5,type6,arg6)
超過6個參數的系統調用很罕見,所以這裡只定義了6個。
2.3 用戶程序獲取內核返回的系統調用返回值
獲取系統調用的返回值也是通過寄存器,在x86系統上,返回值放在eax中。
3. 一個簡單的系統調用的實現
瞭解了Linux上系統調用的原理,下面就可以自己來實現一個簡單的系統調用。
3.1 環境準備
為了不破壞現有系統,我是用虛擬機來實驗的。
主機:fedora16 x86_64系統 + kvm(一種虛擬技術,就像virtualbox,vmware等)
虛擬機: 也是安裝fedora16 x86_64系統(通過virt-manager很容易安裝一個系統)
下載內核源碼:www.kernel.org 下載最新的就行
3.2 修改內核源碼中的相應文件
主要修改以下文件:
arch/x86/ia32/ia32entry.S
arch/x86/include/asm/unistd_32.h
arch/x86/include/asm/unistd_64.h
arch/x86/kernel/syscall_table_32.S
include/asm-generic/unistd.h
include/linux/syscalls.h
kernel/sys.c
我在sys.c中追加了2個函數:sys_foo和sys_bar
如果是在x86_64的內核中增加一個系統調用,只需修改 arch/x86/include/asm/unistd_64.h,比如sys_bar。
修改內容參見下面的diff文件:
diff -r new/arch/x86/ia32/ia32entry.S old/arch/x86/ia32/ia32entry.S
855d854
< .quad sys_foo
diff -r new/arch/x86/include/asm/unistd_32.h old/arch/x86/include/asm/unistd_32.h
357d356
< #define __NR_foo 349
361c360
< #define NR_syscalls 350
---
> #define NR_syscalls 349
diff -r new/arch/x86/include/asm/unistd_64.h old/arch/x86/include/asm/unistd_64.h
689,692d688
< #define __NR_foo 312
< __SYSCALL(__NR_foo, sys_foo)
< #define __NR_bar 313
< __SYSCALL(__NR_bar, sys_bar)
diff -r new/arch/x86/kernel/syscall_table_32.S old/arch/x86/kernel/syscall_table_32.S
351d350
< .long sys_foo
diff -r new/include/asm-generic/unistd.h old/include/asm-generic/unistd.h
694,695d693
< #define __NR_foo 272
< __SYSCALL(__NR_foo, sys_foo)
698c696
< #define __NR_syscalls 273
---
> #define __NR_syscalls 272
diff -r new/kernel/sys.c old/kernel/sys.c
1920,1928d1919
<
< asmlinkage long sys_foo(void)
< {
< return 1112223334444555;
< }
< asmlinkage long sys_bar(void)
< {
< return 1234567890;
< }
3.3 編譯內核
#cd linux-3.2.28
#make menuconfig (選擇要編譯參數,如果不熟悉內核編譯,用默認選項即可)
#make all (這一步真的時間很長......)
#make modules_install
#make install (這一步會把新的內核加到啟動項中)
#reboot (重啟系統進入新的內核)
3.4 編寫調用的系統調用的代碼
#include <unistd.h>
#include <sys/syscall.h>
#include <string.h>
#include <stdio.h>
#include <errno.h>
#define __NR_foo 312
#define __NR_bar 313
int main()
{
printf ("result foo is %ld\n", syscall(__NR_foo));
printf("%s\n", strerror(errno));
printf ("result bar is %ld\n", syscall(__NR_bar));
printf("%s\n", strerror(errno));
return 0;
}
編譯運行上面的代碼:
#gcc test.c -o test
#./test
運行結果如下:
result foo is 1112223334444555
Success
result bar is 1234567890
Success