国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 系統(tǒng) > Linux > 正文

深入理解Linux的系統(tǒng)調(diào)用【轉(zhuǎn)】

2024-06-28 13:27:14
字體:
供稿:網(wǎng)友
深入理解linux的系統(tǒng)調(diào)用【轉(zhuǎn)】

  一、 什么是系統(tǒng)調(diào)用  在Linux的世界里,我們經(jīng)常會(huì)遇到系統(tǒng)調(diào)用這一術(shù)語,所謂系統(tǒng)調(diào)用,就是內(nèi)核提供的、功能十分強(qiáng)大的一系列的函數(shù)。這些系統(tǒng)調(diào)用是在內(nèi)核中實(shí)現(xiàn)的,再通過一定的方式把系統(tǒng)調(diào)用給用戶,一般都通過門(gate)陷入(trap)實(shí)現(xiàn)。系統(tǒng)調(diào)用是用戶程序和內(nèi)核交互的接口。   二、 系統(tǒng)調(diào)用的作用  系統(tǒng)調(diào)用在Linux系統(tǒng)中發(fā)揮著巨大的作用,如果沒有系統(tǒng)調(diào)用,那么應(yīng)用程序就失去了內(nèi)核的支持。  我們在編程時(shí)用到的很多函數(shù),如fork、open等這些函數(shù)最終都是在系統(tǒng)調(diào)用里實(shí)現(xiàn)的,比如說我們有這樣一個(gè)程序:

 1   #include <unistd.h> 2  3   #include <stdlib.c> 4  5   int main()  6  7   {  8  9    fork(); 10 11    exit(0); 12 13   }    

  這里我們用到了兩個(gè)函數(shù),即fork和exit,這兩函數(shù)都是glibc中的函數(shù),但是如果我們跟蹤函數(shù)的執(zhí)行過程,看看glibc對fork和exit函數(shù)的實(shí)現(xiàn)就可以發(fā)現(xiàn)在glibc的實(shí)現(xiàn)代碼里都是采用軟中斷的方式陷入到內(nèi)核中再通過系統(tǒng)調(diào)用實(shí)現(xiàn)函數(shù)的功能的。具體過程我們在系統(tǒng)調(diào)用的實(shí)現(xiàn)過程會(huì)詳細(xì)的講到。  由此可見,系統(tǒng)調(diào)用是用戶接口在內(nèi)核中的實(shí)現(xiàn),如果沒有系統(tǒng)調(diào)用,用戶就不能利用內(nèi)核。

  三、 系統(tǒng)調(diào)用的現(xiàn)實(shí)及調(diào)用過程  詳細(xì)講述系統(tǒng)調(diào)用的之前也講一下Linux系統(tǒng)的一些保護(hù)機(jī)制。  Linux系統(tǒng)在CPU的保護(hù)模式下提供了四個(gè)特權(quán)級別,目前內(nèi)核都只用到了其中的兩個(gè)特權(quán)級別,分別為“特權(quán)級0”和“特權(quán)級3”,級別0也就是我們通常所講的內(nèi)核模式,級別3也就是我們通常所講的用戶模式。劃分這兩個(gè)級別主要是對系統(tǒng)提供保護(hù)。內(nèi)核模式可以執(zhí)行一些特權(quán)指令和進(jìn)入用戶模式,而用戶模式則不能。  這里特別提出的是,內(nèi)核模式與用戶模式分別使用自己的堆棧,當(dāng)發(fā)生模式切換的時(shí)候同時(shí)要進(jìn)行堆棧的切換。  每個(gè)進(jìn)程都有自己的地址空間(也稱為進(jìn)程空間),進(jìn)程的地址空間也分為兩部分:用戶空間和系統(tǒng)空間,在用戶模式下只能訪問進(jìn)程的用戶空間,在內(nèi)核模式下則可以訪問進(jìn)程的全部地址空間,這個(gè)地址空間里的地址是一個(gè)邏輯地址,通過系統(tǒng)段面式的管理機(jī)制,訪問的實(shí)際內(nèi)存要做二級地址轉(zhuǎn)換,即:邏輯地址&#61664;線性地址&#61664;物理地址。  系統(tǒng)調(diào)用對于內(nèi)核來說就相當(dāng)于函數(shù),我們是關(guān)鍵問題是從用戶模式到內(nèi)核模式的轉(zhuǎn)換、堆棧的切換以及參數(shù)的傳遞。     下面將結(jié)合內(nèi)核源代碼對這些過程進(jìn)行分析,以下分析環(huán)境為FC2,kernel 2.6.5  下面是內(nèi)核源代碼里arch/i386/kernel/entry.S的一段代碼  

  1   /* clobbers ebx, edx and ebp */      2   3   #define __SWITCH_KERNELSPACE /   4   5    cmpl $0xff000000, %esp; /   6   7    jb 1f; /   8   9    /  10  11    /* /  12  13    * switch pagetables and load the real stack, /  14  15    * keep the stack offset: /  16  17    */ /  18  19    /  20  21    movl $swapper_pg_dir-__PAGE_OFFSET, %edx; /  22  23    /  24  25    /* GET_THREAD_INFO(%ebp) intermixed */ /  26  27   0: /  28  29    ……………………………………. /  30  31   1:     32  33   #endif     34  35   #define __SWITCH_USERSPACE /  36  37    /* interrupted any of the user return paths? */ /  38  39    /  40  41    movl EIP(%esp), %eax; /  42  43    ……………………………………….. /  44  45    jb 22f; /* yes - switch to virtual stack */ /  46  47    /* return to userspace? */ /  48  49   44: /  50  51    movl EFLAGS(%esp),%ecx; /  52  53    movb CS(%esp),%cl; /  54  55    testl $(VM_MASK   3),%ecx; /  56  57    jz 2f; /  58  59   22: /  60  61    /* /  62  63    * switch to the virtual stack, then switch to /  64  65    * the userspace pagetables. /  66  67    */ /  68  69    /  70  71    GET_THREAD_INFO(%ebp); /  72  73    movl TI_virtual_stack(%ebp), %edx; /  74  75    movl TI_user_pgd(%ebp), %ecx; /  76  77    /  78  79    movl %esp, %ebx; /  80  81    andl $(THREAD_SIZE-1), %ebx; /  82  83    orl %ebx, %edx; /  84  85   int80_ret_start_marker: /  86  87    movl %edx, %esp; /  88  89    movl %ecx, %cr3; /  90  91    /  92  93    __RESTORE_ALL; /  94  95   int80_ret_end_marker: /  96  97   2:  98  99    100 101   #else /* !CONFIG_X86_HIGH_ENTRY */    102 103   #define __SWITCH_KERNELSPACE 104 105   #define __SWITCH_USERSPACE    106 107   #endif    108 109   #define __SAVE_ALL / 110 111   ……………………………………..    112 113   #define __RESTORE_INT_REGS / 114 115   ………………………….    116 117   #define __RESTORE_REGS / 118 119    __RESTORE_INT_REGS; / 120 121   111: popl %ds; / 122 123   222: popl %es; / 124 125   .section .fixup,"ax"; / 126 127   444: movl $0,(%esp); / 128 129    jmp 111b; / 130 131   555: movl $0,(%esp); / 132 133    jmp 222b; / 134 135   .PRevious; / 136 137   .section __ex_table,"a";/ 138 139    .align 4; / 140 141    .long 111b,444b;/ 142 143    .long 222b,555b;/ 144 145   .previous 146 147    148 149   #define __RESTORE_ALL / 150 151    __RESTORE_REGS / 152 153    addl $4, %esp; / 154 155   333: iret; / 156 157   .section .fixup,"ax"; / 158 159   666: sti; / 160 161    movl $(__USER_DS), %edx; / 162 163    movl %edx, %ds; / 164 165    movl %edx, %es; / 166 167    pushl $11; / 168 169    call do_exit; / 170 171   .previous; / 172 173   .section __ex_table,"a";/ 174 175    .align 4; / 176 177    .long 333b,666b;/ 178 179   .previous 180 181    182 183   #define SAVE_ALL / 184 185    __SAVE_ALL; / 186 187    __SWITCH_KERNELSPACE; 188 189    190 191   #define RESTORE_ALL / 192 193    __SWITCH_USERSPACE; / 194 195    __RESTORE_ALL; 196    

  以上這段代碼里定義了兩個(gè)非常重要的宏,即SAVE_ALL和RESTORE_ALL

SAVE_ALL先保存用戶模式的寄存器和堆棧信息,然后切換到內(nèi)核模式,宏__SWITCH_KERNELSPACE實(shí)現(xiàn)地址空間的轉(zhuǎn)換RESTORE_ALL的過程過SAVE_ALL的過程正好相反。     在內(nèi)核原代碼里有一個(gè)系統(tǒng)調(diào)用表:(entry.S的文件里)  

 1   ENTRY(sys_call_table)  2  3    .long sys_restart_syscall /* 0 - old "setup()" system call, used for restarting */  4  5    .long sys_exit  6  7    .long sys_fork  8  9    .long sys_read 10 11    .long sys_write 12 13    .long sys_open /* 5 */ 14 15    ……………….. 16 17    .long sys_mq_timedreceive /* 280 */ 18 19    .long sys_mq_notify 20 21    .long sys_mq_getsetattr    22 23   syscall_table_size=(.-sys_call_table)    

  在2.6.5的內(nèi)核里,有280多個(gè)系統(tǒng)調(diào)用,這些系統(tǒng)調(diào)用的名稱全部在這個(gè)系統(tǒng)調(diào)用表里。  在這個(gè)原文件里,還有非常重要的一段  

 1   ENTRY(system_call)  2  3    pushl %eax # save orig_eax  4  5    SAVE_ALL  6  7    GET_THREAD_INFO(%ebp)  8  9    cmpl $(nr_syscalls), %eax 10 11    jae syscall_badsys 12 13    # system call tracing in Operation 14 15    testb $(_TIF_SYSCALL_TRACE _TIF_SYSCALL_AUDIT),TI_flags(%ebp) 16 17    jnz syscall_trace_entry 18 19   syscall_call: 20 21    call *sys_call_table(,%eax,4) 22 23    movl %eax,EAX(%esp) # store the return value 24 25   syscall_exit: 26 27    cli # make sure we don't miss an interrupt 28 29    # setting need_resched or sigpending 30 31    # between sampling and the iret 32 33    movl TI_flags(%ebp), %ecx 34 35    testw $_TIF_ALLWORK_MASK, %cx # current->work 36 37    jne syscall_exit_work 38 39   restore_all: 40 41    RESTORE_ALL    

  這一段完成系統(tǒng)調(diào)用的執(zhí)行。  system_call函數(shù)根據(jù)用戶傳來的系統(tǒng)調(diào)用號,在系統(tǒng)調(diào)用表里找到對應(yīng)的系統(tǒng)調(diào)用再執(zhí)行。  從glibc的函數(shù)到系統(tǒng)調(diào)用還有一個(gè)很重要的環(huán)節(jié)就是系統(tǒng)調(diào)用號。  系統(tǒng)調(diào)用號的定義在include/asm-i386/unistd.h里  

 1   #define __NR_restart_syscall 0  2  3   #define __NR_exit 1  4  5   #define __NR_fork 2  6  7   #define __NR_read 3  8  9   #define __NR_write 4 10 11   #define __NR_open 5 12 13   #define __NR_close 6 14 15   #define __NR_waitpid 7 16 17   …………………………………..   

  每一個(gè)系統(tǒng)調(diào)用號都對應(yīng)有一個(gè)系統(tǒng)調(diào)用  接下來就是系統(tǒng)調(diào)用宏的展開  

 1 //沒有參數(shù)的系統(tǒng)調(diào)用的宏展開  2    3  4   #define _syscall0(type,name) /  5  6   type name(void) /  7  8   { /  9 10   long __res; / 11 12   __asm__ volatile ("int $0x80" / 13 14    : "=a" (__res) / 15 16    : "0" (__NR_##name)); / 17 18   __syscall_return(type,__res); / 19 20   }    21 22    23 24 //  帶一個(gè)參數(shù)的系統(tǒng)調(diào)用的宏展開 25    26 27   #define _syscall1(type,name,type1,arg1) / 28 29   type name(type1 arg1) / 30 31   { / 32 33   long __res; / 34 35   __asm__ volatile ("int $0x80" / 36 37    : "=a" (__res) / 38 39    : "0" (__NR_##name),"b" ((long)(arg1))); / 40 41   __syscall_return(type,__res); / 42 43   }   44 45 //  兩個(gè)參數(shù) 46  47 48   #define _syscall2(type,name,type1,arg1,type2,arg2) /    49 50 //  三個(gè)參數(shù)的 51 52 53   #define _syscall3(type,name,type1,arg1,type2,arg2,type3,arg3) /    54 55 //  四個(gè)參數(shù)的 56  57 58   #define _syscall4(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4) /    59 60 //  五個(gè)參數(shù)的 61 62   #define _syscall5(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4, / 63 64    type5,arg5) / 65    66 67 //  六個(gè)參數(shù)的 68  69 70   #define _syscall6(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4, / 71 72    type5,arg5,type6,arg6) / 73 74   _res); /    

  從這段代碼我們可以看出int $0x80通過軟中斷開觸發(fā)系統(tǒng)調(diào)用,當(dāng)發(fā)生調(diào)用時(shí),函數(shù)中的name會(huì)被系統(tǒng)系統(tǒng)調(diào)用名所代替。然后調(diào)用前面所講的system_call。這個(gè)過程里包含了系統(tǒng)調(diào)用的初始化,系統(tǒng)調(diào)用的初始化原代碼在:  arch/i386/kernel/traps.c中  每當(dāng)用戶執(zhí)行int 0x80時(shí),系統(tǒng)進(jìn)行中斷處理,把控制權(quán)交給內(nèi)核的system_call。     整個(gè)系統(tǒng)調(diào)用的過程可以總結(jié)如下:  1. 執(zhí)行用戶程序(如:fork)  2. 根據(jù)glibc中的函數(shù)實(shí)現(xiàn),取得系統(tǒng)調(diào)用號并執(zhí)行int $0x80產(chǎn)生中斷。  3. 進(jìn)行地址空間的轉(zhuǎn)換和堆棧的切換,執(zhí)行SAVE_ALL。(進(jìn)行內(nèi)核模式)  4. 進(jìn)行中斷處理,根據(jù)系統(tǒng)調(diào)用表調(diào)用內(nèi)核函數(shù)。  5. 執(zhí)行內(nèi)核函數(shù)。  6. 執(zhí)行RESTORE_ALL并返回用戶模式     解了系統(tǒng)調(diào)用的實(shí)現(xiàn)及調(diào)用過程,我們可以根據(jù)自己的需要來對內(nèi)核的系統(tǒng)調(diào)用作修改或添加。


發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 买车| 栾城县| 浦东新区| 克东县| 龙海市| 宜宾市| 黄骅市| 娄底市| 鹿邑县| 太谷县| 新巴尔虎左旗| 喀什市| 永康市| 南华县| 寻乌县| 洪洞县| 兴业县| 商丘市| 沂水县| 嘉善县| 恩平市| 淳化县| 融水| 高陵县| 资源县| 广水市| 台中县| 黔西县| 马公市| 潮州市| 邵阳县| 卓尼县| 汝阳县| 万荣县| 绥中县| 仁怀市| 工布江达县| 微山县| 阿拉善右旗| 庆安县| 石柱|