Android Init進程對信號的處理流程
在Android中,當一個進程退出(exit())時,會向它的父進程發送一個SIGCHLD信號。父進程收到該信號后,會釋放分配給該子進程的系統資源;并且父進程需要調用wait()或waitpid()等待子進程結束。如果父進程沒有做這種處理,且父進程初始化時也沒有調用signal(SIGCHLD, SIG_IGN)來顯示忽略對SIGCHLD的處理,這時子進程將一直保持當前的退出狀態,不會完全退出。這樣的子進程不能被調度,所做的只是在進程列表中占據一個位置,保存了該進程的PID、終止狀態、CPU使用時間等信息;我們將這種進程稱為“Zombie”進程,即僵尸進程。
在Linux中,設置僵尸進程的目的是維護子進程的一些信息,以供父進程后續查詢獲取。特殊的,如果一個父進程終止,那么它的所有僵尸子進程的父進程將被設置為Init進程(PID為1),并由Init進程負責回收這些僵尸進程(Init進程將wait()/waitpid()它們,并清除它們在進程列表中的信息)。
由于僵尸進程仍會在進程列表中占據一個位置,而Linux所支持的最大進程數量是有限的;超過這個界限值后,我們就無法創建進程。所以,我們有必要清理那些僵尸進程,以保證系統的正常運作。
接下來,我們分析下Init進程是如何處理SIGCHLD信號的。
在Init.cpp中,我們是通過signal_handler_init()來初始化SIGCHLD信號處理的:
void signal_handler_init() { // Create a signalling mechanism for SIGCHLD. int s[2]; //socketpair()創造一對未命名的、相互連接的UNIX域套接字 if (socketpair(AF_UNIX, SOCK_STREAM | SOCK_NONBLOCK | SOCK_CLOEXEC, 0, s) == -1) { ERROR("socketpair failed: %s/n", strerror(errno)); exit(1); } signal_write_fd = s[0]; signal_read_fd = s[1]; // Write to signal_write_fd if we catch SIGCHLD. struct sigaction act; memset(&act, 0, sizeof(act)); act.sa_handler = SIGCHLD_handler;//設置信號處理函數句柄,當有信號產生時,會向上面創建的socket寫入數據,epoll監控到該socket對中的fd可讀時,就會調用注冊的函數去處理該事件 act.sa_flags = SA_NOCLDSTOP;//設置標志,表示只有當子進程終止時才接受SIGCHID信號 sigaction(SIGCHLD, &act, 0);//初始化SIGCHLD信號處理方式 reap_any_outstanding_children();//處理這之前退出的子進程 register_epoll_handler(signal_read_fd, handle_signal); } 我們通過sigaction()函數來初始化信號。在act參數中,指定了信號處理函數:SIGCHLD_handler();如果有信號到來,就會調用該函數處理;同時,在參數act中,我們還設置了SA_NOCLDSTOP標志,表示只有當子進程終止時才接受SIGCHLD信號。
Linux中,信號是一種軟中斷,所以信號的到來會終止當前進程正在處理的操作。所以,我們在注冊的信號處理函數中不要調一些不可重入的函數。并且,Linux不會對信號做排隊處理,在一個信號的處理期間不管再收到多少個信號,當前信號處理完畢后,內核也只會再發送一個信號給進程;所以這里就存在信號丟失的可能。為了避免丟失信號,我們注冊的信號處理函數操作應該越高效、越快越好。
而我們處理SIGCHLD信號時,父進程會做等待操作,這個時間是比較長的。為了解決這個問題,上面的信號初始化代碼中創建了一對未命名且相關聯的本地socket用于線程間通信。注冊的信號處理函數是SIGCHLD_handler():
static void SIGCHLD_handler(int) { if (TEMP_FAILURE_RETRY(write(signal_write_fd, "1", 1)) == -1) { ERROR("write(signal_write_fd) failed: %s/n", strerror(errno)); } }#define TEMP_FAILURE_RETRY(exp) / ({ / decltype(exp) _rc; / do { / _rc = (exp); / } while (_rc == -1 && errno == EINTR); / _rc; / }) 當有信號到來時,只要向socket中寫入數據,這個過程是很快的,此時信號的處理就轉移到socket的響應中去進行了;這樣就不會影響下一個信號的處理。同時,write()函數外圍嵌套了一個do...while循環,循環條件是write()發生錯誤且當前的錯誤號為EINTR(EINTR :此調用被信號所中斷),即當前write()是由于有中斷到來而發生錯誤時,操作將再次執行;其他情況下,write()函數只會執行一次。再初始化完信號處理后,就會調用reap_any_outstanding_children() 處理這之前的進程退出情況:
static void reap_any_outstanding_children() { while (wait_for_one_process()) { } } wait_for_one_process()主要調用waitpid()等待子進程結束,當該進程代表的服務需要重啟時,會對它做一些設置、清理工作。
最后,通過epoll_ctl()向epoll_fd注冊本地socket,監聽其是否可讀;并注冊了epoll事件的處理函數:
register_epoll_handler(signal_read_fd, handle_signal);
void register_epoll_handler(int fd, void (*fn)()) { epoll_event ev; ev.events = EPOLLIN;//對文件描述符可讀 ev.data.ptr = reinterpret_cast<void*>(fn);//保存指定的函數指針,用于后續的事件處理 if (epoll_ctl(epoll_fd, EPOLL_CTL_ADD, fd, &ev) == -1) {//向epoll_fd添加要監聽的fd,比如property、keychord和signal事件監聽 ERROR("epoll_ctl failed: %s/n", strerror(errno)); } } 我們以Zygote進程退出為例,來看下SIGCHLD信號處理的具體流程。Zygote進程在init.rc中被聲明為Service并由Init進程創建。當Zygote進程退出時,將向Init進程發送SIGCHLD信號。前面的代碼已經完成了信號的初始化操作,所以當信號到來時會調用SIGCHLD_handler()函數處理,它的處理就是直接通過socket寫入一個數據就立刻返回;這時,SIGCHLD的處理就轉移到socket事件的響應上。我們通過epoll_ctl注冊了本地socket,并監聽它是否可讀;這時由于之前的write()調用,此時socket有數據可讀,此刻會調用注冊的handle_signal()函數進行處理:
static void handle_signal() { // Clear outstanding requests. char buf[32]; read(signal_read_fd, buf, sizeof(buf)); reap_any_outstanding_children(); } 它會將socket的數據的獨到buf中,并調用reap_any_outstanding_children()函數處理子進程的退出及服務的重啟操作:
static void reap_any_outstanding_children() { while (wait_for_one_process()) { } } static bool wait_for_one_process() { int status; pid_t pid = TEMP_FAILURE_RETRY(waitpid(-1, &status, WNOHANG));//等待子進程結束,并獲取到它的pid進程號,WNOHANG表明若沒有進程結束,則立即返回. if (pid == 0) { return false; } else if (pid == -1) { ERROR("waitpid failed: %s/n", strerror(errno)); return false; } service* svc = service_find_by_pid(pid);//根據pid,在鏈表中找到這個服務信息 std::string name; if (svc) { name = android::base::StringPrintf("Service '%s' (pid %d)", svc->name, pid); } else { name = android::base::StringPrintf("Untracked pid %d", pid); } NOTICE("%s %s/n", name.c_str(), DescribeStatus(status).c_str()); if (!svc) { return true; } // TODO: all the code from here down should be a member function on service. //如果該服務進程沒有設定SVC_ONESHOT標志,或者設置了SVC_RESTART標志,則先殺掉當前的進程,在重新創建新的進程; //以避免后面重啟進程時,因當前服務進程已經存在而發生錯誤. if (!(svc->flags & SVC_ONESHOT) || (svc->flags & SVC_RESTART)) { NOTICE("Service '%s' (pid %d) killing any children in process group/n", svc->name, pid); kill(-pid, SIGKILL); } // Remove any sockets we may have created. //如果之前為這個服務進程創建過socket,這時我們需要清除掉該socket for (socketinfo* si = svc->sockets; si; si = si->next) { char tmp[128]; snprintf(tmp, sizeof(tmp), ANDROID_SOCKET_DIR"/%s", si->name); unlink(tmp);//刪除這個socket設備文件 } if (svc->flags & SVC_EXEC) {////服務完全退出,清除掉所有信息,并將該服務從svc-slist中移除 INFO("SVC_EXEC pid %d finished.../n", svc->pid); waiting_for_exec = false; list_remove(&svc->slist); free(svc->name); free(svc); return true; } svc->pid = 0; svc->flags &= (~SVC_RUNNING); // Oneshot processes go into the disabled state on exit, // except when manually restarted. //如果該服務進程帶有SVC_ONESHOT標志,且沒有SVC_RESTART標志,則表明該服務無需重啟 if ((svc->flags & SVC_ONESHOT) && !(svc->flags & SVC_RESTART)) { svc->flags |= SVC_DISABLED; } // Disabled and reset processes do not get restarted automatically. //如果服務帶有SVC_RESET標志,表示服務無需重啟 if (svc->flags & (SVC_DISABLED | SVC_RESET)) {//從結果看SVC_RESET標志的判斷優先級最高 svc->NotifyStateChange("stopped"); return true; } //到此,我們可以得知一個服務進程在init.rc中只要沒有聲明SVC_ONESHOT和SVC_RESET標志,當該進程死亡時,就會被重啟; //但是,如果一個服務進程帶有SVC_CRITICAL標志,且沒有SVC_RESTART標志,當它crash、重啟的次數超過4此時,系統會自動重啟并進入recovery模式 time_t now = gettime(); if ((svc->flags & SVC_CRITICAL) && !(svc->flags & SVC_RESTART)) { if (svc->time_crashed + CRITICAL_CRASH_WINDOW >= now) { if (++svc->nr_crashed > CRITICAL_CRASH_THRESHOLD) { ERROR("critical process '%s' exited %d times in %d minutes; " "rebooting into recovery mode/n", svc->name, CRITICAL_CRASH_THRESHOLD, CRITICAL_CRASH_WINDOW / 60); android_reboot(ANDROID_RB_RESTART2, 0, "recovery"); return true; } } else { svc->time_crashed = now; svc->nr_crashed = 1; } } svc->flags &= (~SVC_RESTART); svc->flags |= SVC_RESTARTING;//為服務加上重啟標志,表明它需要重啟;后續工作要以此判斷 // Execute all onrestart commands for this service. struct listnode* node; list_for_each(node, &svc->onrestart.commands) {//如果服務有onrestart選項,則遍歷進程重啟時需要執行的命令列表,并執行 command* cmd = node_to_item(node, struct command, clist); cmd->func(cmd->nargs, cmd->args); } svc->NotifyStateChange("restarting"); return true; } 該函數中的處理主要這幾個要點:
如果這個子進程所代表的服務需要重啟,則會為該服務加上SVC_RESTARTING標志。
在之前介紹Init進程初始化流程時,我們分析過,當Init進程處理完,它就會進入一個循環化身為守護進程,處理signal、property和keychord等服務:
while (true) { if (!waiting_for_exec) { execute_one_command();//執行命令列表中的命令 restart_processes();//啟動服務列表中的進程 } int timeout = -1; if (process_needs_restart) { timeout = (process_needs_restart - gettime()) * 1000; if (timeout < 0) timeout = 0; } if (!action_queue_empty() || cur_action) { timeout = 0; } bootchart_sample(&timeout);//bootchart是一個用可視化方式對啟動過程進行性能分析的工具;需要定時喚醒進程 epoll_event ev; int nr = TEMP_FAILURE_RETRY(epoll_wait(epoll_fd, &ev, 1, timeout));//開始輪詢,epoll_wait()等待事件產生 if (nr == -1) { ERROR("epoll_wait failed: %s/n", strerror(errno)); } else if (nr == 1) { ((void (*)()) ev.data.ptr)();//調用epoll_event事件存儲的函數指針處理事件 } } 其中,它會循環調用restart_processes()去重啟在service_list列表中帶有所有帶有SVC_RESTARTING標志(該標志是在wait_for_one_process()處理中設置的)的服務:
static void restart_processes() { process_needs_restart = 0; service_for_each_flags(SVC_RESTARTING, restart_service_if_needed); } void service_for_each_flags(unsigned matchflags, void (*func)(struct service *svc)) { struct listnode *node; struct service *svc; list_for_each(node, &service_list) { svc = node_to_item(node, struct service, slist); if (svc->flags & matchflags) { func(svc); } } }
static void restart_service_if_needed(struct service *svc) { time_t next_start_time = svc->time_started + 5; if (next_start_time <= gettime()) { svc->flags &= (~SVC_RESTARTING); service_start(svc, NULL); return; } if ((next_start_time < process_needs_restart) || (process_needs_restart == 0)) { process_needs_restart = next_start_time; } } 最終會調用service_start()函數去重新啟動一個退出的服務。service_start()的處理過程在介紹Init進程處理流程時已經分析,這里就不再贅述。
感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!
新聞熱點
疑難解答