<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

為什么有時進程莫名奇妙就沒有了？

先來看段代碼：

這段代碼非常簡單，就是先用mmap的方式，為該進程分配10GiB的虛擬內存，然后再用page寫的方式，讓操作系統為這10GiB虛擬內存，分配對應的物理內存，最后sleep，等待我們測試。

運行下。

沒啥問題，和我們預期的一樣，正常執行。

打開另一個終端，執行以下命令，看下它的內存占用：

上圖中的VSZ指的是虛擬內存，RSS指的是物理內存，單位都是KiB，所以該進程虛擬內存和物理內存的使用，都約等于10GiB，沒問題。

我們再開個終端，再執行下這個程序。

第二次執行這個程序也沒問題，但奇怪的是，此時第一次執行的那個程序卻被kill掉了。

這是為什么呢？

上面我們說到，該程序的邏輯是分配10GiB的物理內存，所以運行兩次，也就是要分配20GiB的物理內存。

但在我們的測試機器上，物理內存一共才16GiB，所以，運行兩個這樣的進程肯定是不行的。

在第二次執行該程序，且向操作系統申請物理內存時，操作系統會發現，物理內存已經沒有了。

此時，為了防止整個系統crash掉，linux內核會觸發 OOM/Out of Memory killing 機制，即按照一定的規則選擇一個進程，將其kill掉，以便回收物理內存，以此來保證機器整體的穩定運行。

同時，該kill事件，也會被記錄到內核日志中，且可通過dmesg命令等方式查看。

比如上面第一個進程被kill掉的事件記錄如下：

看上面紅色字體行，該行是說，進程14134因為out of memory被linux內核kill掉了，該進程正是上面我們第一次執行的那個程序。

linux內核的oom killing機制，其實是一種棄車保帥的做法，因為如果我們不kill掉某進程，來釋放物理內存的話，那很有可能會導致后續系統級別的crash，兩害相權取其輕，操作系統只能這樣處理，歸根結底，是我們對進程使用物理內存的規劃不足，才導致了這種情況。

那為什么不在第二次執行該程序時，在調用mmap分配虛擬內存時就直接報錯，返回無法分配內存呢？

這是因為，經過多年觀察，linux內核的開發人員發現，絕大部分程序在分配了很大的虛擬內存之后，在大部分時間里，并不會一直使用這么多的物理內存。

所以，為了更合理更高效的利用物理內存資源，linux內核允許虛擬內存的overcommit，即，例如在上面執行mmap分配虛擬內存時，linux內核并不會嚴格檢查，所有運行中的進程分配的虛擬內存加起來，是否超過了整個物理內存大小。

這也就解釋了為什么上面第二次運行該程序時，mmap是沒有報錯的。

但是，雖然mmap的虛擬內存分配成功了，但當真正使用該內存時，比如上面的寫內存，此時要分配物理內存，則是有可能失敗的，因為虛擬內存的overcommit，很可能導致后續的物理內存不足。

如果真的發生了這種情況，就會觸發linux內核的oom killing機制，即linux內核中的oom killer會按一定的規則，選一個進程，將其kill掉，這個上面我們已經演示過了。

那為什么不kill掉第二個進程，而是kill掉第一個呢？

這個和linux內核中oom killer的選擇策略有關，我們直接看源碼：

當進程請求操作系統為其分配物理內存時，如果此時物理內存已經沒有了，則會觸發上圖中的out_of_memory函數。

該函數中，會使用select_bad_process選擇要被kill掉的進程，然后使用oom_kill_process將其kill掉，來釋放物理內存。

在看select_bad_process之前，我們先看下oom_kill_process：

該函數調用了__oom_kill_process：

在上面的函數中，通過向victim進程發送SIGKILL這個signal（我們平時使用的kill -9命令，就是用的這個signal），將其kill掉，然后該kill事件，會被記錄到內核日志中。

注意，這里記錄的日志格式，正好和我們上面用dmesg輸出的，14134進程被kill掉事件日志格式完全一樣。

kill掉進程的過程就是這樣，我們再來看下select_bad_process函數是如何選擇要被kill掉進程的：

在該函數中，會遍歷系統中的所有進程，然后使用oom_evaluate_task這個函數，對各個進程進行評估：

oom_evaluate_task函數中，會使用oom_badness，計算某進程badness的點數，點數越高，越容易被kill掉。

如果badness的點數是LONG_MIN這個特殊值，則直接跳過該進程，即該進程不會成為被kill掉的對象，如果badness點數小于之前選擇進程的badness點數，同樣也跳過該進程，即被kill掉的進程badness點數要是最大的。

遍歷中選擇的進程，及其badness的點數，會被賦值到oc->chosen和oc->chosen_points里，oc->chosen最終指向的進程，就是上面oom_kill_process里kill掉的進程。

我們再來看下badness點數是如何計算的：

該函數主體邏輯分成兩部分，一部分是，在某些情況下，該進程的badness點數直接返回LONG_MIN，即不會被kill掉。

這些情況包括，oom_score_adj的值為OOM_SCORE_ADJ_MIN，即-1000，或者該進程已經在被kill的過程中了，或者該進程在vfork過程中。

該函數邏輯的另外一部分就是計算進程的badness點數，其大致計算規則為：

points = 該進程占用的物理內存總數 +總物理內存 * oom_score_adj值的千分比。

oom_score_adj的值，是進程獨有的，是可以通過寫 /proc/[pid]/oom_score_adj 的方式調整的，取值范圍為 -1000 到 1000。

該值越大，進程總的badness點數就會越大，進程也就越容易被kill掉。

該值越小，進程總的badness點數就會越小，該進程也就越不容易被kill掉。

上面我們還提到oom_score_adj有一個特殊值為OOM_SCORE_ADJ_MIN，即-1000，表示該進程不能被kill掉。

各進程的oom_score_adj的值默認為0。

綜上可知，linux內核中oom killer選擇被kill進程的方式，就是看各進程badness點數的大小。

默認情況下，因為各進程的oom_score_adj的值都為0，所以進程占用的物理內存越大，其badness點數也就越大，其也就越容易被kill掉。

這也就解釋了，為什么上面在第二次執行那個程序時，被kill掉的是第一次執行的那個進程，而不是第二次執行的進程，因為第一次執行的那個進程，占用的物理內存更大。

其實，調整linux內核中oom killer行為的方式有很多，不止修改oom_score_adj值這一種方法。

比如，通過修改 /proc/sys/vm/panic_on_oom 的值，可以讓整個系統在物理內存不夠時，直接panic，而不是選擇性的kill掉某個進程。

比如，通過修改 /proc/sys/vm/overcommit_memory 的值，可以使上面第二次執行的測試程序，在使用mmap分配虛擬內存時，就直接報錯，說內存不夠。

比如，通過修改/proc/[pid]/oom_adj 值的方式，同樣可以達到修改/proc/[pid]/oom_score_adj 的目的，不過這個在內核2.6.36版本之后已經不推薦使用。

oom killer行為調整的相關參數，其具體詳解可以看proc的man文檔：

https://man.archlinux.org/man/proc.5

聊了這么多，那理解linux內核的oom killer機制，對于我們實際應用有哪些幫助呢？

我們假設以下場景：

假如，我們有一臺機器，上面跑著一個非常重要的服務，比如數據庫，或者某個應用進程等。

它非常耗內存，但是正常情況下，它使用的物理內存肯定不會高于實際總物理內存大小。

有一天我們需要在這臺機器上執行一項任務，如果這個任務也比較耗內存，那很可能在執行這項任務時，整臺機器的物理內存就完全不夠用了，此時，就會觸發linux內核的oom killing機制。

又因為在不調整oom_score_adj值的情況下，linux內核中的oom killer默認kill掉的，就是占用物理內存最多的那個進程，一般來說，就是我們數據庫進程，或其他應用進程，假設這個進程又是線上的一個重要服務，那它被kill掉了，你想一下這會是多么嚴重的一個事故。

那怎么避免呢？

此時，我們就可以使用上面提到的，用于調整進程badness點數的，oom_score_adj 這個參數。

比如，我們可以通過 echo -1000 > /proc/[pid]/oom_score_adj 命令，將oom_score_adj的值設置為-1000，即該進程不能被kill掉。

又比如，還是通過上面的echo命令，將oom_score_adj的值修改為一個較小的值，來降低它被kill掉的概率。

但是，這些方法其實都不是完美的解決方式。

雖然該機器上的這個重要服務不被kill掉了，但操作系統為了保證整個系統不crash，還是會kill掉其他各種進程。

如果那些進程不重要還好，萬一重要的話，還是會相當嚴重的。

甚至，如果操作系統找不到可以kill掉的進程，那整個系統就會crash，這個就更嚴重了。

所以，最好的方式，還是人為去避免物理內存不足的情況，在機器上跑各種程序時，要提前對整個物理內存的使用，有個規劃和預判，最好是能預留出一些內存，以防各種誤操作。

好了，該篇文章就講這些內容，如果以后你發現你的進程，莫名奇妙就沒有了，可以通過dmesg等方式看下內核日志，確定下你的進程是否被oom kill掉了。

原文標題：為什么我的進程被kill掉了

文章出處：【微信公眾號：Linux閱碼場】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4586

瀏覽量
67219
進程

進程

+關注

關注
0

文章
196

瀏覽量
13905

原文標題：為什么我的進程被kill掉了

文章出處：【微信號：LinuxDev，微信公眾號：Linux閱碼場】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

測試STM8的UART的時候，STM8S003好像燒不進程序了，為什么？

小弟剛學STM8，遇到個問題，望不吝賜教我剛剛在測試STM8的UART的時候，發現我所使用的STM8S003好像燒不進程序了，就是進入debug界面的時候的程序更新了，然后也跳出busy那個對話框

發表于 05-11 08:18

使用STM32F401的單片機移植了ucosii操作系統后，在循環中調用sprintf函數時莫名卡死的原因？

使用STM32F401的單片機移植了ucosii操作系統后。在編寫任務函數時，在循環中調用sprintf函數時莫名卡死的原因？

發表于 04-02 06:12

ad7763的sco沒有時鐘輸出是什么原因？

ad7763的sco沒有時鐘輸出請問是什么原因？SCO是在加電和MCLK后就會產生嗎？

發表于 12-20 06:50

濾波器的奇妙世界：遞進式解析濾波技術的精髓！

隨著科技的不斷發展，濾波器作為信號處理領域的核心技術之一，扮演著重要的角色。本文將逐步深入，解析濾波器的原理、種類以及應用，接下來深圳維愛普小編帶您探索濾波器的奇妙世界。

的頭像

發表于 12-19 11:01 ?237次閱讀

濾波器的<b class='flag-5'>奇妙</b>世界：遞進式解析濾波技術的精髓！

為什么AD7606有時候讀的數據全為0，有時候正常采集？

出現讀的數據全為0的現象。有時候換掉AD7606就好了，有時候莫名其妙的有可以采集數據了。這是什么問題？該如何解決呢？急死。

發表于 12-18 07:15

電機有時轉有時不轉是什么故障呢？

電機有時轉有時不轉是什么故障呢？？有沒有可能是匝間短路？？

發表于 12-11 06:11

linux查看weblogic進程

在Linux操作系統中，WebLogic是一種常用的Java應用服務器，用于部署和管理企業級Java應用程序。為了確保WebLogic服務器正常運行，有時我們需要查看WebLogic進程以了解其狀態

的頭像

發表于 12-05 16:07 ?962次閱讀

如何查看系統是否有僵尸進程

進程中的指令已經執行完成，但是進程PCB結構還沒有回收。　　即子進程先于父進程退出后，子進程

的頭像

發表于 11-29 15:52 ?4099次閱讀

如何查看系統是否有僵尸<b class='flag-5'>進程</b>

為什么有時在PCB走線上串個電阻？有什么用？

為什么有時在PCB走線上串個電阻？有什么用？

的頭像

發表于 11-27 14:29 ?459次閱讀

為什么<b class='flag-5'>有時</b>在PCB走線上串個電阻？有什么用？

linux下開發避免僵尸進程的方法

（進程ID，退出狀態，占用的資源等等），你可能會問，為什么這么麻煩，直接釋放完資源不就行了嗎？這是因為有時它的父進程想了解它的退出狀態。在子進程退出但還未被其父

的頭像

發表于 11-11 16:38 ?516次閱讀

linux下開發避免僵尸<b class='flag-5'>進程</b>的方法

進程間通信的原理

一.為什么進程間需要通信？ 1).數據傳輸一個進程需要將它的數據發送給另一個進程; 2).資源共享多個進程之間共享同樣的資源; 3).通知事件一個

的頭像

發表于 11-10 17:05 ?496次閱讀

<b class='flag-5'>進程</b>間通信的原理

DP83848K，網絡通訊失敗，LED不受控制，有哪些可能的原因？

插入網口依然不能通訊上。我們沒有對硬件進行任何更改，在第二天的測試中這個網口又突然莫名奇妙地好了。請問一下這個芯片在什么情況下會出出現沒插網線但是兩個LED同時被點亮的情況？該問題目前無法復現的情況下應該重點測量哪些信號？

發表于 10-26 09:40

NUC972莫名死機的原因？

、modbus協議通信）等。在程序正常跑一段時間后會莫名死機，lcd的顯示畫面會變色和發生偏移，控制臺沒有異常和寄存器打印信息，通過仿真的方式可以知道程序最終跑到了data abort異常，問題是在出現上述

發表于 09-04 08:20

NUC972莫名死機的原因？怎么處理？

、modbus協議通信）等。在程序正常跑一段時間后會莫名死機，lcd的顯示畫面會變色和發生偏移，控制臺沒有異常和寄存器打印信息，通過仿真的方式可以知道程序最終跑到了data abort異常，問題是在出現上述

發表于 06-27 07:24

什么是OOM機制？怎么防止進程因為OOM機制而被殺掉？

有時候我們會發現系統中某個進程會突然掛掉，通過查看系統日志發現是由于 OOM機制導致進程被殺掉。

的頭像

發表于 06-21 08:59 ?5739次閱讀

什么是OOM機制？怎么防止<b class='flag-5'>進程</b>因為OOM機制而被殺掉？

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看

<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>