<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

利用6 個 Linux 運維典型問題來分析處理問題的思路

作為一名合格的 Linux 運維工程師，一定要有一套清晰、明確的解決故障思路，當問題出現時，才能迅速定位、解決問題，這里給出一個處理問題的一般思路：

重視報錯提示信息：每個錯誤的出現，都是給出錯誤提示信息，一般情況下這個提示基本定位了問題的所在，因此一定要重視這個報錯信息，如果對這些錯誤信息視而不見，問題永遠得不到解決。

查閱日志文件：有時候報錯信息只是給出了問題的表面現象，要想更深入的了解問題，必須查看相應的日志文件，而日志文件又分為系統日志文件（/var/log）和應用的日志文件，結合這兩個日志文件，一般就能定位問題所在。

分析、定位問題：這個過程是比較復雜的，根據報錯信息，結合日志文件，同時還要考慮其它相關情況，最終找到引起問題的原因。

解決問題：找到了問題出現的原因，解決問題就是很簡單的事情了。

從這個流程可以看出，解決問題的過程就是分析、查找問題的過程，一旦確定問題產生的原因，故障也就隨之解決了。

結合上面介紹的 Linux 運維問題的解決思路后，下面我們挑選了6個比較典型的 Linux 運維問題，來看看是如何分析和解決的：

問題 1：文件系統破壞導致系統無法啟動

Checking root filesystem

/dev/sda6 contains a file system with errors, check forced

An error occurred during the file system check

這個錯誤可以看出，操作系統 / dev/sda6 分區文件系統出現了問題，這個問題發生的機率很高，通常引起這個問題的原因主要是系統突然斷電，引起文件系統結構不一致，一般情況下，解決此問題的方法是采用 fsck 命令，進行強制修復。

# umount /dev/sda6

# fsck.ext3 -y /dev/sda6

問題 2：“Argument list too long” 錯誤與解決方法

# crontab -e

編輯完后保存退出后，報錯 no space left on device

根據上面的報錯了解到是磁盤空間滿了，那么首先是檢查磁盤空間，

# df -h

查看到是 / var 磁盤分區空間已經達到 100%，至此定位了問題所在。是 / var 磁盤空間飽滿導致，因為 crontab 會在保存時將文件信息寫到 / var 目錄下面，然而這個磁盤沒有空間了，所以報錯。

接著通過命令 du –sh * 命令檢查 / var 目錄下面的所有文件或者目錄的大小，發現 / var/spool/clientmqueue 目錄占用了 / var 整個分區大小的 90%，那么 / var/spool/clientmqueue 目錄下的文件都是怎么產生的，能否刪除，基本上都是郵件信息，可以刪除

# rm *

/bin/rm :argument list too long

當在 linux 系統中試圖傳遞太多參數給一個命令時，就會出現 “argument list too long” 錯誤，這是 linux 系統一直以來都有的限制，查看這個限制可以通過命令 “getconf ARG_MAX” 來實現，

# getconf ARG_MAX

# more /etc/issue 查看版本

解決方法：1、

# rm [a-n]* -rf

# rm [o-z]* -rf

2、使用 find 命令來刪除

# find /var/spool/clientmqueue –type f –print –exec rm –f {} ;

3、通過 shell 腳本

#/bin/bash

RM_DIR=’/var/spool/clientmqueue’

cd $RM_DIR

for I in `ls`

do

rm –f $i

done

4、重新編譯內核

需要手動增加內核中分配給命令行參數的頁數，打開 kernel source 下面的 include/linux/binfmts.h 文件，找到如下行：

#denfine MAX_ARG_PAGES 32

將 32 改為更大的值，例如 64 或者 128，然后重新編譯內核

問題 3：inode 耗盡導致應用故障

客戶的一臺 Oracle 數據庫如武器在關機重啟后，Oracle 監聽無法啟動，提示報錯 Linux error : No space left on device

從輸出信息看出來是因為磁盤耗盡導致監聽無法啟動，因為 Oracle 在啟動監聽時需要創建監聽日志文件，于是首先查看磁盤空間使用情況

# df -h

從磁盤輸出信息可知，所有的分區磁盤空間都還有剩余不少，而 Oracle 監聽寫日志的路徑在 / var 分區下，/var 下分區空間足夠。

解決思路：

既然錯誤提示語磁盤空間有關，那就深入研究關于磁盤空間的問題，在 linux 系統中對磁盤空間的占用分為三個部分：第一個是物理磁盤空間，第二個是 inode 節點所占用的磁盤空間，第三個是 linux 用來存放信號量的空間，而平時接觸較多的是物理磁盤空間。既然不是物理磁盤空間的問題，接著就檢查是否是 inode 節點耗盡的問題，通過執行命令 “df -i” 查看可用的 inode 節點。由輸出結果看出確實是因為 inode 耗盡導致無法寫入文件。

可以通過下面的命令查看某個磁盤分區 inode 的總數

# dumpe2fs -h /dev/sda3 |grep ‘Inode count’

每個 inode 都有一個號碼，操作系統用 inode 號碼來區分不同的文件，通過‘ls -i’命令可以查看文件名對應的 inode 號

如果要查看這個文件更詳細的 inode 信息，可以通過 stat 命令來實現

# stat install.log

解決問題

# find /var/spool/clientmqueue/ -name “*” -exec rm -rf {} ;

問題 4：文件已經刪除，但是空間沒有釋放的原因

運維監控系統發來通知，報告一臺服務器空間滿了，登陸服務器查看，根分區確實滿了，這里先說一下服務器的一些刪除策略，由于 linux 沒有回收站功能，所以線上服務器上所有要刪除的文件都會先移到系統 / tmp 目錄下，然后定期清除 / tmp 目錄下的數據。這個策略本身沒有什么問題，但是通過檢查發現這臺服務器的系統分區中并沒有單獨劃分 / tmp 分區，這樣 / tmp 下的數據其實占用根分區的空間，既然找到了問題，那么刪除 / tmp 目錄下一些占用空間較大的數據文件即可。

# du -sh /tmp/* | sort -nr |head -3

通過命令發現在 / tmp 目錄下有個 66G 大小的文件 access_log，這個文件應該是 apache 產生的訪問日志文件，從日志大小來看，應該是很久沒有清理的 apache 日志文件了，基本判定是這個文件導致的根空間爆滿，在確認此文件可以刪除后，執行如下刪除命令，

# rm /tmp/access_Iog

# df -h

從輸出來看，根分區空間仍然沒有釋放，這是怎么回事

一般來說不會出現刪除文件后空間不釋放的情況，但是也存在例外，比如文件進程鎖定，或者有進程一直在向這個文件寫數據，要理解這個問題，就需要知道 linux 下文件的存儲機制和存儲結構。

一個文件在文件系統中存放分為兩個部分：數據部分和指針部分，指針位于文件系統的 meta-data 中，在將數據刪除后，這個指針就從 meta-data 中清除了，而數據部分存儲在磁盤中。在將數據對應的指針從 meta-data 中清除后，文件數據部分占用的空間就可以被覆蓋并寫入新的內容，之所以出現刪除 access_log 文件后，空間還沒有釋放，就是因為 httpd 進程還在一直向這個文件寫入內容，導致雖然刪除了 access_Ilog 文件，但是由于進程鎖定，文件對應的指針部分并未從 meta-data 中清除，而由于指針并未刪除，系統內核就認為文件并未被刪除，因此通過 df 命令查詢空間并未釋放。

問題排查：

既然有了解決思路，那么接下來看看是否有進程一直在向 access_log 文件中寫入數據，這里需要用到 linux 下的 losf 命令，通過這個命令可以獲取一個仍然被應用程序占用的已刪除文件列表

# lsof | grep delete

從輸出可以看出，/tmp/access_log 文件被進程 httpd 鎖定，而 httpd 進程還一直向這個文件寫入日志數據，最后一列的‘deleted’狀態說明這個日志文件已經被刪除，但是由于進程還在一直向此文件寫入數據，因此空間并未釋放。

解決問題：

到這里問題就基本排查清楚了，解決這一類問題的方法有很多，最簡單的方法就是關閉或者重啟 httpd 進程，當然重啟操作系統也可以。不過這些并不是最好的辦法，對待這種進程不停對文件寫日志的操作，要釋放文件占用的磁盤空間，最好的方法是在線清空這個文件，具體可以通過如下命令完成:

# echo “”>/tmp/access_log

通過這種方法，磁盤空間不但可以馬上釋放，也可以保障進城繼續向文件寫入日志，這種方法經常用于在線清理 apache /tomcat/nginx 等 web 服務產生的日志文件。

問題 5："too many open files" 錯誤與解決方法

問題現象：這是一個基于 java 的 web 應用系統，在后臺添加數據時提示無法添加，于是登陸服務器查看 tomcat 日志，發現如下異常信息，java.io.IOException: Too many open files

通過這個報錯信息，基本判斷是系統可以用的文件描述符不夠了，由于 tomcat 服務室系統 www 用戶啟動的，于是以 www 用戶登陸系統，通過 ulimit –n 命令查看系統可以打開最大文件描述符的數量，輸出如下：

$ ulimit -n

65535

可以看到這臺服務器設置的最大可以打開的文件描述符已經是 65535 了，這么大的值應該夠用了，但是為什么提示這樣的錯誤呢

解決思路，這個案例涉及 ulimit 命令的使用

在使用 ulimit 時，有以下幾種使用方法：

1、在用戶環境變量中加入

如果用戶使用的是 bash，那么可以在用戶目錄的環境變量文件. bashrc 或者. bash_profile 中加入 “ulimit –u128” 來限制用戶最多可以使用 128 個進程

2、在應用程序的啟動腳本中加入

如果應用程序是 tomcat，那么可以再 tomcat 的啟動腳本 startup.sh 中加入‘ulimit -n 65535’來限制用戶最多可以使用 65535 個文件描述符

3、直接在 shell 命令終端執行 ulimit 命令

這種方法的資源限制僅僅在執行命令的終端生效，在退出或者和關閉終端后，設置失效，并且這個設置不影響其他 shell 終端

解決問題：

在了解 ulimit 知識后，接著上面的案例，既然 ulimit 設置沒有問題，那么一定是設置沒有生效導致的，接下來檢查下啟動 tomcat 的 www 用戶環境變量是否添加 ulimit 限制，檢查后發現，www 用戶并無 ulimit 限制。于是繼續檢查 tomcat 啟動腳本 startup.sh 文件是否添加了 ulimit 限制，檢查后發現也沒有添加。最后考略是否將限制加到了 limits.conf 文件中，于是檢查 limits.conf 文件，操作如下

# cat /etc/security/limits.conf | grep www

www soft nofile 65535

www hard nofile 65535

從輸出可知，ulimit 限制加在 limits.conf 文件中，既然限制已經添加了，配置也沒有什么錯，為何還會報錯，經過思考，判斷只有一種可能，那就是 tomcat 的啟動時間早于 ulimit 資源限制的添加時間，于是首先查看下 tomcat 啟動時間，操作如下

# uptime

Up 283 days

# pgrep -f tomcat

4667

# ps -eo pid,lstart,etime|grep 4667

4667 Sat Jul 6 09;33:39 2013 77-05:26:02

從輸出可以看出，這臺服務器已經有 283 沒有重啟了，而 tomcat 是在 2013 年 7 月 6 日 9 點啟動的，啟動了將近 77 天，接著繼續看看 limits.conf 文件的修改時間，

# stat /etc/security/limits.conf

通過 stat 命令清除的看到，limits.conf 文件最后的修改時間是 2013 年 7 月 12，晚于 tomcat 啟動時間，清楚問題后，解決問題的方法很簡單，重啟一下 tomcat 就可以了。

問題 6：Read-only file system 錯誤與解決方法

解析：出現這個問題的原因有很多種，可能是文件系統數據塊出現不一致導致的，也可能是磁盤故障造成的，主流 ext3/ext4 文件系統都有很強的自我修復機制，對于簡單的錯誤，文件系統一般都可以自行修復，當遇到致命錯誤無法修復的時候，文件系統為了保證數據一致性和安全，會暫時屏蔽文件系統的寫操作，講文件系統變為只讀，今兒出現了上面的 “read-only file system” 現象。

手工修復文件系統錯誤的命令式 fsck，在修復文件系統前，最好卸載文件系統所在的磁盤分區

# umount /www/data

Umount : /www/data: device is busy

提示無法卸載，可能是這個磁盤中還有文件對應的進程在運行，檢查如下：

# fuser -m /dev/sdb1

/dev/sdb1: 8800

接著檢查一下 8800 端口對應的什么進程，

# ps -ef |grep 8800

檢查后發現時 apache 沒有關閉，停止 apache

# /usr/local/apache2/bin/apachectl stop

# umount /www/data

# fsck -V -a /dev/sdb1

# mount /dev/sdb1 /www/data

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Linux

Linux

+關注

關注
87

文章
11022

瀏覽量
207047

原文標題：6 個 Linux 運維典型問題，大牛的分析解決思路在這里

文章出處：【微信號：LinuxHub，微信公眾號：Linux愛好者】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

【上?！扛呒?b class='flag-5'>運維工程師

運維工具優先考慮；5.熟悉XenKVMOpenStack等虛擬化技術優先考慮；6.熟悉LB產品者更佳；7.熟悉CactiNagios等開源監控工具；8.熟悉

發表于 07-13 15:38

運維人員如何學習python編程？

運維人員如何學習python編程？從不會寫代碼，到自己獨立能寫代碼解決問題。這個問題很重要！盲目學習所謂的項目，最后還是不會自己寫代碼解決問題。首先解決了獨立能寫代碼解決問題，再通過項目來加強訓練

發表于 09-01 11:01

老男孩Linux運維培訓教程

`　　繼《跟老男孩學習Linux運維:Web集群實戰》和《跟老男孩學習Linux運維:Shell

發表于 12-15 15:16

為何運維人員要學Python？

，當你做出一套運維自動化系統的時候，你的價值將得到顯現，那么運維人員如何學好Python呢?今天只談學習方法，不談知識。1、學習編程不止是學習語法，需要學習算法(計算思維、解決問題的方

發表于 02-02 18:55

linux運維命令大全

Linux高端運維學習需要掌握大量的命令及相關工具，通讀bash man page、掌握VIM使用、了解SSH是Linux高端運

發表于 03-15 16:36

ECS主動運維2.0，體驗升級，事半功倍

摘要：阿里云致力于提供更好用的運維體驗，讓您使用ECS的過程更透明、高效，并實現更加標準化、自動化的運維方式?；谥鲃?b class='flag-5'>運

發表于 04-20 16:37

學習Linux運維發展方向

　現下Linux應用廣泛，從桌面到服務器，從操作系統到企業應用，Linux像雨后春筍般迅速成長，Linux人才需求持續升溫。其中Linux系統運

發表于 07-25 17:15

（轉）6 個 Linux 運維典型問題，大牛的分析解決思路在這里

隨之解決了。結合上面介紹的 Linux 運維問題的解決思路后，下面我們挑選了6個比較

發表于 08-13 14:10

Linux運維都要會哪些shell技能

。兩者之間，shell幾乎是IT企業必須使用的運維自動化編程語言，特別是在運維工作中的服務監控、業務快速部署、服務啟動停止、數據備份及處理、日制分析

發表于 11-30 17:38

2019年Linux運維工程師的高薪出路在哪？

早在2015年國家就提出了“供給側”改革思想，簡言之，就是告訴企業里的Linux運維工程師要從以往平時人肉部署各種業務環境，處理各種故障(負載高、CPU高、服務宕機、被攻擊)，每天火燒

發表于 01-17 14:52

2019年Linux運維工程師的高薪出路在哪

早在2015年國家就提出了“供給側”改革思想，簡言之，就是告訴企業里的Linux運維工程師要從以往平時人肉部署各種業務環境，處理各種故障(負載高、CPU高、服務宕機、被攻擊)，每天火燒

發表于 01-28 18:02

linux運維階段職位說明

linux運維發展路線規劃

發表于 05-07 16:36

linux運維中的路由操作全面概述

在日常運維作業中，經常會碰到路由表的操作。下面就linux運維中的路由操作做一梳理：

發表于 07-09 08:41

AliOS Things 維測典型案例分析 —— 內存泄漏

維測典型案例分析1 —— 內存泄漏在系統運行的過程中，內存泄漏是較為常見但是很難復現的現象，一般的內存泄漏點都是比較隱蔽的，每次幾十個字節的泄漏，往往需要壓測很久才能復現問題。本節案例

發表于 10-17 11:29

linux運維怎么排查

linux運維排查常用命令（開發專享）

發表于 11-11 06:34

Linux愛好者
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot ACL是什么?ACL有什么用?
Hot 了解在Linux 服務器絕對不能用的命令

New 什么是網絡延遲？如何測量延遲？
New 關于DPDK的一些常見問題

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
49分鐘前

142 閱讀

如何移植FFmpeg

ElfBoard
2天前

441 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

581 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

624 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

758 閱讀

海信TC2517彩電圖紙

費加羅
3 MB

免費

363下載

光纖通信導論-光纖激光器

1053526151
898 KB

免費

0下載

zatree zabbix擴展插件

楊杰
22.14 MB

免費

0下載

JetpackMvvm WanAndroid網站App實現

siyugege
6.90 MB

免費

1下載

具有使能功能的 5V 超高耐壓線性穩壓器演示板NCP781BMN050TAGEVB數據手冊

327.51 KB

免費

0下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
2天前

588 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
2天前

280 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
2天前

772 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
3天前

802 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
3天前

1276 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看