<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TECS資源池上報BFD會話DOWN和網絡流量異常告警的問題處理

中興文檔 ? 來源:中興文檔 ? 2023-06-07 09:49 ? 次閱讀

某資源池TECS上報BFD會話DOWN告警和網絡流量異常告警,持續時間1秒至6分鐘不等,如下圖所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同時,業務側反饋,該資源池ISBG業務網元產生指標下降等異常情況,但已快速恢復。

物理節點上的虛擬機都通過業務面網卡和節點外部通信。當流量異常時,業務網卡上會出現很多丟棄包。

系統周期性采樣網卡所有收發包總數和丟棄包總數,當丟棄包占比數連續多次超過門限時,則上報告警;當連續幾個采樣周期的丟棄包占比數低于門限,則恢復告警。

虛擬網絡上出現較重負荷,造成報文丟棄率超過給定閾值。短暫的指標下降異常情況可能和資源相關,例如CPU、內存、網絡資源不足,或者硬盤的IO讀寫過低導致延遲。

問題分析過程如下:

1.觀察到異常情況后,對告警內容展開分析。執行dvs show-dpifstats命令,找到對應端口,查看overrun和drop統計項是否在增加。

2.觀察到計算服務器NFV-D-XXX-SRV-15業務bond子接口均上報了網絡流量異常告警,分析可能是端口丟包。

3.登錄服務器查看DVS日志,端口丟包量在告警時刻出現上漲,如下圖所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登錄云平臺查看NFV-D-XXX-SRV-15承載業務,該主機承載虛機四臺,其中包含ISBG的XX-isbg-OMPIPI_2_L虛機。分析可能為DVS接收丟包影響到虛機業務。

5.分析SAR日志,確認DVS的綁定核在故障期間出現被占用的情況,時間點與網卡丟包基本一致,認定為DVS核占用導致的DVS物理網卡丟包,如下圖所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,該時間(+8)在日志中大量出現ECC內存錯誤,內存定位DIMM11,如下圖所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC錯包出現的時間點與DVS網卡丟包時間點(DVS轉發核被占用的時間點)基本重合,認定內存ECC錯誤與DVS的丟包強相關。

8.根據日志顯示報錯信息,ECC內存錯誤觸發的內存槽位為DIMM11。

1.登錄管理頁面,選擇“云平臺管理-計算-實例”,選中該臺主機上虛擬機,完成主機上虛擬機的熱遷移,如下圖所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成遷移后,選擇“云平臺管理-計算-主機”,選中這臺主機,設置維護模式,如下圖所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下電服務器完成內存更換,完成后上電,取消“設置維護模式”。

4.遷移回虛擬機,測試正常。

5.內存ECC錯誤為此次異常故障根因。內存ECC錯誤影響DVS轉發分析:

l在內存ECC錯誤故障期間,現有的BIOS配置會為每一個內存ECC錯誤產生一個SMI中斷。

如果產生ECC風暴,那么影響CPU處理性能。

SMI中斷在內核感知為NMI,不受內核控制,從硬件描述看內核是無法屏蔽此類中斷的。內存ECC默認不告警。

SMI中斷導致CPU進入SMM模式,該模式對于OS是透明的。

因此SMI中斷是硬件和固件(BIOS)共同處理的,其對于CPU處理流程的打斷,對OS而言是不可感知的,不會出現在OS的統計項里面。

只有當BIOS處理SMI后,并以SCI中斷通知OS時,OS才能感知到SCI中斷。但是BIOS是否觸發SCI中斷也不是OS所能控制的。

總之,SMI中斷對于DVS處理核的影響是硬件和固件的行為。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SAR
    SAR
    +關注

    關注

    3

    文章

    359

    瀏覽量

    45625
  • BIOS
    +關注

    關注

    5

    文章

    456

    瀏覽量

    45083
  • ECC
    ECC
    +關注

    關注

    0

    文章

    90

    瀏覽量

    20390
  • 虛擬機
    +關注

    關注

    1

    文章

    866

    瀏覽量

    27486
  • SCI
    SCI
    +關注

    關注

    1

    文章

    53

    瀏覽量

    19965

原文標題:TECS資源池上報BFD會話DOWN和網絡流量異常告警的問題處理

文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    艾體寶干貨 | 教程:使用ntopng和nProbe監控網絡流量

    本文是關于使用 ntopng 和 nProbe 監控網絡流量的教程。文章詳細介紹了如何配置和使用這兩個工具來監控和分析網絡流量。內容涉及硬件和軟件的安裝、配置端口鏡像、靜態IP地址設置、SSH服務器
    的頭像 發表于 05-29 15:35 ?118次閱讀
    艾體寶干貨 | 教程:使用ntopng和nProbe監控<b class='flag-5'>網絡流量</b>

    艾體寶產品 | Allegro網絡流量分析儀

    艾體寶產品 | Allegro網絡流量分析儀
    的頭像 發表于 04-29 08:04 ?114次閱讀
    艾體寶產品 | Allegro<b class='flag-5'>網絡流量</b>分析儀

    網絡監控工具有哪些 網絡監控用幾芯網線

    網絡監控工具有很多種,根據不同的監控目標和需求,可以選擇適合的監控工具。下面將介紹一些常見的網絡監控工具,并對其功能和特點進行詳細的介紹。 網絡流量監控工具 網絡流量監控工具可以實時監
    的頭像 發表于 01-24 10:00 ?467次閱讀

    虹科分享 | 實現網絡流量的全面訪問和可視性——Profitap和Ntop聯合解決方案

    這次和大家分享如何捕捉、分析和解讀網絡數據,從而更有效地監控網絡流量,實現網絡性能的最大化。首先來看一個實際的問題——“網速太慢”。
    的頭像 發表于 01-18 10:40 ?206次閱讀
    虹科分享 | 實現<b class='flag-5'>網絡流量</b>的全面訪問和可視性——Profitap和Ntop聯合解決方案

    網絡流量對PLC控制過程的影響測試內容

    在測試中,我們令所有的PLC在其最大性能下運行(最短循環時間)并輸出周期信號。測試以PLC正常狀況下的輸出作為參考信號,如果網絡流量對PLC的電氣輸出造成影響,則實際輸出信號相對參考信號將會產生偏移。
    發表于 12-27 14:12 ?257次閱讀
    <b class='flag-5'>網絡流量</b>對PLC控制過程的影響測試內容

    華為RIP與BFD聯動實驗

    雙向轉發檢測BFD是一種用于檢測鄰居路由之間鏈路故障的檢測機制,他通常與路由協議聯動,通過快速感知鏈路故障并通告使得路由協議能夠快速的重新收斂,從而減少由于拓撲變化導致的流量丟失。
    的頭像 發表于 10-08 16:12 ?486次閱讀
    華為RIP與<b class='flag-5'>BFD</b>聯動實驗

    資源池虛擬機時鐘跳變異常的問題處理

    資源池在運行過程中一臺虛擬機出現業務異常,通過查看日志和異常記錄,判斷為虛擬機發生時鐘跳變問題,如下圖所示。
    的頭像 發表于 09-20 11:08 ?657次閱讀
    <b class='flag-5'>資源</b>池虛擬機時鐘跳變<b class='flag-5'>異常</b>的問題<b class='flag-5'>處理</b>

    資源池后端存儲服務狀態異常的問題處理

    故障現象某資源池在巡檢過程中檢查服務狀態,其中云盤后端的服務狀態為down,如下圖所示,影響虛擬機云盤的生命周期管理操作。
    的頭像 發表于 09-20 11:06 ?408次閱讀
    <b class='flag-5'>資源</b>池后端存儲服務狀態<b class='flag-5'>異常</b>的問題<b class='flag-5'>處理</b>

    服務器nova-compute down告警的問題處理

    某運營商Provider界面有服務器nova-compute down告警,如下圖所示。
    的頭像 發表于 09-20 11:02 ?850次閱讀
    服務器nova-compute <b class='flag-5'>down</b><b class='flag-5'>告警</b>的問題<b class='flag-5'>處理</b>

    如何通過ntopng流量規則來監控網絡流量

    讓我們假設您有一個網絡,其中本地主機生成恒定數量的流量。你如何發現他們是否行為錯誤?碰巧,一些本地主機行為開始異常,與它們之前相比,有一個異常流量
    的頭像 發表于 08-07 11:46 ?401次閱讀
    如何通過ntopng<b class='flag-5'>流量</b>規則來監控<b class='flag-5'>網絡流量</b>

    用戶語音業務異常的問題處理

    用戶反饋在語音呼叫中出現VoLTE會話呼叫異常,出現掉落2G現象。
    的頭像 發表于 07-15 09:42 ?633次閱讀
    用戶語音業務<b class='flag-5'>異常</b>的問題<b class='flag-5'>處理</b>

    網絡監控系統有哪些 網絡監控需要哪些設備

    入侵檢測系統(Intrusion Detection System,IDS):IDS可以檢測并警報網絡中的異常行為或攻擊嘗試。它監視網絡流量和系統日志,通過識別已知的攻擊模式或異常行為
    發表于 07-04 15:39 ?3034次閱讀

    TECS資源池SSH控制節點虛機提示connection refused的問題處理

    某局點現場TECS控制節點的TECSClient平面使用雙棧配置,同時使用IPv4和IPv6。
    的頭像 發表于 06-07 09:47 ?504次閱讀
    <b class='flag-5'>TECS</b><b class='flag-5'>資源</b>池SSH控制節點虛機提示connection refused的問題<b class='flag-5'>處理</b>

    TECS資源池上報存儲設備離線的問題處理

    資源池在運行過程中出現存儲設備離線告警,通過底層cinder service-list命令查看,確認存儲state為down狀態。
    的頭像 發表于 06-07 09:44 ?462次閱讀
    <b class='flag-5'>TECS</b><b class='flag-5'>資源</b><b class='flag-5'>池上報</b>存儲設備離線的問題<b class='flag-5'>處理</b>

    TECS資源池上報網絡流程異常告警的問題處理

    資源TECS上報網絡流程異常告警,告警單次持續1
    的頭像 發表于 06-07 09:41 ?590次閱讀
    <b class='flag-5'>TECS</b><b class='flag-5'>資源</b><b class='flag-5'>池上報</b><b class='flag-5'>網絡</b>流程<b class='flag-5'>異常</b><b class='flag-5'>告警</b>的問題<b class='flag-5'>處理</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>