<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

香山處理器“南湖”DFT設計范例

全棧芯片工程師 ? 來源:香山開源處理器 ? 作者:何志恒 ? 2022-12-14 10:51 ? 次閱讀

香山處理器的第二代微架構,南湖微架構,引入了L3 Cache,可配置多核形態,我們完成流片的是雙核版本的南湖。較第一代雁棲湖,設計規模在大幅膨脹,主頻也從1.3GHz提升到2GHz。規?;髮FT設計及物理實現都造成新的挑戰,我們的設計方法學也需要與時俱進。

同時南湖微架構的產品化改造(南湖V2),我們以工業級產品的要求對南湖微架構進行更加細致的驗證與優化。產品化改造中核心是PPA(Performance『性能』、Power『功耗』、Area『面積』),我們在實現更高性能、更低功耗、更小面積上不斷地尋求最佳路徑。而在定位量產的產品化改造中,DFT(Design For Test)更是一個繞不開的規格,在雁棲湖微架構上,我們已經落實了一版基本的DFT方案;在南湖V2架構上,我們基于PPA對DFT方案進行了更加細致的優化。

本文整理出“南湖”的DFT設計范例,同樣包括了生產測試規格、DFT設計規格、DFT設計數據對比及測試數據預期,給各大開發者作一個參考。

1. 生產測試規格

“南湖”是純數字電路,由時序邏輯、組合邏輯、Memory組成;設計范例考慮常規soc芯片所需要的生產測試規格,若芯片有更高的測試要求(如車規芯片),可自行增加測試規格及對應的電路開發。

09e0668c-7ac8-11ed-8abf-dac502259ad0.png

2. DFT 設計規格

“南湖”仍是采用結構化的DFT,可以通過EDA工具快速對design插入DFT電路以實現敏捷開發;“南湖”較“雁棲湖”DFT相關電路進行了精細化的調整,“南湖”包含的結構化DFT電路如表所示:

09f4633a-7ac8-11ed-8abf-dac502259ad0.png

2.1 雁棲湖和南湖的DFT電路對比

南湖相比于雁棲湖,最大的改動是MBIST調整為基于Sharedbus以減少Mbist Controller的數量,edt channel不再以pin-muxed的方式集成,而是通過SSH(Streaming Scan Hosts)對edt進行內部集成,整芯片形成一張Streaming Scan Network,以下兩圖展示兩代DFT電路架構的差異:

0a112164-7ac8-11ed-8abf-dac502259ad0.png

圖1 雁棲湖的DFT電路架構

0a2560a2-7ac8-11ed-8abf-dac502259ad0.png

圖2 南湖的DFT電路架構

南湖因SSN規格的引入,DFT端口較雁棲湖相比也進行了優化。不變的是南湖還是會通過基于IEEE1687協議的IJTAG配置網絡對MBIST、EDT、OCC以及其他DFT的靜態信號進行控制。dft_se/edt_update由SSH(Streaming Scan Hosts)本地化生成,edt channel成為了內部連接信號,因此調整edt壓縮比導致的edt channel數發生變化以及增加減少edt數量均不再影響模塊端口,我們稱其為Real Hierarchical Design。

雁棲湖和南湖的DFT新增端口差異如下表所示:

0a4cd736-7ac8-11ed-8abf-dac502259ad0.png

2.2 DFT設計流程

“南湖”微結構設計是基于chisel語言開發,Chisel作為一種全新的高級硬件描述語言,相關的工具鏈生態還比較薄弱;因此Chisel支持編譯成RTL以兼容傳統的芯片開發流程包括綜合、DFT設計以及基于UVM框架的驗證等等。

Chisel由編譯器編譯出來的RTL,自然也非常利于工具解析,規避掉很多語法識別問題,這個可以更好地支持DFT RTL Flow;MBIST等邏輯在rtl flow進行,大部分情況下可獲得更好的PPA指標。設計范例中選取了與綜合工具配套的SCAN工具,可以在綜合環境當中完成Scan Insert,以應對帶物理信息的綜合流程。而業界當中也有很多設計采用DFT Gate Flow,這也是完全沒有問題,下圖為大致的DFT設計流程示意圖:

0a725556-7ac8-11ed-8abf-dac502259ad0.png

圖3 DFT設計流程

3. DFT 的集成與設計

從“南湖”開始,我們在代碼設計中加入了一些DFT相關接口,便于開發者實現更加具有競爭力的DFT方案。其中DFT相關接口包括ATPG測試相關接口以及MBIST測試相關接口。

開發者在基于南湖微架構實現DFT方案的時候,需要清晰地知道相關接口的集成方式,以便保證具體DFT設計的正確性且能達到預期覆蓋。

3.1 時鐘樹設計及測試時鐘

隨著處理器主頻不斷提高,邏輯規模不斷地增大,時鐘網絡的分布也越來越大、規模不斷增加,由此帶來芯片時序收斂及功耗優化的壓力凸顯?!澳虾钡臅r鐘樹設計上,采取了H-Tree的時鐘樹設計,來降低芯片時鐘網絡功耗并克服巨大時鐘網絡分布受片上工藝偏差(OCV,On Chip Variation)影響而帶來的時鐘偏斜(clock skew),從而加速設計時序收斂。

0a837ffc-7ac8-11ed-8abf-dac502259ad0.png

圖4 南湖的時鐘樹設計

DFT的時鐘網絡設計上也進行了修改,一方面來應對H-Tree的時鐘樹網絡,另一方面是適配新引入的SSN規格:

0a9919de-7ac8-11ed-8abf-dac502259ad0.png

圖5 南湖的DFT時鐘網絡設計

其中CLK_COPY_GEN與H-Tree末端TAP點、與OCC的連接關系如下圖所示:

0aa8f2a0-7ac8-11ed-8abf-dac502259ad0.png

圖6 CLK_COPY_GEN的電路連接關系

“南湖”主時鐘頻率為2GHz,ssn_bus_clk頻率設定為200MHz,EDT及模塊寄存器shift頻率設定為100MHz。

3.2 復位的DFT可控處理

南湖采用異步復位、同步撤離的復位電路結構,功能模式僅在低頻時鐘下進行復位撤離。復位模塊在代碼設計中加入以下DFT可控電路,以便于復位操作及滿足SCAN DRC。后續功能模式將支持高頻復位及撤離,復位dft可控電路結構也會持續演進。

0ab7e634-7ac8-11ed-8abf-dac502259ad0.png

圖7 復位的DFT可控處理

其中dft_mode、scan_mode由IJTAG集成,dft_lgc_rst_n復位信號加入了測試點處理,以滿足pattern retarget的規格實現。

3.3 ATPG接口信號處理

考慮到ATPG測試的一些需求,南湖微架構設計中加入與ATPG測試相關的DFT接口。

以下為ATPG DFT信號列表:

0aca2a4c-7ac8-11ed-8abf-dac502259ad0.png

dft_mode/scan_mode/dft_lgc_rst_n

參考南湖復位的DFT可控處理

dftcgen/dft_mcp_hold/dft_l3dataram_clk/dft_l3dataramclk_bypass

0b297d8a-7ac8-11ed-8abf-dac502259ad0.png

圖8 L3 Dataram的時鐘門控處理

南湖微架構在L3 dataram時鐘上進行了分頻門控處理,代碼設計上對該結構也進行了DFT可控處理。

dftcgen連接的是集成門控的TE端,該信號在scan shift階段保證有效,scan capture階段由測試點控制打開/關閉,可有效測試門控本身及支持stuck-at ATPG的ram sequential向量生成。

dft_mcp_hold可以強制關閉門控以在at-speed ATPG的時候阻止multicycle paths帶來的X-pollution。

若STA約束對L3 Dataram的輸入設置hold multicycle,設計范例將dft_l3dataram_clk掛載在低頻的OCC上,利用兩個OCC之間的hold multicycle來實現L3 Dataram的stuck-at ram sequential向量生成。

dft_ram_hold/dft_ram_bypass/dft_ram_bp_clken

南湖微架構采用基于sharedbus的MBIST設計方法,EDA生成的Mbist Controller和sharedbus接口對接,不再對Memory周邊插入MBIST及支持ram sequential的電路處理。因此南湖微架構設計中進行了支持ram sequential的信號處理,有3個dft信號dft_ram_hold/dft_ram_bypass/dft_ram_bp_clken送到sram_array上。

我們約定在sram_array模塊中讓用戶例化真實SRAM。在例化真實SRAM的時候可以參照以下電路自行加入相關DFT可控邏輯,其中mbist_selectOH(~dft_ram_hold)在sram_array中對sram的片選鉗位處理是必須的,保證scan shift的時候RAM處于片選無效,而ram bypass logic則是可選。ram bypass logic的加入可以進一步提高memory shadow logic的覆蓋率,但也對memory周邊時序產生負影響,用戶可以根據產品的測試需求來權衡。設計范例中對sram_array均加入ram bypass logic處理。

0b3d4cb6-7ac8-11ed-8abf-dac502259ad0.png

圖9 sram_array的DFT處理

3.4 MBIST集成與設計

基于南湖微架構中的Cache結構,結合對Memory測試定位便利性及測試時間的均衡,sharedbus對CPU整系統的MBIST總線劃分如下:

0b512e3e-7ac8-11ed-8abf-dac502259ad0.png

圖10 南湖MBIST總線劃分

Mbist總線接口具體層次如下列表所示:

0b64a0fe-7ac8-11ed-8abf-dac502259ad0.png

MBIST總線(綠色部分)在南湖微架構代碼中落實

MBIST Controller(藍色部分)通過EDA工具插入與MBIST總線對接

DFT設計范例基于雙核版本的南湖微架構,共設計了8組MBIST總線,對應8個MBIST Controller,相比于雁棲湖,MBIST Controller大幅減少。

3.4.1 Sharedbus相關文件配套

Sharedbus相關文件配套包含描述MBIST總線接口到Memory映射關系的csv格式文件;該文件可以直接文本打開或者通過excel打開:

MBIST_L1.csvMBIST_L2.csvMBIST_L3S0.csvMBIST_L3S1.csvMBIST_L3S2.csv

MBIST_L3S3.csv

Sharedbus相關文件配套也提供了轉換腳本通過csv文件轉換成主流EDA工具的MBIST輸入件,以實現MBIST設計流程的高度自動化:

MbistIntfTcdGen.py –csv MBIST_L1.csvMbistIntfBuscfgGen.py –csv MBIST_L1.csv

3.4.2 L3 Dataram的讀寫Latency

南湖L3 cache 中的BankData RAM/DataEcc RAM工作在分頻時鐘下,Mbist測試模式通過mbist_readen/mbist_writeen進行門控控制,電路結構如下:

0b297d8a-7ac8-11ed-8abf-dac502259ad0.png

圖11 L3 Dataram的時鐘門控處理

MBIST Controller對mbist_readen/mbist_writeen進行隔拍發送。L3 Dataram的MBIST讀寫時序如下圖波形所示:

0ba7df04-7ac8-11ed-8abf-dac502259ad0.png

圖12 二分頻的sharedbus讀寫時序

從MBIST Controller發起讀使能開始,控制器需要過多少拍之后才去采集有效的mbist_outdata,這里涉及到Read Total Cycles的計算。下圖展示了Read Total Cycles的構成:

0bdc5acc-7ac8-11ed-8abf-dac502259ad0.png

圖13 Read Total Cycles計算

3.4.3 超大寬度Logical Memory的mbist_selectOH處理

sharedbus總線為了控制面積,mbist_data寬度最高限制在256,不過設計當中有一些Logical Memory的數據寬度超過了256(如PTW_L3_RAM寬度達到1380);在sharedbus設計對這類Logical Memory進行拆分,使用mbist_selectOH信號進行Mbistarray區分;sharedbus設計中有以下電路將mbist_selectOH信號送到sram_array上:

0bfbd096-7ac8-11ed-8abf-dac502259ad0.png

圖14 超大寬度Logical Memory的mbist_selectOH處理

mbist_selectOH功能模式下默認值為全1。

在sram_array中是實例化SRAM同時,使用mbist_selectOH對Memory寫使能/片選進行與門鉗位。

mbist_selectOH信號也被復用為(~dft_ram_hold)

3.4.4 Memory Repair

設計范例中L3 Slice中的BankData RAM和DataEcc RAM均使能了Redundancy,DFT對存在Redundancy的SRAM進行MBISR(Memory Built-In Self-Repair)電路設計以謀求在量產測試中提高芯片良率。EDA工具可以在Sharedbus架構下自動完成MBISR相關的電路生成。MBISR在整芯片的集成架構如下圖所示:

0c17d5de-7ac8-11ed-8abf-dac502259ad0.png

圖15 整芯片MBISR集成架構

3.4.5 MBIST設計數據

Cache Size及MBIST規格數據對比:

0c3d2316-7ac8-11ed-8abf-dac502259ad0.png

0c5e51da-7ac8-11ed-8abf-dac502259ad0.png

圖16 雁棲湖與南湖面積增長對比

如上圖雁棲湖與南湖面積增長對比,公平起見,南湖Pre DFT不包含sharedbus邏輯,Post DFT均為實現完全DFT規格后的綜合面積(包括ijtag、mbist、occ、edt、scan replacement、scan stitching的面積增長),其中南湖Post DFT還包括SSN相關電路。

雁棲湖與南湖XSTile的Instances規模相當,兩者面積進行對比

DFT面積增長從21.3%優化到12.7%受益于工藝制程,整體面積降46.6%

對比XSTile與XSTop,Cache Size越大,Sharedbus架構收益更明顯

由于Sharedbus架構,組內memory串行測試帶來測試時間增長,但MBIST測試時間并不是測試時間占比大頭,這部分后續通過ATPG向量優化把整體測試時間降下來。

3.5 集成與設計

采用全掃描電路,南湖采取層次化的設計,XSTile與XSTop分別插入掃描鏈。

不同scan chain長度盡量保持平衡

為了方便timing收斂,一條scan chain上只對應同一個功能時鐘域,鏈尾統一加上LOCKUP

Scan shift頻率從雁棲湖的48MHz提升到100MHz

shift_capture_clock為ssn_bus_clk的generate clock,scan enable由SSH本地化生成

模塊使能wrapper chain,加入wrapper cell原則為share first,reuse_threshold閾值設置為20

模塊wrapper cell統計,物理實現需關注被加入Dedicate Wrapper Cell的功能接口時序:

0cae7066-7ac8-11ed-8abf-dac502259ad0.png

時鐘、dft相關端口不加入wrapper cell

3.6 集成與設計

南湖整體的EDT/SSH的集成框架如下圖所示:

0cbf5e8a-7ac8-11ed-8abf-dac502259ad0.png

圖17 南湖EDT/SSH集成框架

針對XSTile的輸出SSN DataPath進行bypass處理應對XSTile掉電隔離

SSN DataPath在模塊接口均加入Pipeline

使能On-chip Compare

XSTop/XSTile的SSH Nodes加入On-chip Compare電路便于Partical good die的測試分bin及indentical cores(XSTile)的測試向量優化;edt output channel影響Expect/Mask的數據量,edt output channel需盡量少。

SSH工作頻率為200MHz,由外部時鐘ssn_bus_clk輸入,EDT工作頻率為100MHz

edt_update由SSH本地化生成,edt_clk為ssn_bus_clk的generate clock,SSH中使用stdcell庫提供的clock shaper cell便于簡化時鐘約束及CTS時鐘處理。

0cf33660-7ac8-11ed-8abf-dac502259ad0.png

圖18 clock shaper cell的電路結構

Clock shaper cell由兩個latch以及一個mux組成,可以很好地實現分頻時鐘的生成以及保證時鐘占空比:

0d0b5f42-7ac8-11ed-8abf-dac502259ad0.png

圖19 clock shaper cell的電路時序

每一個block設計兩個EDT,1個SSH

普通scan chain、reserved chain壓縮到int edt當中occ chain、gt_se_chain、sti chain、wrp chain壓縮到wrp edt當中,同時壓縮到int edt當中模塊edt chain/channel設置,SSH 的bus_width設置:

0d1d7f56-7ac8-11ed-8abf-dac502259ad0.png

對EDT的Compactor進行打拍,避免組合邏輯深度過深

兩個EDT的channel均集成到SSH當中

EDT使能lowpowershift,min_switching_threshold_percentage設置為15(翻轉率)

3.7 Streaming Through IJTAG

LPCT(Low Pin Count Test)是增強板級定位的測試手段,同時也可以服務于芯片的裝備測試。Low Pin Count Test顧名思義是用極少的管腳數量完成芯片的測試,常見于通過IEEE 1149.1協議的JTAG接口完成LPCT,因為功能模式和DFT模式都會使用JTAG接口,可以很好地復用。使用pin-muxed集成edt的方式,需要額外地加入LPCT Controller及相關連接才能實現LPCT,通過SSN的方式集成edt,其架構本身則利于LPCT的實現,在SSH內部IJTAG接口可輕松地對bus_clk/bus_data完成接管,我們稱之為Streaming through IJTAG,結構如下圖所示:

0d3b9dc4-7ac8-11ed-8abf-dac502259ad0.png

圖20 Streaming Through IJTAG

Scan data通過TDI、TDO移進/移出,shift_capture clock通過TCK實現

借助于現有的IJTAG網絡,完成TAP到ScanHost nodes的scan data傳遞

OCC需要支持inject tck

支持internal 及external capture

支持測試所有的ATPG fault models

模塊正常生成的Retargetable Pattern可以重定向成LPCT的測試Pattern

支持同時測試所有的ScanHost nodes

3.8 設計數據

靈活的Pattern Retarget粒度

設計中通過合理分配OCC、SSH、EDT、Wrapper Chain所插入的位置,以實現XSTile、XSTop獨立的Retargetable Pattern生成,或者以XSTop flatten為粒度進行Retargetable Pattern生成

ATPG Data Pin-muxed vs SSN

在進行基于SSN的ATPG設計數據收集同時,我們對pin-muxed集成方式進行對比。在pin-muxed集成方式下,edt的input channel與output channel保持和SSN一致,XSTile的edt input channel采用信號廣播的方式進行集成。Pin-muxed/SSN的集成方式下,SCAN所占端口資源對比:

0d5160a0-7ac8-11ed-8abf-dac502259ad0.png

Pin-muxed/SSN的ATPG覆蓋率及向量數對比:

0d69a228-7ac8-11ed-8abf-dac502259ad0.png

覆蓋率具體情況:

unwrapped模式下的Stuck-at向量對比:

0d818172-7ac8-11ed-8abf-dac502259ad0.png

圖21 unwrapped模式下的Stuck-at向量

unwrapped模式的Transition向量對比:

0d9e7f7a-7ac8-11ed-8abf-dac502259ad0.png

圖22 unwrapped模式下的Transition向量

對于XSTop Only在edt channel明顯少于SSN bus的寬度情況下,在向量數上有明顯的優化;對于XSTop Only以及XSTop Flatten的SSN ATPG Generation,共啟動了3個SSH Nodes,各SSH Nodes間的Capture會對齊,從ATPG數據上看UC+UO的比例稍微比Pin-muxed的ATPG多一點點,但整體差異并不大。

基于SSN的ATPG向量機制

SSN Bus如同一個管道,SSH如同開關閥門,Scan data如同管道中的水流向每一個模塊當中。管道帶寬Bandwidth=Bus Width*Bus Frequency,在IO資源(Bus Width)有限的情況下,通過提升Bus Frequency來增加管道帶寬。因此南湖當中SSN bus設定為200MHz。SSN Bus的邏輯和時鐘均與功能邏輯解耦,placement和cts均可DFT自己控制,200MHz的時序收斂相對來說風險可控。

0db55ccc-7ac8-11ed-8abf-dac502259ad0.png

圖23 SSN Bus Bandwidth

SSN bus當中的Scan data,有區別于傳統ATPG的普通激勵,其格式為Packet-based,普通的Packet Format中帶有模塊標記,以便于對應模塊的SSH將Packet payload卸載到EDT當中,具體格式如下所示:

Packet Format:I,其中I表示ScanIn

普通的Packet Format常用于測試non-identical core,下圖展示Packet-based數據如何通過SSN bus送到對應的EDT當中:

0ddd207c-7ac8-11ed-8abf-dac502259ad0.png

圖24 Normal SSN Packet Formats

當我們使用On-chip Compare模式測試identical cores的時候,Packet Format會發生變化,如下圖所示,例子中為6個identical cores,status groups分為a、b兩個group,Packet data中除了ScanIn之外,還有Expect、Mask 、Status,因此Packet Format中input time slots有I、E、M這幾個labels,output time slots有status groups的labels。

0e4335e2-7ac8-11ed-8abf-dac502259ad0.png

圖25 SSN Packet Formats When Using On-chip Compare

基于SSN的ATPG向量收益

SSN較傳統Pin-muxed的集成架構上發生了比較大的變化,且SSH增加了電路面積,這塊的代價肯定希望可以換來收益的。傳統的Pin-muxed集成方式下,scan enable為全局信號,因此在ATPG向量上各模塊的capture必須對齊,shift cycle比較少的模塊需要加入Padding cycle補齊。

0e682f5a-7ac8-11ed-8abf-dac502259ad0.png

圖26 Pin-muxed Retargeting with aligned capture

在SSN集成方式下,scan enable為SSH本地生成,wrapper cores在retargeting的時候可以獨立shift/capture。值得注意的是,在IDDQ向量以及多個SSH Nodes一起ATPG Generation的時候,多個SSH Nodes之間的Capture還是會對齊。

0e7bbc78-7ac8-11ed-8abf-dac502259ad0.png

圖27 SSN Retargeting with independent shift/capture

獨立shift/capture帶來幾個好處:一個可以減少wrapper cores間因shift cycle不一致而導致產生的padding cycle,在SSN Retargeting的時候可以靈活地進行Bandwidth tuning;另外一個是錯開capture時刻點可以降低capture的峰值功耗,從而減輕IR drop。傳統Pin-muxed集成方式所完成的ATPG,測試時間容易因為某個模塊的Test cycle特別多而成為瓶頸,實際上造成了帶寬的浪費;下圖展示通過SSN Retargeting的Bandwidth tuning,可有效降低整體測試時間。

0ebba4fa-7ac8-11ed-8abf-dac502259ad0.png

圖28 Traditional hierarchical ATPG retargeting

0eccd9a0-7ac8-11ed-8abf-dac502259ad0.png

圖29 Bandwidth tuning during SSN retargeting

而對于設計中存在多個identical cores,SSN Bandwidth tuning的作用有限,此時我們可以通過on-chip Compare來減少測試時間。盡管indentical core(XSTile)的SSN DataPath是串接起來的,在On-chip Compare模式下也可以將同一份Scan data廣播到每一個indentical core,數據比對通過identical cores中的sticky bit本地完成。

0edcdc6a-7ac8-11ed-8abf-dac502259ad0.png

圖30 non-identical cores SSN ATPG Test

0eea9ff8-7ac8-11ed-8abf-dac502259ad0.png

圖31 identical cores Test in On-chip Compare Mode

但由于On-chip Compare的ATPG向量方式和普通ATPG向量不太一樣,診斷流程也有所差別,是否可直接診斷受test_setup當中的on_chip_compare_contribution以及status group的分組影響,在向量開發的時候需要額外注意。

4. 眾核香山處理器Pin_muxed vs SSN

從上一章節的SSN ATPG向量收益來看,SSN的優勢更多地發揮在整芯片集成上;為了進一步地比對,本章節構造了一個眾核版本的香山處理器,從整芯片集成的角度去分析兩個技術上的差異。眾核香山處理器基于雙核南湖微架構作為CLUSTER,由8個CLUSTER組成tile-base design,65個可供SCAN復用的GPIO,IO最高測試速率100MHz,分別用Pin-muxed和SSN方式完成SCAN集成。

4.1 Pin-muxed集成

受限于IO資源,Pin-muxed的集成不能支持所有CLUSTER同時進行測試,IO復用我們設置3個reuse group,其中將8個CLUSTER的intest,分兩次進行測試,reuse group如下表所示:

0f01df2e-7ac8-11ed-8abf-dac502259ad0.png

Pin-muxed的集成示意圖如下圖所示(受限于篇幅,圖中沒有畫出XSTile):

0f2d29d6-7ac8-11ed-8abf-dac502259ad0.png

圖32 眾核香山處理器的Pin-muxed集成

4.2 SSN集成

南湖微架構當中的SSN bus為200MHz,而IO最高測試速率為100MHz。針對此,我們在同等帶寬下,對Bus Width和Bus Frequency進行互換。在SSN Bus的輸入,我們利用BusFrequencyMultiplier將32 Bus Width*100MHz轉換成16 Bus Width*200MHz;又在SSN Bus的輸出,利用BusFrequencyDivider將16 Bus Width*200MHz轉換成32Bus Width*100MHz。加上ssn_bus_clk,SCAN的IO復用也是65個?;赟SN的集成方式,可以對所有的CLUSTER同時進行測試。ssn的集成方式如下圖所示(受限于篇幅,圖中沒有畫出XSTile):

0f3fa3cc-7ac8-11ed-8abf-dac502259ad0.png

圖33 眾核香山處理器的SSN集成

從Pin-muxed及SSN的集成方式對比可以看出,Pin-muxed的測試并行度受限于IO資源,而SSN則不受影響,具有很好的擴展性;SSN可以實現模塊間更少的信號交互,頂層集成更加地清晰。

4.3 Pin-muxed與SSN的測試時間

在測試時間上,SSN集成方式可以做得更優,這樣可以有效地降低測試成本。在此,我們選取兩種集成方式的兩個Test Group進行比較,先列出兩個Test Group的測試內容:

0f51cc6e-7ac8-11ed-8abf-dac502259ad0.png

Test Group的Stuck-at/Transition測試時間統計如下:

0f6cb196-7ac8-11ed-8abf-dac502259ad0.png

首先SSN的Retargetable Pattern可以拆得更細,提高向量開發并行度,縮短向量開發周期;在最終整體測試時間上,SSN的測試時間也僅是Pin-muxed的55.7%。

再對比于3.86Million Instances的雁棲湖stuck-at+transition需要434.4ms完成測試,而8個CLUSTER共63.2Million Instances的南湖微架構眾核香山處理器stuck-at+transition僅需要283.4ms完成測試,這是測試頻率提升及集成架構優化帶來的收益。

4.4 SSN的擴展性

常見的商業CPU,通常一個CLUSTER帶4個Core,在SSN的集成上較于雙核,只需要把增加兩個Core的SSH Nodes串接起來即可,也不需要改變外部接口,憑借On-chip Compare測試,整體測試上從16 Core到32 Core,測試時間并不會發生明顯的變化。

0f83fe5a-7ac8-11ed-8abf-dac502259ad0.png

圖34 四核南湖微架構的SSN集成

在chiplet的2.D封裝集成上,Intel給出用了利用SSN完成die-to-die SCAN集成的示例:

0faf529e-7ac8-11ed-8abf-dac502259ad0.png

圖35 2.5D die-to-die的SSN集成

對于3D IC的垂直堆疊,行業標準上IEEE 1838定義了新的3D-DFT標準用來測試堆疊芯片。IEEE 1838當中FPP(Flexible parallel port)提供了并行的測試訪問接口,而利用SSN來完成FPP的集成,也是很好的解決方案。

0fbf7fac-7ac8-11ed-8abf-dac502259ad0.png

圖36 IEEE 1838 schematic overview

另外,SSN結合Serdes高速接口(1149.10 HSIO )及高速數字機臺,用更少的IO、更快的速率實現高帶寬的SCAN測試。下圖為愛德萬展示1149.10+SSN結合的電路架構:

0fd71a54-7ac8-11ed-8abf-dac502259ad0.png

圖37 1149.10+SSN

5. 測試數據預期

Broadcom在使用SSN集成上提供了一些實測數據,也希望香山處理器在實測當中也可以達到類似的效果。Broadcom在shmoo test中顯示,在測試同等數量cores的情況下,SSN相比于Pin-muxed可以獲得30mv的Vmin收益。上面的章節也提到,SSN可以讓每個Core實現獨立的capture來降低capture的峰值功耗,從而減輕IR drop。

10a187da-7ac8-11ed-8abf-dac502259ad0.png

圖38 SSN ATPG Test Shmoo

因為on chip compare測試不需要將數據cycle-to-cycle地移到SSN output上比較,不受IO速率和機臺數據抓取速率瓶頸的影響,shift時序收斂與實測可以Match上。

10e5e038-7ac8-11ed-8abf-dac502259ad0.png

圖39 SSN On chip compare Vmin

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    18283

    瀏覽量

    222166
  • DFT
    DFT
    +關注

    關注

    2

    文章

    219

    瀏覽量

    22468
  • 微架構
    +關注

    關注

    0

    文章

    20

    瀏覽量

    6997
  • 香山處理器
    +關注

    關注

    0

    文章

    6

    瀏覽量

    622

原文標題:香山處理器“南湖”DFT設計范例

文章出處:【微信號:全棧芯片工程師,微信公眾號:全棧芯片工程師】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    這家公司創始人來自龍芯團隊,開源RISC-V處理器對標最強ARM處理器

    如果你有關注RISC-V開源處理器的發展,想必也沒有錯過中科院發布的高性能開源處理器香山”這一重磅新聞。早在該處理器第一版微架構“雁棲湖”的介紹中,
    的頭像 發表于 11-14 07:55 ?4342次閱讀

    什么是數字信號處理DFT?

    什么是數字信號處理DFT?貌似有很多DFT
    發表于 12-15 09:39

    香山是什么?“香山” 高性能開源 RISC-V 處理器項目介紹

    @1GHz,更完整的 CPU 與 DDR 性能調優正在進行中。香山處理器第二版(南湖架構) 支持 RV64GCBK 指令集,已在 2022 年 3 月完成 RTL 代碼凍結,正在進行后端設計驗證流程并將
    發表于 04-07 14:20

    開源高性能RISC-V處理器香山”面世背后披露,為何舍棄Verilog使用Chisel

    2021年 在首屆RISC-V中***會上,中科院大學教授、中科院計算所研究員包云崗公布了國產開源高性能RISC-V處理器——“香山”。香山處理器的目標是通過持續優化達到A76的水平。
    發表于 04-07 14:58

    香山處理器 RISC-V的典范

    https://github.com/JiaoXianjun/XiangShan談到RISC-V,應該都會想到香山處理器。其經歷了幾代的演進,性能越來越高。采用Chisel Rocketchip框架,能夠方便的定制屬于你的RISC-V
    發表于 04-14 15:51

    性能超ARM A76!國產第二代“香山”RISC-V開源處理器最快6月流片

    ,SPEC 2006得分為20分。 據了解,“香山”是當前國際上性能最高的開源RISC-V處理器核,目前已確定“香山”經典核、“香山”高性能核“兩核”發展目標。 經典核基于第二代“
    發表于 05-28 08:41

    中科院發布“香山”與“傲來”兩項開源處理器芯片

    與應用落地?;凇奥摵掀髽I研發+分級開源共享”的創新組織模式,第二代“香山”(南湖)開源高性能RISC-V處理器核已完成產品化改造并交付首批用戶。目前“香山”(
    發表于 05-28 08:43

    國產第二代“香山”RISC-V 開源處理器計劃 6 月流片:基于中芯國際 14nm 工藝,性能超 Arm A76

    的“RISC-V 開源處理器芯片生態發展論壇”上,第二代“香山”(南湖架構)開源高性能 RISC-V 核心正式發布。據介紹,“香山”于 2022 年 6 月啟動工程優化,同年 9 月研
    發表于 06-05 11:51

    中科院重磅發布國產開源高性能RISC-V處理器香山

    6月22日至25日上午,首屆RISC-V中國峰會在上??萍即髮W舉辦。本屆大會上中科院大學教授、中科院計算所研究員包云崗重磅發布國產開源高性能RISC-V處理器香山”。 根據包云崗在知乎上發出的介紹
    的頭像 發表于 06-26 14:56 ?1.1w次閱讀

    中科院發布國產開源高性能RISC-V處理器香山

    6月22日至25日上午,首屆RISC-V中國峰會在上??萍即髮W舉辦。本屆大會上中科院大學教授、中科院計算所研究員包云崗重磅發布國產開源高性能RISC-V處理器香山”。 ? 根據包云崗的介紹,香山
    發表于 07-01 15:33 ?1600次閱讀

    RISC-V發展以及中科院RISC-V開源處理器香山”介紹

    據介紹,香山第二代南湖架構計劃在2023年第一季度流片,目標是14nm 2GHz,預計SPEC 2006得分能到20左右。
    發表于 12-30 11:28 ?2084次閱讀

    透過第二代“香山”看RISC-V開源處理器的機遇和挑戰

    電子發燒友網報道(文/吳子鵬)近日,在2023年中關村論壇“RISC-V開源處理器芯片生態發展論壇”上,第二代“香山”(南湖架構)開源高性能RISC-V處理器核和“傲來”RISC-V原
    的頭像 發表于 06-01 01:13 ?2175次閱讀

    思爾芯原型驗證助力香山RISC-V處理器迭代加速

    2023年10月19日, 思爾芯(S2C) 宣布 北京開源芯片研究院(簡稱“開芯院”) 在其歷代“香山” RISC-V 處理器開發中采用了思爾芯的 芯神瞳 VU19P 原型驗證系統
    的頭像 發表于 10-24 16:28 ?350次閱讀

    深入探索RISC-V處理器架構背景 思爾芯助力“香山”不斷演進

    近年來,基于RISC-V架構的處理器逐漸嶄露頭角,引起了業內的廣泛關注。其中,由國人主導的“香山”RISC-V處理器備受關注。
    的頭像 發表于 10-25 09:20 ?575次閱讀

    思爾芯原型驗證助力香山RISC-V處理器迭代加速

    2023年10月19日,思爾芯(S2C)宣布北京開源芯片研究院(簡稱“開芯院”)在其歷代“香山”RISC-V處理器開發中采用了思爾芯的芯神瞳VU19P原型驗證系統,不僅加速了產品迭代,還助力多家企業
    的頭像 發表于 10-25 08:24 ?338次閱讀
    思爾芯原型驗證助力<b class='flag-5'>香山</b>RISC-V<b class='flag-5'>處理器</b>迭代加速
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>