芯片的五種“死”法
發(fā)布時(shí)間:2019-01-19
半導(dǎo)體器件包含數(shù)以億計(jì)在極端溫度和惡劣環(huán)境下工作的晶體管,因此,許多器件不能正常工作或壽命有限也就不足為奇了。有些器件永遠(yuǎn)出不了實(shí)驗(yàn)室,還有很多器件死在晶圓廠里。人們希望大多數(shù)放到產(chǎn)品中的器件都能存活下來,直到它們過時(shí),但很多事情可能會(huì)導(dǎo)致它們走不了那么遠(yuǎn)。即使是運(yùn)行正常的器件也可能受到損害,以至于無法提供正確的結(jié)果。常見危害及其原因不可勝數(shù)。它們通常分為幾個(gè)類別,下面將對此進(jìn)行詳細(xì)說明。
死于設(shè)計(jì)
根據(jù)Mentor/Wilson的功能驗(yàn)證研究,2018年,只有26%的ASIC實(shí)現(xiàn)了一次流片成功,低于此前的研究結(jié)果。成功率低的部分原因是新技術(shù)節(jié)點(diǎn)增加了尚未完全理解的挑戰(zhàn)。已經(jīng)存在了一段時(shí)間的問題被納入到工具和流程中,從而使那些已知的問題不再是威脅。然而,2018年,混合信號(hào)接口、串?dāng)_、時(shí)序和IR drop,這些已知的問題導(dǎo)致了重新流片的增加。
圖1:導(dǎo)致重新流片的ASIC缺陷類型。 (來源:Wilson Research Group和西門子M)
Synopsys的產(chǎn)品經(jīng)理Kenneth Chang表示:“一些客戶的芯片失敗,是因?yàn)樗麄兊脑O(shè)計(jì)過程更加特殊。一位客戶進(jìn)行了block級功耗分析,然后進(jìn)行了整合。 他們認(rèn)為可以在這個(gè)階段修復(fù)問題。但問題是不可修復(fù)的,芯片已經(jīng)失敗了。芯片失敗的原因在于舊方法不再適用于新的先進(jìn)技術(shù)?!?/p>
失敗不一定是不能正常工作。Cadence公司Digital和Signoff部門產(chǎn)品管理總監(jiān)Jerry Zhao表示:“失敗可能是因?yàn)樗鼪]能達(dá)到性能目標(biāo),如果芯片的運(yùn)行速度比預(yù)期低10%,那么它在市場上可能沒有競爭力?!?/p>
電源正在成為一項(xiàng)挑戰(zhàn),特別是當(dāng)電源在片上的時(shí)候。Arm公司物理設(shè)計(jì)部門高級解決方案營銷經(jīng)理Lisa Minwell表示:“電源供電網(wǎng)絡(luò)(PDN)是一個(gè)分布式RLC網(wǎng)絡(luò),可以分為三個(gè)部分:片上、封裝和電路板。片上需要更快的時(shí)鐘頻率、更低的工作電壓、更高的晶體管密度。雖然先進(jìn)的finFET技術(shù)已經(jīng)實(shí)現(xiàn)了持續(xù)的性能提升,增加的功率密度使IR drop閉合成為一項(xiàng)挑戰(zhàn)。準(zhǔn)確建模和最小化電壓裕度是平衡電源效率和魯棒性的關(guān)鍵?!?/p>
但裕度可能是悲觀的,從而限制了競爭力。盡管發(fā)現(xiàn)了問題,但一些公司還是冒險(xiǎn)繼續(xù)前進(jìn)。Kenneth Chang表示:“一家大型存儲(chǔ)器公司的流片出現(xiàn)了已知的大量IR drop問題。只要看上去不太糟糕,他們就會(huì)流片,因?yàn)槿粘瘫韺λ麄儊碚f更重要??蛻粽趯W(xué)習(xí),在這種情況下,他們的芯片并沒有失敗。如果他們沒有失敗,他們就會(huì)繼續(xù)做正在做的事情。當(dāng)他們到達(dá)更先進(jìn)的節(jié)點(diǎn)時(shí),他們會(huì)更加被指標(biāo)驅(qū)動(dòng),并且需要執(zhí)行EMIR分析?!?/p>
越來越多的問題也開始同時(shí)出現(xiàn)。例如,功率、IR drop、發(fā)熱、時(shí)序、電遷移都是相關(guān)的,但是對于其中大部分問題的分析是分開進(jìn)行的。Jerry Zhao表示:“電源噪音是一個(gè)問題。供電電壓正在下降,同時(shí)用戶希望獲得更高的性能。你無法從電池獲得太多的驅(qū)動(dòng)功率,或許850 mV,但你仍然想要3GHz的性能。電源噪聲會(huì)產(chǎn)生重大影響,特別是當(dāng)裸片有變化的情況下,這種(噪聲)會(huì)隨著時(shí)間和位置而變化。因此,不同位置的同一電池可能會(huì)因電壓下降而失效,從而導(dǎo)致時(shí)序延遲。你必須在電壓下降的背景下分析電池,并進(jìn)行靜電電壓感應(yīng)時(shí)序分析。有些路徑對電壓變化非常敏感?!?/p>
隨著問題得到更好的理解,工具可以進(jìn)行更好的分析,并且可以使用設(shè)計(jì)方法來規(guī)避問題。Moortec公司營銷副總裁Ramsay Allen解釋道:“復(fù)雜性導(dǎo)致了更大的功率密度,而這反之又在芯片內(nèi)部產(chǎn)生了局部熱點(diǎn)。柵極密度的增加還會(huì)導(dǎo)致供給電路的電源電壓下降更大。在整個(gè)設(shè)計(jì)過程中,高精度的溫度傳感器和電源監(jiān)控器使系統(tǒng)能夠管理和適應(yīng)這些條件,通過提供熱管理和供電異常檢測的解決方案,提高器件的可靠性和優(yōu)化性能。這一點(diǎn)在數(shù)據(jù)中心和人工智能設(shè)計(jì)中尤為重要,在這些設(shè)計(jì)中,性能要求的提高使設(shè)計(jì)在溫度和電壓方面承受了巨大的壓力?!?/p>
死于制造
半導(dǎo)體器件的制造涉及到測量僅幾納米的結(jié)構(gòu)。作為參照,人類DNA鏈直徑為2.5nm,而人頭發(fā)直徑則為80,000至100,000nm。一粒塵??梢源輾ЬA片上的幾個(gè)裸片。如果裸片的尺寸變大,隨機(jī)失效的可能性就會(huì)增加。對于成熟的工藝節(jié)點(diǎn),產(chǎn)率可能在80%到90%之間。然而,對于較新的節(jié)點(diǎn),產(chǎn)率可能大大低于50%,盡管實(shí)際數(shù)字是嚴(yán)格保密的。
圖2. 晶圓缺陷圖案。(來源:Marvell Semiconductor,ITC 2015)
即使裸片沒有受到災(zāi)難性的影響,也不能被認(rèn)為是可操作的。制造步驟不完善,哪怕一個(gè)原子的工藝變化也會(huì)產(chǎn)生顯著的差異。雖然這可能不會(huì)對設(shè)計(jì)的某些部分產(chǎn)生影響,但如果工藝變化恰好與關(guān)鍵時(shí)序路徑吻合,則可能會(huì)使器件不符合規(guī)格。
ANSYS公司ESD/heat /reliability產(chǎn)品經(jīng)理Karthik Srinivasan解釋說:“隨著設(shè)計(jì)逐漸演變成采用先進(jìn)封裝的深亞微米技術(shù),現(xiàn)有的仿真工具和設(shè)計(jì)方法無法很好地反映變化及其對可靠性的影響。這會(huì)導(dǎo)致設(shè)計(jì)流程出現(xiàn)漏洞,從而導(dǎo)致一些失敗?!?/p>
設(shè)計(jì)流程越來越多地允許在開發(fā)早期就考慮到變化,以最大限度地減少其影響,而冗余等設(shè)計(jì)技術(shù)可以減少需要丟棄的“幾乎可以工作”的芯片的數(shù)量?!皫缀蹩梢怨ぷ鳌钡男酒瑢τ诖笮痛鎯?chǔ)器陣列非常常見。分類(Binning)是經(jīng)常用于處理器的另一種做法,以較高頻率運(yùn)行的優(yōu)良器件可以以較高價(jià)格出售,而那些只有在低頻時(shí)才能成功工作的器件則以折扣價(jià)出售。
測試的作用是找出哪些裸片功能完全。那些臨界的裸片通常會(huì)被丟棄,但一些無功能的裸片確實(shí)存在漏檢,并最終成為產(chǎn)品。
死于觸摸
殺死芯片有多種方法。請考慮,施加在芯片外部的0.5V電壓在1nm的介質(zhì)上產(chǎn)生0.5mV/m的電場。這足以導(dǎo)致高壓電弧?,F(xiàn)在考慮一下當(dāng)你觸摸芯片的引腳時(shí)會(huì)發(fā)生什么。
Jerry Zhao解釋說:“通常情況下,它是一個(gè)高電壓,根據(jù)引腳的接觸方式,會(huì)有不同的模型,如人體模型或電荷分布模型(CDM)。這些模型定義了電流如何流入引腳。這是一個(gè)隨時(shí)間變化的波形。”
通常,芯片會(huì)包含靜電放電(ESD)保護(hù)。ANSYS公司的Srinivasan指出:“對于封裝內(nèi)的單個(gè)裸片,他們的目標(biāo)是2kJ這樣的標(biāo)準(zhǔn)。多芯片解決方案,例如HBM,標(biāo)準(zhǔn)略低。使用2.5D或3D IC的一個(gè)原因是為了性能,而ESD則是性能的障礙。你試圖最小化ESD,甚至在這些Wide I/O接口或任何類型的多芯片接口通道上消除它,這意味著你無法按照你針對單芯片的相同標(biāo)準(zhǔn)對每個(gè)芯片進(jìn)行真正的測試。它們必須經(jīng)過更專業(yè)的測試,因?yàn)樗鼈兊腅SD保護(hù)很小,或者可能沒有ESD保護(hù)。”
即使在運(yùn)行期間,ESD事件也可能導(dǎo)致問題。Arm公司的Minwell說:“在便攜式電子產(chǎn)品中,ESD可以導(dǎo)致許多類型的軟錯(cuò)誤。在ESD事件期間,電源供電網(wǎng)絡(luò)(PDN)上可能會(huì)引起噪聲,原因在于某些IC(振蕩器IC、CPU和其他IC)的靈敏度,或是PDN的場耦合?!?/p>
死于關(guān)聯(lián)問題
Helic公司營銷副總裁Magdy Abadir說:“軟錯(cuò)誤可能以多種方式發(fā)生,如果錯(cuò)誤是系統(tǒng)上的,它可能會(huì)使芯片看起來好像不工作。3D IC正在增加對電磁感應(yīng)設(shè)計(jì)方法的需求。這是因?yàn)楫a(chǎn)生的功率密度更高和堆疊層數(shù)的增加,這就增加了產(chǎn)生天線的風(fēng)險(xiǎn),它會(huì)放大整個(gè)設(shè)計(jì)過程中產(chǎn)生的磁場。”
電力供應(yīng)不足也會(huì)造成問題。Jerry Zhao說:“芯片的功能取決于晶體管開關(guān)。這取決于供電電壓。如果它在1V下工作,它可能會(huì)下降10%或20%并仍然可以正常工作。但時(shí)序會(huì)有所不同,因此可能需要降低最大時(shí)鐘頻率。”
由于電壓降低,電路更容易受到噪聲的影響。ANSYS公司半導(dǎo)體事業(yè)部首席技術(shù)專家Norman Chang說:“電磁干擾(EMI)是芯片向環(huán)境發(fā)出的噪聲。噪聲源來自有源電路,它會(huì)在電源/地線和信號(hào)線上產(chǎn)生電流。電源線/地線將通過封裝到PCB,如果它看到封裝或PCB上有天線結(jié)構(gòu),就會(huì)引起空氣輻射,然后通過天線結(jié)構(gòu)輻射到環(huán)境中產(chǎn)生干擾?!?/p>
但出去的東西也會(huì)進(jìn)來。Norman Chang表示:“電磁敏感性(EMS)是人們不得不擔(dān)心的新問題。能量注入測試是從150kHz開始注入1W能量,一直到1GHz。在每個(gè)頻率,你會(huì)向系統(tǒng)注入1W的能量。如果你沒有足夠的保護(hù),就會(huì)破壞沿路徑進(jìn)入芯片的電路。我們的目標(biāo)不是破壞芯片,而是測試這種噪聲是否會(huì)影響電路?;蛘咭_上的電壓可能過高,如果電壓太高,就會(huì)產(chǎn)生過電應(yīng)變(electrical over-strain)?!?/p>
死于操作
此時(shí),芯片已經(jīng)到達(dá)現(xiàn)場并被認(rèn)為是可操作的。Microchip模擬電源和接口部門首席產(chǎn)品營銷工程師Fionn Sheerin說:“可靠性是個(gè)大問題。在很多情況下,糟糕的熱設(shè)計(jì)并不會(huì)導(dǎo)致瞬間災(zāi)難性的故障,甚至不會(huì)導(dǎo)致產(chǎn)品平庸。但器件壽命會(huì)變短。觀察layout中的熱點(diǎn)或最佳layout實(shí)踐以及良好的層次規(guī)劃可能會(huì)產(chǎn)生不同的效果。這也是驗(yàn)證和可靠性測試真正重要之處,也是汽車應(yīng)用中的功能安全問題?!?/p>
西門子Mentor事業(yè)部的產(chǎn)品營銷總監(jiān)Joe Davis對此表示贊同:“發(fā)熱帶來的問題不僅僅是手機(jī)在口袋里變熱。它會(huì)導(dǎo)致晶體管和它們之間的連接退化。這可能會(huì)影響性能和可靠性?!?/p>
熱量產(chǎn)生于兩個(gè)來源。Jerry Zhao表示:“首先是路由層。這是與導(dǎo)線中的電流有關(guān)的熱量。模擬電路比數(shù)字電路有更大的電流。因此,模擬設(shè)計(jì)者不得不擔(dān)心溫度過高是否會(huì)使連線融化。第二個(gè)來源是晶體管。當(dāng)我們遷移到finFET時(shí),一個(gè)新的現(xiàn)象是自熱。熱量沿著弱電阻路徑運(yùn)動(dòng),從晶體管的鰭片垂直發(fā)散。這就增加了連線中的熱量?!?/p>
當(dāng)大電流和熱量聚集在一起時(shí),電遷移效應(yīng)會(huì)慢慢損壞連線。類似地,諸如負(fù)偏置溫度不穩(wěn)定性(NBTI)之類的物理效應(yīng),當(dāng)你有很大的電荷時(shí),會(huì)對器件造成壓力,如果持續(xù)足夠長的時(shí)間會(huì)導(dǎo)致永久性損壞。
結(jié)論
本文僅包含芯片從計(jì)劃到產(chǎn)品,然后在產(chǎn)品的生命周期中所面臨的一些挑戰(zhàn)。
芯片在惡劣環(huán)境中運(yùn)行,半導(dǎo)體行業(yè)已經(jīng)學(xué)會(huì)了如何應(yīng)對這些挑戰(zhàn)。但是隨著制造尺寸變小以及采用新的封裝技術(shù)時(shí),新問題出現(xiàn)了。有時(shí),這些新效應(yīng)會(huì)導(dǎo)致器件失敗。但從歷史上看,行業(yè)很快就學(xué)會(huì)了要么規(guī)避新問題,要么將問題最小化的方法。