眾所周知,向65nm設(shè)計(jì)規(guī)則的轉(zhuǎn)變意味著邏輯密度和性能的大幅提升,但這并非簡(jiǎn)單借助摩爾定律就能獲取。要順利實(shí)現(xiàn)向65nm節(jié)點(diǎn)的過(guò)渡,需要在工藝技術(shù)、電路設(shè)計(jì)、物理布局以及軟件方法學(xué)等方面進(jìn)行努力。
賽靈思不久前在全球率先推出65納米Virtex-5平臺(tái)的FPGA產(chǎn)品,據(jù)該公司稱(chēng),與現(xiàn)有90納米Virtex-4系列相比,Virtex-5可以實(shí)現(xiàn)性能和邏輯密度分別提升30%和65%,同時(shí)動(dòng)態(tài)功耗降低35%。正因如此,在賽靈思Virtex-5 LX器件的北京發(fā)布會(huì)上,一些業(yè)內(nèi)人士認(rèn)為Virtex-5系列的表現(xiàn)令業(yè)界激動(dòng)。不過(guò),也有人士指出,Virtex-5在其中國(guó)本地化應(yīng)用的過(guò)程中,會(huì)面臨不少挑戰(zhàn),諸如功耗、信號(hào)完整性、RocketIO等問(wèn)題仍是令中國(guó)設(shè)計(jì)者望而卻步的幾大因素。
調(diào)整流程
與任何進(jìn)行65nm工藝的開(kāi)發(fā)者一樣,Virtex-5的設(shè)計(jì)工程師們需要關(guān)注的一個(gè)重點(diǎn),就是工藝可變性。“我們必須以我們所了解的技術(shù)可變性來(lái)定義模型。”賽靈思先進(jìn)產(chǎn)品部負(fù)責(zé)產(chǎn)品開(kāi)發(fā)的副總裁Suresh Menon表示,“我們必須進(jìn)行隨機(jī)失配處理,而這是一項(xiàng)建模設(shè)計(jì)工作。”
“為了將工藝變化考慮在內(nèi),有必要對(duì)多個(gè)工藝拐點(diǎn)(process corner)進(jìn)行仿真。而這樣做則使得對(duì)仿真CPU的需求呈指數(shù)增長(zhǎng),而同時(shí)用于仿真的授權(quán)技術(shù)和設(shè)備也將增加。當(dāng)考慮所有變化后,65nm節(jié)點(diǎn)所需的仿真計(jì)算時(shí)間要比90nm節(jié)點(diǎn)多出5到10倍。”Menon指出。
“從工藝角度來(lái)看,”賽靈思半導(dǎo)體技術(shù)副總裁David Gitlin介紹,“首先,我們的設(shè)計(jì)師采用的是基于自組鎳硅化物結(jié)構(gòu)的應(yīng)變硅晶體管,該結(jié)構(gòu)能夠?qū)崿F(xiàn)晶體管快速開(kāi)關(guān);其次,我們采用三柵極氧化層技術(shù),為用于邏輯核和存儲(chǔ)器單元(薄的氧化物)、互連架構(gòu)(中等厚度的氧化物)以及FPGA的I/O部分(厚的氧化物,處理較高的I/O電壓)的晶體管進(jìn)行不同的漏電流/性能優(yōu)化。第三,我們采用不同的閥值電壓,對(duì)芯片內(nèi)不同部分的工作電壓進(jìn)行優(yōu)化,以降低功耗和漏電流。例如,內(nèi)核邏輯的工作電壓是1.0V。”
為了避免可制造性設(shè)計(jì)(DFM)的復(fù)雜化,在電路設(shè)計(jì)轉(zhuǎn)化到物理布局和掩膜的過(guò)程中對(duì)可能出現(xiàn)問(wèn)題的“熱點(diǎn)”進(jìn)行隔離十分關(guān)鍵,Gitlin指出。為了迎接這一挑戰(zhàn),賽靈思與幾家從事DFM的新創(chuàng)公司合作,并采用了它們的一些工具。賽靈思還與東芝及臺(tái)聯(lián)電合作定義工藝拐點(diǎn)和DFM規(guī)則,以便使這兩家代工廠能基于相同的電路數(shù)據(jù)庫(kù)制造芯片。
優(yōu)化的模塊和大量的I/O單元
Virtex-5將包含多個(gè)專(zhuān)用優(yōu)化平臺(tái)。除了面世的專(zhuān)為邏輯密集型應(yīng)用而優(yōu)化的LX系列,在今年底和明年初,賽靈思還將推出LXT、SXT和FXT系列,分別針對(duì)如下目標(biāo)應(yīng)用:需要邏輯和高速串行接口的場(chǎng)合、帶高速串行端口的數(shù)字信號(hào)處理、帶高速串行接口的嵌入式系統(tǒng)。
LX系列所提供的I/O單元速度達(dá)1.2Gbps,而LXT、SXT和FXT系列內(nèi)的高速串行接口能提供高達(dá)6Gbps以上的速度。與賽靈思Virtex-4系列中的芯片一樣,每款Virtex-5 FPGA都包括邏輯結(jié)構(gòu)、專(zhuān)用的RAM模塊、針對(duì)DSP算法進(jìn)行優(yōu)化的專(zhuān)用但可配置模塊,以及大量的I/O單元。
盡管Virtex-5的基本邏輯架構(gòu)仍然以專(zhuān)為Virtex-4打造的ASMBL為基礎(chǔ),但是通過(guò)對(duì)設(shè)計(jì)流程進(jìn)行模塊化處理,Virtex-5的每一個(gè)模塊都能獨(dú)立得到優(yōu)化從而實(shí)現(xiàn)性能,賽靈思負(fù)責(zé)產(chǎn)品開(kāi)發(fā)的副總裁Steve Douglass表示。由于采用了65納米設(shè)計(jì)規(guī)則和12層金屬互連,賽靈思還得以對(duì)ASMBL架構(gòu)進(jìn)行多項(xiàng)改進(jìn),從而使的Virtex-5邏輯密度超過(guò)了320,000個(gè)模塊。
ExpressFabric互連結(jié)構(gòu)和12層金屬互連可以使Virtex-5利用比Virtex-4更少的邏輯層來(lái)實(shí)現(xiàn)復(fù)雜的邏輯功能,同時(shí)還允許利用更少的跳線來(lái)連接相鄰構(gòu)建模塊。這樣可以減少數(shù)據(jù)路徑延遲,并增加時(shí)鐘速度。
Virtex-5 FPGA中的可配置邏輯模塊(CLB)所需的芯片面積比Virtex-4中的CLB要少得多,它們整齊地平鋪在芯片的邏輯內(nèi)核中,而8個(gè)6輸入查找表(LUT)和8個(gè)觸發(fā)器以及額外的邏輯資源則被分組置于每個(gè)CLB上。
芯片上的其他模塊包括用來(lái)支持DSP操作的增強(qiáng)型乘法累加器、雙端口BRAM/FIFO存儲(chǔ)器(36kb/模塊,也可當(dāng)作兩個(gè)獨(dú)立的18kb模塊使用),以及能夠在高達(dá)550MHz頻率下工作的時(shí)鐘管理模塊。該BRAM還包括一個(gè)64位的錯(cuò)誤檢查修正(ECC)部分。
增強(qiáng)型DSP模塊(DSP48E)基于25x18位的乘法器(Virtex-4使用的是18x18位),并且能夠通過(guò)級(jí)聯(lián)來(lái)提供更大的乘法器位寬。位數(shù)的增加對(duì)較大型的乘法器而言,意味著較少的串聯(lián)級(jí)數(shù),這樣可以帶來(lái)更高的整體性能和邏輯利用率。
Virtex-5中的時(shí)鐘信號(hào)由時(shí)鐘管理管道(CMT)模塊產(chǎn)生,在LX系列規(guī)模的產(chǎn)品中,CMT的數(shù)量高達(dá)六個(gè)。每個(gè)CMT中包含兩個(gè)數(shù)字時(shí)鐘管理器(DCM)和一個(gè)鎖相環(huán)(PLL),其中PLL用來(lái)驅(qū)動(dòng)全局時(shí)鐘緩沖器,或被級(jí)聯(lián)用于濾除抖動(dòng)。這賦予了FPGA的兩類(lèi)性能:產(chǎn)生精確延遲控制和更好噪聲容限的DCM技術(shù),以及用于降低時(shí)鐘信號(hào)抖動(dòng)的PLL技術(shù)。
為了使總線架構(gòu)的寬度能夠隨著邏輯密度的增加而增加,在Virtex-5中使用的6輸入LUT能夠?qū)崿F(xiàn)如同大型分布式存儲(chǔ)器和移位寄存器一樣的邏輯。在每一個(gè)64位存儲(chǔ)片中,LUT支持一個(gè)32位的移位寄存器(或兩個(gè)16位的移位寄存器)。四個(gè)移位寄存器能夠連接起來(lái)形成一個(gè)128位的移位寄存器。
與Virtex-4一樣,Virtex-5中的可配置SelectI/O緩沖器提供了對(duì)該公司第二代ChipSync時(shí)序同步技術(shù)、數(shù)控阻抗(DCI),以及單端和差分信號(hào)的支持。該I/O能夠在700Mbps單端信號(hào)(占空比失真要求不嚴(yán)格時(shí)能夠增加到800Mbps)和1.25Gbps差分信號(hào)下工作。
大量的I/O意味著大量的封裝管腳。當(dāng)大部分的連線導(dǎo)通時(shí),封裝中腳位(pinout)架構(gòu)產(chǎn)生的噪聲可能占總噪聲的80%左右。Virtex-5中的第二代稀疏鋸齒形(Sparse Chevron)封裝架構(gòu)中集成了管腳分布,從而使信號(hào)、地和電源管腳規(guī)則陣列。
封裝中信號(hào)、地以及電源數(shù)量的比值為8:1:1。既然電源和地管腳可以等效看作是返回信號(hào)的電流路徑,那么封裝有效信號(hào)與返回比就為4:1。
Gartner Dataquest的ASIC/FPGA研究分析師Brian Lewis認(rèn)為:“所有這些舉措,不僅穩(wěn)固了Virtex-5在FPGA領(lǐng)域的密度和性能地位,還賦予賽靈思進(jìn)一步挺進(jìn)ASIC市場(chǎng)的潛力。如果賽靈思能將該項(xiàng)可投產(chǎn)的設(shè)計(jì)移植進(jìn)Virtex-5的低成本EasyPath版本中,情況會(huì)更樂(lè)觀。”
Virtex本地化應(yīng)用面臨挑戰(zhàn)
賽靈思在北京隆重宣布開(kāi)始付運(yùn)Virtex-5 LX 器件,足見(jiàn)其對(duì)中國(guó)市場(chǎng)的重視。作為賽靈思在中國(guó)的重要客戶,大唐移動(dòng)通信設(shè)備有限公司目前正在利用Virtex系列開(kāi)發(fā)面向商用TD-SCDMA基站設(shè)備的系統(tǒng)。
該公司北京研發(fā)中心的副總經(jīng)理馬衛(wèi)國(guó)表示,下一代基站開(kāi)發(fā)中遇到的挑戰(zhàn)來(lái)自射頻(RF)和基帶。RF模塊面臨的挑戰(zhàn)主要包括:更多的收發(fā)信息通道要求更多的邏輯資源和I/O管腳;應(yīng)用系統(tǒng)需要符合無(wú)線電接口規(guī)范;數(shù)量眾多的信息通路要求在射頻收發(fā)信息板上進(jìn)行控制等等。而基帶部分的挑戰(zhàn)主要有兩個(gè):一是密集的信號(hào)處理陣列需要很多邏輯資源完成信號(hào)處理;二是需要強(qiáng)大的DSP功能,聯(lián)合檢測(cè)、關(guān)鍵算法等對(duì)累加乘運(yùn)算能力要求高。馬衛(wèi)國(guó)強(qiáng)調(diào),在這樣的挑戰(zhàn)下,由于Virtex-4可以解決所面臨的一些技術(shù)難題,并且提供低成本和高性能系統(tǒng)解決方案,所以大唐移動(dòng)選用了Virtex-4來(lái)開(kāi)發(fā)大容量、高密度的下一代基站系統(tǒng)。
對(duì)于Virtex-5系列,馬衛(wèi)國(guó)認(rèn)為,新產(chǎn)品在工藝、性能、功耗等方面的提升令業(yè)界激動(dòng),在工程師關(guān)心的邏輯輸入寬度、連接有效性和低延遲方面都進(jìn)行了改進(jìn)。他表示,Virtex-5將對(duì)系統(tǒng)性能有更好的幫助,大唐移動(dòng)將在未來(lái)產(chǎn)品開(kāi)發(fā)中進(jìn)一步評(píng)估并使用賽靈思的Virtex-5系列。
但是,不少中國(guó)本土的系統(tǒng)設(shè)計(jì)工程師卻認(rèn)為,Virtex-5要想大規(guī)模應(yīng)用,首先需要解決以下問(wèn)題:一是功耗問(wèn)題,自賽靈思推出Virtex-4工程樣片起,功耗就一直是一個(gè)比較嚴(yán)重的問(wèn)題;二是信號(hào)完整性問(wèn)題,Virtex-5內(nèi)核電壓為1V,而支持的內(nèi)部邏輯速度以及I/O的速度卻非常高,從而增大了信號(hào)完整性挑戰(zhàn)。三是 RocketIO的挑戰(zhàn),在Virtex-4推出的過(guò)程中,F(xiàn)X系列的推出就晚了很多,在Virtex-5的推出過(guò)程中,RocketIO的設(shè)計(jì)會(huì)不會(huì)再次影響到其他系列的推出,這個(gè)問(wèn)題值得關(guān)注;四是PLL的挑戰(zhàn),PLL屬于模擬器件,需要干凈的電源,否則會(huì)影響輸出時(shí)鐘的性能甚至影響到PLL的鎖定。
勿庸置疑,Virtex-5的推出是FPGA領(lǐng)域的一個(gè)重要里程碑。然而,業(yè)內(nèi)分析人士稱(chēng),65nm Virtex-5的推出是賽靈思的全球策略,但“不做個(gè)吃螃蟹的人”則是中國(guó)公司的特點(diǎn),再加上缺少迫切的需求,因此Virtex-5在中國(guó)市場(chǎng)的真正推廣應(yīng)用也許仍需時(shí)日。