高性能計(jì)算機(jī)中互連網(wǎng)絡(luò)的可靠性研究
作者:劉曉婷 賈志淳時(shí)間:2015-12-05 10:20:33 來源:www.455685.com 閱讀次數(shù):2940次 ]
高性能計(jì)算機(jī)屬于一種計(jì)算機(jī)系統(tǒng),能夠比較好的處理大型應(yīng)用和大數(shù)據(jù)。高性能計(jì)算機(jī)在為用戶提供服務(wù)時(shí),系統(tǒng)的可靠性是提供服務(wù)質(zhì)量的主要保證。尤其是近年來高性能計(jì)算機(jī)得到了快速的發(fā)展,系統(tǒng)內(nèi)的組件變得越來越多,這樣一來,用于組件連接的互聯(lián)網(wǎng)絡(luò)規(guī)模就會(huì)相應(yīng)增加, 由此使得故障結(jié)點(diǎn)發(fā)生的可能性大增,進(jìn)而導(dǎo)致互聯(lián)網(wǎng)絡(luò)的可靠性出現(xiàn)問題,最終影響整個(gè)計(jì)算機(jī)系統(tǒng)的可靠性,因此,互聯(lián)網(wǎng)絡(luò)的可靠性非常重要,本文對(duì)高性能計(jì)算機(jī)中互聯(lián)網(wǎng)絡(luò)的可靠性進(jìn)行了必要的研究,以便于保證互聯(lián)網(wǎng)絡(luò)具有較高的可靠性。
【關(guān)鍵詞】
高性能計(jì)算機(jī);互聯(lián)網(wǎng)絡(luò);可靠性
0 前言
隨著計(jì)算機(jī)技術(shù)以及科學(xué)技術(shù)的發(fā)展,高性能計(jì)算機(jī)技術(shù)得到了廣泛的應(yīng)用,在技術(shù)應(yīng)用加深的過程中,對(duì)高性能計(jì)算機(jī)的系統(tǒng)可靠性提出了更高的要求。所謂系統(tǒng)可靠性,是指能夠保證系統(tǒng)正常運(yùn)行,從而提供更為優(yōu)質(zhì)服務(wù)的技術(shù)。但是在高性能計(jì)算機(jī)發(fā)展的過程中,為了使系統(tǒng)具有很多的功能,增加了很多的組件,這樣一來,其所具有的互聯(lián)網(wǎng)絡(luò)規(guī)模急劇增加,而互聯(lián)網(wǎng)絡(luò)的穩(wěn)定性對(duì)系統(tǒng)的穩(wěn)定性有著很大的影響,因此,對(duì)互聯(lián)網(wǎng)絡(luò)的可靠性研究具有十分重要的現(xiàn)實(shí)意義。
1 當(dāng)前高性能計(jì)算機(jī)所采用的可靠性技術(shù)
1.1 避錯(cuò)技術(shù)
所謂避錯(cuò)技術(shù),是指在進(jìn)行設(shè)計(jì)時(shí), 通過正確的設(shè)計(jì)以及科學(xué)的質(zhì)量控制方法,將可能出現(xiàn)在系統(tǒng)的故障避免掉,同時(shí)將器件發(fā)生失效的概率降至最低,在避錯(cuò)技術(shù)中,包含了比較多的內(nèi)容,比如熱設(shè)計(jì)、降額設(shè)計(jì)等。在進(jìn)行高性能計(jì)算機(jī)可靠性設(shè)計(jì)時(shí),所選擇的組件均要具有較高的可靠性,同時(shí),所選擇的組件要具有較高的集成度,以便于減少組件的數(shù)目, 減小互聯(lián)網(wǎng)絡(luò)的規(guī)模,增強(qiáng)可靠性。另外, 在高性能計(jì)算機(jī)發(fā)展的過程中,功耗會(huì)變得越來越大,由此,避錯(cuò)技術(shù)的熱設(shè)計(jì)就變得越來越重要,通過科學(xué)的熱設(shè)計(jì),可以將組件的結(jié)溫降低,從而提高組件的可靠性,最終提高系統(tǒng)的可靠性。
1.2 靜態(tài)冗余
靜態(tài)冗余技術(shù)也被稱為故障屏蔽技術(shù),在該項(xiàng)技術(shù)中,承認(rèn)系統(tǒng)是會(huì)存在的故障的,在基礎(chǔ)上,通過科學(xué)的措施將故障可能會(huì)帶來的影響消除,一般來說,可采取的措施有硬件冗余、信息冗余,目前, 靜態(tài)冗余技術(shù)廣泛的應(yīng)用于高性能計(jì)算機(jī)的可靠性設(shè)計(jì)中。在高性能計(jì)算機(jī)中, 出現(xiàn)頻率最高的故障就是電源故障,因此在利用靜態(tài)冗余技術(shù)進(jìn)行設(shè)計(jì)時(shí),需要各層次全方位的電源冗余設(shè)計(jì),從而有效地保證電源的可靠工作。
1.3 動(dòng)態(tài)冗余
在動(dòng)態(tài)冗余技術(shù)中,一旦計(jì)算機(jī)系統(tǒng)出現(xiàn)故障,就會(huì)采用標(biāo)準(zhǔn)模塊配置對(duì)故障進(jìn)行檢測,進(jìn)而準(zhǔn)確的診斷出故障發(fā)生的位置,之后通過重組或恢復(fù)的措施使系統(tǒng)再次正常運(yùn)行。動(dòng)態(tài)冗余技術(shù)由三個(gè)環(huán)節(jié)組成,一是故障檢測與診斷,在該環(huán)節(jié)中,故障所發(fā)生的位置將會(huì)被準(zhǔn)確的診斷出來,無論聯(lián)機(jī)與否,故障檢測與診斷都可以正常工作,不過在聯(lián)機(jī)的狀態(tài)下,才能有效的提高系統(tǒng)的可靠性;二是重組技術(shù),這是一個(gè)非常重要的環(huán)節(jié),主要的作用是防止失效的產(chǎn)生影響系統(tǒng)的操作, 如果系統(tǒng)發(fā)生的故障是無法進(jìn)行恢復(fù)的, 那么系統(tǒng)就會(huì)啟動(dòng)重組技術(shù),利用備用的組件來保持系統(tǒng)的繼續(xù)運(yùn)行,但是如果沒有備用的組件,重組技術(shù)就可以將產(chǎn)生故障的組件隔離掉,從而保證系統(tǒng)的正常運(yùn)行;三是恢復(fù)技術(shù),重組技術(shù)針對(duì)的是不可恢復(fù)的故障,而當(dāng)檢測出來是瞬態(tài)故障時(shí),就會(huì)采用恢復(fù)技術(shù)貴故障進(jìn)行恢復(fù), 同時(shí),將故障的影響消除掉,從而使系統(tǒng)繼續(xù)運(yùn)行,在恢復(fù)技術(shù)中,最為重要的方法就是重試。
1.4 在線替換
當(dāng)高性能計(jì)算機(jī)系統(tǒng)的組件發(fā)生故障時(shí),可以通過在線替換技術(shù)將故障組件替換掉,以此來保證系統(tǒng)的繼續(xù)運(yùn)行,在線替換技術(shù)在進(jìn)行工作時(shí),要與冗余技術(shù)互相配合,這樣一來,系統(tǒng)的可靠性就會(huì)得到較大的提高。高性能計(jì)算機(jī)系統(tǒng)中所包含的組件比較多,并不是所有的組件都可以應(yīng)用在線替換技術(shù),也不是所有的組件利用此種方式都能獲得較為理想的效果,一般來說,可以進(jìn)行在線替換的組件有替換單元板、磁盤、風(fēng)扇、電源等。
2 互聯(lián)網(wǎng)絡(luò)可靠性的度量指標(biāo)
2.1 容錯(cuò)性
對(duì)于計(jì)算機(jī)系統(tǒng)來說,故障是客觀存在的。計(jì)算機(jī)系統(tǒng)具有規(guī)定的功能,當(dāng)實(shí)際的功能表現(xiàn)與規(guī)定不一致時(shí),就說明系統(tǒng)存在了故障。當(dāng)系統(tǒng)中節(jié)點(diǎn)或者鏈路發(fā)生故障時(shí),如果計(jì)算機(jī)依然可以正常工作,那么這就是系統(tǒng)的容錯(cuò)性在發(fā)揮作用。因而,從某種意義上來說,容錯(cuò)性可以等同于可靠性,可以有效地減少故障到來的影響,保證系統(tǒng)的正常運(yùn)行。容錯(cuò)性的概念于1971 年被正式提出,隨后高性能計(jì)算機(jī)出現(xiàn)之后,容錯(cuò)性技術(shù)得到了廣泛的關(guān)注,并進(jìn)行了推廣及應(yīng)用,容錯(cuò)性技術(shù)的應(yīng)用,對(duì)于高性能計(jì)算機(jī)的可靠性有著十分重要的意義。在計(jì)算機(jī)系統(tǒng)中,容錯(cuò)性包括硬件容錯(cuò)和軟件容錯(cuò),硬件容錯(cuò)是指當(dāng)系統(tǒng)發(fā)生故障時(shí),通過容錯(cuò)功能部件的作用,系統(tǒng)可以恢復(fù)到正常運(yùn)行的狀態(tài),而且故障之前所運(yùn)行的計(jì)算方法或程序也可恢復(fù)正常;軟件容錯(cuò)是指在容許的程度之內(nèi),軟件的出錯(cuò)不會(huì)影響到系統(tǒng)的運(yùn)行。在容錯(cuò)性中,比較重要的兩個(gè)衡量標(biāo)準(zhǔn)分別為圖的嵌入能力和圖的連通性, 首先是圖的嵌入能力,對(duì)于計(jì)算機(jī)系統(tǒng)來說,如果具備容錯(cuò)能力,就必須要解決互聯(lián)網(wǎng)絡(luò)系統(tǒng)正確執(zhí)行何種算法以及會(huì)發(fā)生何種類型的故障的問題;其次是圖的連通性,所謂連通性,是指在未發(fā)生故障的節(jié)點(diǎn)之間,存在完整的通信鏈路,從而有效地保證互聯(lián)網(wǎng)絡(luò)的正常運(yùn)行。
2.2 故障診斷
隨著市場的發(fā)展,要求計(jì)算的成本要變得更低,同時(shí)計(jì)算投資人的利益還要得到保護(hù)。現(xiàn)今,科學(xué)計(jì)算的應(yīng)用領(lǐng)域變得越來越廣,而且應(yīng)用的程度越深,對(duì)性能的要求就越高,而且在很長的一段時(shí)間內(nèi),這種狀況都會(huì)保持著增長的趨勢;谶@項(xiàng)要求,高性能計(jì)算機(jī)在提高自身性能時(shí),最為關(guān)鍵的問題就是結(jié)點(diǎn)的互聯(lián)網(wǎng)絡(luò)。當(dāng)前,在高性能計(jì)算機(jī)中的互聯(lián)網(wǎng)絡(luò)中,為了實(shí)現(xiàn)結(jié)點(diǎn)之間的互聯(lián),采取了比較典型的互聯(lián)系統(tǒng),然而在這些系統(tǒng)中, 結(jié)點(diǎn)之間的通信邊都存在著發(fā)生故障的概率,這些故障一旦發(fā)生,就會(huì)帶來嚴(yán)重的損失。因此,對(duì)于高性能計(jì)算機(jī)系統(tǒng)的穩(wěn)定性來說,互聯(lián)網(wǎng)絡(luò)的可靠性最為重要。一般來說,高性能計(jì)算機(jī)系統(tǒng)可靠性所采取的技術(shù)為容錯(cuò)性技術(shù),在容錯(cuò)性技術(shù)中,動(dòng)態(tài)冗余是經(jīng)常被依賴的一種方式,動(dòng)態(tài)冗余技術(shù)中,包括故障檢測和診斷環(huán)節(jié),在對(duì)故障進(jìn)行檢測和診斷時(shí),首先需要進(jìn)行測試,之后再進(jìn)行診斷。測試的主要目的的確定系統(tǒng)中是否存在故障, 因此,也被成為故障檢測;而診斷除了要確定是否存在故障之外,還需要確定故障發(fā)生的位置,因此,診斷工作的難度非常大。在度量系統(tǒng)的可靠性時(shí),故障診斷能力也是一項(xiàng)比較重要的指標(biāo)。在故障診斷中,最為有效的方法就是系統(tǒng)級(jí)診斷,從范圍上來看,系統(tǒng)級(jí)診斷包括四類:門級(jí)、芯片級(jí)、子系統(tǒng)以及系統(tǒng)級(jí)。
3 高性能計(jì)算機(jī)中互聯(lián)網(wǎng)絡(luò)的可靠性研究
3.1 互聯(lián)網(wǎng)絡(luò)的容錯(cuò)性
(1)OTIS 網(wǎng)絡(luò)的容錯(cuò)性研究
OTIS 是指光電轉(zhuǎn)換網(wǎng)絡(luò),在這種類型的互聯(lián)網(wǎng)絡(luò)中,處理器由n 個(gè)簇造成, 而每個(gè)簇又包含至少一個(gè)芯片,在同一個(gè)簇中,通過電來實(shí)現(xiàn)處理器的互聯(lián),而在不同的簇之間,實(shí)現(xiàn)互聯(lián)所依賴的是光信號(hào)。在并行系統(tǒng)和分布式的系統(tǒng)中,所擁有的比較重要的特性就是容錯(cuò)性,在互聯(lián)網(wǎng)絡(luò)中,處理器或承載處理器的芯片以及處理器之間的通信比較容易發(fā)生故障,通過抽象理解,這兩大故障可以看作是結(jié)點(diǎn)和邊故障。對(duì)于OTIS 網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)來說,需要格外注意的因素為網(wǎng)絡(luò)的可靠性,為了提高互聯(lián)網(wǎng)絡(luò)的可靠性,就需要進(jìn)行網(wǎng)絡(luò)限制連通設(shè)計(jì)。由此一來,該類型的互聯(lián)網(wǎng)絡(luò)將會(huì)具有較好的容錯(cuò)性。
(2)光互聯(lián)網(wǎng)絡(luò)hypermesh 的容錯(cuò)性研究
隨著高性能計(jì)算機(jī)的發(fā)展,通信要求得到不斷地提升,這樣一來,傳統(tǒng)的電互聯(lián)方式已經(jīng)無法滿足要求,需要研究出新的互聯(lián)方式,由此,光互聯(lián)網(wǎng)絡(luò)應(yīng)運(yùn)而生。大部分的光互聯(lián)網(wǎng)絡(luò)在進(jìn)行設(shè)計(jì)時(shí), 以分布式光交換開光為基礎(chǔ),但是這種設(shè)計(jì)方式的缺陷是圖論定義不精確,因此, 為了改善這個(gè)問題,就研究出了光互聯(lián)網(wǎng)hypermesh,在這種類型的互聯(lián)網(wǎng)絡(luò)中,圖論結(jié)構(gòu)以超圖規(guī)則為基礎(chǔ)。高性能計(jì)算機(jī)中的光網(wǎng)絡(luò)技術(shù)得到了快速的發(fā)展,為了保證網(wǎng)絡(luò)的可靠性,就需要提高系統(tǒng)的容錯(cuò)性能。
3.2 互聯(lián)網(wǎng)絡(luò)的故障診斷
(1)診斷模型
互聯(lián)網(wǎng)絡(luò)故障診斷模型主要有兩種類型:第一種類型為PMC 模型,在這一網(wǎng)絡(luò)故障診斷模型當(dāng)中,將網(wǎng)絡(luò)系統(tǒng)進(jìn)行了劃分,將其分為若干結(jié)點(diǎn)機(jī),這些結(jié)點(diǎn)機(jī)之間可以進(jìn)行互相測試。在測試時(shí),模型會(huì)根據(jù)測試者給出的測試程序來進(jìn)行,測試完成之后通過比較測試結(jié)果,能夠最終得出被測試者處于正常狀態(tài)還是故障狀態(tài)。第二種類型為比較模型,在利用比較模型對(duì)互聯(lián)網(wǎng)系統(tǒng)進(jìn)行故障診斷時(shí),需要借助一些相關(guān)的故障診斷算法,最終來實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)系統(tǒng)故障的診斷。
(2)OMMH 的故障診斷
OMMH 為光互聯(lián)網(wǎng)絡(luò)光多網(wǎng)格超立方體,是超立方體和網(wǎng)格網(wǎng)絡(luò)的完美結(jié)合,這一故障診斷模型在建立時(shí)兼取了網(wǎng)格網(wǎng)絡(luò)和超立方體的所有優(yōu)點(diǎn),避免了其所具有的缺點(diǎn)。因此,在利用OMMH 網(wǎng)絡(luò)對(duì)互聯(lián)網(wǎng)系統(tǒng)進(jìn)行故障診斷時(shí),具有高效及快速的特點(diǎn),而且故障診斷的準(zhǔn)確性非常高,極大的提高了互聯(lián)網(wǎng)故障診斷的整體效率。
(3)折疊立方體互聯(lián)網(wǎng)絡(luò)的悲觀故障診斷
故障診斷也需要容錯(cuò)技術(shù)的支持,以便于有效的保證最終的故障診斷結(jié)果的有效性,在折疊立方體互聯(lián)網(wǎng)絡(luò)中,利用悲觀故障診斷策略,可以有效節(jié)省故障診斷的時(shí)間,提升故障診斷準(zhǔn)確性以及有效性。
4 結(jié)論
隨著計(jì)算機(jī)技術(shù)及科學(xué)技術(shù)的發(fā)展, 高性能計(jì)算機(jī)的功能得到了有效的提升, 由此一來,高性能計(jì)算機(jī)所具有的組件就會(huì)增加許多,使得互聯(lián)網(wǎng)絡(luò)的規(guī)模變得越來越大,這樣一來,互聯(lián)網(wǎng)絡(luò)的可靠性就受到了很大的影響,因?yàn),為了提高互?lián)網(wǎng)絡(luò)的可靠性,就需要對(duì)容錯(cuò)性及故障診斷進(jìn)行研究,通過這兩項(xiàng)技術(shù)的提高,使得互聯(lián)網(wǎng)絡(luò)的可靠性增強(qiáng),從而提升高性能計(jì)算機(jī)的可靠性,保證系統(tǒng)為用戶提供更為優(yōu)質(zhì)的服務(wù)。
【參考文獻(xiàn)】
[1] 王凱,陳飛,李強(qiáng)等. 一種面向高性能計(jì)算機(jī)的超節(jié)點(diǎn)控制器的研究[J]. 計(jì)算機(jī)研究與發(fā)展,2011, (01):1-8.
[2] 肖利民,祝明發(fā). 淺談超級(jí)計(jì)算中心的高性能計(jì)算機(jī)系統(tǒng)面臨的挑戰(zhàn)及應(yīng)對(duì)[J]. 科研信息化技術(shù)與應(yīng)用,2010,(01):27-34.
[3] 李暉,吳俊敏,陳國良. 一種新的高性能計(jì)算機(jī)互連網(wǎng)絡(luò)及其并行仿真[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2010,(09):1697-1701.
[4] 蔡曄,劉剛,毛睿等.KD-90 普及型個(gè)人高性能計(jì)算機(jī)系統(tǒng)設(shè)計(jì)與性能優(yōu)化[J]. 深圳大學(xué)學(xué)報(bào)(理工版),2013,(02):138-143.
本站論文資源均為來自網(wǎng)絡(luò)轉(zhuǎn)載,免費(fèi)提供給廣大作者參考,不進(jìn)行任何贏利,如有版權(quán)問題,請(qǐng)聯(lián)系管理員刪除! 快速論文發(fā)表網(wǎng)(www.455685.com)本中心和國內(nèi)數(shù)百家期刊雜志社有良好的合作關(guān)系,可以幫客戶代發(fā)論文投稿.
投稿郵箱:ksfbw@126.com
客服Q Q:
82702382
聯(lián)系電話:15295038833
本站論文資源均為來自網(wǎng)絡(luò)轉(zhuǎn)載,免費(fèi)提供給廣大作者參考,不進(jìn)行任何贏利,如有版權(quán)問題,請(qǐng)聯(lián)系管理員刪除!