本周Google和多倫多大學公布的一項研究結果表明,DRAM內存模塊的數據錯誤率要遠遠高于人們的預想,而且更有可能成為系統宕機和服務中斷的罪魁禍首.這項研究采用了上百萬臺Google服務器,結果表明所有DIMM中有大約8.2%受到了可修正錯誤的影響,平均一個DIMM每年要發生3700次可修正錯誤.
這項報告指出:“我們首次發現內存錯誤普遍存在.所有在用設備中大約1/3每年至少遇到一次內存錯誤,平均每年發生的可修正錯誤為22000次.在不同平臺上得出的數據不同,有些平臺大約有50%的設備受到可修正錯誤的影響,有的僅為12%~27%.”
至少發生過一次錯誤的Google服務器每年發生錯誤的平均數從25到611不等.內存錯誤可能是由電磁干擾或者硬件故障所導致.
內存錯誤可分為軟錯誤和硬錯誤兩種,軟錯誤很少損壞字位,但是并不會避免物理損壞,這是可修正的;硬錯誤會損壞DRAM中的字位而成為物理缺陷,從而造成數據錯誤的反復發生.
Google和多倫多大學進行的這項研究涉及來自多家廠商的內存已經多種類型的內存,例如DDR1、DDR2和FB-DIMM.
這項研究覆蓋了Google數據中心內的絕大多數服務器,歷時兩年半時間,從2006年1月持續到2008年6月.
雖然這項研究主要針對的是服務器,而且采用最新更高密度DRAM不會使錯誤率提高,但是隨著內存芯片的密度越來越高,PC也最終需要糾錯代碼技術.
在特定芯片上的糾錯代碼被用于檢測和糾正數據存儲或者數據傳輸過長中發生的錯誤.
目前,DRAM采用50nm制程技術,并將遷移到40nm上.字位越來越小,DRAM就越容易發生軟錯誤.
例如,當一臺具有糾錯技術的服務器在發生軟錯誤之后仍能正常運行,而PC就需要重新啟動.每次處理器嘗試從服務器卡中的一個字位進行讀取的時候也需要糾正硬錯誤,但是PC中的DRAM因為沒有糾錯功能而需要被替換掉,否則可能會導致采用這個內存的系統或者應用發生崩潰.
Handy表示:“研究表明,硬錯誤要比軟錯誤更加常見.這意味著模塊運行在服務器上,每次遇到發生硬錯誤的字位,它就會進行修正這樣內存模塊不需要被替換.如果是PC用戶的話,那么設備可能就會中斷運行.”如果錯誤是可修正的,例如多個字位超出了糾錯代碼可修正范圍的話,服務器就會停止運轉.
研究表明,考慮到這其中可能涉及到的系統故障和修復成本,內存錯誤的成本其實是很高的,另外它還可能引發安全問題.
報告指出:“在運行大規模系統的生產站點中,內存模塊更換等級接近模塊更換等級的上限,內存錯誤是導致硬件崩潰的最常見硬件問題.另外,最近的研究工作表明內存錯誤可能導致安全漏洞.”
進入論壇>>聲明:IT商業新聞網登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內容僅供參考。新聞咨詢:(010)68023640.推薦閱讀
新標準要求MP3廠商對其播放器進行技術上的調整,在默認情況下以安全的音量播放音樂。此外,播放器還要具備健康提醒功能,確保以高音量聽音樂的用戶知道其中的風險。 北京時間9月29日上午消息,據國外媒體報道,為了保>>>詳細閱讀
本文標題:Google:DRAM錯誤率超出人們預想
地址:http://www.oumuer.cn/a/xie/20111230/199719.html