閃存革命無(wú)處不在

發(fā)布時(shí)間:2014-12-25 14:21    發(fā)布者:eechina
關(guān)鍵詞: 閃存 , 數據中心
作者:Altera 公司總編輯Ron Wilson

隨著(zhù)價(jià)格適中的大容量閃存芯片的面市,數據中心巨大的存儲系統體系結構出現了很大的變化。通常的情況是,大容量低成本應用出現變化時(shí),結果會(huì )很快擴展到其他計算領(lǐng)域,包括嵌入式領(lǐng)域。今年閃存峰會(huì )的論文和主題演講討論了這種顛覆式變化對數據中心的影響,從中揭示了其涉及范圍和進(jìn)展情況。

這種變化直接的原因是閃存供應商在規模上的成功:使用創(chuàng )新的單元設計和新工藝技術(shù),推動(dòng)了單位比特成本的不斷下降,達到了降低單位比特磁盤(pán)成本的目標。減小體積,每個(gè)單元能夠存儲多個(gè)比特的數據,最近的工藝變化支持 NAND 閃存單元在管芯表面垂直堆疊,使它們能夠一起協(xié)同工作 (圖 1) 。
   
目前最新的進(jìn)展是堆疊了 32 個(gè)單元,每單元 2 個(gè)比特的 128 千兆位 (Gb)芯片,還有,據傳這一 3D 器件每個(gè)單元存儲了 3 個(gè)比特,其密度接近了 256 Gb。三星公司在此次峰會(huì )上介紹了這些器件。三星還介紹了這類(lèi)芯片有可能支持實(shí)現 16-32 太字節 (TB) 固態(tài)磁盤(pán) (SSD)。

是 SSD 而不是閃存芯片本身改變了大規模存儲系統的游戲規則。在這一點(diǎn),SSD — 含有閃存芯片和控制器的模組,能夠替代中等容量的磁盤(pán)陣列,同時(shí)實(shí)現較高的傳送速率,更短的訪(fǎng)問(wèn)延時(shí)。SSD 能夠降低能耗,在可靠性上還具有優(yōu)勢。而且,隨著(zhù)最近價(jià)格的變化,據 IBM 閃存系統副總裁 Michael Kuhn “可伸縮存儲的成本優(yōu)勢結合具有 RAID 陣列的閃存模組,其成本要低于高性能磁盤(pán)!

這一情形表明,在存儲體系結構中,數據中心能夠考慮使用 SSD 來(lái)替代 DRAM 下面的高性能磁盤(pán)。這種變化可以把磁盤(pán)降級為所謂的冷存儲應用:保存使用不多或者不經(jīng)常參考的文件。
   

圖 1. 將比特單元在縱向比特行上一個(gè)個(gè)的堆疊,閃存供應商能夠在一個(gè)比特單元布局中獲得 32 個(gè)單元。

閃存芯片的發(fā)展還打開(kāi)了另一扇門(mén)。設計人員現在可以更自由的混合使用 DRAM、閃存和磁盤(pán)進(jìn)行試驗。底層的概念是使用每一種存儲技術(shù)作為較慢的下一層的管理高速緩存。所有層都能夠由本地控制器進(jìn)行管理,這一控制器與應用層和OS層軟件相配合,在系統中延時(shí)最低的層中保存使用最多的數據。

有趣的問(wèn)題是在互聯(lián)體系結構中,以及控制器的實(shí)際功能中。為解決這些問(wèn)題,我們還要問(wèn)一些問(wèn)題:數據中心運營(yíng)商要做什么,編程人員需要什么?
適應數據中心

數據中心運營(yíng)商會(huì )購買(mǎi)下一代存儲系統,也可能會(huì )忽略。因此,重要的是理解他們的觀(guān)點(diǎn)。然而,他們的觀(guān)點(diǎn)并不簡(jiǎn)單:數據中心千差萬(wàn)別。

比較容易得出的結論是:運營(yíng)商要掙錢(qián)。但這只是意味著(zhù),每家運營(yíng)商都希望在性能、能效、初始成本、可靠性、安全和可預測性上有自己的特點(diǎn)。某家運營(yíng)商到底需要什么,他們使用什么樣的體系結構方法來(lái)實(shí)現目標,這些都是千差萬(wàn)別。

運行單一功能箱式數據中心的石油勘探公司的需求可能會(huì )比較極端。對于這一類(lèi)客戶(hù),性能最重要。采購和運營(yíng)成本并不是很重要,可靠性是額外的,而安全和可預測性需求并不明顯。但是,數據中心規模越來(lái)越大,更加開(kāi)放,各種任務(wù)相混合,優(yōu)先級也變化了。能源成本會(huì )遠遠超出購買(mǎi)價(jià)格?偼掏铝 — 或者能夠準確的預測運行時(shí)間,會(huì )比單一任務(wù)速度更重要。安全成為很大的問(wèn)題,而大量的冗余會(huì )使得可靠性問(wèn)題從芯片級或者機框級蔓延到系統級,在不需要的存儲介質(zhì)上實(shí)現零誤碼率。
滿(mǎn)意的編程人員

相反,編程人員的需求聽(tīng)起來(lái)非常簡(jiǎn)單?傮w上,編程人員只需要非常大的平面地址空間,因此,他們的程序能夠按照名稱(chēng)來(lái)調用變量,不需要知道數值目前在哪里 — 在本地高速緩存中,在某些其他服務(wù)器的 DRAM 中,在某處的 SSD 中,還是在大容量磁盤(pán)中。當然,他們希望這種透明性不會(huì )增加額外的性能或者存儲成本,也不用修改源代碼。

綜合考慮起來(lái),所有這些要求看起來(lái)沒(méi)法滿(mǎn)足。而 CPU 管芯的高速緩存大大降低了延時(shí),提高了 DRAM 帶寬,新的融合存儲體系結構能夠提高存儲系統的性能。它們能夠讓這一層次結構成為單一的平面虛擬 DRAM 陣列,性能類(lèi)似 DRAM,只是偶爾出現額外的延時(shí)。

這對于大數據中心的影響非常大。例如,在宣傳公司的可伸縮存儲體系結構時(shí),IBM 的 Kuhn 宣稱(chēng)幫助可口可樂(lè )將現有服務(wù)器的存儲性能提高了 5 倍。很多人認為可伸縮存儲是融合存儲技術(shù)的雛形,代表了閃存芯片和互聯(lián)體系結構的最新發(fā)展。

而優(yōu)勢不僅僅體現在規模上。Marvell 半導體公司副總裁 Iri Trashanski 解釋說(shuō),其公司認識到大量的 SSD,從客戶(hù)側存儲系統 — 存儲 2 gigabytes (GB) 或者更少,通過(guò) SATA 通道直接連接服務(wù)器,直至企業(yè)和數據中心系統,這些系統將磁盤(pán)降級為冷存儲應用。Trashanski 說(shuō):“今天,所有這些領(lǐng)域使用相同的閃存芯片,具有同樣的商用控制器,只是在固件上有所差別! 但是這種同一性很快出現了變化。要了解其原因,我們必須深入了解融合存儲系統。
機箱里面

Riccardo Badalone 是 Diablo 技術(shù)公司的 CEO,介紹了其公司的產(chǎn)品,說(shuō)明了技術(shù)應用在哪里。他說(shuō): “未來(lái)的存儲系統是高密度,納秒字節尋址,容量是可伸縮的。公司的建議是 — 融合存儲器” ,Badalone 說(shuō):“DRAM 和閃存的工程融合! 閃存提供了高密度、非易失、模塊尋址存儲。DRAM 疊加了閃存,具有高速、字節尋址可預測高速緩存。

在實(shí)際的大系統中,這一概念可以擴展到 DRAM 和閃存之外,包括大容量磁盤(pán),甚至是磁帶。在每一層面上,存儲介質(zhì)的角色略有不同,控制器所需要的功能完全不同。更有趣的是,每一級都有不同的互聯(lián)選擇。

互聯(lián)結構可能是研究開(kāi)始使用這些融合系統最好的地方。傳統的服務(wù)器除了片內高速緩存會(huì )有三級存儲:DRAM、本地磁盤(pán)以及與網(wǎng)絡(luò )連接的存儲設備。這些與 CPU 的連接都采用了不同的物理方式,具有不同的控制和數據傳送協(xié)議。

服務(wù)器的 L2 或者 L3 高速緩存控制器通過(guò)專(zhuān)用端口連接 DRAM,連接專(zhuān)用 DRAM 控制器,進(jìn)一步直接連接至 DRAM 模組。出現高速緩存錯過(guò)或者泛洪時(shí),控制器產(chǎn)生 DRAM 引腳信號,以讀取或者寫(xiě)入控制器行中。

直接連接的磁盤(pán)工作方式完全不同。磁盤(pán)控制器通過(guò)專(zhuān)用 SATA 端口,或者 PCI Express® (PCIe®),連接至 CPU。運行在 CPU 內核中的驅動(dòng)軟件將操作系統的請求轉譯成文件名稱(chēng)和記錄號,然后,在控制器的幫助下,訪(fǎng)問(wèn)磁盤(pán)的扇區。然后,驅動(dòng)程序命令控制器在磁盤(pán)和 DRAM 之間傳送扇區。同樣的過(guò)程應用到與網(wǎng)絡(luò )連接的存儲設備上,但是,磁盤(pán)和控制器之間的通信必須通過(guò)另一層 — 以太網(wǎng)驅動(dòng),把數據包交付給 PCIe 驅動(dòng),傳送到網(wǎng)絡(luò )適配器,最終通過(guò)以太網(wǎng)到達控制器。
融合新思路

SSD 和存儲融合將這種異構協(xié)議推向了更簡(jiǎn)單的新發(fā)展方向。首先,直接連接 SSD 會(huì )替代 CPU 電路板上的 SATA。Diablo 的閃存系統直接連接至服務(wù)器卡的 DIMM 插槽,模仿部分 DRAM 地址空間。在其他實(shí)現中,PCIe 電路部分通常連接至小型 M.2 卡,承載了 SSD,替代了與磁盤(pán)控制器的 SATA 連接。NVMe 等閃存新協(xié)議替代了老的磁盤(pán)協(xié)議。據 Altera 存儲系統專(zhuān)家 Robert Pierce,這些技術(shù)使得 16-32 TB 的閃存直接連接 CPU 群成為可能。同時(shí),網(wǎng)絡(luò )連接存儲開(kāi)始過(guò)渡到帶寬更大的連接,例如,Infiniband 固有的光傳送或者 PCIe。

這些變化表明了方法的集成度更高了。目的是讓所有級別的存儲,從 DRAM 到冷存儲,成為 CPU 高速緩存總線(xiàn)上的一個(gè)大容量虛擬存儲器。

這一概念即將實(shí)現的是 IBM 的一致性加速器處理器接口 (CAPI) 連接的閃存。這一設計把一個(gè)閃存控制器放到 CAPI 總線(xiàn)上 — 實(shí)際上,是 Power8 CPU 高速緩存互聯(lián)的片外擴展,支持處理器的存儲器一致性協(xié)議。這種連接支持閃存子系統 — 會(huì )有自己的 SRAM 和 DRAM 高速緩存,看起來(lái)就是 CPU 共享存儲器的一部分。

與 CAPI 物理連接的芯片是閃存控制器。而在未來(lái)的實(shí)現中,可能是多功能存儲 SoC,控制閃存陣列、本地磁盤(pán),以及冷存儲的光鏈路 (圖 2)。


圖 2. 連接至 CPU 群一致性高速緩存總線(xiàn)的融合存儲控制器能夠使系統中的所有存儲就像一個(gè)巨大的虛擬 DRAM。

在物理層,融合系統中的每一類(lèi)存儲都有自己的底層管理要求。DRAM 需要糾錯功能,以及圍繞失效比特單元、行和列的映射功能。閃存有這些要求,還需要算法來(lái)消除每一模塊擦除寫(xiě)入周期數,以便在芯片上均勻的分配損耗,通過(guò)算法來(lái)優(yōu)化寫(xiě)入。

據微軟云網(wǎng)絡(luò )服務(wù)器工程總經(jīng)理 Kushagra Vaid,這些損耗均衡和寫(xiě)操作策略 — 以及閃存芯片本身,都是與應用相關(guān)的。他指出,微軟對于耐用性和數據保持等關(guān)鍵閃存芯片參數的需求是與工作負載相關(guān)的。Vaid 說(shuō),任何一種云應用都有可能頻繁的使用 SSD,而必應搜索引擎每天只寫(xiě)入閃存一次。相似的,在某些應用中,閃存芯片不需要將數據保持 24 小時(shí)以上 — 極大的簡(jiǎn)化了芯片供應商設計對數據永久保留的需求。知道芯片是怎樣使用的意味著(zhù)能夠獲得更多的性能或者密度,通過(guò)降低測試極限來(lái)降低成本。但也意味著(zhù),物理存儲器的面積,寫(xiě)控制算法也是與應用相關(guān)的。因此,在一定程度上,存儲器組織必須應對應用級軟件:存儲逐漸成為軟件定義的。

磁盤(pán)控制器還有相似的物理層面的要求,但是環(huán)境非常不同。必須糾正錯誤,映射出壞扇區,完成傳送。磁盤(pán)讀/寫(xiě)算法與應用的相關(guān)性不明顯,但是,磁盤(pán)數據組織確是如此。

這一級之上是數據管理任務(wù)層。如果 DRAM 和閃存層是可預測高速緩存,控制器會(huì )進(jìn)行預測:在合適的時(shí)間把數據裝入合適的層中。這種需求同樣適用于小系統和大系統。但是數據中心能夠增加另一維度 — 不同服務(wù)器卡上存儲控制器的直接連接。Pierce 說(shuō),有足夠的連接后,控制器能夠形成 2D 或者 3D 曲面,實(shí)際上合并了機架中所有 CPU 的全部存儲資源。軟件也會(huì )管理哪些數據應放在延時(shí)和可靠性最佳的地方。

與數據管理密切相關(guān)的是壓縮和安全。很明顯,無(wú)損數據壓縮提高了每一存儲級別的容量效率,同樣提高了鏈路的有效帶寬 — 如果算法足夠快。對于容易受到入侵的系統,安全問(wèn)題會(huì )要求數據以加密格式存儲,只能在授權線(xiàn)程使用時(shí)解密。這些任務(wù)也是由控制器完成。但是與前面的任務(wù)不同,這些任務(wù)要求控制器的計算速度與應用級性能相匹配。

這里列出的任務(wù)表明,融合存儲控制器從相對簡(jiǎn)單的基于 MCU 的 ASIC 發(fā)展到服務(wù)器類(lèi) SoC,針對特殊功能提供了硬件加速。我們需要指出的最后一點(diǎn)是這保證了發(fā)展。

一旦您決定了將服務(wù)器類(lèi)處理功能放到融合存儲系統中,增加硬件保證例程數據管理任務(wù)不會(huì )讓 CPU 過(guò)載,下一個(gè)比較明顯的問(wèn)題是這些 CPU 還能干什么? 這一問(wèn)題直接導致了存儲系統內部關(guān)于計算的爭論。
存儲中的計算

支持者認為,在很多算法中,其線(xiàn)程應放到閃存子系統中完成,甚至是在硬盤(pán)系統中?傮w上,這類(lèi)任務(wù)有兩個(gè)特點(diǎn)。第一,它們的參考有很強的本地性,因此,它們不需要存儲模組之間的大量數據流。更好的是,任務(wù)對數據的要求與提供數據的介質(zhì)的要求相似,不需要把大量的數據保存或者放到本地存儲器中。第二,這些任務(wù)應極大的減少傳送給計算服務(wù)器用于后續處理的數據量。

例如,在網(wǎng)絡(luò )搜索操作中,第一步是過(guò)濾所有訪(fǎng)問(wèn)頁(yè)面數據,找到包括所需搜索術(shù)語(yǔ)的頁(yè)面。這一任務(wù)對于每一頁(yè)面完全是本地化的,可以作為磁盤(pán)外或者閃存文件之外的數據流來(lái)處理。任務(wù)會(huì )丟掉絕大部分頁(yè)面,只有一小部分會(huì )發(fā)送給服務(wù)器,進(jìn)一步進(jìn)行分析。對于存儲中處理,這看起來(lái)是理想的任務(wù)。

懷疑者認為有很難解決的問(wèn)題。誰(shuí)應該把算法分成服務(wù)器線(xiàn)程以及存儲中線(xiàn)程? 運算怎樣才能維持較高的 CPU 利用率,這一般不容易獲得,而是深藏在存儲系統中? 除了最底層存儲系統之外的所有層都直接連接服務(wù)器,存儲中計算又有什么不同呢?

雖然不斷有爭論,但融合存儲系統仍然是很強大的本地處理器。Tensilica 可配置處理器 IP 部的 Cadence CTO Chris Rowen 爭論到,“閃存管理有很多獨特而且難度很大的運算,需要一類(lèi)新處理器! 有了這類(lèi)處理器之后,應用級編程人員會(huì )嘗試使用它們。

這又把我們從云端數據中心帶回了實(shí)際的嵌入式計算。從數據中心過(guò)渡到融合存儲系統會(huì )帶來(lái)直接連接模組大市場(chǎng) — 控制器、DRAM、閃存、磁盤(pán)以及高速接口,這些系統需要這些接口。價(jià)格競爭會(huì )使得這些模組在嵌入式系統設計人員的承受范圍內。

對此,嵌入式系統設計人員和編程人員必須要考慮一系列可能發(fā)生的步驟。首先,準備好從 SATA 改變到 CPU 電路板上基于 PCIe 的存儲連接。其次,開(kāi)始思考存儲不是一類(lèi)由操作系統通過(guò)驅動(dòng)調用所管理的不同的器件,而是一種虛擬 DRAM 平面,由應用程序直接管理。第三,找到應用程序中能夠利用存儲中處理資源的線(xiàn)程 — 可能具有用戶(hù)定義的加速器。當轉到數據中心軟件定義存儲時(shí),這些步驟可能會(huì )給嵌入式設計人員帶來(lái)意外驚喜。
- See more at: http://www.altera.com.cn/technol ... thash.YeqC7RGk.dpuf
本文地址:http://selenalain.com/thread-136833-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页