閃存革命無(wú)處不在

發(fā)布時(shí)間：2014-12-25 14:21 發(fā)布者：eechina

關(guān)鍵詞：閃存 , 數據中心

作者：Altera 公司總編輯Ron Wilson

隨著(zhù)價(jià)格適中的大容量閃存芯片的面市，數據中心巨大的存儲系統體系結構出現了很大的變化。通常的情況是，大容量低成本應用出現變化時(shí)，結果會(huì )很快擴展到其他計算領(lǐng)域，包括嵌入式領(lǐng)域。今年閃存峰會(huì )的論文和主題演講討論了這種顛覆式變化對數據中心的影響，從中揭示了其涉及范圍和進(jìn)展情況。

這種變化直接的原因是閃存供應商在規模上的成功：使用創(chuàng )新的單元設計和新工藝技術(shù)，推動(dòng)了單位比特成本的不斷下降，達到了降低單位比特磁盤(pán)成本的目標。減小體積，每個(gè)單元能夠存儲多個(gè)比特的數據，最近的工藝變化支持 NAND 閃存單元在管芯表面垂直堆疊，使它們能夠一起協(xié)同工作 (圖 1) 。

目前最新的進(jìn)展是堆疊了 32 個(gè)單元，每單元 2 個(gè)比特的 128 千兆位 (Gb)芯片，還有，據傳這一 3D 器件每個(gè)單元存儲了 3 個(gè)比特，其密度接近了 256 Gb。三星公司在此次峰會(huì )上介紹了這些器件。三星還介紹了這類(lèi)芯片有可能支持實(shí)現 16-32 太字節 (TB) 固態(tài)磁盤(pán) (SSD)。

是 SSD 而不是閃存芯片本身改變了大規模存儲系統的游戲規則。在這一點(diǎn)，SSD — 含有閃存芯片和控制器的模組，能夠替代中等容量的磁盤(pán)陣列，同時(shí)實(shí)現較高的傳送速率，更短的訪(fǎng)問(wèn)延時(shí)。SSD 能夠降低能耗，在可靠性上還具有優(yōu)勢。而且，隨著(zhù)最近價(jià)格的變化，據 IBM 閃存系統副總裁 Michael Kuhn “可伸縮存儲的成本優(yōu)勢結合具有 RAID 陣列的閃存模組，其成本要低于高性能磁盤(pán)�！�

這一情形表明，在存儲體系結構中，數據中心能夠考慮使用 SSD 來(lái)替代 DRAM 下面的高性能磁盤(pán)。這種變化可以把磁盤(pán)降級為所謂的冷存儲應用：保存使用不多或者不經(jīng)常參考的文件。

圖 1. 將比特單元在縱向比特行上一個(gè)個(gè)的堆疊，閃存供應商能夠在一個(gè)比特單元布局中獲得 32 個(gè)單元。

閃存芯片的發(fā)展還打開(kāi)了另一扇門(mén)。設計人員現在可以更自由的混合使用 DRAM、閃存和磁盤(pán)進(jìn)行試驗。底層的概念是使用每一種存儲技術(shù)作為較慢的下一層的管理高速緩存。所有層都能夠由本地控制器進(jìn)行管理，這一控制器與應用層和OS層軟件相配合，在系統中延時(shí)最低的層中保存使用最多的數據。

有趣的問(wèn)題是在互聯(lián)體系結構中，以及控制器的實(shí)際功能中。為解決這些問(wèn)題，我們還要問(wèn)一些問(wèn)題：數據中心運營(yíng)商要做什么，編程人員需要什么？
適應數據中心

數據中心運營(yíng)商會(huì )購買(mǎi)下一代存儲系統，也可能會(huì )忽略。因此，重要的是理解他們的觀(guān)點(diǎn)。然而，他們的觀(guān)點(diǎn)并不簡(jiǎn)單：數據中心千差萬(wàn)別。

比較容易得出的結論是：運營(yíng)商要掙錢(qián)。但這只是意味著(zhù)，每家運營(yíng)商都希望在性能、能效、初始成本、可靠性、安全和可預測性上有自己的特點(diǎn)。某家運營(yíng)商到底需要什么，他們使用什么樣的體系結構方法來(lái)實(shí)現目標，這些都是千差萬(wàn)別。

運行單一功能箱式數據中心的石油勘探公司的需求可能會(huì )比較極端。對于這一類(lèi)客戶(hù)，性能最重要。采購和運營(yíng)成本并不是很重要，可靠性是額外的，而安全和可預測性需求并不明顯。但是，數據中心規模越來(lái)越大，更加開(kāi)放，各種任務(wù)相混合，優(yōu)先級也變化了。能源成本會(huì )遠遠超出購買(mǎi)價(jià)格�？偼掏铝� — 或者能夠準確的預測運行時(shí)間，會(huì )比單一任務(wù)速度更重要。安全成為很大的問(wèn)題，而大量的冗余會(huì )使得可靠性問(wèn)題從芯片級或者機框級蔓延到系統級，在不需要的存儲介質(zhì)上實(shí)現零誤碼率。
滿(mǎn)意的編程人員

相反，編程人員的需求聽(tīng)起來(lái)非常簡(jiǎn)單�？傮w上，編程人員只需要非常大的平面地址空間，因此，他們的程序能夠按照名稱(chēng)來(lái)調用變量，不需要知道數值目前在哪里 — 在本地高速緩存中，在某些其他服務(wù)器的 DRAM 中，在某處的 SSD 中，還是在大容量磁盤(pán)中。當然，他們希望這種透明性不會(huì )增加額外的性能或者存儲成本，也不用修改源代碼。

綜合考慮起來(lái)，所有這些要求看起來(lái)沒(méi)法滿(mǎn)足。而 CPU 管芯的高速緩存大大降低了延時(shí)，提高了 DRAM 帶寬，新的融合存儲體系結構能夠提高存儲系統的性能。它們能夠讓這一層次結構成為單一的平面虛擬 DRAM 陣列，性能類(lèi)似 DRAM，只是偶爾出現額外的延時(shí)。

這對于大數據中心的影響非常大。例如，在宣傳公司的可伸縮存儲體系結構時(shí)，IBM 的 Kuhn 宣稱(chēng)幫助可口可樂(lè )將現有服務(wù)器的存儲性能提高了 5 倍。很多人認為可伸縮存儲是融合存儲技術(shù)的雛形，代表了閃存芯片和互聯(lián)體系結構的最新發(fā)展。

而優(yōu)勢不僅僅體現在規模上。Marvell 半導體公司副總裁 Iri Trashanski 解釋說(shuō)，其公司認識到大量的 SSD，從客戶(hù)側存儲系統 — 存儲 2 gigabytes (GB) 或者更少，通過(guò) SATA 通道直接連接服務(wù)器，直至企業(yè)和數據中心系統，這些系統將磁盤(pán)降級為冷存儲應用。Trashanski 說(shuō)：“今天，所有這些領(lǐng)域使用相同的閃存芯片，具有同樣的商用控制器，只是在固件上有所差別�！� 但是這種同一性很快出現了變化。要了解其原因，我們必須深入了解融合存儲系統。
機箱里面

Riccardo Badalone 是 Diablo 技術(shù)公司的 CEO，介紹了其公司的產(chǎn)品，說(shuō)明了技術(shù)應用在哪里。他說(shuō)： “未來(lái)的存儲系統是高密度，納秒字節尋址，容量是可伸縮的。公司的建議是 — 融合存儲器” ，Badalone 說(shuō)：“DRAM 和閃存的工程融合�！� 閃存提供了高密度、非易失、模塊尋址存儲。DRAM 疊加了閃存，具有高速、字節尋址可預測高速緩存。

在實(shí)際的大系統中，這一概念可以擴展到 DRAM 和閃存之外，包括大容量磁盤(pán)，甚至是磁帶。在每一層面上，存儲介質(zhì)的角色略有不同，控制器所需要的功能完全不同。更有趣的是，每一級都有不同的互聯(lián)選擇。

互聯(lián)結構可能是研究開(kāi)始使用這些融合系統最好的地方。傳統的服務(wù)器除了片內高速緩存會(huì )有三級存儲：DRAM、本地磁盤(pán)以及與網(wǎng)絡(luò )連接的存儲設備。這些與 CPU 的連接都采用了不同的物理方式，具有不同的控制和數據傳送協(xié)議。

服務(wù)器的 L2 或者 L3 高速緩存控制器通過(guò)專(zhuān)用端口連接 DRAM，連接專(zhuān)用 DRAM 控制器，進(jìn)一步直接連接至 DRAM 模組。出現高速緩存錯過(guò)或者泛洪時(shí)，控制器產(chǎn)生 DRAM 引腳信號，以讀取或者寫(xiě)入控制器行中。

直接連接的磁盤(pán)工作方式完全不同。磁盤(pán)控制器通過(guò)專(zhuān)用 SATA 端口，或者 PCI Express® (PCIe®)，連接至 CPU。運行在 CPU 內核中的驅動(dòng)軟件將操作系統的請求轉譯成文件名稱(chēng)和記錄號，然后，在控制器的幫助下，訪(fǎng)問(wèn)磁盤(pán)的扇區。然后，驅動(dòng)程序命令控制器在磁盤(pán)和 DRAM 之間傳送扇區。同樣的過(guò)程應用到與網(wǎng)絡(luò )連接的存儲設備上，但是，磁盤(pán)和控制器之間的通信必須通過(guò)另一層 — 以太網(wǎng)驅動(dòng)，把數據包交付給 PCIe 驅動(dòng)，傳送到網(wǎng)絡(luò )適配器，最終通過(guò)以太網(wǎng)到達控制器。
融合新思路

SSD 和存儲融合將這種異構協(xié)議推向了更簡(jiǎn)單的新發(fā)展方向。首先，直接連接 SSD 會(huì )替代 CPU 電路板上的 SATA。Diablo 的閃存系統直接連接至服務(wù)器卡的 DIMM 插槽，模仿部分 DRAM 地址空間。在其他實(shí)現中，PCIe 電路部分通常連接至小型 M.2 卡，承載了 SSD，替代了與磁盤(pán)控制器的 SATA 連接。NVMe 等閃存新協(xié)議替代了老的磁盤(pán)協(xié)議。據 Altera 存儲系統專(zhuān)家 Robert Pierce，這些技術(shù)使得 16-32 TB 的閃存直接連接 CPU 群成為可能。同時(shí)，網(wǎng)絡(luò )連接存儲開(kāi)始過(guò)渡到帶寬更大的連接，例如，Infiniband 固有的光傳送或者 PCIe。

這些變化表明了方法的集成度更高了。目的是讓所有級別的存儲，從 DRAM 到冷存儲，成為 CPU 高速緩存總線(xiàn)上的一個(gè)大容量虛擬存儲器。

這一概念即將實(shí)現的是 IBM 的一致性加速器處理器接口 (CAPI) 連接的閃存。這一設計把一個(gè)閃存控制器放到 CAPI 總線(xiàn)上 — 實(shí)際上，是 Power8 CPU 高速緩存互聯(lián)的片外擴展，支持處理器的存儲器一致性協(xié)議。這種連接支持閃存子系統 — 會(huì )有自己的 SRAM 和 DRAM 高速緩存，看起來(lái)就是 CPU 共享存儲器的一部分。

與 CAPI 物理連接的芯片是閃存控制器。而在未來(lái)的實(shí)現中，可能是多功能存儲 SoC，控制閃存陣列、本地磁盤(pán)，以及冷存儲的光鏈路 (圖 2)。

圖 2. 連接至 CPU 群一致性高速緩存總線(xiàn)的融合存儲控制器能夠使系統中的所有存儲就像一個(gè)巨大的虛擬 DRAM。

在物理層，融合系統中的每一類(lèi)存儲都有自己的底層管理要求。DRAM 需要糾錯功能，以及圍繞失效比特單元、行和列的映射功能。閃存有這些要求，還需要算法來(lái)消除每一模塊擦除寫(xiě)入周期數，以便在芯片上均勻的分配損耗，通過(guò)算法來(lái)優(yōu)化寫(xiě)入。

據微軟云網(wǎng)絡(luò )服務(wù)器工程總經(jīng)理 Kushagra Vaid，這些損耗均衡和寫(xiě)操作策略 — 以及閃存芯片本身，都是與應用相關(guān)的。他指出，微軟對于耐用性和數據保持等關(guān)鍵閃存芯片參數的需求是與工作負載相關(guān)的。Vaid 說(shuō)，任何一種云應用都有可能頻繁的使用 SSD，而必應搜索引擎每天只寫(xiě)入閃存一次。相似的，在某些應用中，閃存芯片不需要將數據保持 24 小時(shí)以上 — 極大的簡(jiǎn)化了芯片供應商設計對數據永久保留的需求。知道芯片是怎樣使用的意味著(zhù)能夠獲得更多的性能或者密度，通過(guò)降低測試極限來(lái)降低成本。但也意味著(zhù)，物理存儲器的面積，寫(xiě)控制算法也是與應用相關(guān)的。因此，在一定程度上，存儲器組織必須應對應用級軟件：存儲逐漸成為軟件定義的。

磁盤(pán)控制器還有相似的物理層面的要求，但是環(huán)境非常不同。必須糾正錯誤，映射出壞扇區，完成傳送。磁盤(pán)讀/寫(xiě)算法與應用的相關(guān)性不明顯，但是，磁盤(pán)數據組織確是如此。

這一級之上是數據管理任務(wù)層。如果 DRAM 和閃存層是可預測高速緩存，控制器會(huì )進(jìn)行預測：在合適的時(shí)間把數據裝入合適的層中。這種需求同樣適用于小系統和大系統。但是數據中心能夠增加另一維度 — 不同服務(wù)器卡上存儲控制器的直接連接。Pierce 說(shuō)，有足夠的連接后，控制器能夠形成 2D 或者 3D 曲面，實(shí)際上合并了機架中所有 CPU 的全部存儲資源。軟件也會(huì )管理哪些數據應放在延時(shí)和可靠性最佳的地方。

與數據管理密切相關(guān)的是壓縮和安全。很明顯，無(wú)損數據壓縮提高了每一存儲級別的容量效率，同樣提高了鏈路的有效帶寬 — 如果算法足夠快。對于容易受到入侵的系統，安全問(wèn)題會(huì )要求數據以加密格式存儲，只能在授權線(xiàn)程使用時(shí)解密。這些任務(wù)也是由控制器完成。但是與前面的任務(wù)不同，這些任務(wù)要求控制器的計算速度與應用級性能相匹配。

這里列出的任務(wù)表明，融合存儲控制器從相對簡(jiǎn)單的基于 MCU 的 ASIC 發(fā)展到服務(wù)器類(lèi) SoC，針對特殊功能提供了硬件加速。我們需要指出的最后一點(diǎn)是這保證了發(fā)展。

一旦您決定了將服務(wù)器類(lèi)處理功能放到融合存儲系統中，增加硬件保證例程數據管理任務(wù)不會(huì )讓 CPU 過(guò)載，下一個(gè)比較明顯的問(wèn)題是這些 CPU 還能干什么？這一問(wèn)題直接導致了存儲系統內部關(guān)于計算的爭論。
存儲中的計算

支持者認為，在很多算法中，其線(xiàn)程應放到閃存子系統中完成，甚至是在硬盤(pán)系統中�？傮w上，這類(lèi)任務(wù)有兩個(gè)特點(diǎn)。第一，它們的參考有很強的本地性，因此，它們不需要存儲模組之間的大量數據流。更好的是，任務(wù)對數據的要求與提供數據的介質(zhì)的要求相似，不需要把大量的數據保存或者放到本地存儲器中。第二，這些任務(wù)應極大的減少傳送給計算服務(wù)器用于后續處理的數據量。

例如，在網(wǎng)絡(luò )搜索操作中，第一步是過(guò)濾所有訪(fǎng)問(wèn)頁(yè)面數據，找到包括所需搜索術(shù)語(yǔ)的頁(yè)面。這一任務(wù)對于每一頁(yè)面完全是本地化的，可以作為磁盤(pán)外或者閃存文件之外的數據流來(lái)處理。任務(wù)會(huì )丟掉絕大部分頁(yè)面，只有一小部分會(huì )發(fā)送給服務(wù)器，進(jìn)一步進(jìn)行分析。對于存儲中處理，這看起來(lái)是理想的任務(wù)。

懷疑者認為有很難解決的問(wèn)題。誰(shuí)應該把算法分成服務(wù)器線(xiàn)程以及存儲中線(xiàn)程？運算怎樣才能維持較高的 CPU 利用率，這一般不容易獲得，而是深藏在存儲系統中？除了最底層存儲系統之外的所有層都直接連接服務(wù)器，存儲中計算又有什么不同呢？

雖然不斷有爭論，但融合存儲系統仍然是很強大的本地處理器。Tensilica 可配置處理器 IP 部的 Cadence CTO Chris Rowen 爭論到，“閃存管理有很多獨特而且難度很大的運算，需要一類(lèi)新處理器�！� 有了這類(lèi)處理器之后，應用級編程人員會(huì )嘗試使用它們。

這又把我們從云端數據中心帶回了實(shí)際的嵌入式計算。從數據中心過(guò)渡到融合存儲系統會(huì )帶來(lái)直接連接模組大市場(chǎng) — 控制器、DRAM、閃存、磁盤(pán)以及高速接口，這些系統需要這些接口。價(jià)格競爭會(huì )使得這些模組在嵌入式系統設計人員的承受范圍內。

對此，嵌入式系統設計人員和編程人員必須要考慮一系列可能發(fā)生的步驟。首先，準備好從 SATA 改變到 CPU 電路板上基于 PCIe 的存儲連接。其次，開(kāi)始思考存儲不是一類(lèi)由操作系統通過(guò)驅動(dòng)調用所管理的不同的器件，而是一種虛擬 DRAM 平面，由應用程序直接管理。第三，找到應用程序中能夠利用存儲中處理資源的線(xiàn)程 — 可能具有用戶(hù)定義的加速器。當轉到數據中心軟件定義存儲時(shí)，這些步驟可能會(huì )給嵌入式設計人員帶來(lái)意外驚喜。
- See more at: http://www.altera.com.cn/technol ... thash.YeqC7RGk.dpuf

本文地址：http://selenalain.com/thread-136833-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

相關(guān)文章

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

廠(chǎng)商推薦

相關(guān)視頻

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页