作者:Real-Time Innovations公司首席應用工程師 Sumeet Shendrikar 在利用基于MCU的傳感器和移動(dòng)設備構建新的連接互聯(lián)網(wǎng)的云時(shí),很少有人會(huì )考慮如何管理這些傳感器云。在本文中,RTI公司的Sumeet Shendrikar介紹了如何通過(guò)具有態(tài)勢感知功能的分布式數據管理來(lái)做到這一點(diǎn)。在Michael Lewis的《點(diǎn)球成金(Moneyball)》一書(shū)中,他記錄了使用Sabermetrics指導管理棒球隊的策略。雖然重點(diǎn)在于組建棒球隊的分析方面,但其基本理念是利用歷史信息(先前的統計數據)改變當前的策略(上場(chǎng)擊球、防御態(tài)勢或陣容決定)。 《點(diǎn)球成金》討論的重點(diǎn)是由統計分析得出的意外決策,經(jīng)常有悖于長(cháng)期棒球專(zhuān)家的“第六感”。但這本書(shū)也表明,成功地使用Sabermetrics有3點(diǎn)要求:(1)了解過(guò)去發(fā)生了什么;(2)認識當前態(tài)勢;(3)應用歷史知識驅動(dòng)當前策略。 這種統計趨勢可以在許多其它領(lǐng)域見(jiàn)到。例如,經(jīng)濟貿易應用所依據的模型需要使用歷史數據進(jìn)行校準。很像棒球世界那樣,模型的成功取決于能夠多快地根據當前市場(chǎng)活動(dòng)發(fā)掘機會(huì )。如果實(shí)時(shí)市場(chǎng)數據由于任何理由被推遲了,那么機會(huì )將減少,甚至丟失。 最近在斯坦福大學(xué)商學(xué)院舉行的Big Data會(huì )議上,與會(huì )者討論了所有產(chǎn)業(yè)中Big Data的增長(cháng)趨勢,包括工業(yè)、汽車(chē)、消費、醫療,不僅只是棒球或經(jīng)濟產(chǎn)業(yè);蛘吒鼫蚀_地講,Big Data已經(jīng)是下一件世界大事,商業(yè)伙伴分析他們的系統中產(chǎn)生的龐大信息是明智的。 然而,經(jīng)常被人忽略的是如何真實(shí)地收集這些龐大的數據,或更準確地說(shuō),如何將數據從產(chǎn)生地移動(dòng)到需要它的其它不同地方。 這種關(guān)聯(lián)實(shí)時(shí)數據與歷史數據實(shí)現態(tài)勢感知,并將原始數據轉換成信息的能力正在快速變成許多大規模分布式系統的必備能力。 Big Data的興起表明,傳統的RDBMS數據庫已經(jīng)無(wú)法跟上這些大型分布式系統所展現的數據速率,也不足以應對獲得重要信息所需的各種咨詢(xún)。最近虛擬化技術(shù)和基于云的數據管理系統的爆發(fā)式增長(cháng)使得我們能夠以創(chuàng )新的方式解決這些問(wèn)題。 本文余下部分將簡(jiǎn)要介紹如何使用所謂的NoSQL數據庫方法將聯(lián)網(wǎng)設備與系統組成的分布式網(wǎng)絡(luò )連接到基于云的數據管理工具,從而實(shí)現態(tài)勢感知。同時(shí)使用了多個(gè)領(lǐng)域的不同例子說(shuō)明如何通過(guò)整合實(shí)時(shí)數據與歷史數據給分析師提供完整的新生態(tài)勢描述以及后事件分析。 保留實(shí)時(shí)數據 無(wú)論何時(shí)將永久數據管理增加到實(shí)時(shí)分布式系統,主要考慮因素都是保持運營(yíng)技術(shù)(OT)的關(guān)鍵性能特征。面向物理設備的技術(shù)是由工程部門(mén)實(shí)現和支持的,一般有許多設備與嵌入式系統設計。 在任何大型企業(yè)中,OT一般獨立于涉及數據管理的信息技術(shù)(IT)部門(mén)完成,包括在生產(chǎn)線(xiàn)上或已部署系統中的嵌入式設備產(chǎn)生的數據,OT和IT之間很少有實(shí)時(shí)交互。 在這種分布式系統中,永久存儲器性能低于易失性存儲器,雖然有跡象表明這兩種存儲器可能會(huì )統一(也就是固態(tài)硬盤(pán))。 實(shí)時(shí)數據管理由多個(gè)同時(shí)進(jìn)行的活動(dòng)組成: 1. 存儲(寫(xiě)入) 2. 查詢(xún)、關(guān)聯(lián)和獲取 3. 發(fā)布 OT(實(shí)時(shí))數據管理與傳統IT領(lǐng)域的區別在于,所有這些活動(dòng)都是同時(shí)發(fā)生的。數據的產(chǎn)生、存儲、關(guān)聯(lián)、獲取和重新發(fā)布是根據實(shí)時(shí)要求進(jìn)行的。 在實(shí)時(shí)系統中,數據以各種速率產(chǎn)生,并以不同的優(yōu)先級發(fā)布。因此,數據管理系統最好也能劃分數據優(yōu)先級,并能夠靈活處理任意存儲負荷。 來(lái)自傳感器的信息就是在典型實(shí)時(shí)分布式系統中一個(gè)非常好的數據產(chǎn)生例子。傳感器數據一般是以一致并且已知的速率產(chǎn)生的。雖然通常以低優(yōu)先級發(fā)布,但同一數據能夠很快變成最高優(yōu)先級——數據緊急性是動(dòng)態(tài)的。 比如考慮汽車(chē)發(fā)動(dòng)機中的溫度傳感器。大多數時(shí)候溫度在正常工作范圍內,這個(gè)信息可以設置為低優(yōu)先級。但當溫度達到規定閾值時(shí),立即向系統報警就非常重要。 存儲性能可以分成截然不同的兩大類(lèi)——完整的和部分的。如果數據管理系統能夠以分布式系統的峰值吞吐速率存儲數據,那就能實(shí)現完整存儲。對于部分存儲而言,系統設計師有兩種選擇: 1. 減慢數據發(fā)生速率 2. 有選擇的丟棄數據 值得注意的是,簡(jiǎn)單的緩沖處理是不夠的,因為任何緩沖器容量都是有限的。緩沖只是簡(jiǎn)單地推遲了不可避免的問(wèn)題,在實(shí)時(shí)系統中是不合適的。 由于是分布式實(shí)現,NoSQL數據庫寫(xiě)入性能會(huì )受復制策略以及基礎硬件的影響。對系統設計師來(lái)說(shuō),理解數據庫實(shí)現方法并選擇一種最適合應用的方法很重要。舉例來(lái)說(shuō),Apache Cassandra的主要強項之一是良好的寫(xiě)入性能,這種性能得益于非常高效的復制策略。 存檔服務(wù) 存檔服務(wù)可以給實(shí)時(shí)數據保證適當的服務(wù)質(zhì)量(QoS),因此可以提供最好的數據存儲。在基本實(shí)現中,存檔服務(wù)使用NoSQL數據庫API向云中的任意節點(diǎn)發(fā)出寫(xiě)命令。NoSQL數據庫實(shí)現從那里保留和復制數據。根據一致性配置,在達到設定的一致性時(shí),數據庫將通知存檔服務(wù)。 更加先進(jìn)的存檔服務(wù)實(shí)現能以負載均衡的方式寫(xiě)入云的不同段,從而實(shí)現最佳寫(xiě)入吞吐量。存檔服務(wù)在不能提供完整數據存儲時(shí)可以檢測出來(lái),并相應調整云資源。 在不破壞實(shí)時(shí)系統條件下的簽約能力是存檔服務(wù)的基本特征。OT系統對時(shí)間特別敏感。數據發(fā)送的任何延時(shí)都可能導致系統故障。雖然訂閱數據看起來(lái)價(jià)值不高,而且是非侵入式的,但傳統公司IT系統經(jīng)常是犧牲反應時(shí)間來(lái)確保接收到所有數據。 這種平衡措施是將運營(yíng)技術(shù)與存儲及其它常用IT系統集成在一起時(shí)的常見(jiàn)挑戰。為了確保非侵入式訂閱,數據的發(fā)布必須激活被動(dòng)觀(guān)察,并且不能降低數據產(chǎn)生器或任何其它數據傳輸的速度。 數據庫架構 NoSQL數據庫的基本屬性是模式自由,因此特別適合OT系統。大型實(shí)時(shí)分布式系統都有數據模式,而且非常復雜,還是動(dòng)態(tài)的。 這個(gè)產(chǎn)業(yè)很大程度上在遠離固定的單數據模型概念(如CORBA),原因有很多,而集成度和前向兼容性是其中最重要的兩個(gè)。在現代OT系統中,數據模式必須實(shí)時(shí)動(dòng)態(tài)的發(fā)現,并且必須是可擴展和/或容易改變。 這些模式不僅必須被數據管理系統捕獲,而且還可能被檢查以供分析使用。換句話(huà)說(shuō),元數據和數據對態(tài)勢感知來(lái)說(shuō)同樣重要。 數據關(guān)聯(lián)、查詢(xún)和獲取 實(shí)現態(tài)勢感知(SA)要求關(guān)聯(lián)實(shí)時(shí)數據與歷史數據。從技術(shù)角度講,這意味著(zhù)當數據流寫(xiě)入NoSQL數據庫時(shí),必須對這些數據流進(jìn)行連續的預編譯和動(dòng)態(tài)查詢(xún)。 所有態(tài)勢感知查詢(xún)都是由某些實(shí)時(shí)事件的發(fā)生進(jìn)行觸發(fā),例如安全性的價(jià)格變化。一旦實(shí)時(shí)事件發(fā)生,查詢(xún)數據需要關(guān)聯(lián)歷史數據,并確定采取哪種措施(如果有的話(huà))。 內容發(fā)布 NoSQL數據庫已經(jīng)征服了按需內容發(fā)布世界。Netflix使用Apache Cassandra實(shí)現流服務(wù)這個(gè)事實(shí)也許是最生動(dòng)的例證。 查詢(xún)結果分成兩類(lèi):警告和內容獲取。警告發(fā)布在大多數情況下都不是很重要,只是一個(gè)高優(yōu)先級的消息。在數據獲取情況下,發(fā)布成為一個(gè)重要因素。來(lái)自查詢(xún)的數據結構需要及時(shí)地被取回、排序并發(fā)布給消費者。 使用案例:發(fā)電 全球范圍內建好的風(fēng)力發(fā)電廠(chǎng)已有數百個(gè)。假如風(fēng)力發(fā)電廠(chǎng)建構為分層的分布式系統。 在層次化結構的最底層,每個(gè)風(fēng)機本身就是一個(gè)分布式系統:它有一個(gè)巨大的傳感器陣列,用于產(chǎn)生有關(guān)當前發(fā)電的信息以及結構數據和環(huán)境數據,這些數據用來(lái)使風(fēng)機安全高效地運行。 這些數據也自動(dòng)與電廠(chǎng)控制中心共享?刂浦行呢撠煴3峙c其它電廠(chǎng)的聯(lián)系,并鏈接到兩個(gè)重要的外部系統:電網(wǎng)和氣象系統。 以風(fēng)機檢測到突發(fā)和意外的強大陣風(fēng)為例,根據過(guò)去幾周的精確測量結果以及過(guò)去幾年更全面的測量結果,風(fēng)機會(huì )判斷這陣風(fēng)不正常。 由于具有潛在的危害性,風(fēng)機將轉換到故障防護模式。然后向命令中心發(fā)送警告,然后根據每個(gè)風(fēng)機的當前狀態(tài)使用連續實(shí)時(shí)控制方法仔細地調整其它渦輪的性能。命令中心也可以警告下游電廠(chǎng),以便他們可以能夠及時(shí)調整性能。 另外一種場(chǎng)景涉及到來(lái)自能源貿易的實(shí)時(shí)報價(jià)更新。電網(wǎng)和能源交換可以提供有關(guān)負荷、需求和電量報價(jià)方面的信息。 如果需求和價(jià)格低于當前輸出電能,電廠(chǎng)能夠自動(dòng)將產(chǎn)生的電能重定向到存儲或停止發(fā)電。如果需求和價(jià)格高于當前所產(chǎn)電能,電廠(chǎng)能夠轉向峰值產(chǎn)能,并銷(xiāo)售存儲的電能。就像安全交易一樣,有可能設計出算法來(lái)檢測發(fā)電和配電的有益模式。氣象系統也能采取算法統計分析方法,并從與風(fēng)力發(fā)電廠(chǎng)的雙向通信中受益。一方面,電廠(chǎng)成為氣象數據的重要實(shí)時(shí)傳感器站;另一方面,電廠(chǎng)依靠氣象系統的天氣預報進(jìn)行仔細調整性能來(lái)實(shí)現最優(yōu)輸出。 發(fā)電和氣象系統中使用的算法都需要及時(shí)地訪(fǎng)問(wèn)實(shí)時(shí)事件和歷史趨勢。如果由于某種原因延遲了數據,造成的結果可能從不足輸出導致收入減少,到災難性的故障和基礎設施損毀(甚至可能危及人類(lèi)生命安全)。 前瞻性維護 前瞻性維護和資產(chǎn)管理是先進(jìn)的OT/IT集成可能直接影響收入的例子。就像預防性維護一樣,這種方法能夠降低成本,因為工作只在需要時(shí)開(kāi)展。前瞻性維護是通過(guò)連續的實(shí)時(shí)監視在線(xiàn)設備預測何時(shí)要求維護來(lái)實(shí)現的。 但只是監視設備狀態(tài)是不夠的。就像風(fēng)力發(fā)電廠(chǎng)例子一樣,其自身實(shí)時(shí)數據不能提供足夠信息來(lái)判斷設備是否工作在正常范圍內。傳感器指示高溫有可能是由于設備故障引起的,也可能是由于電廠(chǎng)輸出提高造成的。 為了進(jìn)行確認,必須根據歷史信息分析監視數據來(lái)判斷是否需要采取進(jìn)一步措施。用于解決維護問(wèn)題的相同技術(shù)和算法也可以用于提供長(cháng)期商業(yè)智能。除了防止意外的設備故障外,認清設備使用方面的長(cháng)期趨勢也可以提高可用性,并延長(cháng)設備壽命。 干草堆中的細針 許多公司已經(jīng)成功展示使用Big Data技術(shù)篩選IT系統產(chǎn)生的龐大信息的價(jià)值。這種技術(shù)被證明非常適合用來(lái)尋找諺語(yǔ)式的干草堆細針。與此同時(shí),有關(guān)部門(mén)剛開(kāi)始認識到OT系統產(chǎn)生的數據商業(yè)價(jià)值。 合并OT和IT數據是下一個(gè)合理的步驟,但這種整合面臨許多技術(shù)挑戰。OT系統會(huì )產(chǎn)生甚至更多的數據用于分析(更多的“干草”來(lái)隱藏細針),而IT系統必須以不影響OT實(shí)時(shí)數據流的時(shí)間敏感性這種方式進(jìn)行集成。 通過(guò)選擇正確的技術(shù)整合方法可以解決數據管理問(wèn)題,OT和IT的能量可以同時(shí)釋放出來(lái)捕獲轉瞬即逝的機會(huì )。也就是說(shuō),在細針落入干草堆之前就發(fā)現細針。 |