技術(shù)架橋,開(kāi)源鋪路,分布式數據庫精彩正當時(shí)

發(fā)布時(shí)間:2022-1-21 16:58    發(fā)布者:科技新思路

1月6日,由中國電子技術(shù)標準化研究院指導、CSDN主辦、OceanBase承辦,木蘭開(kāi)源社區、開(kāi)源中國、51CTO、思否、極客邦科技、稀土掘金、墨天輪、dbaplus協(xié)辦的DC2021分布式數據庫開(kāi)發(fā)者大會(huì )于線(xiàn)上正式召開(kāi)。

除了精彩紛呈的主論壇演講、圓桌論壇與極客夜宵等內容之外,在下午的分布式數據庫技術(shù)分論壇與分布式數據庫開(kāi)源生態(tài)與應用分論壇上,來(lái)自國內外主流分布式數據庫的技術(shù)專(zhuān)家與各大開(kāi)源社區、平臺負責人為開(kāi)發(fā)者帶來(lái)了圍繞核心技術(shù)與開(kāi)源生態(tài)打造的內容盛宴。


分布式數據庫技術(shù)分論壇


今年是數據庫發(fā)展的變革之年,亦是分布式數據庫嶄露頭角的重要時(shí)間節點(diǎn)。分布式數據庫技術(shù)在走向千行百業(yè)應用深海的大勢所趨下,越來(lái)越多的開(kāi)發(fā)者關(guān)注于此,投身其中。下午14:00,DC2021分布式數據庫開(kāi)發(fā)者大會(huì )分布式數據庫技術(shù)分論壇正式開(kāi)幕,來(lái)自OceanBase、GaussDB、PolarDB、巨杉數據庫、StarRocks、Oushu科技數據庫以及MongoDB社區的8位產(chǎn)品技術(shù)專(zhuān)家,針對分布式數據庫領(lǐng)域最新的技術(shù)亮點(diǎn)與產(chǎn)品革新進(jìn)行了深度分享。

一、OceanBase的一體化設計

OceanBase首席架構師楊志豐分享了主題為《OceanBase的一體化設計解析》的演講。OceanBase從2010年立項以來(lái),其架構的演進(jìn)一直圍繞可擴展與高可用特性去建立與融合,這也是為什么OceanBase會(huì )采用一體化設計的直接原因。OceanBase的一體化設計主要有四大方面:第一,OceanBase能夠兼備集中式數據庫和分布式數據庫的特性;第二,通過(guò)借鑒OLAP型數據庫的特性,不斷增強OceanBase的AP能力,從而形成了HTAP的能力特性;第三,通過(guò)多租戶(hù)能力,OceanBase在整個(gè)集群內部已具備資源的管理調度和隔離能力;最后一方面,OceanBase具備多模特性,可以更好地支持客戶(hù)SQL與NoSQL使用場(chǎng)景。

在演講中楊志豐介紹了OceanBase基于存儲模型與事務(wù)模型基礎提供的Table API接口,這個(gè)接口是和SQL在平行的一個(gè)位置和層次。在Table API基礎之上,如果應用對延時(shí)特別敏感,用戶(hù)可以直接通過(guò)Table API訪(fǎng)問(wèn)OceanBase Server提供的原生服務(wù),極大地減少網(wǎng)絡(luò )的時(shí)延。同時(shí)針對某些需要使用HBase特定業(yè)務(wù)場(chǎng)景,基于Table API接口OceanBase研發(fā)團隊還擴展了一個(gè)HBase API接口,解決了用戶(hù)在容災演練過(guò)程中遇到的困難。

楊志豐還介紹了OceanBase最新的3.2版本,3.2版本提升主要體現在三個(gè)方面,優(yōu)化器、SQL執行引擎以及向量化的執行。楊志豐表示:對于單機分布式一體化的OceanBase系統來(lái)說(shuō),我們認為時(shí)延不再是一個(gè)選擇傳統亦或是分布式數據庫的絕對標準,因為在OceanBase單機分布式一體化的設計之下,你可以選擇魚(yú)與熊掌兼而得之。

二、GaussDB分布式技術(shù)的架構實(shí)現

華為GaussDB技術(shù)專(zhuān)家王磊帶來(lái)了《GaussDB分布式技術(shù)大揭秘》主題演講。GaussDB分布式集群的架構主要由5類(lèi)組成:運維管理模OM組件、集群管理模塊CM組件,全局事務(wù)管理器GTM組件、協(xié)調節點(diǎn)CN組件以及數據節點(diǎn)DN組件。GaussDB高性能的關(guān)鍵在于分布式執行框架,這個(gè)框架會(huì )根據業(yè)務(wù)SQL,生成最優(yōu)執行計劃,該框架主要包含算子下推與并行執行兩大核心技術(shù)。

GaussDB有四大特性:第一是高擴展性,體現在Scale-out在線(xiàn)橫向擴展;第二是高安全,體現在分布式防篡改技術(shù);第三是高自治性,主要體現在A(yíng)I for DB基礎上;第四是高智能性,主要體現在A(yíng)I4DB技術(shù)上。

GaussDB高可用架構的出發(fā)點(diǎn)是軟硬件全棧冗余和分布式全組件冗余。在硬件層通過(guò)磁盤(pán)red冗余、雙交換機冗余、多網(wǎng)卡冗余,UPS電源保護等技術(shù)提供單點(diǎn)或多點(diǎn)硬件故障下的高可用能力。在軟件層,針對分布式集群中的每一幀組件,均做了組件級冗余。

王磊表示:GaussDB在分布式數據庫領(lǐng)域的積累和創(chuàng )新,使其能夠從容應對企業(yè)級高性能、高可用、高安全的核心訴求。未來(lái),GaussDB會(huì )繼續在分布式數據庫領(lǐng)域堅持創(chuàng )新,勇攀高峰。

三、云原生+分布式的現代化數據庫—PolarDB-X

阿里云智能數據庫PolarDB產(chǎn)品經(jīng)理胡中泉發(fā)表了《PolarDB-X核心技術(shù)能力解讀》主題演講,在演講中他主要介紹了PolarDB-X的整體架構以及核心能力。

PolarDB是一款基于分布式技術(shù)架構,是面向云原生和分布式結合的方向進(jìn)行技術(shù)演進(jìn)的分布式數據庫產(chǎn)品。PolarDB-X整體架構主要分4個(gè)部分:第一部分CN計算節點(diǎn),主要提供分布式SQL引擎,解決分布式事務(wù)協(xié)調、優(yōu)化器、執行器等;第二部分DN存儲節點(diǎn),主要提供數據庫存儲引擎,解決數據庫一致性和持久化問(wèn)題,并提供計算下推能力;第三部分GMS,全局元數據服務(wù),主要提供分布式下域元數據和全局授時(shí)的服務(wù)。第四部分CDC,提供全一致性的binlog,給下游更好的體驗。

CN可以分為協(xié)議層、優(yōu)化器和執行器一共三層,第一層協(xié)議層實(shí)現了MySQL最后協(xié)議,提供與云原生MySQL最接近的語(yǔ)法解析服務(wù),負責建立連接、接收用戶(hù)發(fā)送的數據包,組裝成SQL和參數化傳遞給優(yōu)化器。第二層優(yōu)化器,對于SQL的處理,包括語(yǔ)法解析、校驗,生成邏輯計劃,并通過(guò)優(yōu)化產(chǎn)生物理執行計劃傳輸給執行器,優(yōu)化器使用了Apache的RB和CB融合框架,可以實(shí)現自適應的TP和AP區分執行,并且可以提供執行計劃管理的功能。最后一層執行器,PolarDB-X的執行器接收到物理執行計劃后,會(huì )根據計劃類(lèi)型確定執行模式。

透明分布式是PolarDB-X核心能力之一,它能讓?xiě)迷谑褂肞olarDB-X的過(guò)程中,給予用戶(hù)猶如使用單機數據庫一樣的體驗。與傳統中間件的類(lèi)型的分布式數據庫相比,具有透明分布式能力的PolarDB-X不需要應用考慮分區件的概念,應用可以完全將單機上的SQL復用到分布式數據庫上來(lái)。同時(shí),PolarDB-X的透明分布式能力,能極大減少從單機數據庫到分布式數據庫的遷移成本。

四、OceanBase一站式企業(yè)級原生分布式數據庫管理解決方案

OceanBase產(chǎn)品部總經(jīng)理王南帶來(lái)了《一站式企業(yè)級原生分布式數據庫管理解決方案》主題演講。王南將OceanBase的發(fā)展之路總結為三大階段,第一個(gè)階段為從無(wú)到有的構建,第二個(gè)階段是產(chǎn)品走向通用行業(yè)與場(chǎng)景的階段,而第三個(gè)階段OceanBase將在一體化架構以及混合負載和多云多模這兩個(gè)方向上發(fā)展。

在思考如何解決海量數據給數據庫帶來(lái)的擴展問(wèn)題過(guò)程中,OceanBase通過(guò)兩種視角,不同思路解決這一問(wèn)題。王南表示:第一個(gè)視角就是對于開(kāi)源和商業(yè)的生態(tài)的雙生態(tài)的支持,也就是Oracle生態(tài)及MySQL生態(tài),OceanBase通過(guò)雙引擎能夠更好地來(lái)同時(shí)兼容這兩個(gè)生態(tài)。另一個(gè)視角則是OceanBase想在數據庫層來(lái)去解決集中式向分布式演變過(guò)程中遇到各種各樣的問(wèn)題,除了會(huì )在語(yǔ)法層面上來(lái)去做兼容之外,OceanBase也會(huì )在語(yǔ)義以及分布式的內核的層面來(lái)去做兼容。

王南介紹了今年OceanBase3.X版本對于開(kāi)發(fā)工具家族的全面升級,在開(kāi)發(fā)者的OTC工具,運維的OCP工具,以及數據遷移的OMS工具基礎之外新增了一個(gè)OMA工具。OMA工具幫助客戶(hù)從集中式到分布式的遷移過(guò)程中快速評估以及完成應用。在開(kāi)發(fā)工具方面,OceanBase進(jìn)行了兩大方向的核心能力提升:在整個(gè)開(kāi)發(fā)工具層面構建安全管控能力與在應用性上進(jìn)行了深度優(yōu)化。同時(shí)王南在演講的最后還介紹了OceanBase全新的圖數據庫成員圖Graph,這個(gè)圖庫可以提供OceanBase在多模和大規模實(shí)時(shí)分析計算上很強大的能力支撐。

五、湖倉一體釋放全量數據價(jià)值

巨杉數據庫聯(lián)合創(chuàng )始人許建輝為線(xiàn)上開(kāi)發(fā)者分享了主題為《湖倉一體Data Lakehouse釋放全量數據價(jià)值》的演講。在湖倉一體化的大趨勢下,產(chǎn)生了諸如數據在存儲中相對孤立,產(chǎn)生冗余的問(wèn)題。同時(shí)在海量數據趨勢下,也對實(shí)時(shí)查詢(xún)、實(shí)物保障、靈活分析等能力提出更高的要求。

巨杉數據庫通過(guò)多模的存儲引擎,能夠同時(shí)支持結構化、半結構化和非結構化的數據的統一存儲,并能夠實(shí)現統一的事務(wù)和一致性能力。經(jīng)過(guò)多模的計算引擎,能夠實(shí)現高并發(fā)的連接操作、實(shí)時(shí)計算和海量數據分析的能力,同時(shí)能夠支持橫向和縱向的海量數據的擴容,實(shí)現數據的存儲和處理。

巨杉數據庫是一個(gè)全量的數據平臺,通過(guò)多模存儲引擎等類(lèi)型產(chǎn)品的數據能夠進(jìn)行天然的存儲。通過(guò)高并發(fā)的SQL引擎,分區計算能力,只查詢(xún)并發(fā)計算,算子下推精準過(guò)濾和高性能的事務(wù),能夠實(shí)現海量數據的并發(fā)查詢(xún)和實(shí)時(shí)分析。通過(guò)流式風(fēng)險引擎、行列混合存儲、存算分離、高性能的緩存和彈性計算能力,能夠實(shí)現靈活的海量數據分析。通過(guò)統一的元數據管理和權限等,能夠實(shí)現在多引擎的一致性。

在數據容災方面,許建輝介紹到:基于巨杉引擎級的一個(gè)副本容災,可以實(shí)現RTO為零,還可以實(shí)現分區組級別的局部容災機制,盡最大可能保證系統的可能性。面對在整個(gè)系統中是部分機器故障,我們可以采用部分機器的容災切換,從而能夠最大幅度地利用了系統的可行性,而不用產(chǎn)生整個(gè)集群的災備切換。

六、StarRocks2.0的介紹與前瞻

StarRocks產(chǎn)品負責人趙恒帶來(lái)了《StarRocks2.0的特性介紹&版本前瞻》主題演講。StarRocks是一款主打急速統一的MPPE數據庫,在數據分析場(chǎng)景上會(huì )有非常廣泛的應用。全新的StarRocks2.0致力于將OLAP多維分析、實(shí)時(shí)分析、高并發(fā)查詢(xún)和Adhoc能夠在一個(gè)統一的引擎中進(jìn)行實(shí)現。

趙恒表示:多表分析場(chǎng)景下,我們使用了一個(gè)TPCH的測試集,在這個(gè)測試集下,我們對比了StarRocks新版本和舊版本有3倍到5倍的性能提升。同時(shí)我們在計算層在RuntimeFilter上也做了一些優(yōu)化。

在實(shí)時(shí)更新的場(chǎng)景下,StarRocks2.0實(shí)現了一個(gè)Primary key的模型,通過(guò)delete and insert的方式,去實(shí)現消除了merge on Reed。在簡(jiǎn)單查詢(xún)上根據導入版本數量的不同可以有3至10余倍的性能提升。

在2.0的版本中,StarRocks重新構建了內存的管理框架,hook了所有的內存分配函數,然后并且基于線(xiàn)程,進(jìn)行內存的統計。在生態(tài)對接方面,StarRocks2.0通過(guò)在最近的版本也在過(guò)Flick connector上進(jìn)行了很多的優(yōu)化,可以實(shí)現數據的精確一次或者至少一次的導入。在讀取方面,新版本實(shí)現了直聯(lián)BE的方式,來(lái)滿(mǎn)足大批量讀取數據的一個(gè)分析需求。在實(shí)施同步方向,通過(guò)Flick CDC和遷移工具,實(shí)現了從TP數據庫的秒級同步。

七、新一代云原生數倉OushuDB的架構哲學(xué)

歐數科技數據庫首席架構師陶征霖分享了《新一代云原生數倉OushuDB的架構哲學(xué)》的主題演講。OushuDB是一款基于云原生的數據倉庫,其計算和存儲是完全分離的,有著(zhù)多虛擬計算集群的特性。其次OushuDB通過(guò)SIMD的指令級實(shí)現了一個(gè)向量化的加速,并能夠完全SQL兼容,支持混合型的負載。

OushuDB從上往下的體系架構有四層,分別為元數據集群、主節點(diǎn)集群、計算集群以及共享的數據層。在OushuDB中,不同的計算集群可以共享同一份的存儲以及同一份的元數據,同時(shí)在計算機接電測實(shí)現了數據的緩存。在這樣架構下OushuDB可以提供一種更高的并發(fā)度,以及集群間更好的一個(gè)資源的隔離。

在云原生的架構下,OushuDB有一個(gè)彈性的執行引擎,用戶(hù)可以根據查詢(xún)數據量的大小,以及根據當前集群資源的使用情況,動(dòng)態(tài)地決定調度多少計算資源參與計算。同時(shí)OushuDB還有另一大特性是可插拔存儲,不同的存儲可支持不同的負載。

八、具有數據一致性保證的DaaS平臺

MongoDB中文社區主席 Tapdata Founder&CEO唐建法帶來(lái)了主題為《“DeltaLake”on MongoDB:具有數據一致性保證的DaaS平臺》。

現在的企業(yè)往往是有幾十套甚至上百套的業(yè)務(wù)系統,這些業(yè)務(wù)系統是互不相連的,當你需要用數據的時(shí)候,需要各種API或者是用ETL去抽數等等,這也就是數據孤島的由來(lái)。數據孤島目前有著(zhù)非常多的解決方案,例如傳統的ETL、代碼抽數,消息中間件或者是中央化的數據平臺。

但現有的方案都存在著(zhù)局限性,即都是面向AP系統而打造,對于數據的分析存在滯后性。而Delta Lake有一套全新的設計,即在處理過(guò)程中,保持著(zhù)每一小批的數據的增量,把這個(gè)增量記錄下來(lái),然后可以在這個(gè)基礎之上回滾,即可實(shí)現一個(gè)相對實(shí)時(shí)的數據平臺。

而在DeltaLake的啟發(fā)下,唐建法及其研究團隊提供了一個(gè)全新的increment data service數據平臺。唐建法表示:我們?yōu)門(mén)P型用戶(hù)提供一個(gè)數據平臺,不是基于批量的,而是基于實(shí)時(shí)的一個(gè)模式。它與目前絕大多數數據平臺常用的Hadoop最大的差別,就是我們能夠提供毫秒級、高于Hadoop百倍的查閱性能,然后寫(xiě)入能夠支持這種及時(shí)更新、原地更新。目前我們的數據平臺在零售業(yè)、制造業(yè)都有很好的落地。


分布式數據庫開(kāi)源生態(tài)與應用分論壇


在開(kāi)源的大趨勢下,分布式數據庫與開(kāi)源的結合如同水到渠成一般呈現在開(kāi)發(fā)者眼前。在接下來(lái)的分布式數據庫開(kāi)源生態(tài)與應用分論壇上,來(lái)自InfoQ、OceanBase、SphereEx、Apache Doris PPMC、CSDN、紅象云騰、Flink CDC Maintainer & Apache Flink Committer、Seata的媒體,企業(yè)與開(kāi)源社區負責人圍繞開(kāi)源議題開(kāi)展了多維度分享。

一、開(kāi)源分布式數據庫及行業(yè)趨勢解析

infoQ主編王一鵬分享了《開(kāi)源分布式數據庫及行業(yè)趨勢解析》的主題演講。    2021年1月,開(kāi)源許可證流行度首次超過(guò)了商業(yè)許可證的流行度,分布式數據庫的價(jià)值以及它的架構上的優(yōu)勢越來(lái)越被大家所認可。在演講中王一鵬使用  Star、Fork和Commit數量來(lái)對比國內外分布式數據庫的典型產(chǎn)品。他發(fā)現在國內可能一般情況是Star數量高于Commit數量,而在國外一般是Commit數量高于Star數量。

王一鵬總結了四點(diǎn)關(guān)于國內開(kāi)源分布式數據庫的觀(guān)察:

  • 關(guān)于開(kāi)源生態(tài),最重要的是讓社區大于代碼,相比之下國外更加注重開(kāi)源生態(tài);

  • 數據庫研發(fā)門(mén)檻非常高;

  • 起步晚是國內數據庫的天然客觀(guān)劣勢;

  • 做開(kāi)源分布式數據庫,要做好打持久戰的準備。


對于開(kāi)源分布式數據庫的未來(lái),王一鵬表示:分布式數據庫是業(yè)內共識的主要技術(shù)潮流之一,PGXC和NewSQL兩種風(fēng)格都有成功的產(chǎn)品。分布式數據庫在快速進(jìn)入金融業(yè),革新各大銀行的底層基礎設施。開(kāi)源以高效的研發(fā)組織形式,動(dòng)搖了傳統商業(yè)數據庫的根本,同時(shí)在人才梯隊層面開(kāi)源已經(jīng)形成了技術(shù)創(chuàng )新的閉環(huán)。

二、OceanBase社區版核心能力解析

OceanBase研發(fā)總監&開(kāi)源負責人封仲淹帶來(lái)了題為《OceanBase社區版核心能力解析》的演講。OceanBase歷經(jīng)11年的發(fā)展,從最早的一個(gè)簡(jiǎn)單的存儲系統不斷創(chuàng )新,自研成為今天的分布式系統。在演講中封仲淹表示:開(kāi)源是一種很好的聯(lián)結上下游開(kāi)發(fā)商、用戶(hù)和開(kāi)發(fā)者不斷打磨產(chǎn)品的有效方式。

在社區發(fā)展上,OceanBase的社區用戶(hù)已經(jīng)超過(guò)23000名,外部超過(guò)100名開(kāi)發(fā)者,與超過(guò)100名的企業(yè)用戶(hù)進(jìn)行了深度的探索,進(jìn)行了POC。在社區建設上,OceanBase的GitHub點(diǎn)贊數已經(jīng)超過(guò)4000次,Fork超過(guò)860多個(gè),Commit數超過(guò)640次。在最為關(guān)鍵的社區活躍度上,OceanBase社區每日和用戶(hù)的溝通次數超過(guò)了300次,并且社區問(wèn)答數迄今為止已經(jīng)超過(guò)4600次,在技術(shù)上與超過(guò)3500名開(kāi)發(fā)者進(jìn)行了深度的交流。

同時(shí)在演講中,封仲淹分享了OceanBase在支付寶、中汽知投、TPCC測試、短視頻廠(chǎng)商以及銀行的“兩地三中心”中的實(shí)際案例,通過(guò)六大應用場(chǎng)景詳盡地體現了OceanBase的高可用、低成本、高擴展以及HTAP混合負載能力。

封仲淹介紹了OceanBase社區版3.1.2版本中最新推出的社區版工具體系中的五大特性:

OMS社區版:OMS是OceanBase提供的一站式數據庫傳輸產(chǎn)品,支持多種關(guān)系數據庫以及消息隊列等數據終端與OceanBase之間的數據復制。

OCP社區版:OCP是OceanBase的管控平臺,可以大幅降低DBA和運維的壓力。

ODC支持社區版:ODC是客戶(hù)端開(kāi)發(fā)套件,能夠使用戶(hù)更加方便地管理和使用OceanBase,管理表、視圖、庫等存儲對象,進(jìn)行SQL的操作,以及導入導出等高級功能。

秒殺熱點(diǎn)行優(yōu)化:秒殺熱點(diǎn)行優(yōu)化核心是進(jìn)行提前解行鎖,將過(guò)去事務(wù)中的占時(shí)最大的日志刷盤(pán)和同步進(jìn)行解行鎖。在性能測試中,優(yōu)化后性能提升了超過(guò)4倍。

開(kāi)放Table API和HBase的API:簡(jiǎn)化了運維流程的同時(shí),可以保障開(kāi)發(fā)人員不用擔心GC和抖動(dòng)問(wèn)題。同時(shí)提供了更快的性能,如scan性能提升2.42倍,insert性能提升1.7倍。

三、分布式數據庫下的Proxy與Proxyless架構

SphereEx創(chuàng )始人張亮發(fā)表了《分布式數據庫下的Proxy與Proxyless》的主題演講。分布式數據庫的現狀主要是從單一化向多樣化去發(fā)展,隨著(zhù)應用場(chǎng)景越來(lái)越多,數據量越來(lái)越大,并發(fā)越來(lái)越高,吞吐量的要求越來(lái)越高,用一款數據庫去適用所有場(chǎng)景是不可能的,F有的異構數據庫存在著(zhù)數據庫訪(fǎng)問(wèn)協(xié)議、SQL方言、存儲接口和結構均不同、以及數據庫間無(wú)協(xié)作能力的痛點(diǎn)。同時(shí)異構數據服務(wù)也存在著(zhù)單一數據庫周邊服務(wù)無(wú)法復制、難于處理多源數據庫的共性需求痛點(diǎn)。

ApacheShardingSphere提出了一個(gè)叫做Database Plus的概念,這個(gè)概念的目標就是希望構建數據庫上層生態(tài)和標準。開(kāi)發(fā)者可以使用標準的SQL和原生的數據庫協(xié)議,通過(guò)ShardingSphere去訪(fǎng)問(wèn)異構的多元化數據庫。同時(shí)在可插拔架構之上ShardingSphere提供了增量的能力,可以讓用戶(hù)、開(kāi)發(fā)者通過(guò)ShardingSphere提供的頂級接口進(jìn)行能力的開(kāi)發(fā)。

張亮介紹了ShardingSphereProxy、JDBC、Proxyless三大架構模式。其中Proxy有著(zhù)跨語(yǔ)言、零侵入、隔離業(yè)務(wù)和數據計算資源的優(yōu)勢,但性能較低。而JDBC機構有著(zhù)性能高、零侵入的優(yōu)勢,但其缺點(diǎn)也較為明顯,僅支持Java且占用業(yè)務(wù)資源。而在演講中張亮也提出了ShardingSphere Mesh架構設想,這一架構能夠提供配置治理、流量治理以及部署治理的能力。

四、Apache Doris——極速易用的OLAP數據庫

ApacheDoris PMC&百度資深研發(fā)工程師楊政國分享了《Apache Doris——極速易用的OLAP數據庫》的主題演講。

Doris是由百度自主研發(fā)并貢獻給Apache社區的一個(gè)MPP架構分析型數據庫產(chǎn)品,目前是國內唯一的分析型數據庫孵化項目。Doris全面兼容MySQL的網(wǎng)絡(luò )協(xié)議,簡(jiǎn)單易用,不依賴(lài)任何外部組件。Doris通過(guò)精心設計的MPP框架、向量化執行引擎、智能物化視圖等多種技術(shù),能夠實(shí)現對于海量數據的毫秒/秒級響應,適用于高并發(fā)、高吞吐、低延時(shí)等等多場(chǎng)景的需求。

Doris基于高效的列存和現代化的MPP框架能夠實(shí)現非常極致的查詢(xún)性能。由于其完全兼容MySQL的網(wǎng)絡(luò )協(xié)議以及標準的SQL,開(kāi)發(fā)者可以非常方便地將Doris與現有的系統進(jìn)行融合。同時(shí)Doris能夠支持離在線(xiàn)一體,通過(guò)靈活的資源配置策略,能夠支持離線(xiàn)的大吞吐和高并發(fā),適應非常豐富的場(chǎng)景。

楊政國在演講中表示:我們實(shí)現了三種非常精巧的數據模型。第一種是聚合模型,會(huì )根據相同的key對Value進(jìn)行預先的聚合,通過(guò)提前聚合提升查詢(xún)的性能。另外我們也實(shí)現了Unique Key主鍵唯一模型,key相同的時(shí)候會(huì )對Value進(jìn)行去重,從而我們也實(shí)現了精確去重和行級更新。另外我們也實(shí)現了明細模型,我們不需要提前聚合數據,實(shí)現快速排序,能夠存儲更多的明晰數據。

五、從CSDN社區來(lái)看開(kāi)源數據庫的發(fā)展趨勢

CSDN開(kāi)源平臺負責人謝志鋒帶來(lái)了《從CSDN社區看開(kāi)源數據庫的發(fā)展趨勢》的主題演講。他談到,數據庫本身的演進(jìn)歷史是一個(gè)從技術(shù)驅動(dòng)到需求驅動(dòng)、從單一到多樣的過(guò)程,其中也誕生了諸如CAP理論、事務(wù)ACID原則、BASE原理(NoSql、分布式)、一致性算法等重要理論原則。在數據庫全新的技術(shù)時(shí)代下,一定會(huì )有大量的新型數據庫出現,同時(shí)開(kāi)源一定在其中占據很大的比重。

從CSDN網(wǎng)站中能夠看出數據庫這個(gè)話(huà)題在開(kāi)發(fā)者當中非常重要,排名前20的數據庫在CSDN上都有超過(guò)20萬(wàn)的資源、搜索量和下載量。目前CSDN已經(jīng)做了一個(gè)開(kāi)源的托管平臺GitCode,國內主流的傳統、新興數據庫廠(chǎng)商大部分都已經(jīng)入駐。

從CSDN的BI大數據查詢(xún)訴求出發(fā),CSDN的BI數據目前已經(jīng)超過(guò)了70T,支持公司內部的業(yè)務(wù)分析以及CSDN用戶(hù)的智能推薦功能。謝志鋒表示:為了優(yōu)化查詢(xún),我們從租戶(hù)使用,數據表管理,數據輸出三個(gè)方面做了優(yōu)化。在實(shí)踐過(guò)程中我們發(fā)現OceanBase能夠兼容MySQL所有的功能,遷移的門(mén)檻也很低,尤其是它的連接數很大,要求的數據量又很多。在需要分庫分表且NoSql查詢(xún)無(wú)法滿(mǎn)足的情況下,OceanBase就非常適用。

六、OceanBase及Hadoop在PB級大數據場(chǎng)景下的應用探索

紅象云端創(chuàng )始人&Hadoop技術(shù)講師童小軍分享了題為《OceanBase及Hadoop在PB級大數據場(chǎng)景下的應用探索》的演講。紅象云端旗下的Redoop Enterprise產(chǎn)品基于大數據場(chǎng)景需求的多樣性打造,整個(gè)Hadoop架構包含了幾十個(gè)不同的開(kāi)發(fā)軟件,通過(guò)組合的方式完成各種各樣的需求,包含批處理需求、實(shí)時(shí)需求,云計算需求,以此服務(wù)整個(gè)企業(yè)。

童小軍表示:在選擇分布式數據庫時(shí),我們列了一些必要的標準。首先是開(kāi)源開(kāi)放,同時(shí)分布式數據庫需要具備高可用與線(xiàn)性擴展能力,與Hadoop比較接近。第三要求這款產(chǎn)品具有強大而事務(wù)處理能力以彌補Hadoop在事務(wù)處理能力的不足,最后需要與MySQL、Oracle有很好的兼容性,最終我們選擇了OceanBase。

在演講中童小軍介紹了Hadoop與OceanBase組合服務(wù)的客戶(hù)案例。在新能源光伏電力大數據上線(xiàn)的案例中,OceanBase+Redoop Enterprise的平臺服務(wù)于數據接口、系統應用、報表展現、可視化等一系列功能,形成了一個(gè)敏捷的,統一的電力行業(yè)大數據平臺。在通信領(lǐng)域的大數據案例中,通過(guò)Redoop Enterprise平臺部署了一系列安裝、監控、運維等各種組件,OceanBase在中間承擔了關(guān)鍵的替換MySQL的任務(wù)。

七、基于 Flink CDC的全增量一體化數據集成方案

FlinkCDC Maintainer & Apache Flink Committer徐榜江發(fā)表了《基于Flink CDC的全增量一體化數據集成方案》的主題演講。通常來(lái)講CDC技術(shù)主要是面向數據庫的變更,用于捕獲數據庫中數據變更的技術(shù)。而Flink CDC將傳統的數據庫CDC技術(shù)跟Flink 底層的log機制進(jìn)行深度結合,再利用Flink 優(yōu)秀的管道能力和豐富的上下游生態(tài),將CDC數據通過(guò)加工后同步到下游。

在入湖架構中,FlinkCDC提供了全增量實(shí)時(shí)同步能力,能夠做到不影響業(yè)務(wù)的穩定性,將數據的產(chǎn)出提高到分鐘級別。同時(shí),FlinkCDC能夠做到全量和增量的一體化同步,一個(gè)組件、一條鏈路就解決需求,其鏈路更短,組件更少。

在演講中徐榜江介紹了基于Flink CDC做全增量一體化數據集成有四個(gè)核心特性,分別是增量快照讀取、存儲寫(xiě)入友好、支持異構數據融合、支持分庫分表合并。在最后徐榜江分享了Flink CDC開(kāi)源社區最新的動(dòng)態(tài),除了版本高速更新外,在GitHub的十大年度增長(cháng)中,Flink CDC的增長(cháng)超過(guò)330%,目前已經(jīng)到了1500左右。

八、基于 Seata &OceanBase 在微服務(wù)架構下的數據一致性解決方案

Seata開(kāi)源社區負責人季敏帶來(lái)了主題為《基于 Seata &OceanBase 在微服務(wù)架構下的數據一致性解決方案》的演講。根據Seata在2019年在微服務(wù)市場(chǎng)中做的調差顯示,分布式服務(wù)是微服務(wù)中最大的痛點(diǎn)。分布式事務(wù)的主要業(yè)務(wù)場(chǎng)景可以歸為三類(lèi),一種是跨庫,例如Oracle到MySQL的遷移,另一種是跨服務(wù),最后一種是資源多樣性。

關(guān)于Seata社區的演進(jìn),Saeta最初的定位是開(kāi)源的分布式事務(wù)解決方案。對市面上主流的數據庫,Seata都進(jìn)行了廣泛地支持。Seata從概念上定義了分布式事務(wù)的角色,在原生的Oracle XA角色,又擴展了TCC角色扮演獨立的協(xié)調性,增強了事務(wù)邊界的可擴展性。同時(shí)Seata通過(guò)抽象出實(shí)物模型框架Framework,并將AT、TCC、Saga、XA模式融入其中進(jìn)行了重塑。

季敏表示:Seata未來(lái)長(cháng)期的發(fā)展路徑就是支持更多數據庫生態(tài),這樣的話(huà)就可以做到我們在業(yè)務(wù)的應用中可以無(wú)縫地使用各種數據庫。當我們做到這一點(diǎn),Seata跟數據庫生態(tài)的集成就是一個(gè)完全透明、非常緊密的結合,我們也期待著(zhù)未來(lái)Seata能支持數據庫生態(tài)中有更好的應用架構。


本文地址:http://selenalain.com/thread-783014-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页