2022 年 1 月 6 日,備受關(guān)注的 DC2021 分布式數據庫開(kāi)發(fā)者大會(huì )于線(xiàn)上正式召開(kāi),由中國電子技術(shù)標準化研究院指導,CSDN 主辦、OceanBase 承辦,多個(gè)知名社區協(xié)辦。幾年前,分布式數據庫技術(shù)還是大家津津樂(lè )道的明日新星,隨著(zhù) 2021 這一數據庫技術(shù)的變革之年,回首望去,未來(lái)已來(lái),分布式數據庫的時(shí)代大幕已然悄然拉開(kāi)。 本次大會(huì )以“數聚未來(lái)”為主題,邀請了一眾業(yè)內知名人士,包括 MySQL 之父、MariaDB創(chuàng )始人以及PostgreSQL全球開(kāi)發(fā)組聯(lián)合創(chuàng )始人,同時(shí)還有 OceanBase、TDSQL、GuassDB、PingCAP、巨杉等國內頂級分布式數據庫行業(yè)先行者,技術(shù)專(zhuān)家帶來(lái)精彩的演講分享,為開(kāi)發(fā)者們貢獻了一場(chǎng)分布式數據庫領(lǐng)域的盛宴。 分布式數據庫產(chǎn)業(yè)現狀 分布式數據庫發(fā)展的如火如荼,在面對各種海量數據的場(chǎng)景化需求時(shí),分布式數據庫更能為企業(yè)業(yè)務(wù)提供良好支持,而優(yōu)秀的數據庫產(chǎn)品可以為企業(yè)發(fā)展插上翅膀,推動(dòng)行業(yè)騰飛。 通過(guò)大會(huì )上專(zhuān)家們的分享可以發(fā)現,目前分布式數據庫的現狀主要是從單一化向多樣化去發(fā)展。隨著(zhù)應用場(chǎng)景和數據量的增加,并發(fā)和吞吐量的要求也越來(lái)越高,用一款數據庫去適用所有場(chǎng)景逐漸變得不可能。這也就帶來(lái)了一個(gè)數據庫的趨勢,即一種數據庫適應一種或者多種場(chǎng)景,數據庫的種類(lèi)會(huì )越來(lái)越多,呈碎片化趨勢。除此之外,數據庫也從單機轉向分布式.目前的分布式數據庫已經(jīng)相當普及了,從原來(lái)的關(guān)系型數據庫到面向分布式的數據庫,這種趨勢和浪潮下,面臨的是數據庫的碎片化。 中國電子技術(shù)標準化研究院研究室主任楊麗蘊表示,隨著(zhù)分布式數據庫的發(fā)展變革,技術(shù)進(jìn)步和數字化的深入,數據正在以指數計數速度增長(cháng)。在去年,國家明確表示數據已成為第五大生產(chǎn)要素,這代表數據越來(lái)越重要了。這一趨勢對于數據管理、分析的數據庫軟件,既是重大的發(fā)展機遇,也是重要挑戰。國內不乏以 OceanBase、TDSQL、巨杉為主的國內優(yōu)秀分布式數據庫產(chǎn)品正在去承擔創(chuàng )新的數據庫業(yè)務(wù),并在逐步進(jìn)入核心系統領(lǐng)域。 在全球范圍內,伴隨著(zhù)互聯(lián)網(wǎng)的快速發(fā)展,中國分布式數據庫發(fā)展突飛猛進(jìn),并快速拓展應用到各行各業(yè)。2010 年,OceanBase 正式成立,從淘寶到支付寶 ,從支付寶走向更廣闊的世界,逐漸成為全球知名的自研數據庫。 OceanBase 創(chuàng )始人陽(yáng)振坤詳細的介紹了數據庫的誕生、發(fā)展以及目前面臨的挑戰,風(fēng)趣幽默的用“小馬拉大車(chē)”的形象比喻,讓與會(huì )者對分布式數據庫的了解更加清晰。通過(guò)對 HTAP 和 OLTP 的簡(jiǎn)單介紹,一方面說(shuō)明了兩者的根本差異,一方面說(shuō)明 HTAP 目前面臨一些挑戰。在陽(yáng)振坤眼里,一個(gè)好的分布式數據庫,是“一個(gè)”可水平擴展且一份數據存儲既進(jìn)行交易處理又進(jìn)行分析處理的數據庫。它具備“一個(gè)數據庫”、可水平擴展和 HTAP 的三個(gè)重要特性。 陽(yáng)振坤引用了 Google Spanner 論文的一句話(huà):盡管有人說(shuō) one-fits-all,但包含交易處理、分析處理和全文搜索的單個(gè)系統是客戶(hù)最高優(yōu)先級的需求,人類(lèi)的智慧是無(wú)窮的,HTAP 的這些挑戰部分已經(jīng)在克服,在不久的將來(lái)所有的這些挑戰都將會(huì )被克服。 騰訊分布式數據庫 TDSQL 首席架構師李海翔介紹了 TDSQL 的關(guān)鍵技術(shù)《數據異常體系化技術(shù)研究》,其主要講解了為什么要定義數據異常,為什么要成體系化的定義數據異常;是怎么成體系化的去定義數據異常;怎么用數據異常來(lái)講清楚數據異常和隔離級別的關(guān)系;講清楚數據異常與一致性之間的關(guān)系。把整個(gè)數據庫事務(wù)處理領(lǐng)域里面幾個(gè)重要的概念都講的比較清楚,用數據異常這個(gè)角度講清楚什么叫做一致性,什么叫做隔離級別。 近幾年,隨著(zhù)云計算的不斷發(fā)展,分布式數據庫與云計算也可謂是形影不離,華為數據庫首席架構師馮柯現場(chǎng)分享解讀了《華為云 GaussDB 深耕創(chuàng )新,打造根技術(shù)競爭力》,幫助與會(huì )者了解華為在數據庫的戰略,以及基于這個(gè)戰略確定的六大基礎研究方向:高可用、軟硬協(xié)同、混合負載、云原生、安全可信、智能化。 在確定六大基礎研究方向之外,同時(shí)華為對于數據庫戰略有三點(diǎn)優(yōu)勢:研發(fā)能力、全站能力、生態(tài)建設,基于以上三點(diǎn)優(yōu)勢,最終確定了華為在數據庫的戰略,通過(guò)應用軟硬件協(xié)同,打造開(kāi)放生態(tài),打造 GaussDB 全場(chǎng)景的云服務(wù)。 最后,OceanBaseCEO 楊冰分享了《最好的時(shí)代,共建分布式數據庫未來(lái)》,通過(guò)回顧過(guò)去一年行業(yè)及 OceanBase 的發(fā)展,再次印證了分布式數據庫發(fā)展勢不可擋。 主論壇專(zhuān)家們的對話(huà)環(huán)節,主題是傳統數據庫向分布式數據庫轉型的價(jià)值及趨勢。在各位國內分布式數據庫的頂尖行業(yè)代表的精彩分享下,可以窺見(jiàn)分布式數據庫的發(fā)展以及產(chǎn)業(yè)的現狀更加清晰,時(shí)代的大潮不會(huì )無(wú)風(fēng)而起,無(wú)數優(yōu)秀的開(kāi)發(fā)者、創(chuàng )新者就是這場(chǎng)大潮的推動(dòng)人。 在上午的活動(dòng)中,值得關(guān)注的當屬 OceanBase CTO 楊傳輝對于分布式數據庫整體的技術(shù)發(fā)展進(jìn)行的解讀。從 2010 年開(kāi)始螞蟻集團便致力于 OceanBase 的研發(fā),如今不論在性能、可擴展性、兼容性還是開(kāi)源方面都取得了不錯的成果。 一體化架構作為原生分布式數據庫的佼佼者,OceanBase 背后的主要核心技術(shù)就是一體化架構。通過(guò)一體化架構,OB 能夠發(fā)揮出雙重技術(shù)優(yōu)勢:
OceanBase 一體化架構的核心技術(shù)理念那就是既要分布式,又不能犧牲性能,用一個(gè)通俗的話(huà)來(lái)講就是兩手抓,兩手都要硬!每一個(gè)數據庫都離不開(kāi) SQL、事務(wù)和存儲三個(gè)技術(shù)模塊,如果將事務(wù)層和存儲層分離,再抽取一個(gè)單獨的分布式KV系統,可以簡(jiǎn)單直接的實(shí)現一個(gè)分布式數據庫,但是會(huì )犧牲單機性能,造成系統高延遲,不適合在核心業(yè)務(wù)系統使用;然而,OceanBase 通過(guò)一體化架構將事務(wù)層和存儲層有機結合,不犧牲單機性能的同時(shí)又能做到與集中數據庫相當的水平,完全可以適用于核心業(yè)務(wù)場(chǎng)景。 OceanBase 的一體化架構包括了三個(gè)核心技術(shù)模塊:
OceanBase 的核心理念是把簡(jiǎn)單留給客戶(hù),把復雜留給數據庫,因此選擇了對客戶(hù)更加友好,更加簡(jiǎn)單的一體化架構。 開(kāi)源版本在 2021 年 6 月份,OceanBase 正式面向全球開(kāi)源開(kāi)放,每一個(gè)用戶(hù)都可以通過(guò)下載 OceanBase 社區版快速學(xué)習和使用。OceanBase 在開(kāi)源上與其他項目可能不同,十年內核能力的積累,大量的代碼開(kāi)源,必然花費了很多心思和努力。開(kāi)源是為了更好的發(fā)展,相信點(diǎn)點(diǎn)滴滴將匯聚成滿(mǎn)天星河,開(kāi)源會(huì )越做越好。 同時(shí),OceanBase 在社區建設上也是大力發(fā)展,一個(gè)好的社區必然離不開(kāi)開(kāi)源的支撐,能夠加速生態(tài)建設。通過(guò)開(kāi)源,能夠更快速讓更多的數據庫管理者,使用者或者說(shuō)學(xué)習者,都能夠參與到這個(gè)分布式數據庫生態(tài)里面,這樣能夠比以前 Oracle 建設生態(tài)要更快,通過(guò)開(kāi)源能夠更快的完成生態(tài)建設。 技術(shù)路徑OceanBase 自 2010 年立項以來(lái),已經(jīng)過(guò)了 11 年,一直保持著(zhù)不斷的突破和創(chuàng )新。同樣的,分布式數據庫也經(jīng)歷了三次技術(shù)迭代,從最早的 NoSQL 系統走向今天的原生分布式數據庫。
OceanBase 十一年以來(lái)一直堅持自主研發(fā),秉持只有自主研發(fā)才能完全掌控內核,只有完全掌控內核才能夠持續在原生分布式數據庫領(lǐng)域開(kāi)拓創(chuàng )新。所以,OceanBase 的原生分布式數據庫也經(jīng)歷了三次迭代:
2021 年 OceanBase 又取得五大核心產(chǎn)品技術(shù)突破:
OceanBase 也是全球唯一一個(gè)在事務(wù)處理和數據分析兩個(gè)領(lǐng)域都獲得過(guò)世界第一的原生分布式數據庫。 長(cháng)期以來(lái),數據庫領(lǐng)域并沒(méi)有太大的突破或進(jìn)展,由于它本身是一個(gè)門(mén)檻比較高的行業(yè),長(cháng)期就是由幾家公司來(lái)占據市場(chǎng)份額,所以導致很長(cháng)一段時(shí)間內的開(kāi)源分布式數據庫發(fā)展升量很足,但是在整個(gè)市場(chǎng)份額上未必有優(yōu)勢,這是很長(cháng)一段時(shí)間里整個(gè)開(kāi)源分布式數據庫發(fā)展的整體情況。 但是從 2021 年 1 月開(kāi)始出現了一個(gè)很大的變化,在市場(chǎng)產(chǎn)品占有率層面,開(kāi)源的產(chǎn)品第一次超過(guò)了閉源的商業(yè)產(chǎn)品,這是一個(gè)好的現象,同樣的,分布式數據庫在市場(chǎng)上的競爭也是日漸增長(cháng),說(shuō)明分布式數據庫的價(jià)值以及它的架構上的優(yōu)勢正在越來(lái)越被大家所認可。 OceanBase 在社區開(kāi)源發(fā)展方面做的可圈可點(diǎn)。從數據層面來(lái)看,社區總用戶(hù) 23000 名,百名外部開(kāi)發(fā)者, 超百企業(yè)用戶(hù)在社區進(jìn)行深度的探索。在社區建設上,在 Gitee 和 GitHup上Star 數已經(jīng)超過(guò) 4000 次,社區 Fork 數 860,Commit數超過(guò) 640。在最為關(guān)鍵的社區活躍度上,每日和用戶(hù)的溝通數次數超過(guò)了 300 次,并且社區問(wèn)答數迄今為止已經(jīng)超過(guò) 4600 次。在技術(shù)布道方向連接了超過(guò) 3500 名開(kāi)發(fā)者。這些數據表明:OceanBase 社區正在蓬勃發(fā)展,在未來(lái)將會(huì )更上一個(gè)臺階。 國外和國內對開(kāi)源社區的組織形式有什么區別呢?主要有幾下幾點(diǎn):
總體來(lái)說(shuō),現在是一個(gè)后來(lái)者可以居上,技術(shù)價(jià)值可以無(wú)限接近于商業(yè)價(jià)值的美好時(shí)代。而未來(lái),分布式數據庫的發(fā)展基于開(kāi)源和技術(shù)的發(fā)展,無(wú)疑將會(huì )有更加廣闊的發(fā)展前景。 |