對話(huà):大數據時(shí)代我們如何做處理與分析

發(fā)布時(shí)間:2011-8-5 23:01    發(fā)布者:Liming
關(guān)鍵詞: 處理 , 大數據時(shí)代 , 分析
大數據的浪潮有多迅猛?IDC在2006年估計全世界產(chǎn)生的數據量是0.18ZB(1ZB=100萬(wàn)PB),而今年這個(gè)數字已經(jīng)提升了一個(gè)數量級,達到1.8ZB,差不多對應全世界每個(gè)人一塊100多GB的硬盤(pán)。這種增長(cháng)還在加速,預計2015年將達到近8ZB。目前IT系統的存儲能力遠遠不足,就更不用說(shuō)深入地挖掘和分析了。
在本文中,百度首席科學(xué)家威廉•張、Teradata首席客戶(hù)官周俊凌、Yahoo!北京全球軟件研發(fā)中心架構師韓軼平、SAP中國區企業(yè)信息管理咨詢(xún)資深顧問(wèn)杜韜等四位業(yè)內專(zhuān)家,將分享他們在應對海量數據挑戰方面的見(jiàn)解和經(jīng)驗。




Teradata首席客戶(hù)官周俊凌百度首席科學(xué)家威廉•張Yahoo!北京全球軟件研發(fā)中心架構師韓軼平SAP中國區企業(yè)信息管理咨詢(xún)資深顧問(wèn)杜韜
您所在企業(yè)的數據量現在達到了什么規模?
威廉•張:這個(gè)問(wèn)題比較容易回答。百度不是一個(gè)產(chǎn)品,不僅有搜索引擎,還包括很多社區產(chǎn)品和媒體產(chǎn)品,所以這個(gè)數字大概是數百個(gè)PB,每天處理的數據大約有幾十個(gè)PB。我是差不多四年半前加入百度的,所以我比較清楚地記得那時(shí)候的規模。與那時(shí)相比,現在的數據規模成長(cháng)比較驚人,大概是那時(shí)的500~1000倍。
數據量大并不可怕,問(wèn)題是要實(shí)時(shí)處理數據,因為任何的時(shí)延都會(huì )使服務(wù)失去一些優(yōu)勢,從而導致商業(yè)經(jīng)濟的下降。我們所做的策略都是針對實(shí)時(shí)性的,而且今天互聯(lián)網(wǎng)用戶(hù)的需求更加實(shí)時(shí)化,比如說(shuō)微博、團購、秒殺。
周俊凌:從IDC的數據統計報告來(lái)看,數據增長(cháng)是非?斓。相對于具體的數據量,Teradata更關(guān)注數據發(fā)展的趨勢,并大量投入研究這種發(fā)展趨勢,包括BI方面的變化和增長(cháng)模式,這個(gè)模式對于我們非常有價(jià)值,通過(guò)研究這種模式,包括每分鐘、每秒鐘交易量有多大等這些數據的發(fā)掘和建模,數據科學(xué)家進(jìn)行研究和探討,把這些技術(shù)應用到生產(chǎn)系統里面,對企業(yè)發(fā)揮作用。
韓軼平:Yahoo!的主要云計算平臺Hadoop現在有34個(gè)集群,總數超過(guò)3萬(wàn)臺機器,最大的集群是4000臺左右,總存儲容量超過(guò)100PB。這個(gè)數量級可以說(shuō)并不大,主要原因在于我們最近將很多精力放在處理用戶(hù)隱私性和數據安全性上,因為按照歐盟的規定,Yahoo!不能存儲超過(guò)一年的數據,所以我們的應對措施就是:不保存原始數據,但做很深入的數據挖掘,挖掘出真正蘊含的有價(jià)值的信息,把這些信息保存下來(lái)。
杜韜:SAP作為企業(yè)級應用提供商,更關(guān)注客戶(hù)的數據量,而我們的客戶(hù)有許多數據密集型企業(yè),比如電信、金融、政府、零售等,數據量級從幾個(gè)TB到數百TB。SAP在德國總部的數據中心有3萬(wàn)臺服務(wù)器,數據量大概是15PB,主要為客戶(hù)提供服務(wù)。我們正在幫助客戶(hù)將內部應用遷移到我們的數據中心服務(wù)平臺,這也意味著(zhù)越來(lái)越多的客戶(hù)數據會(huì )存在我們這兒。
面對大數據,您是怎樣進(jìn)行處理分析的?
杜韜:一方面在數據中心,我們使用了標準的虛擬化以及分布式存儲;另一方面,我們推出了內存計算技術(shù),用以應對數據應用和分析的挑戰。傳統的架構存在很大的瓶頸,磁盤(pán)讀取是以毫秒,而內存讀取則是納秒。因此,我們將以前需要在應用層做的計算分析,比如預測分析或者大量運算,都放到內存里操作,從而實(shí)現性能提升,幫助用戶(hù)充分利用數據。
韓軼平:對Yahoo!的情況,我想分三個(gè)部分來(lái)說(shuō)明:數據采集、數據存儲和數據處理。
在數據采集方面,我們建立了一個(gè)遍布Yahoo!幾個(gè)數據中心、幾十萬(wàn)臺機器的實(shí)時(shí)搜集數據系統,該系統特點(diǎn)是一個(gè)主干道負責把數據經(jīng)過(guò)過(guò)濾、清理以后,進(jìn)行整合,并且在高可靠性的情況下,把它放到Hadoop平臺。雖然相對來(lái)說(shuō)精度很高、效果很好,但速度會(huì )慢一些。為了滿(mǎn)足威廉•張所說(shuō)實(shí)時(shí)性的需求,還有一個(gè)旁路系統,旁路系統在秒級能夠把數據匯到主干道上,這是數據采集的部分。
在數據存儲方面,基本上以HDFS為核心。在數據處理方面,主要技術(shù)是Hadoop、MapReduce以及我們自己開(kāi)發(fā)的Pig。目前,我們有超過(guò)一半數據處理引擎是用Pig完成的。
周俊凌:Teradata一直在持續創(chuàng )新傳統的企業(yè)級數據倉庫產(chǎn)品線(xiàn),在對接大數據時(shí)代的同時(shí),繼續傳統的BI領(lǐng)域,包括提高數據處理的能力,從而更容易適應大數據管理。例如,通過(guò)數據訪(fǎng)問(wèn)頻率高低確認數據溫度,進(jìn)行數據壓縮,適應大數據的分析要求,使數據管理更容易。
我們有適應超高規模數據容量要求的硬件平臺產(chǎn)品Teradata 1000,可以壓縮35PB的數據。特別適用一些結構性數據和非結構性數據的分析,同時(shí)開(kāi)發(fā)了很多能夠進(jìn)行數據統計和分析的軟件包,包括將Hadoop等架構整合到Teradata數據倉庫之中,可以基于目前的Teradata企業(yè)級數據倉庫接口使用。
我們提供基于云的架構,能夠使用Amazon EC2,為客戶(hù)提供安全的存儲產(chǎn)品,用來(lái)存儲公司防火墻以外的、存儲在云端的數據。我們剛剛收購了Aster Data公司,它有一些非常好的工具,適用于Hadoop、MapReduce的一些應用。
威廉•張:各互聯(lián)網(wǎng)企業(yè)在云計算技術(shù)方面的應用都差不多,比如說(shuō)百度也用了Hadoop,我提幾個(gè)比較有特點(diǎn)的地方。
第一個(gè)是大搜索,即不僅是把網(wǎng)頁(yè)抓過(guò)來(lái),建立極其龐大的索引,而且為了使數據做到準實(shí)時(shí)或者更快速的更新,進(jìn)行一些優(yōu)化,比如根據地域分布和重要性分布,放在南方或者北方的機房里,主要還是根據數據應用制訂的策略。另外就是采用數據流技術(shù)。
第二個(gè)是機器學(xué)習算法。在科技領(lǐng)域里,機器學(xué)習以前更多的是對一臺服務(wù)器內存里的數據進(jìn)行高復雜的計算,可能要跑很長(cháng)時(shí)間。而在百度,機器學(xué)習應用于所有地方,比如判斷用戶(hù)需求,從用戶(hù)行為反饋中得到我們應該推薦什么樣的內容、匹配什么樣的廣告等,時(shí)效性非常高?梢苑Q(chēng)得上是增量型、大規模的機器學(xué)習方法。
此外,互聯(lián)網(wǎng)應用要繼續發(fā)展,最關(guān)鍵還是找到更有價(jià)值的數據,即不管數據來(lái)自何方,都要按照價(jià)值來(lái)決定如何處理它。
您怎樣看待層出不窮的NoSQL技術(shù)?
杜韜:我一直認為,存在的就是合理的,NoSQL的產(chǎn)生和演進(jìn)也是因為我們現有的應用需求所導致。當前在大并發(fā)量、海量數據的高效讀寫(xiě)等方面,對關(guān)系型數據庫提出了更高的要求,而NoSQL在這方面有獨特的價(jià)值和優(yōu)勢。
當然,這并不是說(shuō)NoSQL的出現就代表著(zhù)關(guān)系型數據庫的世界末日,因為對于一些應用,特別是企業(yè)級應用,對于事務(wù)的一致性以及讀寫(xiě)的實(shí)時(shí)性等各方面有很高的要求,而關(guān)系型數據庫在這些年的發(fā)展中積累了自己的優(yōu)勢。
因此,我很認同NoSQL是“Not Only SQL”的說(shuō)法,相信在未來(lái)關(guān)系型數據庫和NoSQL會(huì )并存甚至是相互融合。
韓軼平:NoSQL是一個(gè)很寬泛的概念。在Yahoo!,雖然NoSQL說(shuō)得不多,但用的NoSQL工具非常多,我們的Key-Value數據庫等各種各樣的系統,都屬于NoSQL框架。至于說(shuō)NoSQL和SQL之間的關(guān)系,因為很多場(chǎng)合需要ACID,也就需要NoSQL的東西,而NoSQL之所以會(huì )出現,就像我經(jīng)常說(shuō)的“上帝是公平的”,當有一個(gè)需求出現時(shí)必須放棄另一個(gè)東西。我們的很多需求,比如大數據量、高分布性,當有了這些需求以后另一個(gè)需求可能成為新的瓶頸。事實(shí)上,對我們來(lái)說(shuō),互聯(lián)網(wǎng)行業(yè)在很多應用中并不需要一致性。當把需求放寬時(shí),自然能夠滿(mǎn)足另一些需求。
怎樣挖掘數據中的價(jià)值?
威廉•張:我舉一個(gè)直觀(guān)的匹配廣告的例子,它包括兩類(lèi)數據:一類(lèi)是廣告庫,即廣告內容信息和廣告客戶(hù)信息,這類(lèi)信息很適合于傳統數據庫;另一類(lèi)信息是用戶(hù)看到廣告之后的一切行為,經(jīng)歷了日積月累,可能會(huì )有幾百萬(wàn)億的用戶(hù)行為。這兩種數據可以相結合,經(jīng)過(guò)機器學(xué)習算法就能產(chǎn)生價(jià)值。顯然,第二種信息更重要,因為它能給用戶(hù)提供想要的信息,比如搜索一個(gè)詞,可以利用所有用戶(hù)在他之前、在他之后的群體智能、群體行為,判定哪一類(lèi)的信息最重要、最優(yōu)質(zhì),哪一類(lèi)信息可能是作弊信息,然后經(jīng)過(guò)反饋機制,把最好的內容提供給用戶(hù),甚至推薦相關(guān)的一些搜索、查詢(xún)信息?偠灾,對任何企業(yè)來(lái)說(shuō),數據是命根子;對云計算來(lái)說(shuō),數據處理就是云數據中心或者云計算存在的理由。
韓軼平:我們工作之余經(jīng)常開(kāi)玩笑說(shuō):從數據中能挖出的東西,不一定是錢(qián),更重要的是用戶(hù)體驗,對互聯(lián)網(wǎng)公司來(lái)說(shuō),數據就是一切。
Yahoo!不僅僅是搜索引擎,也有很多在美國各領(lǐng)域中排名第一的網(wǎng)站。我們做的很多工作,比如新聞網(wǎng)站信息,都是根據新聞的相關(guān)性和大家的興趣推薦的,我們希望根據每一個(gè)用戶(hù)自己的興趣,甚至每一個(gè)用戶(hù)此時(shí)此刻的興趣,進(jìn)行推薦。Yahoo!新聞的推薦系統,是把Yahoo!所有的數據搜集起來(lái),用戶(hù)在Yahoo!搜索上的所有行為都搜集到一起,做深度挖掘和個(gè)性化,對每一個(gè)用戶(hù)都進(jìn)行分析和推薦,沒(méi)有這些數據我們不可能為客戶(hù)提供體驗,數據對我們來(lái)說(shuō)就是一切。
杜韜:既然各位是從互聯(lián)網(wǎng)的角度來(lái)看數據的價(jià)值,那么我就從企業(yè)的角度來(lái)分享一下。
智能電網(wǎng)現在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽(yáng)能,會(huì )在家庭安裝太陽(yáng)能,除了賣(mài)電給你,當你的太陽(yáng)能有多余電的時(shí)候還可以買(mǎi)回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數據,收集來(lái)的這些數據可以用來(lái)預測客戶(hù)的用電習慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預測后,就可以向發(fā)電或者供電企業(yè)購買(mǎi)一定數量的電。因為電有點(diǎn)像期貨一樣,如果提前買(mǎi)就會(huì )比較便宜,買(mǎi)現貨就比較貴。通過(guò)這個(gè)預測后,可以降低采購成本。
另一個(gè)例子更偏我個(gè)人的興趣。丹•布朗的《失落的秘符》一書(shū)講到,如果把很多人的精神集中在一個(gè)點(diǎn),能夠移動(dòng)物體。當然這個(gè)我們無(wú)從考證,但我們在網(wǎng)上搜索關(guān)鍵詞、敏感詞時(shí),就可以判斷出某件事情的公眾態(tài)度。有一些新的業(yè)務(wù)模式,比如做一個(gè)網(wǎng)絡(luò )廣告投放評估公司,利用這樣的技術(shù)評估網(wǎng)絡(luò )廣告的效果,我覺(jué)得也許是未來(lái)的業(yè)務(wù)價(jià)值產(chǎn)生點(diǎn)。
海量數據時(shí)代對企業(yè)和技術(shù)人員帶來(lái)了哪些挑戰?
韓軼平:以前我們都說(shuō)自己是軟件工程師,我們這個(gè)行業(yè)也經(jīng)常被叫做軟件行業(yè),但我認為我們是真正的Information Technology行業(yè)。對大多數人來(lái)說(shuō),現在最重要的一點(diǎn)是轉變觀(guān)念,從Code/Program觀(guān)念轉變成Data觀(guān)念,在做任何設計和開(kāi)發(fā)時(shí),要把Data放在第一位。
杜韜:海量數據一直在增長(cháng),但是我們應該想辦法控制下來(lái),未來(lái)的趨勢應該放在怎樣縮小海量數據上,而不是任憑它擴張。此外,海量數據時(shí)代對中國來(lái)說(shuō)是一次引領(lǐng)世界IT業(yè)的機會(huì )。
周俊凌:在云計算時(shí)代,業(yè)務(wù)數據與云緊密結合在一起,提供業(yè)務(wù)開(kāi)發(fā)的能力,我們從中學(xué)到了很多新的東西,有一些東西不再是自己去存儲和開(kāi)發(fā),而是都放在云里面存儲。技術(shù)產(chǎn)品推向市場(chǎng)的方式與以往相比,發(fā)生了很大變化。云的這樣一種環(huán)境也給數據庫提供商帶來(lái)很多技術(shù)上的挑戰,例如如何保證存儲的安全性,包括身份識別的健全。這關(guān)系到數據的存儲地方,例如現在發(fā)貨的數據都是放在全球任何一個(gè)地方,不是放在某一個(gè)國家里面,這就帶來(lái)關(guān)于數據主權的問(wèn)題,可能有一些國家和政府不允許把數據放在國家某些地方,這都是一些挑戰,需要從技術(shù)上解決安全等問(wèn)題。
威廉•張:這里我淺談一下兩點(diǎn)感受。
首先,數據管理是DBA的一項重要本領(lǐng),而高校的計算機專(zhuān)業(yè)教育里沒(méi)有特別重視數據程序員,并沒(méi)有數據管理員;其次,MapReduce并不是一個(gè)新概念,早在30~40年前當計算機能力還超小的時(shí)候,函數式編程語(yǔ)言就出現了,但至今大學(xué)里還沒(méi)有開(kāi)設MapReduce或者類(lèi)似數據處理的課程,也基本上沒(méi)有人聽(tīng)過(guò)這些東西。
未來(lái)將所有人的生活經(jīng)驗數據放在云里,這個(gè)大概可以實(shí)現,但如果解決不好數據安全性問(wèn)題的話(huà),那么距離最終的實(shí)現就會(huì )很遠。我期待云計算變成云知識、云智能,而不僅僅是計算的工具。建立數據整合分享是云計算成功的必要和充分條件。
本文地址:http://selenalain.com/thread-72508-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页