說(shuō)起大數據,估計大家都覺(jué)得只聽(tīng)過(guò)概念,但是具體是什么東西,怎么定義,沒(méi)有一個(gè)標準的東西,因為在我們的印象中好像很多公司都叫大數據公司,業(yè)務(wù)形態(tài)則有幾百種,感覺(jué)不是很好理解,所以我建議還是從字面上來(lái)理解大數據,在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫(xiě)的《大數據時(shí)代》提到了大數據的4個(gè)特征: 1.大量 大數據的特征首先就體現為“大”,從先Map3時(shí)代,一個(gè)小小的MB級別的Map3就可以滿(mǎn)足很多人的需求,然而隨著(zhù)時(shí)間的推移,存儲單位從過(guò)去的GB到TB,乃至現在的PB、EB級別。只有數據體量達到了PB級別以上,才能被稱(chēng)為大數據。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個(gè)G的數據。隨著(zhù)信息技術(shù)的高速發(fā)展,數據開(kāi)始爆發(fā)性增長(cháng)。社交網(wǎng)絡(luò )(微博、推特、臉書(shū))、移動(dòng)網(wǎng)絡(luò )、各種智能工具,服務(wù)工具等,都成為數據的來(lái)源。淘寶網(wǎng)近4億的會(huì )員每天產(chǎn)生的商品交易數據約20TB;臉書(shū)約10億的用戶(hù)每天產(chǎn)生的日志數據超過(guò)300TB。迫切需要智能的算法、強大的數據處理平臺和新的數據處理技術(shù),來(lái)統計、分析、預測和實(shí)時(shí)處理如此大規模的數據。 2.高速 就是通過(guò)算法對數據的邏輯處理速度非?,1秒定律,可從各種類(lèi)型的數據中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統的數據挖掘技術(shù)有著(zhù)本質(zhì)的不同。大數據的產(chǎn)生非常迅速,主要通過(guò)互聯(lián)網(wǎng)傳輸。生活中每個(gè)人都離不開(kāi)互聯(lián)網(wǎng),也就是說(shuō)每天個(gè)人每天都在向大數據提供大量的資料。并且這些數據是需要及時(shí)處理的,因為花費大量資本去存儲作用較小的歷史數據是非常不劃算的,對于一個(gè)平臺而言,也許保存的數據只有過(guò)去幾天或者一個(gè)月之內,再遠的數據就要及時(shí)清理,不然代價(jià)太大;谶@種情況,大數據對處理速度有非常嚴格的要求,服務(wù)器中大量的資源都用于處理和計算數據,很多平臺都需要做到實(shí)時(shí)分析。數據無(wú)時(shí)無(wú)刻不在產(chǎn)生,誰(shuí)的速度更快,誰(shuí)就有優(yōu)勢。 3.多樣 如果只有單一的數據,那么這些數據就沒(méi)有了價(jià)值,比如只有單一的個(gè)人數據,或者單一的用戶(hù)提交數據,這些數據還不能稱(chēng)為大數據。廣泛的數據來(lái)源,決定了大數據形式的多樣性。比如當前的上網(wǎng)用戶(hù)中,年齡,學(xué)歷,愛(ài)好,性格等等每個(gè)人的特征都不一樣,這個(gè)也就是大數據的多樣性,當然了如果擴展到全國,那么數據的多樣性會(huì )更強,每個(gè)地區,每個(gè)時(shí)間段,都會(huì )存在各種各樣的數據多樣性。任何形式的數據都可以產(chǎn)生作用,目前應用最廣泛的就是推薦系統,如淘寶,網(wǎng)易云音樂(lè )、今日頭條等,這些平臺都會(huì )通過(guò)對用戶(hù)的日志數據進(jìn)行分析,從而進(jìn)一步推薦用戶(hù)喜歡的東西。日志數據是結構化明顯的數據,還有一些數據結構化不明顯,例如圖片、音頻、視頻等,這些數據因果關(guān)系弱,就需要人工對其進(jìn)行標注。 4.價(jià)值 這也是大數據的核心特征。據羿戓產(chǎn)品設計所了解,現實(shí)世界所產(chǎn)生的數據中,有價(jià)值的數據所占比例很小。相比于傳統的小數據,大數據最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類(lèi)型的數據中,挖掘出對未來(lái)趨勢與模式預測分析有價(jià)值的數據,并通過(guò)機器學(xué)習方法、人工智能方法或數據挖掘方法深度分析,發(fā)現新規律和新知識。你如果有1PB以上的全國所有20-35年輕人的上網(wǎng)數據的時(shí)候,那么它自然就有了商業(yè)價(jià)值,比如通過(guò)分析這些數據,我們就知道這些人的愛(ài)好,進(jìn)而指導產(chǎn)品的發(fā)展方向等等。如果有了全國幾百萬(wàn)病人的數據,根據這些數據進(jìn)行分析就能預測疾病的發(fā)生,這些都是大數據的價(jià)值。大數據運用之廣泛,如運用于農業(yè)、金融、醫療等各個(gè)領(lǐng)域,從而最終達到改善社會(huì )治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究的效果。 大數據已經(jīng)成為過(guò)去幾年中大部分行業(yè)的游戲規則,行業(yè)領(lǐng)袖,學(xué)者和其他知名的利益相關(guān)者都同意這一點(diǎn),隨著(zhù)大數據繼續滲透到我們的日常生活中,圍繞大數據的炒作正在轉向實(shí)際使用中的真正價(jià)值。 ![]() |