大數(shù)據(jù)時代概述
文章出處:http://hlpi.cn 作者:興邦開發(fā)部
最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,,麥肯錫稱:“數(shù)據(jù),,已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,。人們對于海量數(shù)據(jù)的挖掘和運用,,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。” “大數(shù)據(jù)”在物理學(xué),、生物學(xué),、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融,、通訊等行業(yè)存在已有時日,,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。
進入2012年,,大數(shù)據(jù)(big data)一詞越來越多地被提及,,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新,。它已經(jīng)上過《紐約時報》《華爾街日報》的專欄封面,,進入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,,甚至被嗅覺靈敏的國金證券,、國泰君安、銀河證券等寫進了投資推薦報告,。
數(shù)據(jù)正在迅速膨脹并變大,,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,,但是隨著時間的推移,,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,,“大數(shù)據(jù)”時代已經(jīng)降臨,,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,,決策將日益基于數(shù)據(jù)和分析而作出,,而并非基于經(jīng)驗和直覺。
哈佛大學(xué)社會學(xué)教授加里·金說:“這是一場革命,,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進程,,無論學(xué)術(shù)界、商界還是政府,,所有領(lǐng)域都將開始這種進程,。
現(xiàn)在的社會是一個高速發(fā)展的社會,,科技發(fā)達,信息流通,,人們之間的交流越來越密切,,生活也越來越方便,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物,。
隨著云時代的來臨,,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。著云臺的分析師團隊認為,,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),,這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十,、數(shù)百或甚至數(shù)千的電腦分配工作。
在現(xiàn)今的社會,,大數(shù)據(jù)的應(yīng)用越來越彰顯他的優(yōu)勢,,它占領(lǐng)的領(lǐng)域也越來越大,電子商務(wù),、O2O,、物流配送等,各種利用大數(shù)據(jù)進行發(fā)展的領(lǐng)域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務(wù),,創(chuàng)新運營模式,。有了大數(shù)據(jù)這個概念,對于消費者行為的判斷,,產(chǎn)品銷售量的預(yù)測,,精確的營銷范圍以及存貨的補給已經(jīng)得到全面的改善與優(yōu)化。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運營中生成,、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù),。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量,。
大數(shù)據(jù)到底有多大,?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD,;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量),;賣出的手機為37.8萬臺,,高于全球每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別,。國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,,2010年增長為1.2ZB,,2011年的數(shù)量更是高達1.82ZB,,相當于全球每人產(chǎn)生200GB以上的數(shù)據(jù),。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB,。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,,有90%是過去兩年內(nèi)產(chǎn)生的,。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍,。[5] 每一天,,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視頻被分享,。然而,,即使是人們每天創(chuàng)造的全部信息——包括語音通話、電子郵件和信息在內(nèi)的各種通信,,以及上傳的全部圖片,、視頻與音樂,其信息量也無法匹及每一天所創(chuàng)造出的關(guān)于人們自身的數(shù)字信息量,。
這樣的趨勢會持續(xù)下去,。我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著技術(shù)成熟,,我們的設(shè)備,、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通??萍嫉倪M步已經(jīng)使創(chuàng)造,、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,,用在硬件,、軟件、人才及服務(wù)之上的商業(yè)投資也增長了整整50%,,達到了4000億美元,。[5]
大數(shù)據(jù)帶給我們的三個顛覆性觀念轉(zhuǎn)變:是全部數(shù)據(jù),而不是隨機采樣;是大體方向,,而不是精確制導(dǎo),;是相關(guān)關(guān)系,而不是因果關(guān)系,。
A.不是隨機樣本,,而是全體數(shù)據(jù):在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),,有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),,而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應(yīng)當?shù)南拗?,但高性能的?shù)字技術(shù)讓我們意識到,,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數(shù)據(jù)如此之多,,以至于我們不再熱衷于追求精確度;之前需要分析的數(shù)據(jù)很少,,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴大,,對精確度的癡迷將減弱;擁有了大數(shù)據(jù),,我們不再需要對一個現(xiàn)象刨根問底,只要掌握了大體的發(fā)展方向即可,,適當忽略微觀層面上的精確度,,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關(guān)系,而是相關(guān)關(guān)系:我們不再熱衷于找因果關(guān)系,,尋找因果關(guān)系是人類長久以來的習(xí)慣,,在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關(guān)系,,而應(yīng)該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準確地告訴我們某件事情為何會發(fā)生,,但是它會提醒我們這件事情正在發(fā)生。