在現(xiàn)今時(shí)代人們通常所說的大數(shù)據(jù)主要包括三個(gè)來源:第一是自然界大數(shù)據(jù),也就是地球上的自然環(huán)境,很大很大。第二是生命大數(shù)據(jù)。第三也是最重要的,則是人們關(guān)心的社交大數(shù)據(jù)。這些數(shù)據(jù)普遍存在于人們的手機(jī)、電腦等設(shè)備中。今天一個(gè)報(bào)告在3分鐘之內(nèi)就可能被全世界的人們所知道。
奧巴馬就職的社交場所,這么多面孔,每一個(gè)面孔下都有一個(gè)故事,每一個(gè)人后面都有大數(shù)據(jù)的支撐。人臉是數(shù)據(jù)安全的很重要的識(shí)別器,怎么把人臉識(shí)別清楚呢?人們想了很多辦法?,F(xiàn)在北京市有80萬個(gè)攝像頭,我們每天都在攝像頭的監(jiān)督下開車、購物。我們可以利用攝像頭做身份認(rèn)證、年齡識(shí)別、情感計(jì)算、親緣發(fā)現(xiàn)、心理識(shí)別、地區(qū)識(shí)別、民族識(shí)別。這種流媒體主要的形態(tài)是非結(jié)構(gòu)化的,特征之間的關(guān)聯(lián)關(guān)系、設(shè)備算法的準(zhǔn)確率等等,都嚴(yán)重地制約著大數(shù)據(jù)人臉挖掘的進(jìn)度。如何能從這些海量數(shù)據(jù)中利用識(shí)別算法提取出所需要的特征屬性,并理清特征之間的關(guān)系都是現(xiàn)在所面臨的問題。
技術(shù)推動(dòng)計(jì)算機(jī)發(fā)展
1936年天才數(shù)學(xué)家圖靈提出圖靈模型,后來有計(jì)算機(jī)把圖靈模型轉(zhuǎn)化為物理計(jì)算機(jī),這其中有三大塊:CPU、操作系統(tǒng)、內(nèi)存和外存,還有輸入和輸出。在計(jì)算機(jī)發(fā)展的頭30年里,我們投入最多的是CPU、操作系統(tǒng)、軟件、中間件以及應(yīng)用軟件。當(dāng)時(shí)人們側(cè)重于計(jì)算性能的提高,我們把這個(gè)時(shí)代叫做計(jì)算時(shí)代。
計(jì)算對(duì)軟件付出了很大的努力,尤其是高性能計(jì)算機(jī)。我們認(rèn)為計(jì)算在前20年中起到了主導(dǎo)作用,它的標(biāo)志速度就是摩爾速度。在這樣一個(gè)計(jì)算領(lǐng)先的時(shí)代當(dāng)中,我們主要做的是結(jié)構(gòu)化數(shù)據(jù)的挖掘。關(guān)系數(shù)據(jù)庫之父埃德加在1970年提出一個(gè)關(guān)系模型,以關(guān)系代數(shù)為核心運(yùn)算,用二維表形式表示實(shí)體和實(shí)體間的聯(lián)系。三四十年來,各行各業(yè)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù),以及從數(shù)據(jù)庫發(fā)現(xiàn)知識(shí)的數(shù)據(jù)挖掘成為巨大的信息產(chǎn)業(yè)。
關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫的形式化理論和約束,先有頂層設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu),后填入清洗后的數(shù)據(jù)。數(shù)據(jù)圍繞結(jié)構(gòu)轉(zhuǎn),數(shù)據(jù)圍繞程序轉(zhuǎn)。用戶無需關(guān)心數(shù)據(jù)的獲取、存儲(chǔ)、分析以及提取過程。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫中發(fā)現(xiàn)分類知識(shí)、關(guān)聯(lián)知識(shí)、時(shí)序知識(shí)、異常知識(shí)等等。
隨著數(shù)據(jù)庫產(chǎn)業(yè)的膨大,人們對(duì)數(shù)據(jù)庫已經(jīng)不太滿足了,于是把Databases說成大數(shù)據(jù),這便遇到了兩個(gè)不可回避的挑戰(zhàn),第一個(gè)挑戰(zhàn)是由于關(guān)系代數(shù)的形式化約束過于苛刻,無法表示現(xiàn)實(shí)數(shù)據(jù);第二個(gè)挑戰(zhàn)是隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運(yùn)算性能急劇下降。在這個(gè)時(shí)候,我們的存儲(chǔ)技術(shù)得到了迅猛發(fā)展,人類進(jìn)入了搜索時(shí)代。搜索因?yàn)榇鎯?chǔ)便宜了,存儲(chǔ)的速度大概每9個(gè)月翻一番,所以存儲(chǔ)帶動(dòng)了技術(shù)的腳步,這種搜索時(shí)代經(jīng)過了20多年的發(fā)展,帶領(lǐng)我們進(jìn)入了一個(gè)半結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。這個(gè)時(shí)代的代表人物就是萬維網(wǎng)之父家蒂姆·伯納斯—李,他提出了超文本思想,開發(fā)了世界上第一個(gè)Web服務(wù)器,于是我們可以從一臺(tái)服務(wù)器上檢索另一臺(tái)服務(wù)器的內(nèi)容,服務(wù)器在軟件的支持下可發(fā)布包括文本、表格、圖片、音視頻的碎片化超媒體信息。
因此,客戶端服務(wù)器結(jié)構(gòu)和云計(jì)算結(jié)構(gòu)蓬勃產(chǎn)生,這時(shí)已經(jīng)沒有了關(guān)于代數(shù)那樣嚴(yán)格的形式化約束,依靠的主要是規(guī)范、標(biāo)準(zhǔn),所有媒體均以實(shí)體形式存在,甚至是軟件,實(shí)體通過超鏈接產(chǎn)生聯(lián)系。
形式化理論比關(guān)系代數(shù)寬松了許多,創(chuàng)建了靈活多樣的實(shí)體,這時(shí)候數(shù)據(jù)開始圍繞實(shí)體轉(zhuǎn),實(shí)體圍繞鏈接轉(zhuǎn)。在云計(jì)算背景下,數(shù)據(jù)挖掘也可以看作是云計(jì)算環(huán)境下的搜索與個(gè)性化服務(wù),不存在固定的查詢方式,也不會(huì)出現(xiàn)唯一、100%準(zhǔn)確的查詢結(jié)果。
網(wǎng)絡(luò)化的大數(shù)據(jù)挖掘
隨著互聯(lián)網(wǎng)帶寬6個(gè)月翻一番的速度,人類進(jìn)入了交互時(shí)代,交互帶動(dòng)著計(jì)算和存儲(chǔ)的發(fā)展。
移動(dòng)互聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘,這些數(shù)據(jù)形態(tài)反映的是鮮活的、碎片化的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是,它常常是低價(jià)值、強(qiáng)噪聲、異構(gòu)、冗余冰冷的數(shù)據(jù),有很多數(shù)據(jù)放在存儲(chǔ)器里就沒再用過。數(shù)據(jù)的形式化約束越來越寬松,越來越接近互聯(lián)網(wǎng)文化、窗口文化和社區(qū)文化。
關(guān)注的對(duì)象也發(fā)生很大改變,挖掘關(guān)注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個(gè)重要思想就是由下而上勝過由上而下的頂層設(shè)計(jì),強(qiáng)調(diào)挖掘數(shù)據(jù)的真實(shí)性、及時(shí)性,要發(fā)現(xiàn)關(guān)聯(lián)、發(fā)現(xiàn)異常、發(fā)現(xiàn)趨勢(shì),總之要發(fā)現(xiàn)價(jià)值。
當(dāng)前,深度學(xué)習(xí)也是一種數(shù)據(jù)自適應(yīng)簡約。如果我們?cè)诎俣壬嫌蒙疃葘W(xué)習(xí)搜索一個(gè)人臉象素搜索,這么多人臉誰是誰?數(shù)據(jù)量急劇增加,各種媒體形態(tài)可隨意碎片化,組織結(jié)構(gòu)和挖掘程序要圍著數(shù)據(jù)轉(zhuǎn),程序要碎片化,并可以隨時(shí)虛擬重組,挖掘常常是人機(jī)交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)以及社區(qū)中形成的群體智能,在非結(jié)構(gòu)化數(shù)據(jù)挖掘中,會(huì)自然進(jìn)行數(shù)據(jù)清洗,自然形成半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),以提高數(shù)據(jù)使用效率。
群體智能是一個(gè)最近說得很多的詞,我們?cè)?jīng)在計(jì)算機(jī)上做一個(gè)圖靈測(cè)試,讓計(jì)算機(jī)區(qū)分哪些碼是人產(chǎn)生的,哪些是機(jī)器產(chǎn)生的,這是卡內(nèi)基美隆大學(xué)提出來的,在網(wǎng)絡(luò)購物、登錄網(wǎng)站、申請(qǐng)網(wǎng)站時(shí)都會(huì)碰到適配碼被使用。在此要提到第三個(gè)代表人物——路易斯,他提出用這個(gè)適配碼應(yīng)用方式。
如果云計(jì)算支撐大數(shù)據(jù)挖掘要發(fā)現(xiàn)價(jià)值,那么我們認(rèn)為云計(jì)算本來就是基于互聯(lián)網(wǎng)的大眾參與計(jì)算模式,其計(jì)算資源是動(dòng)態(tài)的,可收縮的,被虛擬化的,而且以服務(wù)的方式提供。 產(chǎn)生擺脫了傳統(tǒng)的配置帶來的系統(tǒng)升級(jí),更加簡潔、靈活多樣、個(gè)性化,手機(jī)、游戲機(jī)、數(shù)碼相機(jī)、電視機(jī)差別細(xì)微,出現(xiàn)了更多iCloud產(chǎn)品,界面人性化、個(gè)性化,都可成為大數(shù)據(jù)挖掘的終端。
挖掘員支撐各種各樣的大數(shù)據(jù)應(yīng)用,如果我們有數(shù)據(jù)收集中心、存儲(chǔ)中心、計(jì)算中心、服務(wù)中心,一定要有數(shù)據(jù)挖掘中心,這樣一來,就可以實(shí)現(xiàn)支撐大數(shù)據(jù)的及時(shí)應(yīng)用和價(jià)值的及時(shí)發(fā)現(xiàn)。
大數(shù)據(jù)標(biāo)志一個(gè)新時(shí)代的到來,這個(gè)時(shí)代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來方便的多樣化的信息服務(wù),同時(shí)還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價(jià)值挖掘和價(jià)值轉(zhuǎn)換,虛擬世界的信息價(jià)值挖掘?qū)е赂泳_的控制物理世界的物質(zhì)和能量,以及由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。