2013年1月,維克托的《大(da)數(shu)據(ju)時代》出(chu)版(ban),由于正逢互聯(lian)網思維、大(da)數(shu)據(ju)、云計(ji)算、移動互聯(lian)網等新概念(nian)的風起云涌,這件(jian)遠涉(she)重洋來到中國的舶(bo)來品(pin),一(yi)時引得洛陽紙(zhi)貴(gui)。
從維克托界定的(de)(de)大(da)數(shu)據使用的(de)(de)三(san)個原則(ze)來看(要(yao)(yao)整體不(bu)要(yao)(yao)抽樣(yang);要(yao)(yao)效率不(bu)要(yao)(yao)**;要(yao)(yao)相(xiang)關(guan)不(bu)要(yao)(yao)因(yin)果),大(da)數(shu)據的(de)(de)界定似乎正是針對小數(shu)據使用缺陷來界定的(de)(de),而(er)這些所謂的(de)(de)缺陷正是我們(men)線下(xia)傳(chuan)統數(shu)據收集和(he)處理的(de)(de)基本原則(ze)。
在大數據大行其道之(zhi)時,我們(men)積(ji)累了幾十年(nian)、上百年(nian)的小數據處(chu)理方法是否就意味著過時了呢(ni)?
要回答這個問題,我們還是要先從小數據的定義入手(shou)。
目(mu)前網絡和(he)(he)行業都缺(que)乏對小(xiao)數(shu)據(ju)(ju)的(de)(de)(de)(de)標(biao)準定義,在*、乃至臺灣有一種關(guan)于小(xiao)數(shu)據(ju)(ju)的(de)(de)(de)(de)定義,認為(wei)相(xiang)對于服務趨(qu)勢(shi)和(he)(he)戰(zhan)略的(de)(de)(de)(de)大數(shu)據(ju)(ju)而言(yan),那些(xie)服務于個體(ti)而形成的(de)(de)(de)(de)數(shu)據(ju)(ju)指標(biao),應(ying)該稱(cheng)之(zhi)為(wei)小(xiao)數(shu)據(ju)(ju)。舉例來說,谷歌(ge)根據(ju)(ju)人們在搜索(suo)引擎使用(yong)(yong)的(de)(de)(de)(de)關(guan)鍵詞的(de)(de)(de)(de)相(xiang)關(guan)性,判斷H1N1流感趨(qu)勢(shi),為(wei)衛生防疫部門提供預防決策屬于大數(shu)據(ju)(ju)的(de)(de)(de)(de)典型(xing)應(ying)用(yong)(yong);而耐克和(he)(he)蘋果合作開發的(de)(de)(de)(de)“Nike+”軟件,為(wei)個人的(de)(de)(de)(de)健康(kang)和(he)(he)鍛煉(lian)提供的(de)(de)(de)(de)數(shu)據(ju)(ju)指標(biao)和(he)(he)參考,就(jiu)屬于小(xiao)數(shu)據(ju)(ju)的(de)(de)(de)(de)典型(xing)范疇(chou)。
我想說的(de)(de)是,如果(guo)從維克(ke)托的(de)(de)大(da)數(shu)(shu)(shu)據(ju)使用的(de)(de)三個原(yuan)則和(he)標準,我們(men)可以清楚的(de)(de)看到(dao),他所意指的(de)(de)小數(shu)(shu)(shu)據(ju)更多的(de)(de)是我們(men)沿(yan)用傳統方法收集和(he)整(zheng)理的(de)(de)數(shu)(shu)(shu)據(ju)。而這本(ben)書(shu)的(de)(de)序作者之一(yi)的(de)(de)謝文也明確表示(shi),在(zai)互聯網技(ji)術席卷的(de)(de)今天,整(zheng)個世界會(hui)明顯地劃(hua)分為大(da)數(shu)(shu)(shu)據(ju)時代(dai)(dai)、小數(shu)(shu)(shu)據(ju)時代(dai)(dai)、無數(shu)(shu)(shu)據(ju)時代(dai)(dai),小數(shu)(shu)(shu)據(ju)的(de)(de)時代(dai)(dai)指向更加明顯。
所以,我們定義的(de)小數(shu)(shu)據,應該是在信息和(he)數(shu)(shu)據不完整的(de)情況(kuang)下,通(tong)過科學抽樣和(he)技術調整,為(wei)個(ge)體或某類具體問題提供數(shu)(shu)據參考的(de)數(shu)(shu)據包。
弄清楚(chu)了小(xiao)數據(ju)的定義,我(wo)們來看看小(xiao)數據(ju)相對于大數據(ju),是(shi)(shi)不(bu)是(shi)(shi)真的已經(jing)out了?
一、整體(ti)數據是不是一定優(you)于抽樣數據?
互聯網技術的(de)發(fa)展,為收(shou)集(ji)整體(ti)(ti)數(shu)(shu)據(ju)(ju)(ju)而(er)產生的(de)成本下降直至忽略不(bu)計提供了(le)可能,而(er)傳(chuan)統數(shu)(shu)據(ju)(ju)(ju)的(de)收(shou)集(ji)方法(fa)(fa)是在平衡成本和*之下,選(xuan)擇規范的(de)抽樣方法(fa)(fa),兩者(zhe)在數(shu)(shu)量級的(de)比較上就不(bu)在一(yi)個(ge)體(ti)(ti)量級。從統計的(de)*度上來說,數(shu)(shu)據(ju)(ju)(ju)越(yue)大(da),*度越(yue)高,結(jie)果也會(hui)更加逼(bi)近于真(zhen)相(xiang)。當年傳(chuan)統的(de)數(shu)(shu)據(ju)(ju)(ju)處理,正(zheng)是受制(zhi)于數(shu)(shu)據(ju)(ju)(ju)越(yue)多成本越(yue)大(da),或者(zhe)某些現實條件,無(wu)法(fa)(fa)窮盡數(shu)(shu)據(ju)(ju)(ju),才不(bu)得(de)已(yi)采取了(le)抽樣分析的(de)折中(zhong)辦法(fa)(fa)。從數(shu)(shu)量的(de)角度講,大(da)數(shu)(shu)據(ju)(ju)(ju)確實要優于小數(shu)(shu)據(ju)(ju)(ju)。
但(dan)是(shi),小(xiao)數(shu)(shu)據(ju)分析方法,比如樣(yang)本方差,盡(jin)可能(neng)用各(ge)類參(can)數(shu)(shu)將(jiang)樣(yang)本與整體(ti)之(zhi)間的(de)差異縮小(xiao),讓結果(guo)無限逼近真實,在趨勢和(he)策略判(pan)斷上,抽樣(yang)判(pan)斷和(he)整體(ti)判(pan)斷,其實很多時(shi)候都是(shi)五(wu)十(shi)步(bu)和(he)一百步(bu)的(de)區別(bie);另一方面,小(xiao)數(shu)(shu)據(ju)時(shi)代(dai)積累的(de)各(ge)類數(shu)(shu)據(ju)處理方法,也仍然是(shi)大(da)數(shu)(shu)據(ju)時(shi)代(dai)數(shu)(shu)據(ju)處理的(de)基礎和(he)原則,拋棄小(xiao)數(shu)(shu)據(ju)來談大(da)數(shu)(shu)據(ju),大(da)數(shu)(shu)據(ju)也將(jiang)是(shi)無源之(zhi)水、無本之(zhi)木。
二、小數據(ju)處(chu)理數據(ju)的原(yuan)則是效率優先、*為輔。
大數據使用的第二個原則追求效率而不是**,需要重點提到的是,小數據處理體系的存在,正是建立在追求效率而不是**之上。小數據營銷From EMKT.com.cn一般是(shi)針對某(mou)類具體(ti)問題(ti),在(zai)特定(ding)(ding)的時(shi)(shi)間段里,需要開展(zhan)數據的收集、整(zheng)(zheng)(zheng)理(li)和分析,并得(de)出(chu)結(jie)論以(yi)做行(xing)動參考。小數據營(ying)銷(xiao)(xiao)更(geng)符合(he)實戰營(ying)銷(xiao)(xiao)中,不(bu)可(ke)能(neng)在(zai)信(xin)息(xi)(xi)完(wan)(wan)整(zheng)(zheng)(zheng)情況下再進行(xing)判斷的現(xian)實。今天乃至以(yi)后很長(chang)一段時(shi)(shi)間的營(ying)銷(xiao)(xiao)現(xian)實是(shi):我們(men)必須在(zai)競爭(zheng)對手信(xin)息(xi)(xi)不(bu)完(wan)(wan)整(zheng)(zheng)(zheng)、消費(fei)者信(xin)息(xi)(xi)不(bu)完(wan)(wan)整(zheng)(zheng)(zheng)、市場信(xin)息(xi)(xi)不(bu)完(wan)(wan)整(zheng)(zheng)(zheng)等諸多現(xian)實情況下,在(zai)指定(ding)(ding)的時(shi)(shi)間前,做出(chu)判斷和決策,并付諸于(yu)行(xing)動。時(shi)(shi)機就(jiu)是(shi)戰機,等到所有信(xin)息(xi)(xi)都(dou)完(wan)(wan)整(zheng)(zheng)(zheng)了,黃(huang)花菜也涼了。所以(yi),小數據才會有用抽樣代替整(zheng)(zheng)(zheng)體(ti)的選擇。
另(ling)一(yi)(yi)個現(xian)實(shi)(shi)情(qing)況是(shi),在現(xian)階段甚至很長的(de)一(yi)(yi)段時間里,靠互聯網自動采(cai)集所有(you)數(shu)(shu)據還不現(xian)實(shi)(shi),技術的(de)發展和普及需要時間,很多(duo)數(shu)(shu)據還無法實(shi)(shi)現(xian)網絡(luo)化(hua),比如因為現(xian)實(shi)(shi)的(de)財(cai)務、稅務問題,采(cai)集經(jing)銷(xiao)商的(de)數(shu)(shu)據就一(yi)(yi)直是(shi)個難點,ERP喊了(le)多(duo)少年(nian),進銷(xiao)存喊了(le)多(duo)少年(nian),在上了(le)系統的(de)企(qi)業里面(mian),經(jing)銷(xiao)商的(de)相關數(shu)(shu)據有(you)多(duo)少水分,每個企(qi)業都心知肚明。
三、小數(shu)據具體問(wen)題的個(ge)性化處理,更偏(pian)重于因果關系(xi)而不是相關關系(xi)。
維克托提到(dao)大(da)數(shu)(shu)據(ju)的(de)(de)第(di)三個(ge)原則(ze),就(jiu)是(shi)大(da)數(shu)(shu)據(ju)更注重相關(guan)關(guan)系(xi)而不(bu)(bu)是(shi)因(yin)果(guo)關(guan)系(xi),即兩組數(shu)(shu)據(ju)的(de)(de)相關(guan)性(xing)(xing)(xing)是(shi)數(shu)(shu)據(ju)處理(li)的(de)(de)第(di)一要務,至(zhi)于為什么相關(guan),這(zhe)個(ge)問題交給計算機(ji)(ji)自己處理(li)。相關(guan)性(xing)(xing)(xing)和(he)因(yin)果(guo)性(xing)(xing)(xing),孰輕孰重,《大(da)數(shu)(shu)據(ju)時代》的(de)(de)譯者(zhe)周濤也(ye)曾表(biao)達了(le)不(bu)(bu)同觀點(dian)。我(wo)們常說(shuo)某(mou)人讀書不(bu)(bu)求甚(shen)解,通常是(shi)指(zhi)其(qi)知其(qi)然,而不(bu)(bu)知其(qi)所以然。今天大(da)數(shu)(shu)據(ju)將“所以然”的(de)(de)東(dong)西交給計算機(ji)(ji),使用者(zhe)只對“然”負責(ze),我(wo)和(he)朋友調侃說(shuo),這(zhe)也(ye)許是(shi)機(ji)(ji)器(qi)統治人類的(de)(de)第(di)一步。
在高度繁榮(rong)的(de)信息社會,你要確保計(ji)算(suan)機“所以然”是(shi)可控的(de),得有(you)兩(liang)個前提(ti):一(yi)(yi)個是(shi)計(ji)算(suan)編程的(de)邏輯(ji)在開始設定時(shi)就是(shi)正確的(de);一(yi)(yi)個是(shi)機器進行海量數據處(chu)理(li)時(shi),自身不會因為“疲(pi)勞”等因素(su)造成計(ji)算(suan)錯誤(wu),而這正是(shi)大數據面臨的(de)問題。
小數(shu)據(ju)由于是針對(dui)特定問題開展的(de)(de)數(shu)據(ju)收集(ji)、處理(li)和分析,人(ren)的(de)(de)因素比較大,大數(shu)據(ju)的(de)(de)短處正好(hao)成為了TA的(de)(de)長(chang)處,在數(shu)據(ju)的(de)(de)處理(li)過程(cheng)當(dang)中,目的(de)(de)的(de)(de)指(zhi)向性和人(ren)與數(shu)據(ju)的(de)(de)互動會更加(jia)有(you)效。
關于大數據相(xiang)關性的(de)(de)(de)問題,我曾看(kan)到一(yi)個(ge)(ge)網上的(de)(de)(de)段(duan)子,問影響人壽命(ming)(ming)長(chang)短(duan)的(de)(de)(de)因素有(you)哪些,有(you)人通過相(xiang)關分析(xi)得出(chu),一(yi)個(ge)(ge)人慶(qing)(qing)祝生日的(de)(de)(de)次數與(yu)壽命(ming)(ming)的(de)(de)(de)長(chang)短(duan)成(cheng)正比,換句(ju)話說(shuo),一(yi)個(ge)(ge)人要長(chang)壽就要多慶(qing)(qing)祝生日。稍有(you)常識(shi)的(de)(de)(de)人,都知道(dao)這是(shi)一(yi)個(ge)(ge)逗(dou)比的(de)(de)(de)笑話,但是(shi)當計算機給出(chu)其他的(de)(de)(de)錯誤相(xiang)關結果(guo)時(shi),我們(men)有(you)多少(shao)人能夠用常識(shi)判斷出(chu),這是(shi)否(fou)是(shi)又一(yi)個(ge)(ge)逗(dou)比的(de)(de)(de)結果(guo)?
用(yong)小數(shu)(shu)據(ju)(ju)抵制甚至(zhi)漠視大數(shu)(shu)據(ju)(ju)時代的到來,是逆潮流而(er)動的掩耳盜鈴(ling);但用(yong)大數(shu)(shu)據(ju)(ju)時代來否認小數(shu)(shu)據(ju)(ju)的價值,是將大數(shu)(shu)據(ju)(ju)的歷史和未來進行(xing)割裂,依然停留在偽(wei)數(shu)(shu)據(ju)(ju)時代。
轉載://citymember.cn/zixun_detail/4954.html