大數據時代來臨,你應該具備的市場調研數據分析思維
時間:2017-07-20 11:06:00 閱(yue)讀:3593 整理:廣州市場調查公司
處于大數(shu)據時(shi)代的(de)今天,我們(men)應該要了解(jie)一些統計學的(de)常識,具備一些市場調研大數(shu)據的(de)思維(wei),我們(men)以以下(xia)四點來做簡單描述(shu):
1 相關性
混淆相(xiang)關(guan)和因(yin)果,不(bu)能建(jian)立多元相(xiang)關(guan)思維模型,簡直是人們犯蠢的重災區!
因果的意思是,A的發(fa)生必(bi)然會導(dao)致B,B的發(fa)生必(bi)然以A的發(fa)生為前提(ti)。相關則不一定,僅僅可(ke)能是A,B同時發(fa)生了。
比(bi)如(ru)暴(bao)飲暴(bao)食導(dao)致胃痛,就是一種因(yin)果(guo)關系。吃(chi)太多胃承受(shou)不了(le),必然會(hui)痛。胃之(zhi)所(suo)以會(hui)痛,就是因(yin)為你吃(chi)了(le)太多東西進去(控制其他(ta)變量的前提下)。
但名校(xiao)畢業(ye)和賺很多錢,這(zhe)就(jiu)不是因果(guo)關(guan)系(xi)。這(zhe)只是一(yi)(yi)種相關(guan)關(guan)系(xi),而且(qie)是一(yi)(yi)種多元(yuan)的相關(guan)關(guan)系(xi)。
換(huan)句話說,賺錢這個(ge)事實,不僅和(he)學校(xiao)學歷(li)相(xiang)關,還(huan)和(he)很多其他因(yin)素相(xiang)關,比如長相(xiang)、行業、冒險精神等等。
現在明白我為什么說(shuo)上面那些問題很蠢(chun)了吧。誰告訴你清北(bei)畢業就一定可以去投(tou)行?同理,誰告訴你,哈(ha)佛的學生就一定比咪蒙(meng)賺(zhuan)錢賺(zhuan)得多?
清(qing)北畢業(ye)和(he)去投行,只(zhi)(zhi)是(shi)(shi)相(xiang)關性,且只(zhi)(zhi)是(shi)(shi)相(xiang)關因子當(dang)中(zhong)的一(yi)個(ge),同理,哈(ha)佛畢業(ye)和(he)賺錢多(duo),也是(shi)(shi)這個(ge)道(dao)理。
如果把(ba)一個(ge)結果稱為(wei)Y,諸多和它相關的因素稱為(wei)X,那么Y和X的關系應(ying)該(gai)是:
Y=AX.
其中A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’
以(yi)上是一個最(zui)基本的多元相關模型。比如,賺錢是Y,那它對應的X,包括(kuo)了學歷(li)、起始資(zi)本(家庭背景)、努力程度、長相,等(deng)等(deng)。
如果(guo)以多元相關(guan)模(mo)型來(lai)思考問題(ti),根本(ben)就不(bu)可能提出(chu)為什么一個哈佛的還不(bu)如咪蒙(meng)賺(zhuan)得多這(zhe)種(zhong)愚蠢(chun)的問題(ti)。
明白了這(zhe)一點,你(ni)也不(bu)會再提憑什么(me)奶(nai)茶(cha)長得好看就可以(yi)搞定東哥,為什么(me)美(mei)聯儲加(jia)息了股票(piao)反而(er)上漲,名校(xiao)畢業的不(bu)如(ru)技校(xiao)畢業的賺得多,這(zhe)一類愚蠢的問題了。
簡單來說,記住(zhu)一點:
事情的(de)發生,往(wang)往(wang)都(dou)是一個復雜系統里,多因素共同(tong)作用的(de)結果。
凡事(shi)都(dou)盡(jin)量避免用單因素模型去(qu)解(jie)釋。這是避免你(ni)變(bian)得很蠢的重(zhong)要思維(wei)法寶。
2 樣本偏差
人們習(xi)慣通過(guo)很(hen)少的(de)觀察值,就(jiu)得出結(jie)論(lun)。這(zhe)樣的(de)結(jie)論(lun),往(wang)往(wang)就(jiu)存在(zai)樣本不(bu)足導致(zhi)的(de)偏差。
比如(ru),你說吸煙有害健(jian)康,勸身邊人戒(jie)煙。煙民們(men)常用的(de)借口是(shi)這樣的(de):
你(ni)看隔壁(bi)王大爺,都(dou)九十(shi)歲了,抽煙抽了一輩子,照樣健健康康的。張二(er)蛋,煙酒不沾,三十(shi)歲就歸了西(xi)。所(suo)以呀(ya),抽煙有害(hai)健康,都(dou)是扯淡(dan)騙人(ren)的!
比(bi)如,有人(ren)跟蹤過(guo)每年的高考狀(zhuang)元(yuan)后來的職業發展(zhan)路徑,最終發現這些(xie)狀(zhuang)元(yuan),絕大多數(shu)并(bing)沒有成為人(ren)中龍(long)鳳,國之棟(dong)梁,于是他們得(de)出(chu)結論:
高考狀(zhuang)元(yuan)最終將(jiang)走(zou)向(xiang)平庸,高考對篩選(xuan)人(ren)才(cai)并沒(mei)什么(me)卵(luan)用!
再比(bi)如,幾個清(qing)北畢業的人,上知乎回答了個問題,說自己清(qing)北畢業,也(ye)買不(bu)起學區房,甚至也(ye)在北京留不(bu)下來,于是就有人得(de)出(chu)結(jie)論:
清北的學(xue)歷(li)不如學(xue)區房值錢!
以(yi)上的例子,統統犯(fan)了小樣(yang)本偏差(cha)的統計錯誤。換句話說,考察的樣(yang)本太(tai)少,根本不可能得出可靠的結論。
看吸(xi)煙(yan)是(shi)否有害健康,應(ying)該看的是(shi)整個(ge)煙(yan)民群(qun)體和非煙(yan)民群(qun)體的比較,光一個(ge)王大(da)爺和張二蛋怎么能得(de)出結論。
高考狀元(yuan)(yuan)的容量加起(qi)來不過幾(ji)(ji)百(bai)人,但非狀元(yuan)(yuan)人數上千萬(wan)(wan),幾(ji)(ji)千萬(wan)(wan)人當(dang)中(zhong)出現馬云馬化騰(teng),當(dang)然更(geng)正常。
說清北畢業買不(bu)起房(fang)的,也只是發(fa)聲(sheng)的少數人,而那些(xie)悶聲(sheng)發(fa)大財(cai)的清北人,看到這樣的結論,恐(kong)怕只會默默地罵一句SB。
說到樣本偏差(cha),就必須提到有(you)名的「紅(hong)球實(shi)驗」。
假設有兩個(ge)盒子:A和B.
A盒:2/3的紅球(qiu),1/3的藍球(qiu)。
B盒(he):2/3的藍球,1/3的紅球。
現在我們把兩(liang)個(ge)盒(he)子(zi)遮起來,從中隨機抽取(qu)小球(qiu)出(chu)來。換句(ju)話說(shuo),這個(ge)時候,你不知(zhi)道哪個(ge)是A哪個(ge)是B,只知(zhi)道盒(he)子(zi)1和盒(he)子(zi)2。
我(wo)們從盒子1當(dang)中抽(chou)(chou)取了(le)4個(ge)紅球(qiu)和1個(ge)藍(lan)球(qiu),一(yi)共5個(ge)。從盒子2當(dang)中,抽(chou)(chou)取了(le)20個(ge)紅球(qiu),10個(ge)藍(lan)球(qiu),一(yi)共30個(ge)。也即是:
盒子1:4個紅球,1個藍球,共5個。
盒子2:20個紅球,10個藍球,共(gong)30個。
現(xian)在問,哪個盒子更有可(ke)能是(shi)(shi)A盒,是(shi)(shi)1還是(shi)(shi)2?
多數人的答案是(shi)1。因為(wei)1當中紅(hong)(hong)球的概率(lv)是(shi)80%,而2當中只(zhi)有67%。A盒當中的紅(hong)(hong)球概率(lv)更(geng)高,所以1是(shi)A盒。
但答(da)案恰(qia)恰(qia)相反(fan),盒(he)子(zi)2才更有可能是A盒(he)。因為在更多(duo)的樣本量下,它保(bao)證了紅(hong)球的概(gai)率遠高(gao)于(yu)藍球。
學過概(gai)率論的(de)同學應該馬上反應出來,這是一個典(dian)型的(de)條件概(gai)率問(wen)題(ti),用貝葉(xie)斯(si)公式(shi)可以(yi)很容易計(ji)算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不懂(dong)公(gong)式的同學可(ke)以(yi)略過,你需要記(ji)住一點即可(ke):
統計推斷(duan),樣本(ben)量越大,越可靠(kao)。基于(yu)小(xiao)樣本(ben)的結論,往往都存在問(wen)題。
以后不要再很(hen)蠢(chun)地說,你看,名校畢業的也(ye)在北京買(mai)不起房,所以學(xue)歷沒(mei)什么(me)卵用。
3 控制變量
控(kong)(kong)制變量的(de)(de)意思(si)是(shi),控(kong)(kong)制了這個因素,來看其他因素對事物發生的(de)(de)影響。最直觀的(de)(de)表達就是(shi) “假設(she)(she)其他條件不(bu)變的(de)(de)情況下”,這種假設(she)(she),就是(shi)很典(dian)型的(de)(de)一種控(kong)(kong)制變量的(de)(de)假設(she)(she)。
回到我們之(zhi)前討論的名(ming)校(xiao)畢業(ye)掙錢(qian)不多的問題,名(ming)校(xiao)畢業(ye)照樣(yang)買不起學區房,很多人據(ju)此得(de)出結論:
名校也(ye)(ye)沒(mei)(mei)什么(me)卵(luan)用,甚至上(shang)大學也(ye)(ye)沒(mei)(mei)什么(me)卵(luan)用,照樣(yang)買(mai)不起房,還不如王小二開個煎餅(bing)攤子(zi)掙(zheng)得多。
這個推理最大的(de)問題就(jiu)是控制變量的(de)不可比(bi)。
你(ni)在(zai)對比名校(xiao)畢業生(sheng)和(he)開早餐鋪子的(de)王小二(er)時,隱含了一個極為重(zhong)要的(de)有關控制變量(liang)的(de)假(jia)設:
除去學歷這個因(yin)素,其他(ta)條件都是一樣,且不變(bian)的(de)。
但(dan)很顯(xian)然(ran),一個清北畢業(ye)生和沒上過大學的(de)王小二,除去學歷(li)的(de)不同,在其(qi)他方面,也就是控制變量方面,也存在巨大的(de)差(cha)異!
換(huan)個(ge)(ge)思路(lu),不用橫向對(dui)比,縱(zong)向來看,假設其他條件不變的(de)情(qing)況下,一(yi)個(ge)(ge)清北畢業(ye)生,沒有清北的(de)學歷,他會過得更好(hao)還是更慘?
這樣(yang)的(de)比(bi)較才(cai)是有意(yi)義的(de)。
同理(li),也只(zhi)有(you)比較具有(you)類似家(jia)庭背景(jing),長相(xiang)水平(ping),努力程度的清北畢(bi)業生和一般學校甚至(zhi)沒上過大(da)學的人(ren),他們誰掙錢(qian)多,這樣的比較才是有(you)意義的。
英文當中有個很(hen)好的(de)表(biao)達叫 Apple to Apple,就是比較(jiao)對象要(yao)要(yao)一致。可惜我們大部分人做的(de)都是Pear to Apple這樣的(de)比較(jiao),毫無(wu)意義。
再說一遍,我們考察單一變量(liang)(liang)對結果的(de)(de)影響時,一定要保持(chi)控制變量(liang)(liang)的(de)(de)不(bu)變且(qie)可比(bi)。不(bu)然這樣比(bi)較得出(chu)的(de)(de)結論(lun),毫無意義。
你(ni)(ni)不(bu)能(neng)(neng)因(yin)為(wei)天天撩妹的(de)王思聰,比天天工作十(shi)六小時的(de)投(tou)行民工,錢更多(duo),就據此否認努力工作沒有(you)用(yong)。你(ni)(ni)也(ye)不(bu)能(neng)(neng)因(yin)為(wei)同學有(you)個(ge)好(hao)爸(ba)(ba)爸(ba)(ba),就否認平民家(jia)庭出身(shen)的(de)人(ren)奮斗沒有(you)意(yi)義。
在(zai)考察努力這一變量(liang)對(dui)成功的(de)影響上(shang),你和王(wang)思(si)聰的(de)“控制(zhi)變量(liang)相同”的(de)假設(she)并不成立。
反過來(lai),就你自己而(er)言,控制其他變量不變,你不努力和(he)努力的結(jie)果差異,一下子就會清(qing)晰起來(lai)。這才是思考問題的正確(que)方(fang)式。
不(bu)少反(fan)雞湯人士(shi)認為,努力沒什么用,家庭出身(shen)決定(ding)一切(qie),先天條件決定(ding)一切(qie),時代大勢決定(ding)一切(qie),這些論點,統統都(dou)是愚蠢的,也是錯誤的,因(yin)(yin)為他們(men)忽略了控制(zhi)變量的因(yin)(yin)素(su)。
4 系統思維
統(tong)計(ji)(ji)常識除了以上三(san)點,還有很多。比如假設檢驗(yan),樣(yang)本(ben)和母體的關(guan)系,統(tong)計(ji)(ji)一類(lei)和二類(lei)錯誤,置信水平等等,文章里沒辦法一一講(jiang)述。
但(dan)我認為,弄清本(ben)文(wen)的三個(ge)基本(ben)常(chang)(chang)識(shi),已(yi)經可以幫你(ni)避免很多(duo)愚(yu)蠢的錯誤。這些常(chang)(chang)識(shi)不是(shi)相互孤(gu)立的,在考察問(wen)題的過程(cheng)當中(zhong),常(chang)(chang)常(chang)(chang)會(hui)同時運用(yong)到它(ta)們(men)。
比如(ru)還(huan)是說(shuo)名校畢(bi)業(ye)生買房(fang)的問題。
首先要(yao)問,是(shi)不是(shi)真的清北(bei)畢業(ye)生就(jiu)買不起學區(qu)房,這(zhe)個樣(yang)本(ben)到底有多(duo)大?是(shi)不是(shi)小樣(yang)本(ben)偏差,或(huo)者幸存者偏差得(de)出的這(zhe)個結論?
其(qi)次我們要想(xiang),清北畢業生買不起學(xue)區房,是(shi)一件(jian)多(duo)么令人(ren)驚訝的事情嗎?當然不是(shi),因(yin)為掙錢這個事情,本身(shen)并(bing)不只(zhi)和學(xue)歷相關(guan),它還和很多(duo)其(qi)他(ta)因(yin)素相關(guan)。
也因此,名(ming)校畢業的同學,也不要總(zong)覺得(de)自己有(you)什么了不起,你得(de)清晰地意識到,收入水平和你的教育程度,并非(fei)因果關系。意識到這一點,能讓你認(ren)清真相,接受現(xian)實,并更(geng)好得(de)在其(qi)他方面去努力。
最后,因為其(qi)他(ta)方面(mian)的因素,比如家(jia)庭出身,比如行業影響,即使名(ming)校畢業真的也買不起房,你就要因此感到沮喪和否定(ding)名(ming)校教育帶給你的價值了(le)嗎?當然不應該!
因為控(kong)制變(bian)量的(de)思想(xiang)告訴你(ni),其他條件不變(bian)的(de)情況下,你(ni)讀不讀名(ming)校,收入的(de)差異還是非常顯(xian)著的(de)。
除(chu)了上面的四點之外,我們再來談(tan)一談(tan)學好(hao)統計好(hao)處:
第一,體驗到一種與眾不同的思維方式。
最(zui)近朋友(you)圈流(liu)行兩只大(da)(da)熊(xiong)貓的(de)(de)(de)萌對話,其中一(yi)只對另一(yi)只說,你看看我們,就知(zhi)道這(zhe)(zhe)個(ge)世界非(fei)黑(hei)即白(bai)。另外一(yi)只大(da)(da)熊(xiong)貓于是(shi)伸出了紅(hong)色(se)的(de)(de)(de)舌(she)頭。這(zhe)(zhe)個(ge)笑(xiao)話告(gao)訴我們,世界并非(fei)非(fei)黑(hei)即白(bai)。統計(ji)學(xue)的(de)(de)(de)思(si)維就是(shi)永遠(yuan)不(bu)肯定這(zhe)(zhe)個(ge)世界到底是(shi)什(shen)么(me)樣子的(de)(de)(de)。統計(ji)學(xue)永遠(yuan)是(shi)講概率的(de)(de)(de),就是(shi)可能(neng)性。莊(zhuang)子說,一(yi)尺之錘(chui),日取其半,而萬(wan)世不(bu)竭(jie)。這(zhe)(zhe)就是(shi)一(yi)種概率思(si)維方式。所以,嗯,我喜歡(huan)宋冬野,他(ta)唱到:昨(zuo)天晚(wan)上,我差(cha)一(yi)點(dian)就他(ta)媽地(di)死了。他(ta)到底死沒死啊。可能(neng)性,是(shi)最(zui)值得人玩味的(de)(de)(de)。
第二,學會看問題,懂得數字的意義。
例(li)如(ru),新聞(wen)報道(dao)(dao)中經(jing)常說(shuo)某(mou)市人(ren)均收(shou)入(ru)(ru)為(wei)1萬元。每每出(chu)現這(zhe)樣的(de)(de)報道(dao)(dao),就(jiu)(jiu)(jiu)有很多(duo)網友驚呼(hu)自(zi)己被(bei)平(ping)均了。為(wei)什(shen)么會造成這(zhe)樣的(de)(de)認知(zhi)錯覺(jue)呢?這(zhe)是因為(wei)新聞(wen)報道(dao)(dao)并(bing)沒有告(gao)訴(su)我們數據的(de)(de)分布是什(shen)么樣的(de)(de)。比(bi)方說(shuo),可能(neng)有20%的(de)(de)人(ren)掌握了80%的(de)(de)收(shou)入(ru)(ru),余(yu)下80%的(de)(de)人(ren)掌握了總收(shou)入(ru)(ru)的(de)(de)20%,那這(zhe)80%的(de)(de)人(ren)肯定覺(jue)得自(zi)己被(bei)平(ping)均了。所以,學過統計的(de)(de)人(ren),當看到這(zhe)樣的(de)(de)數字的(de)(de)時(shi)候(hou),就(jiu)(jiu)(jiu)會多(duo)問(wen)幾個為(wei)什(shen)么,就(jiu)(jiu)(jiu)能(neng)明白數字背后的(de)(de)真(zhen)實含義了。
此外,如果你(ni)學(xue)了(le)統(tong)計學(xue)的抽(chou)樣原(yuan)理(li),或許(xu)你(ni)會進一(yi)(yi)步質(zhi)疑,這個人(ren)均(jun)收入(ru)是(shi)怎么算(suan)出來的。是(shi)統(tong)計了(le)全市所(suo)有人(ren)口的收入(ru)數據,還(huan)是(shi)只抽(chou)取了(le)一(yi)(yi)部分人(ren)的收入(ru)數據。如果是(shi)抽(chou)取了(le)一(yi)(yi)部分人(ren),是(shi)按照(zhao)什么原(yuan)則抽(chou)取的?這些都(dou)會影響到數據的真實性與可信性。
第三,像佛那樣懂因果,知報應。
統計學常常研究兩(liang)個(ge)因素之(zhi)間的(de)關(guan)系(xi),叫做(zuo)因果關(guan)系(xi)。例如(ru),你的(de)學歷(li)對你收入的(de)影響(xiang)。統計學家可(ke)能(neng)會說,學歷(li)每(mei)提升(sheng)一(yi)個(ge)層次,年收入將(jiang)提高(gao)1.2萬元。所(suo)以不要相信讀(du)書無(wu)用論,你要相信概(gai)率(lv)。如(ru)果你相信自己(ji)能(neng)成為比爾蓋(gai)茨,那讀(du)書對你確實沒意義,同樣,這只(zhi)是小概(gai)率(lv)事(shi)件,基本不會發生在你身上。
第四,用數據說話,讓你的說服力要爆表。
當你向領(ling)導匯報工作的時候。
新人(ren)甲是這么(me)匯報的:
今年我們(men)(men)在華東市(shi)場(chang)一(yi)共投入了100萬元推廣費用。我們(men)(men)做了很(hen)多有影響(xiang)力的(de)(de)活動(dong),產生了良好(hao)的(de)(de)品牌效(xiao)(xiao)果。用戶(hu)(hu)對(dui)我們(men)(men)的(de)(de)產品非常認可,在使用后(hou)很(hen)多都成為我們(men)(men)的(de)(de)忠誠(cheng)的(de)(de)用戶(hu)(hu)。我們(men)(men)在華東地區(qu)的(de)(de)市(shi)場(chang)占有率(lv)進一(yi)步提升。我希望明年能(neng)加大在這一(yi)地區(qu)的(de)(de)投入,以(yi)便產生更好(hao)的(de)(de)市(shi)場(chang)效(xiao)(xiao)果。
新人乙是這么匯報的:
今年(nian)我(wo)們在(zai)華(hua)東市(shi)場(chang)一(yi)共(gong)投(tou)入了100萬元推廣費(fei)用。其中,投(tou)放(fang)廣告50萬,落地活動宣傳30萬,促(cu)銷樣品(pin)20萬。共(gong)帶來3萬新增用戶,提(ti)升(sheng)市(shi)場(chang)占有率5個百分點(dian),預計在(zai)未(wei)來一(yi)年(nian)提(ti)升(sheng)這一(yi)地區的銷售額500萬元。
如果你是領導,你會喜歡哪個匯報?
很(hen)顯然(ran),大部分人(ren)會選擇(ze)后(hou)者。清晰的數據能傳達清晰的信息(xi)。那些非常(chang)、很(hen)多、進一(yi)(yi)步寫在(zai)公文里(li)或(huo)許還可(ke)以(yi),但是在(zai)市(shi)場匯(hui)報中,這種(zhong)詞匯(hui)簡直就是一(yi)(yi)團漿糊。領(ling)導(dao)早晨在(zai)家(jia)里(li)已經挨訓(xun)了,你就不要給領(ling)導(dao)添堵啦(la)。
關注公眾號:
華夏經緯數據科技
更多調研資訊>>
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。