大數據時代來臨,你應該具備的市場調研數據分析思維
時間:2017-07-20 11:06:00 閱讀:3593 整理:廣州市場調查公司
處于大(da)數據時代的(de)今天,我(wo)們(men)應該(gai)要了解(jie)一些(xie)統計(ji)學的(de)常識(shi),具備一些(xie)市場調研(yan)大(da)數據的(de)思(si)維,我(wo)們(men)以(yi)(yi)以(yi)(yi)下四點來做簡單(dan)描述:
1 相關性
混淆相關(guan)(guan)和(he)因果,不能(neng)建(jian)立多元相關(guan)(guan)思維模型,簡直是人們(men)犯蠢(chun)的重災區!
因(yin)果(guo)的意(yi)思是,A的發生(sheng)必(bi)然會導致B,B的發生(sheng)必(bi)然以A的發生(sheng)為前提。相關則不一定,僅僅可能是A,B同(tong)時發生(sheng)了。
比如暴(bao)飲暴(bao)食導致胃痛,就是(shi)一種因果關系。吃太(tai)多胃承受不了,必然會(hui)痛。胃之所以會(hui)痛,就是(shi)因為你吃了太(tai)多東西進去(qu)(控制其他(ta)變量的前提(ti)下(xia))。
但名校畢業(ye)和賺很多(duo)錢,這就不是因(yin)果關(guan)系(xi)。這只是一種相關(guan)關(guan)系(xi),而且是一種多(duo)元(yuan)的相關(guan)關(guan)系(xi)。
換句話說,賺錢這個(ge)事實,不僅(jin)和學校學歷相關,還和很多(duo)其他(ta)因素相關,比如長(chang)相、行業、冒險精神等(deng)等(deng)。
現(xian)在明白我(wo)為什(shen)么說上面那些(xie)問題(ti)很蠢了吧。誰告(gao)訴你(ni)清北畢業就一(yi)定可(ke)以去投行?同理,誰告(gao)訴你(ni),哈佛的學生就一(yi)定比(bi)咪蒙(meng)賺錢賺得(de)多?
清北(bei)畢業和去投(tou)行,只(zhi)是(shi)相關(guan)性,且只(zhi)是(shi)相關(guan)因子當中的(de)一個,同理,哈佛畢業和賺錢多(duo),也是(shi)這個道理。
如果把一個結果稱為(wei)Y,諸多(duo)和它相(xiang)關(guan)的因素(su)稱為(wei)X,那么Y和X的關(guan)系應(ying)該是:
Y=AX.
其中(zhong)A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’
以上是(shi)一個最基(ji)本的多元相關模(mo)型(xing)。比(bi)如,賺錢是(shi)Y,那它對應的X,包括了學歷、起始資(zi)本(家庭背景)、努力程度、長相,等等。
如果以多(duo)元相關模(mo)型來思考問(wen)題(ti),根本就不可能提出為什么一個哈佛的還不如咪蒙賺得(de)多(duo)這種愚蠢的問(wen)題(ti)。
明白了這一(yi)點,你(ni)也不會(hui)再提憑什么(me)奶茶長得好看就可以(yi)搞定東哥,為什么(me)美聯儲(chu)加(jia)息了股票反而上漲,名校畢(bi)(bi)業(ye)的不如技(ji)校畢(bi)(bi)業(ye)的賺得多,這一(yi)類愚蠢的問題了。
簡單(dan)來說(shuo),記(ji)住一點:
事情的發生,往往都(dou)是一個復雜系統里,多因素共同作用的結果(guo)。
凡事都盡量(liang)避免用單(dan)因(yin)素模型去解(jie)釋。這是(shi)避免你變得很蠢(chun)的重要(yao)思維法寶。
2 樣本偏差
人們習慣通(tong)過(guo)很少(shao)的(de)觀察(cha)值,就得出結論。這樣的(de)結論,往往就存在樣本不足(zu)導致的(de)偏(pian)差。
比如,你說吸煙有害健康(kang),勸(quan)身邊(bian)人戒煙。煙民們(men)常(chang)用的借口是這樣的:
你看隔(ge)壁王大(da)爺,都(dou)九十歲了(le)(le),抽(chou)煙(yan)抽(chou)了(le)(le)一(yi)輩(bei)子,照(zhao)樣健健康(kang)康(kang)的。張二蛋,煙(yan)酒不沾,三十歲就(jiu)歸了(le)(le)西。所以呀,抽(chou)煙(yan)有害健康(kang),都(dou)是扯淡騙人的!
比如,有人跟蹤過每年的高考狀(zhuang)元后來的職業發展路徑,最終發現這些狀(zhuang)元,絕大多數并沒有成為人中龍鳳,國(guo)之棟梁,于是他們得出結論(lun):
高(gao)考(kao)狀元最終將走(zou)向平庸,高(gao)考(kao)對篩選人才(cai)并(bing)沒(mei)什么(me)卵用!
再比如,幾(ji)個(ge)清北(bei)(bei)畢(bi)業的人(ren),上知(zhi)乎回答了個(ge)問題,說(shuo)自己清北(bei)(bei)畢(bi)業,也買(mai)不(bu)起學(xue)區房(fang),甚至也在北(bei)(bei)京留不(bu)下來,于是就(jiu)有人(ren)得出結論:
清北(bei)的學歷不(bu)如學區房值錢(qian)!
以(yi)上(shang)的(de)例子,統統犯了小樣(yang)本(ben)偏(pian)差(cha)的(de)統計(ji)錯誤。換句話說(shuo),考察的(de)樣(yang)本(ben)太(tai)少,根本(ben)不可(ke)能得出(chu)可(ke)靠的(de)結論。
看吸煙(yan)是(shi)否有害健康,應該(gai)看的(de)是(shi)整(zheng)個(ge)煙(yan)民(min)群(qun)體和非煙(yan)民(min)群(qun)體的(de)比較,光一(yi)個(ge)王大爺(ye)和張(zhang)二蛋(dan)怎么能(neng)得出結(jie)論。
高(gao)考狀元的容量加(jia)起(qi)來不過(guo)幾(ji)(ji)百人,但非(fei)狀元人數(shu)上千(qian)萬(wan),幾(ji)(ji)千(qian)萬(wan)人當中(zhong)出現馬云馬化騰,當然(ran)更正常。
說清北(bei)畢業買(mai)不起(qi)房(fang)的(de),也只(zhi)是發聲(sheng)的(de)少數人,而那些(xie)悶聲(sheng)發大財(cai)的(de)清北(bei)人,看到這(zhe)樣的(de)結(jie)論(lun),恐怕只(zhi)會默(mo)默(mo)地罵(ma)一(yi)句(ju)SB。
說到樣(yang)本(ben)偏差,就(jiu)必須提到有(you)名的「紅球實驗」。
假設有兩個盒子:A和B.
A盒:2/3的紅(hong)球(qiu),1/3的藍球(qiu)。
B盒(he):2/3的藍球(qiu),1/3的紅球(qiu)。
現(xian)在(zai)我們把兩個盒(he)(he)子遮(zhe)起(qi)來(lai),從中隨機抽(chou)取小球出(chu)來(lai)。換(huan)句話(hua)說(shuo),這個時候,你不知道哪個是(shi)A哪個是(shi)B,只知道盒(he)(he)子1和盒(he)(he)子2。
我們(men)從(cong)盒子1當(dang)中抽取了(le)4個(ge)紅(hong)球和(he)1個(ge)藍(lan)球,一共5個(ge)。從(cong)盒子2當(dang)中,抽取了(le)20個(ge)紅(hong)球,10個(ge)藍(lan)球,一共30個(ge)。也(ye)即是:
盒子1:4個紅(hong)球,1個藍球,共5個。
盒子(zi)2:20個(ge)紅球,10個(ge)藍球,共30個(ge)。
現在(zai)問,哪個(ge)盒子更(geng)有可能(neng)是(shi)(shi)(shi)A盒,是(shi)(shi)(shi)1還是(shi)(shi)(shi)2?
多數人的(de)答(da)案是(shi)1。因為1當(dang)中(zhong)紅(hong)球(qiu)的(de)概率是(shi)80%,而2當(dang)中(zhong)只有67%。A盒當(dang)中(zhong)的(de)紅(hong)球(qiu)概率更(geng)高,所以1是(shi)A盒。
但答案恰恰相反,盒子2才更(geng)(geng)有(you)可(ke)能是A盒。因為在更(geng)(geng)多的樣本量下,它保證了紅球的概率遠高于藍(lan)球。
學(xue)過概(gai)率論的(de)同學(xue)應(ying)該馬上反應(ying)出來,這是一個典型的(de)條(tiao)件概(gai)率問題,用貝葉斯公式(shi)可以很(hen)容易計算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不(bu)懂公式的同學可以略(lve)過(guo),你需要記住一點即可:
統計推斷,樣本量越大,越可(ke)靠。基(ji)于(yu)小樣本的結論,往往都存(cun)在問題。
以后不要再(zai)很蠢(chun)地說(shuo),你看(kan),名(ming)校畢(bi)業的也(ye)在(zai)北京買不起房,所(suo)以學歷(li)沒什(shen)么卵用(yong)。
3 控制變量
控制變量的(de)(de)(de)意思是(shi),控制了(le)這個因素,來看其(qi)他(ta)因素對事物發生的(de)(de)(de)影響(xiang)。最直(zhi)觀的(de)(de)(de)表達就(jiu)是(shi) “假(jia)設其(qi)他(ta)條件(jian)不變的(de)(de)(de)情況下”,這種假(jia)設,就(jiu)是(shi)很(hen)典(dian)型的(de)(de)(de)一種控制變量的(de)(de)(de)假(jia)設。
回到我們之(zhi)前討論的(de)名校畢業(ye)掙錢不多的(de)問題,名校畢業(ye)照(zhao)樣(yang)買不起學區房,很(hen)多人據此得(de)出(chu)結論:
名校也(ye)沒什么(me)卵用,甚至(zhi)上大學也(ye)沒什么(me)卵用,照樣(yang)買(mai)不起房(fang),還不如王小二(er)開個煎餅(bing)攤子掙得多。
這個推理最(zui)大的問題就是控制(zhi)變量的不可比(bi)。
你在對比名校(xiao)畢業生和(he)開早餐鋪子的(de)王小二時,隱含了一個極(ji)為重要的(de)有關控制(zhi)變量(liang)的(de)假設(she):
除去學歷這個因素,其他條件都(dou)是一樣,且不變的。
但很顯然(ran),一個清(qing)北畢業生和(he)沒(mei)上過(guo)大(da)學(xue)(xue)的王小二,除去(qu)學(xue)(xue)歷(li)的不同,在(zai)其他方面(mian)(mian),也就是(shi)控制變量(liang)方面(mian)(mian),也存在(zai)巨(ju)大(da)的差異(yi)!
換個(ge)思(si)路,不(bu)用橫向對(dui)比,縱向來(lai)看,假(jia)設其(qi)他(ta)條件不(bu)變的情況下,一個(ge)清北畢業(ye)生,沒有清北的學歷,他(ta)會過得(de)更好還是更慘(can)?
這(zhe)樣的比較才是(shi)有意義的。
同理,也(ye)只有比較具有類似家庭(ting)背(bei)景,長相水平(ping),努力程(cheng)度的清(qing)北畢(bi)業(ye)生和一(yi)般學(xue)校甚(shen)至沒上(shang)過大(da)學(xue)的人,他們誰(shui)掙錢多(duo),這樣的比較才是有意(yi)義的。
英文(wen)當中(zhong)有個(ge)很好的(de)(de)(de)表(biao)達叫 Apple to Apple,就是比(bi)較對象(xiang)要(yao)要(yao)一致。可惜我(wo)們大部分(fen)人做的(de)(de)(de)都是Pear to Apple這樣的(de)(de)(de)比(bi)較,毫無意義。
再(zai)說(shuo)一遍,我們考察單一變量對結(jie)果(guo)的(de)影(ying)響(xiang)時(shi),一定要(yao)保(bao)持控(kong)制變量的(de)不變且可比。不然(ran)這樣比較得出(chu)的(de)結(jie)論,毫無意義(yi)。
你(ni)不能因(yin)為(wei)天(tian)天(tian)撩妹的王(wang)思(si)聰,比(bi)天(tian)天(tian)工作十六小時的投行民工,錢更多(duo),就(jiu)據此否認努力工作沒有(you)用。你(ni)也不能因(yin)為(wei)同(tong)學有(you)個好爸(ba)爸(ba),就(jiu)否認平民家庭(ting)出(chu)身的人(ren)奮斗沒有(you)意義。
在考察努力這一變(bian)(bian)量對成功的影(ying)響上,你和王思聰的“控制變(bian)(bian)量相同”的假(jia)設并不成立。
反過來,就你(ni)自己而言,控制其他變(bian)量不(bu)變(bian),你(ni)不(bu)努力和努力的結(jie)果差異,一下(xia)子就會清晰起來。這才是(shi)思考問題的正確(que)方式。
不少反(fan)雞湯人(ren)士認為,努力沒什么(me)用,家(jia)庭(ting)出身決定一切,先(xian)天條件決定一切,時代(dai)大勢決定一切,這些論點(dian),統(tong)統(tong)都是愚蠢(chun)的(de),也是錯誤的(de),因(yin)為他(ta)們忽略了控制變(bian)量的(de)因(yin)素。
4 系統思維
統計常(chang)識(shi)除(chu)了(le)以上三點,還有(you)很多。比如假(jia)設(she)檢(jian)驗,樣本和母(mu)體的關(guan)系,統計一(yi)類和二類錯誤,置信水平等等,文章(zhang)里沒辦法一(yi)一(yi)講述(shu)。
但(dan)我(wo)認為,弄(nong)清(qing)本文的三個基本常識,已經可以幫你避免很(hen)多愚蠢的錯誤。這些常識不(bu)是相互(hu)孤(gu)立(li)的,在考(kao)察問(wen)題的過程當中,常常會同時運用到它(ta)們。
比如還是說名校(xiao)畢業生買房的問題。
首先要問,是(shi)(shi)(shi)不(bu)是(shi)(shi)(shi)真的(de)(de)清北畢業生就買不(bu)起(qi)學區房,這個樣本(ben)到底(di)有多(duo)大?是(shi)(shi)(shi)不(bu)是(shi)(shi)(shi)小樣本(ben)偏(pian)差,或(huo)者幸存者偏(pian)差得出的(de)(de)這個結論?
其次我(wo)們要想,清北畢(bi)業生買不起(qi)學區(qu)房,是一件多(duo)(duo)么令人驚訝的事(shi)情嗎(ma)?當(dang)然不是,因為掙錢這個事(shi)情,本(ben)身并(bing)不只和學歷相關(guan),它還和很多(duo)(duo)其他因素(su)相關(guan)。
也(ye)因此,名校(xiao)畢業的同學,也(ye)不要總覺得(de)自己有什么了不起,你得(de)清晰地意識到,收(shou)入水(shui)平(ping)和你的教育(yu)程度(du),并(bing)非因果(guo)關系(xi)。意識到這一點,能讓你認清真相(xiang),接受現實,并(bing)更好得(de)在其(qi)他方(fang)面(mian)去努力。
最(zui)后,因(yin)(yin)為其(qi)他(ta)方面的(de)因(yin)(yin)素,比如家庭出身,比如行業影響,即使名(ming)校畢業真的(de)也買不起(qi)房,你就要因(yin)(yin)此感到沮喪(sang)和(he)否定名(ming)校教育帶給你的(de)價(jia)值了嗎?當(dang)然(ran)不應該!
因(yin)為控(kong)制變(bian)量的思(si)想告訴你(ni),其他條件不變(bian)的情況下,你(ni)讀(du)不讀(du)名校,收(shou)入(ru)的差異(yi)還(huan)是(shi)非常顯著(zhu)的。
除了(le)上面的四點之(zhi)外(wai),我們(men)再來談(tan)一談(tan)學(xue)好(hao)統計好(hao)處:
第一,體驗到一種與眾不同的思維方式。
最(zui)近朋友圈流行兩(liang)只大(da)熊貓的(de)萌(meng)對話,其中一(yi)只對另一(yi)只說,你(ni)看看我們(men),就(jiu)知道這(zhe)個(ge)世界(jie)非黑(hei)即(ji)白。另外一(yi)只大(da)熊貓于是(shi)(shi)(shi)伸出了(le)紅色的(de)舌頭。這(zhe)個(ge)笑話告訴我們(men),世界(jie)并(bing)非非黑(hei)即(ji)白。統計(ji)學(xue)的(de)思(si)維就(jiu)是(shi)(shi)(shi)永(yong)遠(yuan)(yuan)不肯定這(zhe)個(ge)世界(jie)到(dao)底是(shi)(shi)(shi)什(shen)么樣(yang)子的(de)。統計(ji)學(xue)永(yong)遠(yuan)(yuan)是(shi)(shi)(shi)講概率的(de),就(jiu)是(shi)(shi)(shi)可(ke)能(neng)性。莊子說,一(yi)尺之錘,日取(qu)其半(ban),而萬世不竭。這(zhe)就(jiu)是(shi)(shi)(shi)一(yi)種概率思(si)維方(fang)式。所(suo)以,嗯,我喜歡(huan)宋冬野,他唱到(dao):昨天晚上,我差一(yi)點就(jiu)他媽地死(si)(si)了(le)。他到(dao)底死(si)(si)沒(mei)死(si)(si)啊。可(ke)能(neng)性,是(shi)(shi)(shi)最(zui)值得(de)人(ren)玩味的(de)。
第二,學會看問題,懂得數字的意義。
例如,新聞(wen)報(bao)(bao)道(dao)中(zhong)經常(chang)說某市人均(jun)收(shou)入(ru)為1萬元。每每出現這(zhe)樣(yang)的(de)(de)(de)(de)(de)報(bao)(bao)道(dao),就(jiu)有很多網友驚呼自己被平均(jun)了(le)。為什(shen)么會造成這(zhe)樣(yang)的(de)(de)(de)(de)(de)認知錯覺呢?這(zhe)是因(yin)為新聞(wen)報(bao)(bao)道(dao)并沒(mei)有告(gao)訴我們數據的(de)(de)(de)(de)(de)分布是什(shen)么樣(yang)的(de)(de)(de)(de)(de)。比方說,可能有20%的(de)(de)(de)(de)(de)人掌(zhang)握了(le)80%的(de)(de)(de)(de)(de)收(shou)入(ru),余下80%的(de)(de)(de)(de)(de)人掌(zhang)握了(le)總收(shou)入(ru)的(de)(de)(de)(de)(de)20%,那這(zhe)80%的(de)(de)(de)(de)(de)人肯定覺得自己被平均(jun)了(le)。所以,學過統(tong)計的(de)(de)(de)(de)(de)人,當看到這(zhe)樣(yang)的(de)(de)(de)(de)(de)數字的(de)(de)(de)(de)(de)時(shi)候,就(jiu)會多問幾個為什(shen)么,就(jiu)能明白數字背后的(de)(de)(de)(de)(de)真(zhen)實含義了(le)。
此外,如(ru)果(guo)(guo)你學了(le)統計(ji)學的(de)抽樣原理(li),或許你會(hui)進一步質疑,這個人(ren)均(jun)收入是(shi)怎么(me)算出來的(de)。是(shi)統計(ji)了(le)全市所有人(ren)口的(de)收入數(shu)據(ju)(ju),還(huan)是(shi)只(zhi)抽取了(le)一部分人(ren)的(de)收入數(shu)據(ju)(ju)。如(ru)果(guo)(guo)是(shi)抽取了(le)一部分人(ren),是(shi)按(an)照(zhao)什(shen)么(me)原則(ze)抽取的(de)?這些都會(hui)影響到(dao)數(shu)據(ju)(ju)的(de)真實(shi)性與可信性。
第三,像佛那樣懂因果,知報應。
統計學(xue)(xue)常常研究(jiu)兩個(ge)因(yin)素之間的關(guan)系,叫做因(yin)果(guo)關(guan)系。例如,你(ni)的學(xue)(xue)歷對你(ni)收(shou)入(ru)的影響。統計學(xue)(xue)家可(ke)能會說,學(xue)(xue)歷每提升一個(ge)層次,年收(shou)入(ru)將提高1.2萬元。所以不要(yao)相信(xin)讀書(shu)無用(yong)論,你(ni)要(yao)相信(xin)概率(lv)。如果(guo)你(ni)相信(xin)自己能成(cheng)為(wei)比爾蓋茨,那讀書(shu)對你(ni)確實沒意義(yi),同樣(yang),這只(zhi)是小概率(lv)事件,基本不會發生(sheng)在你(ni)身上(shang)。
第四,用數據說話,讓你的說服力要爆表。
當你向領導匯報工作的時候。
新人甲是這么匯報的:
今年我(wo)們在華(hua)東市(shi)場(chang)一(yi)共投入了(le)100萬元推廣費用。我(wo)們做了(le)很(hen)多有影響力的(de)(de)(de)(de)(de)活動,產(chan)生了(le)良(liang)好的(de)(de)(de)(de)(de)品牌(pai)效果(guo)。用戶(hu)對(dui)我(wo)們的(de)(de)(de)(de)(de)產(chan)品非常認可,在使用后很(hen)多都成為我(wo)們的(de)(de)(de)(de)(de)忠(zhong)誠的(de)(de)(de)(de)(de)用戶(hu)。我(wo)們在華(hua)東地區(qu)的(de)(de)(de)(de)(de)市(shi)場(chang)占有率進一(yi)步(bu)提升。我(wo)希望明年能加大在這一(yi)地區(qu)的(de)(de)(de)(de)(de)投入,以便產(chan)生更好的(de)(de)(de)(de)(de)市(shi)場(chang)效果(guo)。
新人乙是這么匯報的:
今年(nian)我(wo)們在華東(dong)市場一共投入了100萬元(yuan)推廣費用。其中,投放廣告50萬,落地活動宣傳(chuan)30萬,促銷樣品20萬。共帶來3萬新增用戶,提升(sheng)市場占有率5個百分點,預計在未(wei)來一年(nian)提升(sheng)這一地區(qu)的銷售(shou)額500萬元(yuan)。
如果你是領導,你會喜歡哪個匯報?
很(hen)顯然,大部分人會選(xuan)擇后者。清晰的數據能(neng)傳達清晰的信息(xi)。那些非常、很(hen)多(duo)、進一(yi)步寫在(zai)公(gong)文(wen)里(li)或許還可以,但是在(zai)市場匯報中,這種(zhong)詞匯簡(jian)直就是一(yi)團漿糊(hu)。領導(dao)(dao)早晨(chen)在(zai)家里(li)已經挨訓了,你就不要給領導(dao)(dao)添(tian)堵啦(la)。
關注公眾號:
華夏經緯數據科技
更多調研資訊>>
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。