來源:網(wǎng)絡(luò)資源 2023-04-09 20:00:31
如果你也想進(jìn)入數(shù)據(jù)分析的領(lǐng)域,那么統(tǒng)計(jì)學(xué)知識(shí)和概率論知識(shí)是必不可少的理論,雖然短時(shí)間你會(huì)覺得這個(gè)對(duì)碼代碼來說沒有什么用處,但是這個(gè)基礎(chǔ)還是要打好的,磨刀不誤砍柴工。
一、描述性統(tǒng)計(jì)
我想起了大學(xué)時(shí)候讀過,后期接觸專業(yè)課的時(shí)候反而不熟了。小學(xué)的時(shí)候都接觸過的平均數(shù),標(biāo)準(zhǔn)差等等,我們真的有細(xì)細(xì)品味過其內(nèi)涵嗎?
1.平均數(shù)
這個(gè)概念很簡(jiǎn)單,一組數(shù)據(jù)的平均水平,但是平均數(shù)發(fā)現(xiàn)不了這組數(shù)據(jù)中“鶴立雞群”的數(shù)字。一個(gè)100分的學(xué)霸和4個(gè)70分的普通人平均一下,5個(gè)人的平均水平是76分,這無疑是對(duì)學(xué)霸的“褻瀆”,也沒有辦法發(fā)現(xiàn)這個(gè)“骨骼驚奇”的人類了。
2.中位數(shù)、眾數(shù)、四分位數(shù)、箱線圖、直方圖
中位數(shù)可以發(fā)現(xiàn)這組數(shù)據(jù)的中間水平,眾數(shù)即為大眾水平,四分位數(shù)得到的箱線圖和中位數(shù)結(jié)合來看,可以得到大部分人的水平,以及優(yōu)劣的集中程度。
如上圖,數(shù)學(xué)箱線圖里我們可以看出這個(gè)班級(jí)數(shù)學(xué)最高分有100,最低分63左右,歷史最高分不到100,最低分低于數(shù)學(xué)。但是我們能說歷史的成績(jī)要不如數(shù)學(xué)嗎?數(shù)學(xué)的箱體偏下,中位數(shù)居中,說明數(shù)學(xué)雖然有100的學(xué)霸,但優(yōu)秀者鳳毛麟角,一半人還是處于80到60 之間。而歷史成績(jī),則在98到62范圍內(nèi)更均勻,而且中位數(shù)88左右在箱體偏上部分,說明有一半人在88以上,88到90的人有四分之一。同理對(duì)于地理來說雖然中間部分集中情況優(yōu)于數(shù)學(xué),但是四分之一的人集中在76到80,明顯不見得比歷史好。
箱線圖相當(dāng)于是中位數(shù)、眾數(shù)、四分位數(shù)在圖像上更為直觀的反映,因?yàn)槲覀兇竽X對(duì)于圖像理解更為快速。箱線圖可以讓那些“鳳毛麟角”凸顯出來,相比于平均數(shù)更能凸顯異常者。
(這里想請(qǐng)教一下MAC版EXCEL2016怎么畫箱線圖,怎么用股價(jià)圖來畫)
直方圖也是差不多的用途,直方圖在數(shù)據(jù)上更為精確,能夠通過頻率和范圍直接計(jì)算出頻數(shù),而箱線圖則表示不出來,而且直方圖能更直觀的感受數(shù)據(jù)的分布情況。但是直方圖在多組數(shù)據(jù)同時(shí)表示時(shí)則相對(duì)來說比較復(fù)雜,一組數(shù)據(jù)需要一個(gè)直方圖,箱線圖則不會(huì)占據(jù)較大的篇幅。
3.標(biāo)準(zhǔn)差、夏普比率
標(biāo)準(zhǔn)差,大家都能理解就是穩(wěn)定程度。作為一個(gè)金融渣,時(shí)隔幾年終于深層次理解了曾經(jīng)投資課聽不懂的夏普比率,這說明我確實(shí)沒有自己想象的那么學(xué)霸。
如果我們不是靠背誦知道的標(biāo)準(zhǔn)差代表穩(wěn)定程度,僅僅從公式理解上,即為這一組數(shù)據(jù)里每一個(gè)數(shù)字與平均值的差距。那么在投資上代表風(fēng)險(xiǎn),即為某一種投資,相對(duì)于平均值我可能賠也可能賺。那么再來理解夏普比率,某一種投資組合的投資回報(bào)減去無風(fēng)險(xiǎn)回報(bào)后的溢價(jià)與標(biāo)準(zhǔn)差的比值。假如夏普比率為0.5,意思是我在賺0.5份溢價(jià)的時(shí)候可能承擔(dān)的風(fēng)險(xiǎn)是賺1份或者賠1份的風(fēng)險(xiǎn)。(鄙人粗見,歡迎指正)
4.標(biāo)準(zhǔn)分
表示離平均值的差距是標(biāo)準(zhǔn)差的幾倍。我是這么理解的:全體考生的標(biāo)準(zhǔn)差相當(dāng)于全體考生的集散程度,而個(gè)體的標(biāo)準(zhǔn)分相當(dāng)于這個(gè)個(gè)體偏離“組織”的程度。如果整體的標(biāo)準(zhǔn)差很大,我即使偏離平均很多,我也不見得離組織很遠(yuǎn),因?yàn)榇蠹叶茧x得遠(yuǎn)。但是如果整體標(biāo)準(zhǔn)差不大,我如果稍微比平均值差一些很可能就偏離組織了。標(biāo)準(zhǔn)分的正負(fù)說明我是在平均以上還是以下,標(biāo)準(zhǔn)分的絕對(duì)值說明我離“組織”的距離相對(duì)于整個(gè)組織的離散程度是更離散還是還好。
標(biāo)準(zhǔn)分和標(biāo)準(zhǔn)差的區(qū)別在于標(biāo)準(zhǔn)差是整體的離散程度,而標(biāo)準(zhǔn)分是針對(duì)個(gè)體的離散程度和整體離散程度的相對(duì)效果。
二、概率
1.乘法公式
第一個(gè)是乘法公式,第二個(gè)是條件概率公式。
當(dāng)且僅當(dāng)兩個(gè)隨機(jī)事件A與B滿足P(A∩B)=P(A)P(B)。
2.全概率公式
3.貝葉斯公式
貝葉斯公式的理解:假設(shè)i=2,我們知道有兩種方法以及選擇每種方法的概率,同時(shí)我們知道每種方法都會(huì)導(dǎo)致結(jié)果B且只有這兩種方法會(huì)導(dǎo)致結(jié)果B,我們又知道兩種方法分別導(dǎo)致結(jié)果B的概率,F(xiàn)在結(jié)果B出現(xiàn)了,我們?cè)趺创_定某一種方法導(dǎo)致結(jié)果B的概率。這里先驗(yàn)概率就是已知條件,后驗(yàn)概率就是結(jié)果出現(xiàn)后我們想知道這個(gè)結(jié)果由某一種方法導(dǎo)致的概率。
4.大樹定律
當(dāng)統(tǒng)計(jì)數(shù)量足夠大,那么事物出現(xiàn)的頻率就能無限接近他的期望。如果數(shù)量很小,那么事物出現(xiàn)與其期望值一點(diǎn)關(guān)系都沒有。
三、決策樹分析目前個(gè)人工作情況
鑒于本人對(duì)于目前工作情況并不滿意,原因主要是三個(gè):一、我需要一個(gè)有雙休的工作,工作時(shí)間不規(guī)律讓我很不適應(yīng),身體素質(zhì)也因?yàn)槊β档娜齻(gè)月下降了不少。二、我性格不適合營(yíng)銷,我喜歡不停的鉆研,自己思考,作出成果。三、目前公司的文化不認(rèn)同。所以我沒有什么是否需要轉(zhuǎn)行的考慮。只有是否能轉(zhuǎn)行成功的考慮,我很怕因?yàn)槟挲g和經(jīng)驗(yàn)的問題而不被認(rèn)可。但是基于我對(duì)公司的認(rèn)同度的極速下滑,我還是有必要轉(zhuǎn)行。但是目前困難已經(jīng)出現(xiàn)了,我搜索引擎使用的不是很好,特別是爬蟲翻墻挖掘數(shù)據(jù)有一定的困難。另外MAC版的軟件用起來和window還是差別很大,不是很方便。
編輯推薦:
歡迎使用手機(jī)、平板等移動(dòng)設(shè)備訪問中考網(wǎng),2024中考一路陪伴同行!>>點(diǎn)擊查看