
zhongsuozhouzhi,tongjixueshishujufenxidejishi。xueletongjixue,nihuifaxianhenduoshihoudefenxibingbunamezhunque,biruhenduorendouxihuanyongpingjunshuqufenxiyigeshiwu的結果,但是這往往是粗糙的。而統計學可以幫助我們以更科學的角度看待數據,逐步接近這個數據背後的“真相”。 大部分的數據分析,都會用到統計方麵的知識,可以重點學習:
閱讀路線:
概率介紹
離散型概率分布和連續型概率分布
抽樣和抽樣分布
區間估計
假設檢驗
一. 概率介紹
概率是指的對於某一個特定事件的可能性的數值度量,且在0-1之間。我們拋一枚硬幣,它有正麵朝上和反麵朝上兩種結果,通常用樣本空間S表示,S={正麵,反麵},erzhengmianchaoshangzheyitedingdeshiyanjieguojiaoyangbendian。duiyuyangbenkongjianshaodeshiyan,womenjiyiguanchachutamenyangbenkongjiandedaxiao,erduiyujiaofuzadeshiyan,womenjiuxuyaoxuexixiejishufazele。
1. 計數法則
(1)多步驟試驗的計數法則
如果一個試驗可以分為循序的k個步驟,在第1步中有N1種試驗結果,在第2步中有N2種試驗結果...以此類推。那麼所有的試驗結果的總數為N1*N2*N3...*Nk。
舉例:拋兩枚硬幣,第一枚有正反兩種結果,第二枚有正反兩種結果。所以試驗結果的總數是 2X2=4。
(2)組合計數法則
從N項中任取n項的組合數:

N和n的上下位置與我們平常見的是相反的。因為我們這裏是以歐美規範為主。
舉例子:從5個彩色球中,選出2個彩球,有多少種選法?

(3)排列計數法則
從N項中任取n項的排列數

舉例子:從5個彩色球中,選出2個彩球,有多少種排列方法?
代入得出答案是20種。
2. 事件及其概率
(1)事件
qishishijianweiyangbenkongjiandeyigeziji,tongchang,ruguonengquedingyigeshiyandesuoyouyangbendianbingqienenggouzhixiaomeigeyangbendiandegailv,namewomenjiunengqiuchushijiandegailv。

(2)概率的基本性質
事件A的補:指的是所有不包含在事件A中的樣本點所以事件A發生的
概率 P(A)=1-P(A-)。
事件的組合:並和交

兩個圓形區域所在的部分就是事件A和B的並,其中重疊的部分說明有一些樣本點即屬於A又屬於B,它可以稱之為交。
得出加法公式為:
P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是兩個圓形麵積,P(A)是藍色圓麵積,P(B)是橙色圓麵積,當兩者相加時,會多出一塊重疊區域,於是減去P(A∩B)進行修正,得出正確的結果。
如果某個事件A發生的可能性受到另外一個事件B的影響,此時A發生的可能性叫做條件概率,記作P(A|B)。表明我們是在B條件已經發生的條件下考慮A發生的可能性,統計學中稱為給定條件B下事件A的概率。

進而又得出了乘法公式:

(3)貝葉斯定理
簡jian單dan的de來lai講jiang,貝bei葉ye斯si定ding理li其qi實shi就jiu是shi,我wo們men先xian假jia設she一yi個ge事shi件jian發fa生sheng的de概gai率lv,然ran後hou又you找zhao到dao一yi個ge信xin息xi,最zui後hou得de出chu在zai這zhe個ge信xin息xi下xia這zhe一yi事shi件jian發fa生sheng的de概gai率lv。
舉一個我們生活中的例子,當我們和一個被懷疑做壞事的人聊天時,我們首先假設他做壞事的概率為a,然後我們根據和他交談的信息,得出對他新的認識,重新判斷他做壞事的概率b。
貝葉斯就是闡述了這麼一個事實:
新信息出現後B的概率=B的概率 X 新信息帶來的調整

如果當直接計算P(A)較為困難時,而P(Bj),P(A|Bj) (j=1,2,...)的計算較為簡單時,可以利用全概率公式計算P(A)。
思想就是,將事件A分解成幾個小事件,通過求小事件的概率,然後相加從而求得事件A的概率,而將事件A進行分割的時候,不是直接對A進行分割,而是先找到樣本空間Ω的一個個劃分B1,B2,...Bn,這樣事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bj發生都可能導致A發生相應的概率是P(A|Bj),由加法公式得
P(A)=P(AB1)+P(AB2)+....+P(ABn)
=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)
所以調整後的貝葉斯公式為:

二. 離散型概率分布和連續型概率分布
概gai率lv中zhong通tong常chang將jiang試shi驗yan的de結jie果guo稱cheng為wei隨sui機ji變bian量liang。隨sui機ji變bian量liang將jiang每mei一yi個ge可ke能neng出chu現xian的de試shi驗yan結jie果guo賦fu予yu了le一yi個ge數shu值zhi,包bao含han離li散san型xing隨sui機ji變bian量liang和he連lian續xu型xing隨sui機ji變bian量liang。
既ji然ran隨sui機ji變bian量liang可ke以yi取qu不bu同tong的de值zhi,統tong計ji學xue家jia就jiu用yong概gai率lv分fen布bu描miao述shu隨sui機ji變bian量liang取qu不bu同tong值zhi的de概gai率lv。相xiang對dui應ying的de,有you離li散san型xing概gai率lv分fen布bu和he連lian續xu型xing概gai率lv分fen布bu。
1. 數學期望和方差
數學期望是對隨機變量中心位置的一種度量。是試驗中每次可能結果乘以其結果的概率的總和。簡單說,它是概率中的平均值。

方差隨機變量的變異性或者是分散程度的度量。

其中的u就是E(x)。
2. 離散型概率分布
(1)二項概率分布
二項分布是一種離散型的概率分布。故明思義,二項代表它有兩種可能的結果,把一種稱為成功,另外一種稱為失敗。
除了結果的規定,它還需要滿足其他性質:每次試驗成功的概率均是相同的,記錄為p;失敗的概率也相同,為1-p。每次試驗必須相互獨立,該試驗也叫做伯努利試驗,重複n次即二項概率。擲硬幣就是一個典型的二項分布。當我們要計算拋硬幣n次,恰巧有x次正麵朝上的概率,可以使用二項分布的公式:

且二項概率的數學期望為E(x) = np,方差Var(x) = np(1-p)。
(2)泊鬆概率分布
bosonggailvshilingwaiyigechangyongdelisanxingsuijibianliang,tazhuyaoyongyugujimoushijianzaitedingshijianhuokongjianzhongfashengdecishu。biruyitianneizhongjiangdegeshu,yigeyueneimoujiqisunhuaidecishudeng。
泊鬆概率的成立條件是在任意兩個長度相等的區間中,時間發生的概率是相同的,並且事件是否發生都是相互獨立的。
泊鬆概率既然表示事件在一個區間發生的次數,這裏的次數就不會有上限,x取值可以無限大,隻是可能性無限接近0,f(x)的最終值很小。
x代表發生x次,u代表發生次數的數學期望,概率函數為:

其中泊鬆概率分布的數學期望和方差是相等的。
3. 連續型概率分布
上述分布都是離散概率分布,當隨機變量是連續型時,情況就完全不一樣了。因為離散概率的本質是求x取某個特定值的概率,而連續隨機變量不行,它的取值是可以無限分割的,它取某個值時概率近似於0。連續變量是隨機變量在某個區間內取值的概率,此時的概率函數叫做概率密度函數。
(1)均勻概率分布
隨機變量x在任意兩個子區間的概率是相同的。
均勻概率密度函數

數學期望

方差

(2)正態概率分布
正態概率分布是連續型隨機變量中最重要的分布。世界上絕大部分的分布都屬於正態分布,人的身高體重、考試成績、降雨量等都近似服從。
正態分布如同一條鍾形曲線。中間高,兩邊低,左右對稱。想象身高體重、考試成績,是否都呈現這一類分布態勢:大部分數據集中在某處,小部分往兩端傾斜。

正態概率密度函數為:

u代表均值,σdaibiaobiaozhuncha,liangzhebutongdequzhijianghuizaochengbutongxingzhuangdezhengtaifenbu。junzhibiaoshizhengtaifenbudezuoyoupianyi,biaozhunchajuedingquxiandekuanduhepingtan,biaozhunchayuedaquxianyuepingtan。
一個正態分布的經驗法則:
正態隨機變量有69.3%的值在均值加減一個標準差的範圍內,95.4%的值在兩個標準差內,99.7%的值在三個標準差內。

均值u=0,標準差σ=1的正態分布叫做標準正態分布。它的隨機變量用z表示,將均值和標準差代入正態概率密度函數,得到一個簡化的公式:

為了計算概率需要學習一個新的函數叫累計分布函數,它是概率密度函數的積分。用P(X<=x)表示隨機變量小於或者等於某個數值的概率,F(x) = P(X<=x)。

曲線f(x)就是概率密度函數,曲線與X軸相交的陰影麵積就是累計分布函數。
標準正態分布的分布函數:

圖像如下:

計算三種類型的概率(這裏需要說明一點,隻有標準正態分布時,隨機變量才用z表示)。
1. z小於或者等於某個給定值的概率,直接帶入分布函數得出
如:p(z<=1)=φ(1)=0.8413 (1值左邊標準正態曲線下的麵積)。
2. z在給定的兩個值之間的概率
如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735。
3. z大於或者等於某個給定值的概率
如:P(z>1) = 1-P(z<=1) =1-φ(1)= 0.1586。
標準正態分布與一般的正態分布的關係:
任何一個一般的正態分布都可以通過線性變換轉化為標準正態分布。它依據的定理如下:

下麵做一道題目練習吧!
現在有一個u=10和σ=2的正態隨機變量,求x在10與14之間的概率是多少?
當x=10時,z=(10-10)/2=2。當x=14時,z=(14-10)/2=2。於是x在10和14之間的概率等價於標準正態分布中0和2之間的概率。計算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。
(3)指數概率分布
指數概率密度函數

其中,x>=0,u為均值,e=2.71828;
計算概率
指數隨機變量取小於或者等於某一特定值X0的概率

且指數概率分布的期望=標準差。
(4)指數分布vs泊鬆分布
泊鬆分布:1.是離散型概率分布 2.描述每一區間中事件發生的次數。
指數分布:1.是連續型概率分布 2.描述事件發生的時間間隔的長度。
為了說明問題,簡單舉兩個小例子:
①20分鍾內購買肯德基早餐的人數的均值是10人,那麼如果求每20分鍾有x人購買的概率,就應該用泊鬆概率函數:

②20分鍾內購買肯德基早餐的人數的均值是10人,那麼如果求每20分鍾這一區間內,兩位顧客購買的時間間隔為小於x0的概率,就應該用指數概率函數。
購買的間隔均值為u=10/20=0.5
把u帶入下麵的公式

三. 抽樣和抽樣分布
首先不管是從有限總體中抽樣還是從無限總體中抽樣都應該滿足抽樣的隨機性。
1. 抽樣
我們抽樣得出樣本統計量就是為了估計總體的參數。
樣本均值(x拔)是總體均值的u的點估計:

樣本標準差s是總體的標準差σ的點估計:

樣本比率(p拔)是總體比率的p的點估計:

2. 抽樣分布
其實當我們抽樣的時候,我們抽取的每個樣本的均值、方差、比率,可能都是不同的,如果我們把抽取一個簡單的隨機樣本看作一次試驗,那麼(x拔)就有期望、方差、標準差和概率分布了((x拔)的概率分布也就是(x拔)的抽樣分布)。
(1)樣本均值的抽樣分布
(x拔)的抽樣:樣本均值(x拔)的所有可能值的概率分布。
(x拔)的數學期望:

其中u是總體的期望。
(x拔)的標準差
當樣本容量占總體5%以上時,有求樣本標準差公式如下:

當樣本容量占總體5%以下時,公式可以簡化成:

其中n是樣本容量,N是總體容量,σ是總體標準差,σ(x拔)是樣本標準差。
重點來了:
①如果總體服從正態分布時:任何樣本容量下的(x拔)的抽樣分布都是正態分布。
②總體不服從正態分布時:
a.中心極限定理:從總體中抽取容量為n的簡單隨機樣本,當樣本的容量額很大時,樣本均值(x拔)的抽樣分布近似服從正態概率分布。
b.其實在大多數的應用中,樣本容量大於30時,(x拔)的抽樣分布近似服 從正態概率分布。
(2)樣本比率的抽樣分布
(p拔)的抽樣:樣本比率(p拔)的所有可能值的概率分布。

其中:x=具有感興趣特征的個體的個數,n=樣本容量。
(p拔)的數學期望:

其中,p=總體比率。
(p拔)的標準差:
當樣本容量占總體5%以上時,有求樣本標準差公式如下:

當樣本容量占總體5%以下時,公式可以簡化成:

其中n是樣本容量,N是總體容量,p是總體比率,σ(p拔)是樣本標準差。
(p拔)的抽樣分布形態:

在上麵的公式之中,x是一個服從二項分布的隨機變量,n為常數,所以(p拔)也是離散型的概率分布。其實,如果樣本容量足夠大,並且np>=5和n(1-p)>=5,二項分布可用正態分布近似,(p拔)的抽樣分布可用正態分布來近似。
四. 區間估計
點(dian)估(gu)計(ji)是(shi)用(yong)於(yu)估(gu)計(ji)總(zong)體(ti)參(can)數(shu)的(de)樣(yang)本(ben)統(tong)計(ji)量(liang),但(dan)是(shi)我(wo)們(men)不(bu)可(ke)能(neng)通(tong)過(guo)點(dian)估(gu)計(ji)就(jiu)給(gei)出(chu)總(zong)體(ti)參(can)數(shu)的(de)一(yi)個(ge)精(jing)確(que)值(zhi),更(geng)穩(wen)妥(tuo)的(de)方(fang)法(fa)是(shi)加(jia)減(jian)一(yi)個(ge)邊(bian)際(ji)誤(wu)差(cha),通(tong)過(guo)一(yi)個(ge)區(qu)間(jian)值(zhi)來(lai)估(gu)計(ji)(區間估計)。
1. 總體均值的區間的估計
(1)總體均值的區間的估計:σ已知情形。
對總體均值進行估計時:
①要利用總體標準差σ計算邊際誤差。
②抽樣前可通過大量曆史數據估計總體標準差。
下麵做一道例題感受下吧:
這是一道有關顧客購物消費額的問題,根據曆史數據,σ=20美元,並且總體服正態分布。現在抽取n=100名顧客的簡單隨機樣本,其樣本均值(x拔)=82美元。求總體均值的區間估計。
開始解答了:
①總體服從正態分布,所以樣本均值的抽樣分布也是正態分布。
②根據σ=20美元,得出:

③所以x拔的抽樣分布服從標準差為σ(x拔)=2的正態分布。
④任何正態分布的隨機變量都有95%的值在均值附近加減1.96個標準差以內(通過查表可得)。
⑤σ(x拔)=2,(x拔)所有值的95%都落在【u加減1.96σ(x拔)也即是u加減3.92】。
也即是:

(x拔)=82美元


所以u的區間估計是(78.08,85.92)。
其中這個區間是在95%置信水平下建立的,置信係數為0.05。區間(78.08,85.92)為95%的置信區間。
根據公式來計算區間,邊際誤差、區間估計如下圖所示:

所以:

在90%,95%,99%的置信水平情況下:

所以90%,99%的置信水平下的置信區間為:

其實我們也能得出這樣的結論:想要達到的置信水平越高,邊際誤差就要越大,置信區間也是越寬。
(2)總體均值的區間估計:σ未知情形。
①當σ未知時,我們需要利用同一個樣本估計u和σ兩個參數。
②用s估計σ時,邊際誤差和總體均值的區間估計依據t分布。
並且總體是不是正態分布用t分布來估計效果都是挺好的。
t分布
有一類相似的概率分布組成的分布族;某個特定的t分布依賴於自由度的參數;自由度越大,t分布與標準正態分布的差別越小;t分布的均值為0。
其中與z分布有類似的情況的是:

例如:

利用的計算公式如下:
邊際誤差:

區間估計:

樣本標準差:

自由度:n-1。
注:

(3)樣本容量的確定
我們可以選擇足夠的樣本容量以達到所希望的邊際誤差。
由於邊際誤差公式為:


所以總體均值區間估計中的樣本容量為:

注:

如果σ未知,可通過以下方法確定σ的初始值。
①根據以前研究中的數據計算總體標準差的估計值。
②利用實驗性研究,選取一個初始樣本,以初始樣本的標準差做估計值。
③對σ進行判斷或最優猜測:計算極差/4為標準差的粗略估計。
2. 總體比率p的區間估計
由於和總體均值的區間估計類似,這裏就不詳細說明了,直接上公式:
邊際誤差:

區間估計:

(1)樣本容量的確定
我們可以選擇足夠的樣本容量以達到所希望的邊際誤差。
邊際誤差:

所以樣本容量為:

由於抽樣前(p拔)是未知的,不能用於計算達到預期的邊際誤差所要的樣本容量,因此令(p星)表示(p拔)的計劃值:

p星的確定
①用以前研究中類似的樣本的樣本比率作為計劃值。
②利用實驗性的研究,選取一個初始樣本,以初始樣本的樣本比例作為計劃值。
③使用判斷或最優猜測作為計劃值。
④如果上述均不可,計劃值取為0.5,這是因為p(星)=0.5時,p星*(1-p星)取得最大值,同時樣本容量也能取的最大值。
5
五. 假設檢驗
何為假設檢驗?假設檢驗是對總體參數做一個嚐試性的假設,該嚐試性的假設稱為原假設,然後定義一個和原假設完全對立的假設叫做備選假設。其中備選假設是我們希望成立的論斷,原假設是我們不希望成立的論斷。
假設檢驗涉及討論的內容有:
①總體均值的檢驗:σ已知和σ未知情形。
②總體比率的假設檢驗:σ已知和σ未知道。
但是下麵主要討論在σ已知情形下,總體均值的檢驗,其他的根據區間估計中的證明和下麵的例題都能很方便的理解出來。
總體均值的檢驗:
σ已知情形
準備一道例題,通過例子說明思路。
質檢機構檢查某品牌咖啡的標簽上顯示裝有3磅咖啡,現在質檢機構需要確定每罐咖啡的質量至少有三磅,以保證消費者權益。已知道σ=0.18,現在取得n=36罐咖啡組成一個隨機樣本,計算出(x拔)=2.92。
開始解答了:
①首先我們明白想要的結果是證明u<3,所以就提出了原假設和備選假設如下:h0:u>=3;Ha:u<3。
②其中我們在檢驗的過程允許以1%的可能性犯錯誤也即是 α=0.01。
③由於樣本n=36,σ=0.18,所本均值的抽樣分布是服從正態概率分布。

④所以當(x拔)=2.92時,z=-2.67。
⑤因為原假設u是大於等於3的,所以我們就觀察z小於或等於-2.69的值,讓p值等於檢驗統計值z小於或等於-2.69的概率;利用標準正態概率表,z=-2.69時,p值=0.0038。
其中我們可以這樣理解z小於或者等於-2.69的概率p=0.0038這一事件的發生概率是非常的小,又加上允許犯錯的概率是0.01(也即是發生的概率是0.01結果是非常小的,我直接忽略了)。
所以我們直接認為z小於或者等於-2.69這一事件太小以至於我們認為他是不發生的。所以我們拒絕了H0:u>=3這一假設。所以,在0.01的顯著水平下有足夠的統計證據拒絕H0。
手機版








