要研究天鵝的顏色,我們不可能去觀察每一隻天鵝(總體),我們隻能投機取巧,通過觀察其中的一部分(樣本)來推斷。這就帶來一個巨大的風險,可能我們看到100000隻天鵝都是白色的,但你怎麼知道剩下的更多的天鵝中就沒有黑色的?
因此,選擇誰來觀察,就成了一個技術活,這就是我們今天的主角——抽樣(sampling)。
通常我們以為:樣本越大就越好,大樣本等於好樣本;其實不然,樣本最重要的是:
代表性!(一遍)
代表性!(兩遍)
代表性!(三遍)
舉個栗子:我想研究一下某所大學最受歡迎的電影,我有時間、有精力、有資金,我調查10000名同學,調查結論是《泰坦尼克》;而我的同事隻調查了10名同學,他的結論卻是《泰坦尼克》和《碟中諜》兩個。我因為按照宿舍樓抽樣,所以調查的恰好都是女生;我的同事則是在男女生中各調查了5個人。
誰更可信?
看來樣本容量固然重要(how many),但更重要的還是抽樣方案(how)。一般來說,方案分為概率抽樣(隨機抽樣)和非概率抽樣兩大類。兩者的根本區別就是前者完全是經“上帝的手”在選擇,比較公平、公正、公開;後者還有“凡人的手”在幫忙,當然有時是幫倒忙。
因為概率抽樣中的每個個體都有一個確定的可能性(概率)被抽中,所以概率和統計技術就有了用武之地,我們可以計算出抽樣帶來的誤差,對總體給出相當準確的推斷。
01 非概率抽樣(Non-probability sampling)
又稱非隨機抽樣,指根據一定主觀標準抽取樣本,令總體中每個個體的被抽取不是依據其本身的機會,而是完全決定於調研者的意願。
其特點為不具有從樣本推斷總體的功能,但能反映某類群體的特征,是一種快速、簡易且節省的數據收集方法。當研究者對總體具有較好的了解時可以采用此方法,或是總體過於龐大、複雜,采用概率方法有困難時,可以采用非概率抽樣來避免概率抽樣中容易抽到實際無法實施或“差”的樣本,從而避免影響對總體的代表度。
常用的非概率抽樣方法有以下四類:
▷ 方便抽樣(Convenience sampling)
指根據調查者的方便選取的樣本,以無目標、隨意的方式進行。例如:街頭攔截訪問(看到誰就訪問誰);個別入戶項目誰開門就訪問誰。
優點:適用於總體中每個個體都是“同質”的,最方便、最省錢;可以在探索性研究中使用,另外還可用於小組座談會、預測問卷等方麵的樣本選取工作。
缺點:抽樣偏差較大,不適用於要做總體推斷的任何民意項目,對描述性或因果性研究最好不要采用方便抽樣。
▷ 判斷抽樣(Judgment sampling)
指由專家判斷而有目的地抽取他認為“有代表性的樣本”。例如:社會學家研究某國家的一般家庭情況時,常以專家判斷方法挑選“中型城鎮”進行;也有家庭研究專家選取某類家庭進行研究,如選三口之家(子女正在上學的);在探索性研究中,如抽取深度訪問的樣本時,可以使用這種方法。
優點:適用於總體的構成單位極不相同而樣本數很小,同時設計調查者對總體的有關特征具有相當的了解(明白研究的具體指向)的情況下,適合特殊類型的研究(如產品口味測試等);操作成本低,方便快捷,在商業性調研中較多用。
缺點:該類抽樣結果受研究人員的傾向性影響大,一旦主觀判斷偏差,則根易引起抽樣偏差;不能直接對研究總體進行推斷。
▷ 配額抽樣(Quota sampling)
指先將總體元素按某些控製的指標或特性分類,然後按方便抽樣或判斷抽樣選取樣本元素。
相當於包括兩個階段的加限製的判斷抽樣。在第一階段需要確定總體中的特性分布(控製特征),通(tong)常(chang),樣(yang)本(ben)中(zhong)具(ju)備(bei)這(zhe)些(xie)控(kong)製(zhi)特(te)征(zheng)的(de)元(yuan)素(su)的(de)比(bi)例(li)與(yu)總(zong)體(ti)中(zhong)有(you)這(zhe)些(xie)特(te)征(zheng)的(de)元(yuan)素(su)的(de)比(bi)例(li)是(shi)相(xiang)同(tong)的(de),通(tong)過(guo)第(di)一(yi)步(bu)的(de)配(pei)額(e),保(bao)證(zheng)了(le)在(zai)這(zhe)些(xie)特(te)征(zheng)上(shang)樣(yang)本(ben)的(de)組(zu)成(cheng)與(yu)總(zong)體(ti)的(de)組(zu)成(cheng)是(shi)一(yi)致(zhi)的(de)。在(zai)第(di)二(er)階(jie)段(duan),按(an)照(zhao)配(pei)額(e)來(lai)控(kong)製(zhi)樣(yang)本(ben)的(de)抽(chou)取(qu)工(gong)作(zuo),要(yao)求(qiu)所(suo)選(xuan)出(chu)的(de)元(yuan)素(su)要(yao)適(shi)合(he)所(suo)控(kong)製(zhi)的(de)特(te)性(xing)。例(li)如(ru):定點街訪中的配額抽樣。
優點:適用於設計調查者對總體的有關特征具有一定的了解而樣本數較多的情況下,實際上,配額抽樣屬於先“分層”(事先確定每層的樣本量)再“判斷”(在每層中以判斷抽樣的方法選取抽樣個體);費用不高,易於實施,能滿足總體比例的要求。
缺點:容易掩蓋不可忽略的偏差。
▷ 滾雪球抽樣(Snowball sampling)
指(zhi)先(xian)隨(sui)機(ji)選(xuan)擇(ze)一(yi)些(xie)被(bei)訪(fang)者(zhe)並(bing)對(dui)其(qi)實(shi)施(shi)訪(fang)問(wen),再(zai)請(qing)他(ta)們(men)提(ti)供(gong)另(ling)外(wai)一(yi)些(xie)屬(shu)於(yu)所(suo)研(yan)究(jiu)目(mu)標(biao)總(zong)體(ti)的(de)調(tiao)查(zha)對(dui)象(xiang),根(gen)據(ju)所(suo)形(xing)成(cheng)的(de)線(xian)索(suo)選(xuan)擇(ze)此(ci)後(hou)的(de)調(tiao)查(zha)對(dui)象(xiang)。
第一批被訪者是采用概率抽樣得來的,之後的被訪者都屬於非概率抽樣,此類被訪者彼此之間較為相似。例如:如在目前中國的小轎車車主等。
優點:可以根據某些樣本特征對樣本進行控製,適用尋找一些在總體中十分稀少的人物。
缺點:有選擇偏差,不能保證代表性。
02 概率抽樣(Probability sampling)
又稱隨機抽樣,指在總體中排除人的主觀因素,給予每一個體一定的抽取機會的抽樣。
其特點為,抽取樣本具有一定的代表性,可以從調查結果推斷總體;操作比較複雜,需要更多的時間,而且往往需要更多的費用。
常用的有以下六種類型:
▷ 簡單抽樣(Simple sampling)
簡單隨機抽樣(simple random sampling)又稱純隨機抽樣,是概率抽樣的最基本形式。它是按等概率原則直接從含有N個元素的總體中隨機抽取n個元素組成樣本(N>n)。
常用的辦法類似於抽簽,即把總體的每一個單位都編號,將這些號碼寫在一張張小紙條上,然後放入一容器(如紙盒、口袋)中,攪拌均勻後,從中任意抽取,直到抽夠預定的樣本數目。這樣,由抽中的號碼所代表的元素組成的就是一個簡單隨機樣本。
比如,某係共有學生300人,係學生會打算采用簡單隨機抽樣的辦法,從中抽取出60人進行調查。為了保證抽樣的科學性,他們先從係辦公室得到一份全係學生的名單,然後給名單中的每個學生都編上一個號(從001到300)。抽樣框編好後,他們又用300張小紙條分別寫上001,002,…,300。他們把這300張寫好不同號碼的小紙條放在一個盒子裏,攪亂後,隨便摸出60張小紙條。然後,他們按這60張小紙條上的號碼找到總體名單上所對應的60位同學。這60weitongxuejiugouchengletamenbencideyangben。zhezhongfangfajianbianyixue。dandangzongtiyuansuhenduoshi,xiehaomadegongzuoliangjiuhenda,jiaobanjunyunyeburongyi,yinercifawangwangzaizongtiyuansujiaoshaoshishiyong。
duiyuzongtiyuansuhenduodeqingxing,womenzecaiyongsuijishubiaolaichouyang。benshuhoujiufuyouyizhangsuijishubiao,biaozhongdeshumahepailiedoushisuijixingchengde,meiyourenheguilvxing(故也稱為亂數表)。利用隨機數表進行抽樣的具體步驟是:
-
先取得一份總體所有元素的名單(即抽樣框);
-
將總體中所有元素一一按順序編號;
-
根據總體規模是幾位數來確定從隨機數表中選幾位數碼;
-
以總體的規模為標準,對隨機數表中的數碼逐一進行衡量並決定取舍;
-
根據樣本規模的要求選擇出足夠的數碼個數;
-
依據從隨機數表中選出的數碼,到抽樣框中去找出它所對應的元素。
▷ 係統抽樣(Systematic random sampling)
jiangzongtizhongdegedanyuanxiananyidingshunxupailie,bingbianhao,ranhouanzhaobuyidingdeguizechouyang。qizhongzuichangcaiyongdeshidengjulichouyang,jigenjuzongtidanweishuheyangbendanweijisuanchuchouyangjuli(即相同的間隔),然後按相同的距離或間隔抽選樣本單位。例如:從1000個電話號碼中抽取10個訪問號碼,間距為100,確定起點(起點<間距)後每100號碼抽一訪問號碼。
係統抽樣的具體步驟是:
-
給總體中的每一個個體按順序編號,即製定出抽樣框。
-
計算出抽樣間距。計算方法是用總體的規模除以樣本的規模。假設總體規模為N,樣本規模為n,那麼抽樣間距K就由下列公式求得:
-
K(抽樣間距)=N(總體規模)n(樣本規模)
-
在最前麵的K個個體中,采用簡單隨機抽樣的方法抽取一個個體,記下這個個體的編號(假設所抽取的這個個體的編號為A),它稱做隨機的起點。
-
在抽樣框中,自A開始,每隔K個個體抽取一個個體,即所抽取個體的編號分別為A,A+K,A+2K,…,A+(n-1)K。
-
將這n個個體合起來,就構成了該總體的一個樣本。
優點:jianjucaozuodejianbianxinghetongjituiduangongneng,shimuqianzuiweiguangfanyunyongdeyizhongchouyangfangfa。ruguoqidianshisuijiquedingde,zongtizhongdanyuanpailieshisuijide,dengjuchouyangdexiaoguojinsijiandanchouyang;與簡單抽樣相比,在一定條件下,樣本的分布較好。
缺點:抽樣間隔可能遇到總體中某種未知的周期性,導致“差”的樣本;未使用可能有用的抽樣框輔助信息抽取樣本,可能導致統計效率低。
▷ 分層抽樣(Stratified random sampling)
是把調查總體分為同質的、互不交叉的層(或類型),然後在各層(或類型)中獨立抽取樣本。例如:調查零售店時,按照其規模大小或庫存額大小分層,然後在每層中按簡單隨機方法抽取大型零售店若幹、中型若幹、小型若幹;調查城市時,按城市總人口或工業生產額分出超大型城市、中型城市、小型城市等,再抽出具體的各類型城市若幹。
優點:shiyongyucengjianyoujiaodadeyizhixing,ermeicengneidegetijuyoutongzhixingdezongti,nengtigaozongtigujidejingquedu,zaiyangbenliangxiangtongdeqingkuangxia,qijingdugaoyujiandanchouyanghexitongchouyang;能保證“層”的代表性,避免抽到“差”的樣本;同時,不同層可以依據情況采用不同的抽樣框和抽樣方法。
缺點:要求有高質量的、能用於分層的輔助信息;由於需要輔助信息,抽樣框的創建需要更多的費用,更為複雜;抽樣誤差估計比簡單抽樣和係統抽樣更複雜。
在實際運用分層抽樣的方法時,研究者需要考慮下列兩個方麵的問題
(1)分(fen)層(ceng)的(de)標(biao)準(zhun)問(wen)題(ti)。同(tong)一(yi)個(ge)總(zong)體(ti)可(ke)以(yi)按(an)照(zhao)不(bu)同(tong)的(de)標(biao)準(zhun)進(jin)行(xing)分(fen)層(ceng),或(huo)者(zhe)說(shuo),根(gen)據(ju)不(bu)同(tong)的(de)標(biao)準(zhun)可(ke)以(yi)將(jiang)一(yi)個(ge)總(zong)體(ti)分(fen)成(cheng)不(bu)同(tong)的(de)類(lei)別(bie)或(huo)層(ceng)次(ci)。那(na)麼(me),在(zai)實(shi)際(ji)抽(chou)樣(yang)中(zhong)究(jiu)竟(jing)應(ying)該(gai)按(an)什(shen)麼(me)標(biao)準(zhun)來(lai)分(fen)層(ceng)呢(ne)?通(tong)常(chang)采(cai)用(yong)的(de)原(yuan)則(ze)有(you):
第(di)一(yi),以(yi)所(suo)要(yao)分(fen)析(xi)和(he)研(yan)究(jiu)的(de)主(zhu)要(yao)變(bian)量(liang)或(huo)相(xiang)關(guan)的(de)變(bian)量(liang)作(zuo)為(wei)分(fen)層(ceng)的(de)標(biao)準(zhun)。比(bi)如(ru),若(ruo)要(yao)研(yan)究(jiu)居(ju)民(min)的(de)消(xiao)費(fei)狀(zhuang)況(kuang)和(he)消(xiao)費(fei)趨(qu)向(xiang),可(ke)以(yi)以(yi)居(ju)民(min)家(jia)庭(ting)人(ren)均(jun)收(shou)入(ru)作(zuo)為(wei)分(fen)層(ceng)標(biao)準(zhun);又如,要了解社會研究中不同職業的人員對社會經濟改革的看法,就可以以人們的職業作為分層的標準。
第二,以保證各層內部同質性強、各層之間異質性強、突出總體內在結構的變量作為分層變量。比如在工廠進行,可以以工作性質作為分層標準,將全廠職工分為幹部、工人、技術人員、勤雜人員等幾類來進行抽樣。
第三,以那些已有明顯層次區分的變量作為分層變量。比如在社會研究中,性別、年齡(當然是分段以後,如老、中、青)、文化程度、職業等等,就經常被用作分層的標準;其他如學生按年級、專業、學校類型分層,城市按人口規模分層等等。
(2)分(fen)層(ceng)的(de)比(bi)例(li)問(wen)題(ti)。分(fen)層(ceng)抽(chou)樣(yang)中(zhong)有(you)按(an)比(bi)例(li)和(he)不(bu)按(an)比(bi)例(li)分(fen)層(ceng)兩(liang)種(zhong)方(fang)法(fa)。按(an)比(bi)例(li)分(fen)層(ceng)抽(chou)樣(yang)是(shi)指(zhi)按(an)總(zong)體(ti)中(zhong)各(ge)種(zhong)類(lei)型(xing)或(huo)層(ceng)次(ci)的(de)比(bi)例(li)來(lai)抽(chou)取(qu)子(zi)樣(yang)本(ben)的(de)方(fang)法(fa)。即(ji)在(zai)單(dan)位(wei)多(duo)的(de)類(lei)型(xing)或(huo)層(ceng)次(ci)中(zhong)所(suo)抽(chou)的(de)子(zi)樣(yang)本(ben)就(jiu)大(da)一(yi)些(xie),在(zai)單(dan)位(wei)少(shao)的(de)類(lei)型(xing)或(huo)層(ceng)次(ci)中(zhong)所(suo)抽(chou)的(de)子(zi)樣(yang)本(ben)就(jiu)小(xiao)一(yi)些(xie)。比(bi)如(ru),某(mou)廠(chang)有(you)工(gong)人(ren)600人,按性別分層則有男工500人,女工100人。總體中兩類工人人數的比例為5∶1。因此,若要抽60人作樣本,那麼,按比例的抽法就是根據上述比例,分別從500名男工中隨機抽取50人,而從100名女工中隨機抽取10人。這樣,樣本中男女工人之比與總體中男女工人之比完全相同,均為5∶1。可以說,樣本的性別結構是總體中性別結構的一種縮影。
采cai取qu按an比bi例li分fen層ceng抽chou樣yang的de方fang法fa,可ke以yi確que保bao得de到dao一yi個ge在zai某mou種zhong特te征zheng上shang與yu總zong體ti結jie構gou完wan全quan一yi樣yang的de樣yang本ben。但dan是shi,在zai有you些xie情qing況kuang下xia,又you不bu宜yi采cai用yong這zhe種zhong方fang法fa。例li如ru,有you時shi總zong體ti中zhong有you的de類lei型xing或huo層ceng次ci的de單dan位wei數shu目mu太tai少shao,若ruo以yi按an比bi例li分fen層ceng的de方fang法fa抽chou樣yang,則ze有you的de層ceng次ci在zai樣yang本ben中zhong個ge案an太tai少shao,不bu便bian於yu了le解jie各ge個ge層ceng次ci的de情qing況kuang,這zhe時shi往wang往wang要yao采cai取qu不bu按an比bi例li抽chou樣yang的de方fang法fa。比bi如ru上shang例li中zhong,樣yang本ben中zhong女nv工gong人ren數shu過guo少shao,此ci時shi我wo們men可ke以yi采cai取qu不bu按an比bi例li抽chou樣yang的de方fang法fa,在zai500名男工中抽30人,在100名女工中也抽30人。這樣,樣本就能較好地反映出男女兩類工人的一般狀況,我們也能很好地對男女兩類工人的情況進行比較和分析。
xuyaodanzhuyideshi,womencaiyongbuanbilifencengchouyangdefangfa,zhuyaoshibianyuduibutongcengcidezizongtijinxingzhuanmenyanjiuhuojinxingxianghubijiao,danruoyaoyongyangbenziliaotuiduanzongtishi,zexuyaoxianduigecengdeshujuziliaojinxingjiaquanchuli,jitongguotiaozhengyangbenzhonggecengdebili,shishujuziliaohuifudaozongtizhonggecengshijidebilijiegou。birushanglizhong,ruoyaoyong30個男工、30個女工的收入資料去推斷全廠工人的平均收入時,就需要在男工的收入後乘以5/3,而在女工的收入後乘以1/3,再加總平均,否則就會導致推斷的偏誤。
▷ 整群抽樣(Cluster sampling)
是先將調查總體分為群,然後從中抽取群,對被抽中群的全部單元進行調查。例如:入戶調查,按地塊或居委會抽樣,以地塊或居委會等有地域邊界的群體為第一抽樣單位,在選出的地塊或居委會實施逐戶抽樣;市場調查中,最後一級抽樣時,從居委會中抽取若幹戶,然後調查抽中戶家中所有18歲以上成年人。
優點:適用於群間差異小、群內各個體差異大、可以依據外觀的或地域的差異來劃分的群體。
缺點:群內單位有趨同性,其精度比簡單抽樣為低。
▷ 多級抽樣(Multistage sampling)
yejiaoduojieduanchouyanghuojieduanchouyang,yierjichouyangweili,erjichouyangjiushixianjiangzongfenzu,ranhouzaidiyijihedierzhongfenbiesuijidichouqubufenyijidanweihebufenerjidanwei。liru:以全國性調查為例,當抽樣單元為各級行政單位時,按社會發展水平分層後(或按經濟發展水平,或按地理位置分層),從每層中先抽幾個地區,再從抽中的地區抽市、縣、村,最後再抽至戶或個人。
優點:具體整體抽樣的簡單易行的優點,同時,在樣本量相同的情況下又整群抽樣的精度高。
缺點:計算複雜。
▷ 抽中概率與規模成比例抽樣(PPS)
shibudenggailvzhongzuichangyongdeyizhongfangfa,zhizaizongtizhongcanzhaogedanweideguimojinxingchouyang,guimodadebeichouqudejihuida,zongtizhongmeigegetibeichouzhongdegailvyugaigetideguimochengzhengbidechouyang。liru:在進行企業調查時,根據PPS抽樣方法抽取企業,令規模大的企業被抽取機會大。
優點:使用了輔助信息,可以提高抽樣方案的統計效率。
缺點:如果研究指標與規模無直接關係時,不合適采取這種方法。
此外,在抽樣方法劃分上,還有多階段抽樣和兩相抽樣等,有興趣的讀者可參閱其他相關書籍。
前麵談到抽樣方法的一些基本分類和各自特點,需要注意的是,在(zai)實(shi)際(ji)的(de)運(yun)用(yong)中(zhong),一(yi)個(ge)調(tiao)查(zha)方(fang)案(an)常(chang)常(chang)不(bu)是(shi)隻(zhi)局(ju)限(xian)於(yu)使(shi)用(yong)某(mou)一(yi)種(zhong)抽(chou)樣(yang)方(fang)式(shi),而(er)根(gen)據(ju)研(yan)究(jiu)時(shi)段(duan)的(de)不(bu)同(tong)采(cai)用(yong)多(duo)種(zhong)抽(chou)樣(yang)方(fang)法(fa)的(de)組(zu)鴿(ge)為(wei)實(shi)現(xian)不(bu)同(tong)的(de)研(yan)究(jiu)目(mu)的(de),有(you)時(shi)甚(shen)至(zhi)在(zai)同(tong)一(yi)時(shi)段(duan)綜(zong)合(he)運(yun)用(yong)幾(ji)種(zhong)抽(chou)樣(yang)方(fang)法(fa)。
例如,設計一個全國城市的入戶項目,在抽樣上可以分為幾個不同的步驟,包括:
-
在項目正式開始前,可以采用判斷抽樣法選出某一城市先作試點,在問卷設計初期可以采用任意抽樣法選出部分人群進行問卷試訪。
-
采用分層隨機抽樣法,確定全國要分別在多少個超大型市、多少個大型市、多少個中型市、多少個小型市實施(先分出城市的幾個層次,再依據研究需要在各層用PPS法選取具體城市)
-
采用簡單抽樣法或PPS抽樣法,確定抽出城市中應抽的地塊或居委會;
-
采用整群抽樣法,確定抽出地塊或居委會應訪問的家庭戶;
-
在項目後期,可以采用判斷抽樣法選取某城市進行深入研究。
-
手機版







