自考“社會(huì)調(diào)查原理與方法”復(fù)習(xí)資料第十二章

字號(hào):

第十二章 資料的統(tǒng)計(jì)分析——重點(diǎn)
    [由于有公式,如果大家需要word版本請(qǐng)發(fā)郵件到info@cntopedu.cn索取]
    資料分析是在資料審核和整理的基礎(chǔ)上進(jìn)行的,包括統(tǒng)計(jì)分析、邏輯和理論分析。
    第一節(jié) 統(tǒng)計(jì)分析的必要性與特點(diǎn)
    一、統(tǒng)計(jì)分析的必要性
    1.統(tǒng)計(jì)分析的方法可以為我們的研究提供一種清晰精確的形式化語言。
    2.統(tǒng)計(jì)分析是進(jìn)行科學(xué)預(yù)測(cè),探索未來的重要方法。
    3.新的調(diào)查方法和技術(shù)要求運(yùn)用統(tǒng)計(jì)分析的方法。
    二、統(tǒng)計(jì)分析的特點(diǎn)
    1.統(tǒng)計(jì)分析要以定性分析為基礎(chǔ),其原因是:
    <1>統(tǒng)計(jì)分析是根據(jù)數(shù)據(jù)資料進(jìn)行的,社會(huì)調(diào)查中的數(shù)據(jù)反映事物屬性的統(tǒng)計(jì)指標(biāo)。
    <2>統(tǒng)計(jì)分析依據(jù)一定公式計(jì)算,公式的選擇依賴于一定的理論知識(shí)、專業(yè)知識(shí)和必要的經(jīng)驗(yàn)。
    2.統(tǒng)計(jì)分析方法必須和其他分析方法結(jié)合運(yùn)用,原因是<1>數(shù)量關(guān)系只是客觀事物存在的諸種關(guān)系的一種,不能代替其他分析方法;<2>統(tǒng)計(jì)分析方法能夠幫助發(fā)現(xiàn)社會(huì)現(xiàn)象中不易察覺的規(guī)律,但解釋需要借助于有關(guān)科學(xué)的理論。
    3.統(tǒng)計(jì)分析有一套專門的方法和技術(shù)。
    第二節(jié) 集中量數(shù)分析
    一、集中量數(shù)分析的意義和作用
    1.集中量數(shù),又稱為集中趨勢(shì),是一組數(shù)據(jù)的代表值,代表著現(xiàn)象的一般水平,別的數(shù)值圍繞在它的周圍;能對(duì)同質(zhì)總體做出概括說明,用以反映數(shù)據(jù)資料集中趨勢(shì)和特征的一般水平P330,具有四個(gè)方面的作用(意義):
    <1>說明某一社會(huì)現(xiàn)象在一定條件下,其數(shù)量的一般水平。
    <2>對(duì)于不同空間的同類現(xiàn)象進(jìn)行比較。
    <3>對(duì)一定社會(huì)現(xiàn)象在不同時(shí)間中的變化進(jìn)行比較。
    <4>分析某些社會(huì)現(xiàn)象之間的依存關(guān)系。
    2.常用的集中數(shù)量包括算術(shù)平均數(shù)、中位數(shù)和眾數(shù)。
    二、算術(shù)平均數(shù)
    含義:以總體各單位數(shù)值之間和除以總體單位總數(shù)的商,計(jì)算公式:
    各單位的標(biāo)志數(shù)值之和
    總體單位總數(shù)
    算術(shù)平均數(shù)=
    根據(jù)資料的不同,算術(shù)平均數(shù)可以采用簡單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)法進(jìn)行計(jì)算
    (一)簡單算術(shù)平均數(shù),是直接由原始數(shù)據(jù)計(jì)算平均數(shù)的方法,公式:
    說明:符號(hào)X表示算術(shù)平均數(shù);X1、X2分別表示各個(gè)具體的標(biāo)志數(shù)值;n代表總體單位數(shù)(即總體中個(gè)案的數(shù)目)。
    X1+X2+……+Xn
    n
    ∑X
    n
    X= =
    (二)加權(quán)算術(shù)平均數(shù),使用第二手資料的統(tǒng)計(jì)表計(jì)算平均數(shù)的時(shí)候,要用加權(quán)平均數(shù)法進(jìn)行計(jì)算,計(jì)算公式:
    X1f1+X2f2+……+Xnfn
    f1+f2+……+fn
    ∑Xf
    ∑f
    說明:f位權(quán)數(shù),即在變量在總體中出現(xiàn)的次數(shù)
    X= =
    按照數(shù)據(jù)資料形式的差異,加權(quán)平均數(shù)的計(jì)算分為由單項(xiàng)分組資料求算術(shù)平均數(shù)和由組距分組資料求算術(shù)平均數(shù):
    1.單項(xiàng)分組資料算術(shù)平均數(shù),公式與加權(quán)算術(shù)平均數(shù)一致,特點(diǎn):變量X的每一個(gè)值都是單一的確定數(shù)值。
    2.由組距分組資料求算術(shù)平均數(shù),特點(diǎn):變量X不是一組確定的數(shù)值,是一組數(shù)據(jù)區(qū)間;要求:先計(jì)算出組中距,然后使用加權(quán)算術(shù)平均數(shù)進(jìn)行計(jì)算。
    <1>組中距的符號(hào):Xmid,計(jì)算公式:Xmid=(下組限+上組限)/2
    ∑fXmid
    ∑f
    <2> 組距分組資料計(jì)算算術(shù)平均數(shù)的公式:X=
    三、中位數(shù)
    含義:中位數(shù)是把調(diào)查到的資料按照標(biāo)志值大小順序排列,處于中央位置的標(biāo)志值表示中間位置的平均數(shù),又稱位置平均數(shù),主要應(yīng)用于非數(shù)值的定序測(cè)量資料中。計(jì)算定序變量的集中量數(shù)用中位數(shù),只需指出中位數(shù)的位置;計(jì)算定距變量的集中量數(shù)可以用中位數(shù),但要計(jì)算出其中的具體數(shù)值。
    (一)由原始資料計(jì)算中位數(shù),步驟:把各個(gè)標(biāo)志數(shù)值按照大小排列,然后用總體單位加1除以2,可以求出中位數(shù)的位次。
    (二)對(duì)經(jīng)過匯總的資料計(jì)算中位數(shù),主要包括:
    1.由單項(xiàng)分組資料求中位數(shù),步驟:首先找出中位數(shù)的位次(n+1/2),然后順著累計(jì)次數(shù)找到對(duì)應(yīng)的組內(nèi)。
    2.由組距分組資料計(jì)算中位數(shù),步驟:用∑f/2公式確定中位數(shù)所在組的位置,然后用下限公式計(jì)算中位數(shù),公式為:
    說明:Md 為中位數(shù),L為中位數(shù)所在組的下限,fm 為中位數(shù)所在組的次數(shù), cfm-1 為中位數(shù)所在組以下的累計(jì)次數(shù),∑f 為累計(jì)次數(shù),i為中位數(shù)所在組的組距。
    1
    2
    ∑f-cfm-1
    fm
    ×i+L
    Md=
    第三節(jié) 離中量數(shù)分析—重點(diǎn)
    一、離中量數(shù)的意義和作用
    1.離中量數(shù),也稱差異量數(shù),是描述數(shù)據(jù)離散程度的量數(shù),是一個(gè)概括性量值,是研究現(xiàn)象差異程度的概括表現(xiàn);要求兩組數(shù)據(jù)的集中量數(shù)大致相同,單位相同,兩組數(shù)據(jù)的總體單位相近,才可比較。P335
    2.離中量數(shù)的作用(意義):<1>闡明被研究對(duì)象的差異特征;<2>描述一組數(shù)據(jù)的差異情況;<3>對(duì)集中數(shù)量的代表性作了補(bǔ)充說明,即差異量數(shù)越小,集中量數(shù)的代表性越大。
    二、離中量數(shù)的計(jì)算
    離中量數(shù)的計(jì)算方法有異眾比率(與眾數(shù)配合)、四分位差(與中位數(shù)配合)和標(biāo)準(zhǔn)差(平均數(shù)配合)
    (一)異眾比率,是指非眾數(shù)的次數(shù)與總體內(nèi)全部總體單位的比率。
    說明:VR代表異眾比率,n是總體內(nèi)全部總體單位的數(shù),fmo為眾數(shù)的次數(shù)。
    n-fmo
    n
    1. 計(jì)算公式:VR=
    2.異眾比率與眾數(shù)成反比關(guān)系:異眾比率較大,眾數(shù)的代表小,異眾比率越小,眾數(shù)的代表性越大。
    (二)四分位差
    1.含義:
    <1>把一組數(shù)據(jù)按大小排列成序,然后分成四個(gè)數(shù)據(jù)數(shù)目相等段落,各段落分界點(diǎn)上的數(shù)稱四分位數(shù)。
    <2>第一個(gè)四分為數(shù)(Q1)以下包括了25%的數(shù)據(jù),第二個(gè)四分位數(shù)(Q2) 包括以下75%的數(shù)據(jù),
    <3> 3(n+1) n+1
    4 4
    四分位差是指舍去資料中的數(shù)值的25%數(shù)據(jù)和數(shù)值最低的25%數(shù)據(jù),僅就屬于中間的50%數(shù)據(jù)求其量數(shù)作為離中量數(shù)。
    2.定序類型資料計(jì)算的四分位差,計(jì)算公式:Q= Q3-Q1= -
    Q3-Q1
    2
    3 1
    4n n
    3.對(duì)于定距類型資料計(jì)算四分位差,計(jì)算公式:Q= = -
    4.四分位差與中位數(shù)的關(guān)系:四分位差之間的間距越小,中位數(shù)的代表性越大。
    (三)標(biāo)準(zhǔn)差
    含義:也稱均方差,指資料中各個(gè)數(shù)值與算術(shù)平均數(shù)相減的平方和的算術(shù)平均數(shù)的平方根,是用的最多、最重要的離中量數(shù),標(biāo)準(zhǔn)差越小,平均數(shù)的代表性越大。
    ∑f(Xi-X)2
    n
    說明:Xi為資料中各個(gè)數(shù)值,X為算術(shù)平均數(shù),n為總體單位數(shù)。
    計(jì)算公式:σ=
    √
    根據(jù)資料的不同,標(biāo)準(zhǔn)差分為按原始資料計(jì)算和按統(tǒng)計(jì)表資料計(jì)算兩種方法。
    1.根據(jù)原始資料計(jì)算標(biāo)準(zhǔn)差,計(jì)算公式與標(biāo)準(zhǔn)差計(jì)算公式相同。
    2.根據(jù)統(tǒng)計(jì)表資料計(jì)算標(biāo)準(zhǔn)差,包括
    <1>單值分組資料計(jì)算標(biāo)準(zhǔn)差,計(jì)算公式與原始資料計(jì)算標(biāo)準(zhǔn)差相同。
    ∑f(Xmid-X)2
    n
    <2> √
    σ=
    組距資料計(jì)算標(biāo)準(zhǔn)差,計(jì)算公式為:
    三、相對(duì)差異量數(shù)
    1.離散系數(shù),是標(biāo)準(zhǔn)差與算術(shù)平均數(shù)的比值,是一個(gè)相對(duì)數(shù),不受單位限制,離散系數(shù)越大,數(shù)據(jù)的離散程度越大,集中量數(shù)的代表性越小,限制:離散系數(shù)的比較只限于定距資料。
    σ
    X
    公式:CV= ×100%
    2.標(biāo)準(zhǔn)分?jǐn)?shù),作用(1)表明原始數(shù)據(jù)在總體分布中的相對(duì)位置;(2)對(duì)不同的各原始數(shù)據(jù)進(jìn)行比較。(3)能測(cè)定相同或不同總體內(nèi)個(gè)案的相對(duì)位置,并進(jìn)行比較,是比較分析的有力工具。
    X-X
    σ
    計(jì)算公式:Z=
    第四節(jié) 相關(guān)與回歸分析
    一、相關(guān)分析的意義和測(cè)定方法
    1.相關(guān)分析含義:是通過計(jì)算兩個(gè)變量的相關(guān)系數(shù)來判斷兩個(gè)現(xiàn)象是否有聯(lián)系以及聯(lián)系的密切程度,只是對(duì)客觀事物的一種描述。
    2.散點(diǎn)圖,橫坐標(biāo)代表一個(gè)變量,縱坐標(biāo)代表另一個(gè)變量,對(duì)各資料依次用坐標(biāo)點(diǎn)繪于圖上,這圖稱為散點(diǎn)圖,可以說明變量間有無線性相關(guān)關(guān)系、相關(guān)的方向,不能精確地說明變量之間的密切程度。
    3.相關(guān)系數(shù)的計(jì)算方法
    <1>相關(guān)系數(shù)是表明變量間關(guān)系密切程度的量數(shù),符號(hào)為r,取值范圍在-1到+1之間,具體取值為:
    (1)r=-1,完全負(fù)相關(guān);(2)r=1,完全正相關(guān);(3)r=0,無相關(guān);(4)r是負(fù)值,說明隨著X變量的增大,Y變量減小,兩個(gè)變量變化的方向相反;(5)r是正值,說明隨著X變量的增大,Y變量也隨著增大,兩個(gè)變量變化的方向相同;(6)|r|=0.7-1.0之間認(rèn)為兩變量具有高度相關(guān);(7)|r|=0.3-0.7之間認(rèn)為兩個(gè)變量之間具有中度相關(guān);(8)|r|=0-0.3之間認(rèn)為是低度相關(guān)。
    n∑XY-(∑X)。(∑Y)
    [n∑X2-(∑X)2].[n∑Y2-(∑Y)2]
    <2> √
    相關(guān)關(guān)系的計(jì)算公式:r=
    二、回歸分析的意義和方法
    1.含義:是對(duì)有相關(guān)關(guān)系的對(duì)象,根據(jù)關(guān)系的形態(tài)選一合適的數(shù)學(xué)模型用來近似地表達(dá)變量間平均變化關(guān)系;具有推理性質(zhì)和因果性,是單向的,可以進(jìn)行預(yù)測(cè)。
    2.一元回歸模型和計(jì)算
    <1>散點(diǎn)圖上坐標(biāo)點(diǎn)在統(tǒng)計(jì)上可以用一條直線表示,即回歸直線,但每條直線與實(shí)際值都有一定的偏差。因此回歸計(jì)算目的是找出一條回歸線,使它與實(shí)際數(shù)值的偏差為最小。
    n∑XY-(∑X)。(∑Y)
    n∑X2-(∑X)2
    數(shù)學(xué)模型為:Y=a+bX(其中a為直線在Y軸上的截距,b為直線的斜率,也稱回歸系數(shù),標(biāo)準(zhǔn)方程為:
    b=
    a=Y-bX
    ∑Y=na+b∑X
    ∑XY=a∑X+b∑X2
    3.相關(guān)關(guān)系和回歸分析應(yīng)注意的機(jī)關(guān)問題
    <1>相關(guān)是回歸的必要條件;<2>相關(guān)關(guān)系不僅可以說明變量之間關(guān)系的密切程度,還可以度量回歸方程對(duì)實(shí)際資料的擬合優(yōu)度。以r2為判斷系數(shù),r值越大,r2也越大,則擬合程度越好。相關(guān)系數(shù)越高,預(yù)測(cè)的準(zhǔn)確性越大。<3>應(yīng)用回歸方程式進(jìn)行預(yù)測(cè)時(shí),不能使用超出資料所包括范圍的自變量數(shù)值。<4>預(yù)測(cè)的回歸方程只能反映一定時(shí)期內(nèi)事物間的相互關(guān)系。
    第五節(jié) 推論統(tǒng)計(jì)
    推論統(tǒng)計(jì)是一門通過樣本的各種量數(shù)估計(jì)總體與之對(duì)應(yīng)的各種量數(shù)的學(xué)問,方法包括區(qū)間估計(jì)和假設(shè)檢驗(yàn)。
    一、區(qū)間估計(jì)
    (一)區(qū)間估計(jì)的概念
    1.含義:是在一定的標(biāo)準(zhǔn)差范圍內(nèi)設(shè)立一個(gè)置信區(qū)間,然后聯(lián)系這個(gè)區(qū)間的可信度將樣本統(tǒng)計(jì)推論為總體參數(shù)值。
    2.只要被抽取的部分單位中被研究標(biāo)志的構(gòu)成比例與總體有出入,就會(huì)產(chǎn)生誤差,是隨機(jī)抽樣本所固有的,稱為抽樣誤差,而描述抽樣誤差的量數(shù)稱為標(biāo)準(zhǔn)誤差σX=σ/√n
    3.標(biāo)準(zhǔn)誤差主要取決于兩個(gè)因素:總體標(biāo)準(zhǔn)差和樣本量。
    4.只要樣本大于30個(gè)個(gè)案,可以用樣本標(biāo)準(zhǔn)差S代替總體標(biāo)準(zhǔn)差σX
    5.樣本誤差的大小和樣本的多少是決定精確度的一個(gè)因素。
    6.幾個(gè)重要的數(shù)據(jù):社會(huì)統(tǒng)計(jì)中常用的置信度為90%、95%、99%,與之對(duì)應(yīng)它們?cè)试S誤差(α)分別為10%、5%、1%,置信度Z(1-α)分別為1.65、1.96、2.58
    (二)總體平均值的區(qū)間估計(jì)法
    1. 說明:S為樣本差;n為樣本數(shù)目;隨著可靠性的提高,置信度間在擴(kuò)大,精確度降低。
    S
    n
    √
    總體平均數(shù)的區(qū)間估計(jì),公式:X±Z(1-α)
    2.總體百分比的區(qū)間估計(jì),公式:P為樣本中的百分比。
    P(1-P)
    n
    √
    P±Z(1-α)
    二、假設(shè)檢驗(yàn)(P348-350具體理解)
    1.含義:假設(shè)檢驗(yàn)就是先對(duì)總體的某一參數(shù)作一假設(shè),然后用樣本計(jì)量去驗(yàn)證,以決定假設(shè)是否為總體接受。
    2.根據(jù)對(duì)某一總體特征的初步了解而作出的假設(shè)稱為虛無假設(shè);將根據(jù)抽樣調(diào)查資料而作出的假設(shè)稱為研究假設(shè)。(兩個(gè)假設(shè)絕對(duì)對(duì)立)。
    3.通常把概率不超過0.05或0.01的事件當(dāng)作“小概率事件”,也稱為顯著水平。