- 相關推薦
統(tǒng)計學基礎知識之基礎概念與知識點
統(tǒng)計學是通過搜索、整理、分析數(shù)據(jù)等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其中用到了大量的數(shù)學及其它學科的專業(yè)知識,它的使用范圍幾乎覆蓋了社會科學和自然科學的各個領域。下面是yjbys小編為大家?guī)淼慕y(tǒng)計學基礎知識,歡迎閱讀。
統(tǒng)計學基礎知識
總體:是根據(jù)研究目的確定的同質的觀察單位的全體,更確切的說,是同質的所有觀察單位某種觀察值(變量值)的集合?煞譃橛邢蘅傮w和無限總體?傮w中的所有單位都能夠標識者為有限總體,反之為無限總體。
樣本:從總體中隨機抽取部分觀察單位,其實測值的集合稱為樣本。
隨機抽樣:是指按照隨機化的原則,從總體中抽取部分觀察單位的過程。隨機抽樣是樣本具有代表性的保證。
隨機化原則:總體中每一個觀察單位都有同等的機會被選入到樣本中。
抽樣誤差:由于個體差異的存在,即使在同一整體中隨機抽取若干樣本,各樣本的統(tǒng)計量往往不等,統(tǒng)計量與參數(shù)也會有所不同。這種因抽樣研究引起的差異稱抽樣誤差。
同質:一個總體中有許多個體,它們之所以共同成為人們研究的對象,必定存在共性,所謂一些個體處于同一總體,就是指他們大同小異,具有同質性。
變異:在自然狀態(tài)下,個體間測量結果的差異稱為變異。變異是生物醫(yī)學研究領域普遍存在的現(xiàn)象。嚴格的說,在自然狀態(tài)下,任何兩個患者或研究群體間都存在差異,表現(xiàn)為各種生理測量值的參差不齊。
變量:確定總體之后,研究者對每個觀察單位的某項特征進行測量和觀察,這種特征稱為變量。
變量值:對變量的測得值稱為變量值,或者觀察值。它可以是定量的,也可以是定性的。
定量資料:又稱數(shù)值變量。其變量值是定量的,表現(xiàn)為數(shù)值的大小,一般有度量衡單位。
分類資料:也稱定性資料,其觀察值是定性的,表現(xiàn)為互不相容的類別或者屬性。有無序分類和有序分類兩種情況。
統(tǒng)計描述:用統(tǒng)計指標、統(tǒng)計圖、統(tǒng)計表等方法,對資料的數(shù)量特征及分布規(guī)律進行客觀的描述和表達。
統(tǒng)計推斷:在一定的置信度和概率保證下,用樣本信息推斷總體特征:①參數(shù)
估計:用樣本的指標去推斷總體相應的指標;②假設檢驗:由樣本的差異推斷總體之間是否可能存在的差異。
計量資料:對每個觀察單位用定量的方法測定某項指標量的大小,所得的資料稱為計量資料。計量資料亦稱定量資料、測量資料。其變量值是定量的,表現(xiàn)為數(shù)值大小,一般有度量衡單位。
計數(shù)資料:將觀察單位按某種屬性或類別分組,所得的觀察單位數(shù)稱為計數(shù)資料。計數(shù)資料亦稱定性資料或分類資料。其觀察值是定性的,表現(xiàn)為互不相容的類別或屬性。
等級資料:將觀察單位按測量結果的某種屬性的不同程度分組,所得各組的觀察單位數(shù),稱為等級資料。
概率:又稱幾率,是度量某一隨機事件A發(fā)生可能性大小的一個數(shù)值,記為P(A),P(A)越大,說明A事件發(fā)生的可能性越大。
頻率:在相同的條件下,獨立重復做n次試驗,事件A出現(xiàn)了m次,則比值m/n稱為隨機事件A在n次試驗中出現(xiàn)的頻率。當試驗重復很多次時P(A)=m/n。
隨機誤差:又稱偶然誤差,是指排除了系統(tǒng)誤差后尚存的誤差。它受多種因素的影響,使觀察值不按方向性和系統(tǒng)性而隨機的變化。誤差變量一般服從正態(tài)分布。隨機誤差可以通過統(tǒng)計處理來估計。
系統(tǒng)誤差:是指由于儀器未校正、測量者感官的某種偏差、醫(yī)生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值的兩側,而是有方向性、系統(tǒng)性或周期性地偏離真值。系統(tǒng)誤差可以通過實驗設計和完善技術措施來消除或使之減少。
隨機變量:指變量的值無法預先確定僅以一定的可能性(概率)取值的量。隨機變量的具體內容雖然是各式各樣的,但共同的特點是不能用一個常數(shù)來表示,而且,理論上講,每個變量的取值服從特定的概率分布。
參數(shù):是指總體的統(tǒng)計指標,如:總體均數(shù)、總體率等。總體參數(shù)是固定的常數(shù)。多數(shù)情況下,總體參數(shù)是不易知道的,但可通過隨機抽樣抽取有代表性的樣本,用算得的樣本統(tǒng)計量估計未知的總體參數(shù)。
統(tǒng)計量:是指樣本的統(tǒng)計指標,如樣本均數(shù)、樣本率等。樣本統(tǒng)計量可用來估計總體參數(shù)?傮w參數(shù)是固定的常數(shù),統(tǒng)計量是在總體參數(shù)附近波動的隨機變量。
算術均數(shù):描述一組數(shù)據(jù)在數(shù)量上的平均水平?傮w均數(shù)用μ表示,樣本均數(shù)用X表示。
幾何均數(shù):用以描述對數(shù)正態(tài)分布或數(shù)據(jù)呈倍數(shù)變化資料的水平。記為G。
中位數(shù):將一組觀察值由小到大排列,n為奇數(shù)時取位次居中的變量值;為偶數(shù)時,取位次居中的兩個變量的平均值。反映一批觀察值在位次上的平均水平。
極差:亦稱全距,即最大值與最小值之差,用于資料的粗略分析,其計算簡便但穩(wěn)定性較差。
百分位數(shù):是將n個觀察值從小到大依次排列,再把它們的位次依次轉化為百分位。百分位數(shù)的另一個重要用途是確定醫(yī)學參考值范圍。
四分位數(shù)間距:是由第三四分位數(shù)和第一四分位數(shù)相減計算而得,常與中位數(shù)一起使用,描述偏態(tài)分布資料的分布特征,較極差穩(wěn)定。
方差:方差表示一組數(shù)據(jù)的平均離散水平,由離均差的平方和除以樣本個數(shù)得到。
標準差:是樣本平均數(shù)的平均距離,用來考察樣本數(shù)據(jù)分散程度的大小。
變異系數(shù):用于觀察指標單位不同或均數(shù)相差較大時兩組資料變異程度的比較。用CV表示。計算:CV=標準差/均數(shù)×100%
可信區(qū)間:是按預先給定的概率1-α所確定的包含未知總體參數(shù)的一個范圍。從固定樣本含量的已知總體中進行重復隨機抽樣試驗,根據(jù)每個樣本可算得一個可信區(qū)間,則平均有1-α的可信區(qū)間包含了總體參數(shù),而不是總體參數(shù)落在該范圍的可能性為1-α。
參數(shù)估計:指用樣本指標值(統(tǒng)計量)估計總體指標值(參數(shù))。
假設檢驗中P的含義:指從H0規(guī)定的總體隨機抽得等于及大于(或等于及小于)現(xiàn)有樣本獲得的檢驗統(tǒng)計量值的概率。
假設檢驗:亦稱顯著性檢驗,其基本思想是先對總體的參數(shù)或分布做出某種假設,如設總體均數(shù)為一定值,兩總體均數(shù)相等,總體服從正態(tài)分布或兩分布相同等,然后根據(jù)樣本信息選用適當?shù)姆椒,推斷此假設應當拒絕或不拒絕。
I型錯誤:指拒絕了實際上成立的H0,這類“棄真”的錯誤稱為I型錯誤,其概率大小用α表示。
II型錯誤:指接受了實際上不成立的H0,這類“存?zhèn)?rdquo;的誤稱為II型錯誤,其概率大小用β表示。
正態(tài)性檢驗:用均數(shù)和標準差描述資料的分布特征,對例數(shù)n較小的樣本進行t檢驗時,首先要求樣本取自正態(tài)分布的總體。
檢驗效能:1-β稱為檢驗效能,它是指當兩總體確有差別,按規(guī)定的檢驗水準α所能發(fā)現(xiàn)該差異的能力。
率:又稱頻率指標,說明一定時期內某現(xiàn)象發(fā)生的頻率或強度。計算公式為:率=發(fā)生某現(xiàn)象的觀察單位數(shù)/可能發(fā)生某現(xiàn)象的觀察單位總數(shù)×100%,表示方式有:百分率(%)、千分率(‰)等。
構成比:又稱構成指標,說明某一事物內部各組成部分所占的比重或分布。計算公式為:構成比=某一組成部分的觀察單位數(shù)/同一事物各組成部分的觀察單位總數(shù)×100%,表示方式有:百分數(shù)等。
比:又稱相對比,是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾。計算公式為:A/B,表示方式有:倍數(shù)或分數(shù)等。
非參數(shù)統(tǒng)計:針對某些資料的總體分布難以用某種函數(shù)式來表達,或者資料的總體分布的函數(shù)式是未知的,只知道總體分布是連續(xù)型的或離散型的,用于解決這類問題的一種不依賴總體分布的具體形式的統(tǒng)計分析方法。
參數(shù)統(tǒng)計:通常要求樣本來自總體分布型是已知的(如正態(tài)分布),在這種假設的基礎上,對總體參數(shù)(如總體均數(shù))進行估計和檢驗,稱為參數(shù)統(tǒng)計。
秩次:變量值按照從小到大順序所編的秩序號稱為秩次。
秩和:各組秩次的合計稱為秩和,是非參數(shù)檢驗的基本統(tǒng)計量。
直線回歸:建立一個描述應變量依自變量變化而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。直線回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。
回歸系數(shù):即直線的斜率,在直線回歸方程中用b表示,b的統(tǒng)計意義為X每增(或減)一個單位時,Y平均改變b個單位。
相關系數(shù)r:用以描述兩個隨機變量之間線性相關關系的密切程度與相關方向的統(tǒng)計指標。
t檢驗:常用于整體標準差未知且樣本含量較小時樣本均數(shù)與總體均數(shù)的比較,應用條件為n≤50,樣本來自正態(tài)分布的總體,兩樣本均數(shù)比較時要求兩樣本總體方差相等。
u檢驗:用檢驗統(tǒng)計量u來命名的,用于樣本含量n足夠大,或n雖小但總體標準差已知的樣本均數(shù)與總體均數(shù)的比較、成組設計兩樣本均數(shù)的比較。
觀察性研究:是指在沒有任何干預措施的條件下,客觀的觀察和記錄研究對象的現(xiàn)狀及其相關特征。
病例對照研究:是一種分析流行病學研究方法,主要應用于探索疾病的危險因素和病因。病例對照研究方法是對臨床醫(yī)療和各種基礎研究中形成的病因假設,進行初步驗證。是選擇一組患某病的病人,再選擇一組不患該病的對象,比較兩組人群之間在疾病發(fā)生之前有關可疑因素的暴露情況,如果兩組的暴露率卻有差別,則可認為所研究疾病與因素之間存在著關聯(lián)。
隊列研究:又稱前瞻性研究,是將特定的人群分為暴露于某因素與非暴露于某因素的兩種人群或不同暴露水平的幾個亞群,追蹤觀察其各自的結局,比較兩組或各組某結局的發(fā)生率,從而判定暴露因素與結局有無因果關聯(lián)及關聯(lián)程度大小的一種觀察性研究方法。
完全隨機設計:又稱簡單隨機分組設計,是采用完全隨機化分組方法將同質的實驗單位分配到各處理組,各組分別接受不同的處理。各組樣本含量可以相等,稱平衡設計;也可不等,稱非平衡設計。
配對設計:是將實驗單位按一定條件配成對子,再將每對中的兩個實驗單位隨機分配到不同處理組。
隨機區(qū)組設計:是將實驗單位組設計或配伍組設計,實際上是配對設計的擴展,是先將實驗單位按性質相同或相近者組成區(qū)組,再分別將各區(qū)組內的實驗單位隨機分配到各處理組或對照組。
析因設計:為安排析因實驗的設計,是將兩個或兩個以上處理因素的各水平進行組合,對各種可能的組合都進行實驗,又稱完全交叉分組實驗設計。
方差分析:也叫F檢驗,是統(tǒng)計檢驗的一種,其基本思想是:按研究目的和設計類型,將總變異中的離均差平方和和自由度分別分解成相應的若干部分,然后求得各相應部分的變異;由于其中的組內變異主要反應個體差異或抽樣誤差,其他各部分的變異與之比較得出統(tǒng)計量F值,根據(jù)F值得大小確定P值,并作出推斷。
秩和檢驗:即先將數(shù)值變量從小到大,或等級從弱到強轉換成秩后,再計算檢驗統(tǒng)計量的一種方法。
流行病學:研究人群中疾病與健康狀況的分布及其影響因素,并研究防制疾病及促進健康的策略和措施的科學,是研究人群中事件或者結局的分布及其影響因素,并研究防止或者促進其發(fā)生的策略和措施的科學。
暴露:暴露是指研究對象(人)曾經(jīng)接觸(或不接觸)某因素,或者具備某些特征,或者處于某種狀態(tài),這些研究者所關心的因素、特征、或狀態(tài)即為暴露因素;暴露是指可能影響研究對象最后成為(病例或非病例研究者關心的結局=)某種結局的機會。
臨床試驗:以臨床患者的為研究對象,采用隨機原則將其分為試驗組與對照組,試驗組人為地給予某種干預措施,即某種新藥或某種療法,而對照組不給予研究的新藥或給傳統(tǒng)的醫(yī)療措施或給安慰劑,經(jīng)過一段時間的觀察后,評價實驗藥物的效果或不良反應。
病因:那些能使人群發(fā)病概率增加的因素,就可以認為是疾病的病因,其中某個或多個不存在時,人群疾病發(fā)生頻率就會下降。
危險因素:在復雜病因所致疾病或未明確病因時,相關致病因素常被稱為危險因素。
診斷試驗:是指運用物理學的、生物化學的、血清免疫學的檢查,臨床檢查和醫(yī)療器械檢查對病人的疾病和健康狀況做出診斷的試驗。
機遇:又稱隨機誤差,是由于多種不能控制及不能預測的因素引起的一類表現(xiàn)不恒定、隨機變化的誤差。
偏倚:又稱系統(tǒng)誤差,是指研究過程中,一些已知活可控制的因素引起的使研究結果或理論系統(tǒng)抵偏離真實情況。
【統(tǒng)計學基礎知識之基礎概念與知識點】相關文章:
統(tǒng)計學基礎知識匯總06-27
社區(qū)工作基礎知識概念10-02
java必備基礎知識點06-01
Java基礎知識點歸納08-22
音樂基礎知識之河北民歌07-09
英語語法基礎知識點09-03
美術色彩基礎知識冷暖色調的概念07-05
計算機二級考試之C++基礎知識點08-05
大學計算機基礎知識點09-25
2017證券從業(yè)價格基礎知識點07-01