国产aV无码片毛片一级韩国,午夜草草视频在线播放,中国人妻少妇精品一区二区,在线视频播放一区二区三区,一区二区三区久久av,日韩人妻系列中文字幕,国产av综合av亚洲av,欧美多人啊啊啊啊污污视频,国产大鸡巴插女生b视频

教育裝備采購網(wǎng)
第八屆圖書館論壇 校體購2

Stata軟件對截斷和刪失數(shù)據(jù)處理方法介紹

教育裝備采購網(wǎng) 2017-09-21 10:48 圍觀1161次

  截斷和刪失是完全不同的現(xiàn)象,都會導(dǎo)致我們的樣本不完整。這些現(xiàn)象出現(xiàn)在醫(yī)療科學(xué)、工程、社會科學(xué)和其他研究領(lǐng)域。如果忽略截斷和刪失,當(dāng)我們分析數(shù)據(jù)時,我們的人口參數(shù)估計就會不一致。

  截斷和刪失會出現(xiàn)在處理樣本的過程中,那我們就從定義左截斷和左刪失開始:

  當(dāng)?shù)陀陂撝档膫€體在樣本中不存在時,我們的數(shù)據(jù)就屬于左截斷。比如,我們想研究某些魚的大小,以捕魚網(wǎng)為樣本,魚小于魚網(wǎng),所以在我們的樣本中是不存在的。

  我們的數(shù)據(jù)從K開始左刪失,如果每個個體值在樣本中存在并低于K,但實(shí)際值未知。例如,我們有一個測量儀器,不能檢測到一定水平以下的值時,就會發(fā)生這種情況。

  我們主要討論左截斷和左刪失,但是我們討論的概念可以應(yīng)用到所有的截斷和刪失中去:右截斷、右刪失和區(qū)間。

  當(dāng)執(zhí)行截斷或刪失數(shù)據(jù)的估計時,我們需要使用一些工具來說明這些不完整的數(shù)據(jù)。對于截斷線性回歸,我們可以使用truncreg命令;對于刪失線性回歸,我們可以使用intreg和tobit命令。

  這篇文章,我們將要分析截斷數(shù)據(jù)和刪失數(shù)據(jù)的特征,并討論用truncreg命令和tobit命令來說明不完整的數(shù)據(jù)。

  截斷數(shù)據(jù)

  案例:皇家海軍陸戰(zhàn)隊(duì)

  Fogel et al.(1978)發(fā)布了皇家海軍陸戰(zhàn)隊(duì)人員的身高的數(shù)據(jù)集,此數(shù)據(jù)可以擴(kuò)展到2個世紀(jì)。它可以用來確定不同時期,英國男性的平均身高。Trussell and Bloom (1979)指出樣本被截斷,由于新兵最低身高的限制。數(shù)據(jù)被截斷了(而不是刪失),因?yàn)樯砀叩陀谧畹拖拗频膫€人都沒有出現(xiàn)在樣本中??紤]到這一事實(shí),他們擬合了1800年到1809年期間皇家海軍陸戰(zhàn)隊(duì)身高的截斷分布。

  由于Trussell和Bloom提到的問題,我們使用了人工數(shù)據(jù)集。我們假設(shè)人口數(shù)據(jù)服從正態(tài)分布μ=65和σ=3.5,并且都是左截斷到64.

  我們使用一個直方圖來總結(jié)我們的數(shù)據(jù):

  

  可以看到截斷點(diǎn),沒有小于64的數(shù)據(jù)。

  如果我們忽略截斷,會發(fā)生什么呢?

  如果我們忽略截斷,將不完整的數(shù)據(jù)視為完整的,樣本均值與總體均值就會不一致,因?yàn)榻財帱c(diǎn)以下的所有觀測值都是缺失的。在我們的實(shí)例中,真實(shí)的均值95%都在置信區(qū)間預(yù)測平均值外。

  

  我們可以將樣本直方圖與忽略截斷后得出的正態(tài)分布進(jìn)行比較,并且把這些值看成是人口均值和標(biāo)準(zhǔn)差的估計。

  

  

  使用truncreg考慮截斷

  我們可以使用truncreg來估計潛在非截斷分布的參數(shù)??紤]左截斷64,可以使用選項(xiàng)ll(64)。

  

  現(xiàn)在估計的值接近我們的實(shí)際模擬值μ=65,σ=3.5。

  讓我們將截斷密度重疊到數(shù)據(jù)直方圖中去。

  

  

  截斷分布適合我們的樣本,我們分析人口分布均值等于65,標(biāo)準(zhǔn)偏差等于3.5.

  刪失數(shù)據(jù)

  現(xiàn)在我們看一下刪失數(shù)據(jù)的案例,看看他們和截斷數(shù)據(jù)之間的區(qū)別。

  案例:家庭表面尼古丁的含量情況

  Matt et al.在2004年進(jìn)行了一項(xiàng)研究,對煙草煙霧污染吸煙者家庭的整個表面進(jìn)行了評估。非常有趣的一項(xiàng)測量是家具表面的尼古丁含量情況。每個家庭中的擦拭樣本來自每件家具。然而,尼古丁污染低于一定限度的,測量儀檢測不到。

  數(shù)據(jù)被刪失了,而不是被截斷了。當(dāng)尼古丁污染低于檢測極限值時,樣本中仍然包含了尼古丁的檢測值,這個檢測值就等于最低極限值。被這項(xiàng)研究中的這個問題啟發(fā),我隨意創(chuàng)建了一個人工數(shù)據(jù)集。尼古丁污染水平的日志被假定為正常。在這里,lognlevel包含尼古丁含量。用于模擬日志尼古丁含量的參數(shù),刪失數(shù)據(jù)是μ=ln(5),σ=2.5,左刪失數(shù)據(jù)為0.1。我們開始繪制直方圖。

  

  

  直方圖左側(cè)有一個尖峰,因?yàn)樵跈z測極限以下的值被記錄為等于極限值。計算樣本的原始均值和標(biāo)準(zhǔn)偏差,將不會為潛在的未經(jīng)審查的高斯分布提供適當(dāng)?shù)墓烙嫛?/p>

  

  均值和標(biāo)準(zhǔn)偏差分別估計為1.68和2.4,而實(shí)際參數(shù)為ln(5) =1.61 和2.5。

  使用Tobit賬戶審核

  我們估計均值和標(biāo)準(zhǔn)偏差分布,并使用ll選項(xiàng)的tobit來考慮左刪失值(如果審核極限值隨觀測值而變化,那么可以用intreg來代替)。

  

  潛在的未經(jīng)審核的分布估計的均值為1.62,標(biāo)準(zhǔn)差2.49. 我們把未經(jīng)審核的分布疊加到直方圖中:

  

  

  潛在的未經(jīng)審核的分布匹配直方圖的一部分,左邊尾部補(bǔ)償審查點(diǎn)的尖峰。

  總結(jié)

  在抽樣數(shù)據(jù)中,刪失和截斷是不同的兩種現(xiàn)象。截斷高斯抽樣中潛在的人口參數(shù)可以用truncreg來估計。刪失高斯抽樣中潛在的人口參數(shù)要用intreg或tobit來估計。

  結(jié)語

  我們已經(jīng)討論了刪失和截斷的概念,也舉例說明了這兩個概念的意思。與本次討論有關(guān)的要點(diǎn)如下:

  本次討論是基于高斯模型之上的,但是主要的概念可以擴(kuò)展到任意的分布中。以上的例子在沒有協(xié)變量的情況下擬合回歸模型,因此,我們可以更好地可視化刪失和截斷分布的形狀。然而,這些概念很容易擴(kuò)展到協(xié)變量的回歸框架中,并且特定觀測值的期望值是協(xié)變量函數(shù)。

  我們已經(jīng)討論過使用truncreg和tobit來處理刪失和截斷數(shù)據(jù)。但是這些命令也可以應(yīng)用到非刪失和非截斷數(shù)據(jù)中,只要這些數(shù)據(jù)是特定分布中的人口抽樣。

點(diǎn)擊進(jìn)入北京天演融智軟件有限公司展臺查看更多 來源:教育裝備采購網(wǎng) 作者:中國科學(xué)軟件網(wǎng) 責(zé)任編輯:李瑤瑤 我要投稿
校體購終極頁

相關(guān)閱讀

版權(quán)與免責(zé)聲明:

① 凡本網(wǎng)注明"來源:教育裝備采購網(wǎng)"的所有作品,版權(quán)均屬于教育裝備采購網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。已獲本網(wǎng)授權(quán)的作品,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:教育裝備采購網(wǎng)"。違者本網(wǎng)將追究相關(guān)法律責(zé)任。

② 本網(wǎng)凡注明"來源:XXX(非本網(wǎng))"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),且不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、網(wǎng)站或個人從本網(wǎng)下載使用,必須保留本網(wǎng)注明的"稿件來源",并自負(fù)版權(quán)等法律責(zé)任。

③ 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起兩周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

校體購產(chǎn)品