Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計軟件。它擁有很多功能,包含線性混合模型、均衡重復反復及多項式普羅比模式。用Stata繪制的統(tǒng)計圖形相當精美。
新版本的STATA采用最具親和力的窗口接口,使用者自行建立程序時,軟件能提供具有直接命令式的語法。Stata提供完整的使用手冊,包含統(tǒng)計樣本建立、解釋、模型與語法、文獻等超過一萬余頁的出版品。
除此之外,Stata軟件可以透過網(wǎng)絡實時更新每天的最新功能,更可以得知世界各地的使用者對于STATA公司提出的問題與解決之道。使用者也可以透過Stata Journal獲得許許多多的相關訊息以及書籍介紹等。另外一個獲取龐大資源的管道就是Statalist,它是一個獨立的listserver,每月交替提供使用者超過1000個訊息以及50個程序。
Stata官方網(wǎng)站。Stata公司提供的Web resources,涵蓋了大量相關網(wǎng)絡資源;其FAQ則提供了各種常見問題的解答;Statalist則是一個類似于人大經(jīng)濟論壇的免費的討論區(qū)。加入Statalist的方法很簡單,你只需要發(fā)送郵件至Stata-maillist,郵件內(nèi)容無需任何稱謂,只需寫上“subscribe Statalist”的字樣即可。接到確認信息后,你便成為一名Statalist的成員了。當然,即使不加入,你仍然可以瀏覽,但不能提問。
UCLA(加州大學洛杉磯分校提供的網(wǎng)絡教程。該網(wǎng)站提供的Data Management、Graphics、Regression、Logistic Regression、Multilevel Modeling、Survey Data Analysis等模塊都非常出色;其Web Books、Textbook Examples模塊則非常細致地呈現(xiàn)了幾十本非常流行的統(tǒng)計和計量教材的Stata實例;對于LaTeX感興趣的朋友,則可以通過Stata Tools for LaTeX模塊獲得諸多有用的信息;在Graph examples模塊中,則列舉了四十余種圖形的繪制方法;最后,在Classes and Seminars模塊中,你可以在線觀看數(shù)十個Stata教學視頻。
Stata中文討論專區(qū)。目前,國內(nèi)已有多個專門討論Stata應用的論壇,包括人大經(jīng)濟論壇Stata專區(qū),公衛(wèi)人EpiMan等。這些論壇集中了國內(nèi)外數(shù)十萬的Stata用戶,為交流和解決Stata應用過程中遇到的各種問題和經(jīng)驗提供了很好的平臺。
自從Hamilton(1990)出版Statistics with Stata后,一系列將計量理論與軟件操作結合起來的書籍開始相繼面世,而在此之前,人們似乎都認為軟件操作是件非常簡單的事情。也正因為如此,很多學生在修改完了一個學年的計量經(jīng)濟學課程后,仍然不知道該如何完成OLS估計。為此,我列舉的書籍多附有Stata實例(* 表示我的推薦程度),多數(shù)書中的范例數(shù)據(jù)都可通過Stata官方網(wǎng)站下載。
一份詳細的書單:UCLA提供了的書單 。
入門教材:Baum(2006)*、Newton and Cox(2009)、Chen et al.(2005)、Adkins and Hill(2008)*;Wooldridge(2009)*,波士頓大學的網(wǎng)站上提供了該書所有章節(jié)的Stata范例,是一套非常好的學習資料。
綜合性教材:Cameron and Trivedi(2005)撰寫的Microeconometrics: Methods and applications一書全面介紹了微觀計量中的基本分析工具,其中不乏最近十年中得到廣泛應用的Bootstrap、Monte Carlo模擬,以及非參數(shù)估計法。二人于2009年出版的另一力作(Cameron and Trivedi(2009)*)是這本書的姊妹篇,重點介紹了常用計量模型的Stata實現(xiàn)方法。
Stata手冊:我一直非常佩服撰寫Stata手冊的那些人,他們總能以最簡潔的語言說清楚糾結我很久的問題。Stata11附有16本電子手冊,僅需統(tǒng)一放置于D:stata11utilities目錄下,即可從Stata內(nèi)部的幫助文件中的Also see部分直接鏈接到相應的PDF說明書中。作為初學者,我強烈建議你將[U]和[D]打印出來,反復研讀。stata手冊內(nèi)容齊全,但不便于閱讀,把命令與例題割裂開來,閱讀起來很不方便。
stata軟件在社會科學研究中的高級應用:周文光,李堯遠,梁煒 著,西北工業(yè)大學出版社出版。該書詳細介紹了如何應用stata對連續(xù)變量與分類變量進行分析,包括回歸分析,時間序列分析,面板數(shù)據(jù)分析等,并介紹了如何使用stata進行生存分析與聚類分析、編程等內(nèi)容。
Stata視頻。相比于網(wǎng)絡教程和紙本教材,通過視頻學習Stata可能是最快捷的方式了。UCLA免費發(fā)布的視頻教程,內(nèi)容涉及Stata入門、數(shù)據(jù)處理和繪圖等。采用英文講解,思路清晰。局限在于所涉及內(nèi)容不夠系統(tǒng),但對于想快速入門的學生則是一份不錯的參考資料。同時,藉由這份資料也可以練習一下英語聽力。對于中文用戶而言,人大論壇發(fā)布的Stata初級和高級視頻則提供了更為快捷的學習方式。其中,初級視頻主要介紹stata的操作方法,包括stata入門、stata數(shù)據(jù)處理、stata繪圖、stata矩陣以及stata編程初步五個部分。高級視頻主要介紹各種計量模型的基本原理,重點介紹其在stata中的實現(xiàn)方法,包括OLS、GLS、MLE、IV-GMM、時間序列分析、面板模型、stata高級編程、Bootstrap和Monte Carlo模擬等內(nèi)容,比較全面的涵蓋了計量經(jīng)濟學和核心內(nèi)容。
統(tǒng)計方法:Rabe-Hesketh and Everitt(2006)。
Stata繪圖:Mitchell(2008),非常細致地介紹了各種圖形的繪制方法。
Stata數(shù)據(jù)處理:Kohler and Kreuter(2005)*、Long(2009)*、楊菊華(2008)。
Stata編程:Baum(2009),當然,該書中有關數(shù)據(jù)處理的介紹也非常精彩。
Logit/Probit模型:Hosmer and Lemeshow(2000)*對相關的理論進行非常細致的介紹,是我學習Logit模型的入門教材;Long and Freese(2001)*、Long and Freese(2006)、Hilbe(2009)則涉及了大量的Stata實例,對解讀Logit/Probit模型的結果很有幫助;Rabe-Hesketh et al.(2004)提供了在GLLAMM架構下估計xtlogit, xtprobit, xtmelogit以及xtmepoisson模型的方法。
Panel Data和多層次模型:Stata11 手冊[XT]*,簡潔明了,附有大量實例;Cameron and Trivedi(2009)*、王志剛(2008)、Rabe-Hesketh and Skrondal(2008)。
Mata:Schmidheiny(2008)*,簡潔明了介紹了Mata的基本用法;詳情則可參與Stata11手冊[M]。
GLLAMM:Rabe-Hesketh et al.(2004)。
Meta:Sterne(2009)。
GLM:Hardin et al.(2007)。
MLE:Harrison(2008)(Lectures)、Gould et al.(2006)。
生存分析:Cleves et al.(2008)。
Stata是一個統(tǒng)計分析軟件,但它也具有很強的程序語言功能,這給用戶提供了一個廣闊的開發(fā)應用的天地,用戶可以充分發(fā)揮自己的聰明才智,熟練應用各種技巧,真正做到隨心所欲。事實上,Stata的ado文件(高級統(tǒng)計部分)都是用Stata自己的語言編寫的。
Stata其統(tǒng)計分析能力遠遠超過了SPSS,在許多方面也超過了SAS!由于Stata在分析時是將數(shù)據(jù)全部讀入內(nèi)存,在計算全部完成后才和磁盤交換數(shù)據(jù),因此計算速度極快(一般來說, SAS的運算速度要比SPSS至少快一個數(shù)量級,而Stata的某些模塊和執(zhí)行同樣功能的SAS模塊比,其速度又比SAS快將近一個數(shù)量級!)Stata也是采用命令行方式來操作,但使用上遠比SAS簡單。其生存數(shù)據(jù)分析、縱向數(shù)據(jù)(重復測量數(shù)據(jù))分析等模塊的功能甚至超過了SAS。用Stata繪制的統(tǒng)計圖形相當精美,很有特色。
Stata的統(tǒng)計功能很強,除了傳統(tǒng)的統(tǒng)計分析方法外,還收集了近20年發(fā)展起來的新方法,如Cox比例風險回歸,指數(shù)與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型等。具體說, Stata具有如下統(tǒng)計分析能力:
數(shù)值變量資料的一般分析:參數(shù)估計,t檢驗,單因素和多因素的方差分析,協(xié)方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數(shù)的兩兩比較,缺項數(shù)據(jù)的處理,方差齊性檢驗,正態(tài)性檢驗,變量變換等。
分類資料的一般分析:參數(shù)估計,列聯(lián)表分析 ( 列聯(lián)系數(shù),確切概率 ) ,流行病學表格分析等。
等級資料的一般分析:秩變換,秩和檢驗,秩相關等
相關與回歸分析:簡單相關,偏相關,典型相關,以及多達數(shù)十種的回歸分析方法,如多元線性回歸,逐步回歸,加權回歸,穩(wěn)鍵回歸,二階段回歸,百分位數(shù) ( 中位數(shù) ) 回歸,殘差分析、強影響點分析,曲線擬合,隨機效應的線性回歸模型等。
其他方法:質(zhì)量控制,整群抽樣的設計效率,診斷試驗評價, kappa等。
Stata的作圖模塊,主要提供如下八種基本圖形的制作 : 直方圖(histogram),條形圖(bar),百分條圖 (oneway),百分圓圖(pie),散點圖(two way),散點圖矩陣(matrix),星形圖(star),分位數(shù)圖。這些圖形的巧妙應用,可以滿足絕大多數(shù)用戶的統(tǒng)計作圖要求。在有些非繪圖命令中,也提供了專門繪制某種圖形的功能,如在生存分析中,提供了繪制生存曲線圖,回歸分析中提供了殘差圖等。
矩陣代數(shù)是多元統(tǒng)計分析的重要工具, Stata提供了多元統(tǒng)計分析中所需的矩陣基本運算,如矩陣的加、積、逆、 Cholesky分解、 Kronecker內(nèi)積等;還提供了一些高級運算,如特征根、特征向量、奇異值分解等;在執(zhí)行完某些統(tǒng)計分析命令后,還提供了一些系統(tǒng)矩陣,如估計系數(shù)向量、估計系數(shù)的協(xié)方差矩陣等。
數(shù)據(jù)管理(Data management)
資料轉(zhuǎn)換、分組處理、附加檔案、 ODBC 、行 - 列轉(zhuǎn)換、數(shù)據(jù)標記、字符串函數(shù)…等
基本統(tǒng)計(Basic statistics)
直交表、相關性、 t- 檢定、變異數(shù)相等性檢定、比例檢定、信賴區(qū)間…等
線性模式(Linear models)
穩(wěn)健Huber/White/sandwich變異估計 , 三階最小平方法、類非相關回歸、齊次多項式回歸、GLS
廣義型線性模式(Generalized linear models)
十連結函數(shù)、使用者-定義連結、 ML及IRLS估計、九變異數(shù)估計、七殘差…等
二元、計數(shù)及有限應變量(Binary, count and limited dependent variables)
羅吉斯特、probit、卜松回歸、tobit、truncated回歸、條件羅吉斯特、多項式邏輯、巢狀邏輯、負二項、 zero-inflated模型、Heckman 選擇模式、邊際影響
Panel數(shù)據(jù)/交叉 - 組合時間序列(Panel data/cross-sectional time-series)
隨機及固定影響之回歸、GEE、隨機及固定-影響之卜松及負二項分配、隨機 - 影響、工具變量回歸、AR(1) 干擾回歸
無母數(shù)方法(Nonparametric methods)
多變量方法(Multivariate methods)
因素分析、多變量回歸、 anonical 相關系數(shù)
模型檢定及事后估計量支持分析(Model testing and post-estimation support)
Wald檢定、LR檢定、線性及非線性組合、非線性限制檢定、邊際影響、修正平均數(shù)Hausman檢定
群集分析(Cluster analysis)
加權平均、質(zhì)量中心及中位數(shù)聯(lián)結、kmeans、kmedians、dendrograms、停止規(guī)則、使用者擴充
圖形(Graphics)
直線圖、散布圖、條狀圖、圓餅圖、 hi-lo 圖、回歸診斷圖…
調(diào)查方法(Survey methods)
抽樣權重、叢集抽樣、分層、線性變異數(shù)估計量、擬 - 概似最大估計量、回歸、工具變量…
生存分析(Survival analysis)
Kaplan–Meier、Nelson–Aalen、Cox回歸(弱性)、參數(shù)模式(弱性)、危險比例測試、時間共變項、左-右檢查、韋柏分配、指數(shù)分配…
流行病學工具(Tools for epidemiologists)
比例標準化、病例控制、已配適病例控制、Mantel – Haenszel,藥理學、ROC分析、ICD-9-CM
時間序列(Time series)
ARIMA、ARCH/GARCH、VAR、Newey–West、correlograms、periodograms、白色 - 噪音測試、最小整數(shù)根檢定、時間序列運算、平滑化
最大概似法(Maximum likelihood)
轉(zhuǎn)換及常態(tài)檢定(Transforms and normality tests)
Box–Cox、次方轉(zhuǎn)換Shapiro–Wilk、Shapiro–Francia檢定
其它統(tǒng)計方法(Other statistical methods)
樣本數(shù)量及次方、非線性回歸、逐步式回歸 、統(tǒng)計及數(shù)學函數(shù)
包含樣本范例(Sample session)
再抽樣及模擬方法(Resampling and simulation methods)
bootstrapping、jackknife、蒙地卡羅模擬、排列檢定
網(wǎng)絡功能
安裝新指令、網(wǎng)絡升級、網(wǎng)站檔案分享、Stata 最新消息
epiman論壇學習資源豐富,學術氛圍良好,在國內(nèi)新生代公共衛(wèi)生學術界有一定影響力。是探討Stata、spss、sas、epidata等統(tǒng)計軟件的主流論壇之一。