在Stata中,常用命令涵盖了数据管理、统计分析、结果呈现等多个方面,熟练掌握这些命令能有效提升数据处理和分析效率,数据管理方面,use
命令用于加载数据集,例如use "data.dta"
可打开当前路径下的Stata格式数据;save
命令用于保存数据,如save "newdata.dta", replace
会覆盖保存新数据集;describe
和summarize
分别提供数据的变量描述和统计摘要,前者显示变量类型、存储宽度等,后者给出均值、标准差等数值特征;generate
和replace
用于生成新变量或修改现有变量,如generate newvar = oldvar * 2
创建新变量为原变量的两倍;drop
和keep
用于删除或保留变量及观测值,例如drop if age < 18
会删除年龄小于18的观测值;merge
和append
实现数据集的合并与拼接,前者用于横向合并(如一对一、多对一合并),后者用于纵向追加数据;reshape
命令可将数据从宽格式转换为长格式或反之,解决不同分析需求的数据结构问题。

统计分析命令中,ttest
用于t检验,包括单样本、独立样本和配对样本t检验,如ttest score == 75
检验样本均值是否为75;anova
和oneway
分别用于多因素和单因素方差分析,oneway groupvar, tabulate
会输出各组均值和方差分析表;regress
(简写为reg
)是线性回归的核心命令,如reg y x1 x2
拟合y对x1和x2的回归模型,vif
选项可检验多重共线性;logit
和probit
用于 logistic 和 probit 回归,分析二元因变量的影响因素;tabulate
和cross-tabulate
(简写为tab
)用于生成交叉表,tab var1 var2, chi2
可进行卡方检验;correlate
(简写为cor
)计算变量间的相关系数矩阵,pwcorr
则给出 pairwise 相关性并支持显著性检验;summarize
结合by
前缀可实现分组统计,如by group: summarize score
按组计算score的统计量。
结果呈现与图形绘制方面,list
命令可列出数据部分或全部观测值,list var1 var2 in 1/10
显示前10条观测值的var1和var2;table
命令生成汇总表,如table group, contents(mean score sd score)
按group分组显示score的均值和标准差;graph
系列命令用于绘图,histogram var
绘制直方图,scatter y x
绘制散点图,scatter y x || lfit y x
可叠加回归线,boxplot var, over(groupvar)
绘制分组箱线图;esttab
和estout
是常用的结果输出命令,可将回归结果导出为表格,支持多种格式调整;estpost
和estimates
配合使用可存储和比较模型结果,如estimates store model1
保存模型1,estimates table model1 model2
对比两个模型结果。
相关问答FAQs:
-
如何处理缺失值?
Stata中可通过misstable summarize
查看缺失值分布,使用drop if missing(var1, var2)
删除含缺失值的观测值,或mi set
命令定义数据为多重插补数据格式,用mi impute
进行多重插补(如mi impute chained regress var1 var2, add(5)
添加5个插补数据集)。(图片来源网络,侵删) -
如何回归后保存预测值和残差?
在回归命令后,使用predict
命令,如reg y x1 x2
后,predict yhat, xb
保存线性预测值,predict resid, residuals
保存普通残差,predict rstudent, rstudent
保存学生化残差,预测值和残差会自动添加到数据集中,变量名可自定义。
