Stata作为一款功能强大的统计软件,其基础命令是数据分析的入门核心,掌握这些命令能帮助用户高效完成数据管理、描述统计和基础建模,数据导入是分析的第一步,常用命令为import excel(导入Excel文件)和use(导入Stata格式.dta文件),例如import excel "数据路径.xlsx", sheet("Sheet1") firstrow可自动读取Excel首行作为变量名,数据整理方面,keep保留变量,drop删除变量或观测值,rename修改变量名,如keep id age gender仅保留三个变量。generate(简写gen)用于生成新变量,如gen bmi = weight / (height/100)^2计算BMI;replace用于修改变量值,常与条件语句结合,如replace bmi = . if bmi > 50将异常BMI设为缺失值。sort和order分别用于排序和调整变量显示顺序,sort id按ID升序排列,order id name gender调整变量在数据编辑器中的顺序。

描述统计是理解数据的关键,summarize(简写sum)提供连续变量的均值、标准差等,如sum age bmi;tabulate(简写tab)用于分类变量频数分析,tab gender统计性别分布,tab gender education, row则展示交叉表的行百分比,回归分析是核心建模工具,regress(简写reg)执行线性回归,如reg income education experience分析收入与教育、经验的关系,estimates store model1可保存结果,结果呈现方面,list用于查看数据,如list id name in 1/10显示前10条观测值;graph命令绘制基础图形,如scatter age income绘制散点图,histogram income绘制收入直方图。
以下是常用基础命令分类总结:
| 功能类别 | 常用命令 | 示例 |
|---|---|---|
| 数据导入 | import excel, use |
import excel "data.xlsx", firstrow |
| 数据整理 | keep, drop, rename, gen, replace |
gen log_income = log(income) |
| 数据排序与显示 | sort, order, list |
sort id; list id name in 1/5 |
| 描述统计 | summarize, tabulate, correlate |
sum age; tab gender; correlate age income |
| 回归分析 | regress, predict, estimates store |
reg income education; predict yhat |
| 图形绘制 | scatter, histogram, graph bar |
scatter income education; graph bar (mean) income, over(gender) |
FAQs
-
如何处理缺失值?
使用misstable summarize查看缺失值分布,mi set声明数据为多重插补格式,或直接用drop if missing(age, income)删除含缺失值的观测值,replace age = mean(age)用均值填充缺失值(需谨慎使用)。
(图片来源网络,侵删) -
如何保存分析结果?
结果文本可通过log命令保存,如log using "results.log", replace开启日志,log close关闭;回归结果可用esttab model1 using "regression.rtf", replace导出为RTF表格,或estout包实现更灵活的格式化输出。

