首页 热门文章

Stata怎么用?从界面认识到完整分析流程的入门指南

时间: 2026-01-03    浏览量: 17779

一、认识Stata的界面

第一次启动Stata,你会看到四个主要的窗口。理解它们的分工,是熟练使用Stata的第一步。

命令窗口位于界面下方,有一条横线和一个闪烁的光标。这是你输入命令的地方。在这里敲下命令并按回车,Stata就会执行它。

结果窗口占据了界面的主要部分,用来显示命令执行后的输出结果。所有的统计分析结果、错误提示都会显示在这里。

变量窗口通常位于右上方,列出当前数据集中所有变量的名称。双击某个变量名,它会自动插入到命令窗口中,省去手动输入的麻烦。

历史窗口记录了你执行过的所有命令。如果某条命令写对了,下次想再用,可以直接在历史窗口中双击它,或者用PageUp/PageDown键翻找。

除了这四个核心窗口,还有一个非常重要的存在:do文件编辑器。do文件是Stata的脚本文件,你可以把一系列命令写在一个do文件里,然后一次性运行。这是实现可复现研究的关键工具。点击菜单栏的“Window”→“Do-file Editor”或者直接点工具栏上的图标,就能打开do文件编辑器。

二、数据导入:让Stata认识你的数据

做任何分析之前,第一步都是把数据导入Stata。Stata支持多种常见的数据格式。

导入Stata格式文件(.dta)

如果你拿到的是已经保存好的Stata数据文件,操作最简单。在命令窗口输入:


use "文件路径.dta", clear

clear选项的作用是清空当前内存中的数据,避免和新数据冲突。你也可以直接把这个文件拖拽到Stata窗口中,同样可以打开。

导入Excel文件

Excel是日常最常用的数据格式。导入Excel的命令是import excel:


import excel "文件路径.xlsx", sheet("Sheet1") firstrow clear

这条命令的含义是:导入指定Excel文件,取名为“Sheet1”的工作表,把第一行作为变量名,清空当前内存中的数据。如果你的Excel文件只有一个工作表,sheet()选项可以省略。

导入CSV文件

对于CSV文件,使用import delimited命令:

import delimited "文件路径.csv", clear

默认情况下,Stata会自动识别第一行是否为变量名。如果第一行不是变量名,可以加上varnames(nonames)选项。

数据导入后,可以用browse命令打开数据编辑器,直观地查看数据内容;用describe命令查看数据的基本信息,包括变量个数、观测数、每个变量的存储类型等;用list命令在结果窗口中列出数据的前几行。

三、数据清洗:把数据整理干净

真实世界的数据很少是完美的,直接拿来分析往往会有问题。数据清洗就是把这些“脏数据”处理干净的过程。

处理变量类型

有时候从Excel导入后,某些变量在变量窗口中显示为红色,这是因为Stata把它们识别成了字符串(字符型),无法直接用于数值分析。这时需要用destring命令将其转换为数值型:


destring 变量名, replace

如果想把所有能转换的变量都转一遍,可以用destring _all, replace。

处理缺失值

数据中的缺失值在Stata中用点号(.)表示。可以用misstable summarize命令查看各变量的缺失情况。如果需要把某些特殊数值(比如999)转换为缺失值,可以用mvdecode命令:


mvdecode _all, mv(999)

处理异常值

异常值会影响分析结果的稳定性和显著性。常用的处理方法是缩尾(winsorizing),即把极端值替换为某个百分位上的数值。Stata中可以用winsor2命令实现:


winsor2 变量名, replace cuts(1 99)

这条命令会把小于1%分位数和大于99%分位数的值替换掉。

生成新变量

在分析中经常需要根据已有变量计算新变量,用generate命令:


generate 新变量名 = 表达式

比如根据出生年份计算年龄:generate age = 2026 - birth_year。如果要修改变量属性,可以用rename(重命名)、label variable(添加变量标签)、label define(定义值标签)等命令。

四、描述性分析:了解数据的基本面貌

在跑复杂的模型之前,先对数据进行描述性分析,是每个严谨研究者的习惯。这能帮你初步了解数据的分布特征,也能发现一些明显的问题。

描述性统计

summarize命令是最基础的描述性统计命令,可以计算变量的均值、标准差、最小值和最大值:


summarize 变量1 变量2 变量3

如果加上detail选项,会输出更详细的信息,包括百分位数、方差、峰度、偏度等:


summarize 变量1, detail


#### 频数统计

对于分类变量,可以用`tabulate`命令查看频数和百分比:

tabulate 性别


如果想看两个分类变量的交叉表,可以加上第二个变量:

tabulate 性别 地区


#### 相关性分析

在回归之前,可以先看看变量之间的相关关系。`correlate`命令会输出变量间的相关系数矩阵:

correlate 收入 教育年限 工作经验


如果加上`means`选项,还会同时输出描述性统计。

### 五、数据可视化:一图胜千言

图形能直观地展示数据的分布和关系。Stata的绘图功能非常强大,这里介绍几个最常用的。

#### 直方图

查看单个变量的分布,用`histogram`命令:

histogram 收入, normal


`normal`选项会在图上叠加一条正态分布曲线,方便对比。

#### 散点图

查看两个连续变量的关系,用`scatter`命令:

scatter 收入 教育年限


如果想加上拟合线,可以用`twoway`组合命令:

twoway (scatter 收入 教育年限) (lfit 收入 教育年限)


#### 箱线图

箱线图能直观地显示数据的分布和异常值:

graph box 收入


图形生成后,可以通过点击图形窗口的“File”→“Save Graph”保存为图片格式,方便插入到论文或报告中。

### 六、回归分析:回答核心研究问题

回归分析是Stata最核心的功能,也是大多数实证研究的重头戏。

#### 线性回归

最基本的线性回归用`regress`命令:

regress 因变量 自变量1 自变量2 自变量3


比如研究收入与教育年限、工作经验的关系:

regress 收入 教育年限 工作经验


如果数据中存在异方差问题(这在横截面数据中很常见),可以加上稳健标准误选项:

regress 收入 教育年限 工作经验, vce(robust)


#### 处理分类变量

如果自变量中包含分类变量(如性别、地区),需要在变量名前加上`i.`前缀,告诉Stata这是一个分类变量,需要自动生成虚拟变量:

regress 收入 教育年限 工作经验 i.性别 i.地区


#### 解读回归结果

回归命令执行后,Stata会输出一系列结果。需要重点关注几个核心指标:

**R方**表示自变量能够解释因变量变异的百分比,取值在0到1之间。比如R方为0.35,意味着自变量可以解释因变量35%的变化。

**F统计量的p值**用于检验模型整体的显著性。如果p值小于0.05,说明模型整体上有统计学意义。

**回归系数**表示自变量对因变量的影响大小和方向。正系数表示正相关,负系数表示负相关。比如教育年限的系数为0.5,意味着教育年限每增加一年,收入平均增加0.5个单位。

**p值**判断每个自变量是否显著。通常p值小于0.05,说明该自变量对因变量有显著影响;p值小于0.01,说明影响非常显著。[citation:4]

#### 结果导出

回归结果需要放到论文里,可以用`esttab`命令导出到Word或Excel:

esttab using 结果.doc, replace


如果想把多个模型的结果放在一起,可以先分别运行回归并用`est store`保存,然后用`esttab`一次性导出。

### 七、工作流程管理:从零散命令到系统分析

随着分析的深入,你会发现直接在命令窗口敲命令存在两个问题:一是容易忘记之前做过什么,二是如果中间某步出错,重新执行很麻烦。解决方法是使用**do文件**。

do文件是纯文本文件,里面存放着一条条Stata命令。你可以一次性运行整个do文件,也可以分段运行。这种工作方式有几个好处:

**可复现**:无论过多久,只要重新运行do文件,就能得到完全一样的结果。

**可修改**:如果发现某步有误,只需要修改do文件中对应的命令,重新运行即可,不用从头再敲一遍。

**可共享**:把数据和do文件一起发给同行,对方就能复现你的整个分析过程。

在do文件编辑器中编写命令时,可以用`*`开头添加注释,解释这段代码在做什么。这是一个非常好的习惯,对自己、对合作者都有帮助。 ### 八、学习资源推荐

对于刚开始接触Stata的朋友,以下几个学习资源值得推荐。

**官方帮助**:在命令窗口输入`help 命令名`,可以查看该命令的详细说明和示例。这是最权威、最全面的参考资料。

**入门书籍**:国内比较经典的Stata入门书有陈强的《计量经济学及Stata应用》,以及劳伦斯·汉密尔顿的《应用Stata做统计分析》。前者偏重计量方法,后者偏重操作技巧。[citation:1]

**在线课程**:国家高等教育智慧教育平台、B站等平台上有不少免费的Stata入门视频,适合视觉学习者。

**学术论文复刻**:从《中国工业经济》等期刊官网下载作者公开的数据和代码,尝试复刻一篇论文的实证结果,是提升Stata能力的有效方式。

### 结语

Stata怎么用?从认识界面开始,到导入数据、清洗整理、描述分析、回归建模,再到用do文件把整个过程串起来,这就是一套完整的Stata使用流程。刚开始可能会觉得命令记不住,但多练习几次就会发现,常用的其实就那么二三十条命令。

对于正站在Stata门槛前的你来说,最好的学习方式就是打开软件,找一组数据,跟着本文的操作走一遍。遇到不懂的命令,就用`help`查一下。慢慢地,你会从“怎么用”的困惑中走出来,进入“怎么用好”的新阶段。
关键词:Stata怎么用,Stata教程,Stata入门,Stata命令,数据分析软件

Copyright @ 国际会议云 2026 版权所有 蜀ICP备2022018807号-3 网站地图