htmltab2stata:将 html 表格加载到 Stata 中
来源:htmltab2stata帮助手册
1. 语法
一般语法为:
htmltab2stata , url(_url_) [tablenumber(_integer_) firstrow href]
2. 选项
url(*url*) 需要处理的 HTML 网站的 URL。该 url 必须是可下载的 html 网站。url 可以是 Web 地址或本地 HTML 文件。
tablenumber(*integer*) HTML 文档中的表数。默认值为 1,即处理第一个表。
第一行使用表的第一行作为变量名称。
href中包含的链接将添加到传输到 Stata 的内容中。``
3. 描述
htmltab2stata 解析来自网站的 HTML 代码。它检测 html 环境中包含的表,并将该表转换为 Stata 数据集。为此,htmltab2stata 解析 html 代码,并将代码用作行标识符和包含在列中的代码。它只传输未包含在 Stata 中的内容,除非对链接使用选项 href。空单元格在 Stata 数据集中保持为空。
4. 示例
对于所有示例,将处理以下 table.html 中保存的 html 代码中的表格:
Content
Table 1
<table>
<tr><th>Country</th><th>Population</th><th>GDP</th></tr>
<tr><td>Country A</td><td>10</td><td>100</td></tr>
<tr><td>Country B</td><td>20</td><td>5</td></tr>
<tr><td>Country C</td><td>500</td><td>10</td></tr>
</table>
More Content
Table 2
<table>
<tr><th>Firstname</th><th>Surname</th><th>Webpage</th></tr>
<tr><td>Adam</td><td>Smith</td><td>none</td></tr>
<tr><td>Allan</td><td>Richards</td><td><a href="www.google.com">webpage</a></td></tr>
<tr><td>Richard</td><td>Johnson</td><td></td></tr>
</table>
将 Table 作为数据集加载到 Stata 中:
htmltab2stata , url(table.html)
返回:
.list
+---------------------------------+
| myvar1 myvar2 myvar3 |
|---------------------------------|
1. | Country Population GDP |
2. | Country A 10 100 |
3. | Country B 20 5 |
4. | Country C 500 10 |
+---------------------------------+
要使用第一列作为变量名称,需要选项 firstrow。
htmltab2stata , url(table.html) firstrow
.list
+----------------------------+
| Country Popula~n GDP |
|----------------------------|
1. | Country A 10 100 |
2. | Country B 20 5 |
3. | Country C 500 10 |
+----------------------------+
要处理表 2,请使用第一行作为变量名称,并将超链接的 url 作为文本添加到内容中:
stata htmltab2stata , url(table.html) firstrow tablenumber(2) href
. list
+----------------------------------------------+
| Firstn~e Surname Webpage |
|----------------------------------------------|
1. | Adam Smith none |
2. | Allan Richards www.google.com webpage |
3. | Richard Johnson |
+----------------------------------------------+
5. 如何安装
在 Stata 中:
net install htmltab2stata, from(https://janditzen.github.io/htmltab2stata/)