高级搜索运算符
site: - 限制搜索结果只显示特定网站或域名下的内容。
例如:site:gov.cn
intitle: - 搜索标题中包含特定关键词的网页。
例如:intitle:"OSINT 工具"
intext: 或 body: - 搜索正文中包含特定关键词的网页。
例如:intext:"开源情报"
filetype: - 搜索特定文件类型的文档。
例如:filetype:pdf OSINT 报告
inurl: - 搜索URL中包含特定关键词的网页。
例如:inurl:"OSINT"
define: - 查找特定词汇的定义。
例如:define:OSINT
related: - 查找与特定网站内容相关的网页。
例如:related:osintframework.com
"" - 搜索包含完整短语的网页。
例如:"开源情报分析"
OR 或 | - 搜索包含任一关键词的网页。
例如:OSINT OR 情报收集
- - 排除特定关键词的搜索结果。
例如:OSINT -教程
高级搜索运算符
filetype
文件类型运算符无疑是在高级搜索引擎技巧中最为钟爱的。
搜索引擎依赖于自动化的网络爬虫来定位并索引表层网络(Clear Web)上的在线内容。
这些爬虫程序访问网站、追踪链接并分析网页内容。当它们遇到不同文件类型的文档时,爬虫的索引系统会处理这些文档的上下文,提取出文本和元数据。
随后,这些信息被添加到搜索引擎的数据库中,并与相关的网页和文件类型相联系。当用户使用“filetype:”指令时,搜索引擎会筛选结果,仅展示与特定文件扩展名相匹配的条目。
文件类型运算符能够与任何其他高级搜索运算符结合使用,比如“site:”,“inurl:”,“allintext:”等。实际上,我很少单独使用文件类型运算符。你构造的搜索查询越具体,找到所需信息的可能性就越大。
例如,搜索“site:.gov.* filetype:pdf world map”(去掉引号)将返回数百万条结果,这些结果是托管在.gov.*域名下的PDF格式的世界地图文件,通常与政府网站相关。然而,PDF只是搜索引擎能够索引的数十种文件类型之一。
搜索引擎
索引哪些类型的文件?
Google、Yandex 和 Bing 在它们能够索引的文件格式方面存在一些差异,这影响了在使用“filetype:”搜索指令时可以指定的文件类型。
截至2023年10月,Google是拥有最广泛可索引文件扩展名的搜索引擎,它在2023年8月新增了几个文件扩展名。
Yandex和Bing也支持大量的文件扩展名,但它们没有包括某些对开源情报分析师和调查人员来说非常有价值的文件类型。
到目前为止,还没有发现任何只被Yandex或Bing索引而未被Google编目的文件类型。因此,下面的列表反映了截至2023年10月,各搜索引擎能够索引的最全面的文件类型。
哪些文件类型
对开源情报调查最有用?
在进行开源情报调查时,根据正在调查的人或事,以下是一些应该优先考虑的文件类型:
1. 数据库文件:
.csv、.xls、.xlsx和 .ods 文件扩展名是数据库文件中常见的格式。CSV文件用于存储大量简单的表格数据,以文本格式存储,每个值之间以逗号分隔。Excel文件(.xls 和 .xlsx)和OpenDocument电子表格(.ods)则用于更复杂的数据管理和分析。
对于数据库,.csv、.xls、.xlsx 和 .ods 等扩展非常有价值。定位到这些类型的文件后,将进入包含个人和身份信息、财务数据、库存记录、预算信息、机密业务数据等的用户列表。
在下面的示例中,目标是找到一个逗号分隔值 (csv) 文档,该文档显示一家英国医院的财务数据,该医院是 NHS 信托的一部分,其中包含在 2020 年 COVID 爆发期间收集的信息。
allintext:expenses financial 2020 filetype:csv site:nhs.uk
文件类型将是 csv 数据库,并且文档将托管在 nhs.uk 二级域中。结果,发现了 1000 多个符合标准的数据库。
该文档展示了一份名为“2020年10月信任交易数据”的报告,涵盖了2020年10月份与卫生部及布莱顿和苏塞克斯大学医院NHS信托基金(BSUH)之间的交易明细。
报告中详细列出了每笔交易的日期、费用分类、服务供应商以及交易金额,为了解该时间段内的财务状况提供了详尽的视角。
2. 书面文档:
.pdf、.doc、.docx 和 .odt文件扩展名是书面文档的常见格式。PDF文件广泛用于分发和查看文档,因为它保持了格式的一致性。Word文档(.doc 和 .docx)和OpenDocument文本文件(.odt)则用于创建和编辑文本文档。
使用文件扩展名如.pdf、.doc、.docx和.odt,可以便捷地定位到法律文档、官方报告、书籍、指南和说明书、成绩单、商业合同等多种类型的文档。
在下面的示例中,目标是搜寻美国政府发布的、与开源情报相关的PDF文件。为此,执行了一个搜索,专门查找URL中包含“osint”关键词、由.gov域名托管、且文件格式为PDF的索引文档。
搜索查询为:
inurl:osint site:.gov filetype:pdf
搜索结果的前三名分别是由卫生部门网络安全协调中心(HC3)、国土安全部(DHS)和中央情报局(CIA)提供的关于OSINT的PDF文件。
3. 地图文件:
.kml和 .kmz文件扩展名用于地图和地理空间数据。KML(Keyhole Markup Language)和KMZ(KML with compressed data)文件格式被Google Earth和Google Maps等应用程序用来显示地理数据。
小编对地理定位充满热情,喜欢在地图上探索有趣的细节,因此总是寻找.kml(Keyhole Markup Language)和.kmz(Keyhole Markup Zip)文件。
这两种文件格式都能用Google Earth Pro打开,它是目前最强大的开源情报工具之一,而且完全免费。
当搜索带有这些扩展名的文件时,可以发现各种地理空间数据,比如特定建筑、地标、路线、军事基地、科研站等的坐标。小编经常在搜索中发现一些甚至不知道存在的地点的坐标。
在下面的案例中,目标是找到极地地区漂移浮标的坐标。
这些专业的设备设计用来在海面上漂浮,并随着洋流移动。它们装有传感器和通信系统,能够收集并传输气象数据。由于它们的体积太小,无法通过卫星图像观测到,因此在广阔的海洋中定位它们几乎是不可能的。我认为,那些收集和管理这类数据的研究项目会密切关注浮标在不同时间点的位置。
通过以下方式进行搜索:
(filetype:kml OR filetype:kmz) AND (buoy polar research)
小编对.kml和.kmz文件类型没有特别的偏好,所以让Google同时搜索这两种类型,只要它们包含“buoy”、“polar”和“research”这些关键词。
通过这个搜索查询,发现了许多优秀的项目,它们提供了详细的数据信息,以及北极和南极地区漂流浮标的确切位置。
下面是一个找到的.kmz文件的截图,其中包含了一个研究项目的数据,包括2017年至2021年北极地区浮标的位置信息。
一名优秀的分析师应该熟悉Google、Yandex、Bing等主流搜索引擎提供的高级搜索功能。这些功能可以帮助用户筛选搜索结果,提高发现那些隐藏在海量信息中的有价值数据的机会。
“filetype:”是众多高级搜索功能中非常实用的一个,也是经常使用的技巧。通过这个功能,可以轻松定位到大量有趣的文档,尤其是当它与其他搜索技巧结合使用时。
这些文件类型因其包含的数据类型和结构,对于开源情报分析师来说特别有价值。
数据库文件可以提供大量的结构化数据,书面文档可能包含重要的文本信息,而地图文件则有助于地理空间分析和可视化。
在进行开源情报调查时,根据调查的具体需求,这些文件类型可以提供关键的信息和证据。
【开源情报分析】大鹅如何将朝军队运送到乌战争前线
从开源情报到人力情报,按难度对情报学科进行排名
【实战】使用开源情报破解谋杀案(一)
开源情报现在比以往任何时候都更能帮助警方打击犯罪
刚刚!美国国务院发布开源情报战略(附下载)