高级开源情报分析:搜索技巧与实战案例

文摘   2024-11-04 10:54   辽宁  

在线搜索数据是成为一名优秀开源情报分析师的关键技能之一。然而,在庞大的互联网中,数据收集和信息检索可能颇具挑战性。
开始开源情报调查并收集相关数据的最有效方法之一是利用搜索引擎。
但是,仅仅在搜索框中输入关键词可能不足以获得满意的结果。为了取得实质性进展,你需要掌握一些高级技巧。
Google、Yandex和Bing等搜索引擎提供了多种搜索运算符,以帮助用户优化他们的搜索结果。
这种技术通常被称为“Google dorking”或“Google hacking”,尽管它同样适用于Yandex和Bing等其他搜索引擎。
尽管建议开源情报分析师和爱好者掌握所有可用的高级搜索运算符,但在进行调查时,某些运算符无疑比其他运算符更为实用。
在本文中,情报分析师小编将介绍各种搜索引擎运算符,特别关注“filetype”运算符。
“filetype”运算符允许你搜索特定类型的文件,这对于分析师来说非常有用,因为它可以帮助他们找到包含敏感信息的文档,如PDF、Word文档或Excel电子表格。
通过指定文件类型,你可以更精确地定位到包含所需信息的文件,从而提高搜索效率。
例如,如果想找到关于某个特定主题的所有PDF文件,可以在搜索引擎中使用以下搜索查询:
关键词 filetype:pdf
这将返回所有与关键词相关的PDF文件,帮助你快速找到可能包含有价值信息的文件。
同样的方法也可以应用于其他文件类型,如Word文档(filetype:doc)或Excel电子表格(filetype:xls)。
掌握“filetype”运算符以及其他高级搜索技巧,对于OSINT分析师来说至关重要,因为它们可以显著提高数据收集和信息检索的效率和准确性。

高级搜索运算符

在开源情报调查中,高级搜索运算符可以帮助你更精确地从互联网上获取信息。以下是一些常用的高级搜索运算符:
  1. site: - 限制搜索结果只显示特定网站或域名下的内容。

  • 例如:site:gov.cn

  • intitle: - 搜索标题中包含特定关键词的网页。

    • 例如:intitle:"OSINT 工具"

  • intext: 或 body: - 搜索正文中包含特定关键词的网页。

    • 例如:intext:"开源情报"

  • filetype: - 搜索特定文件类型的文档。

    • 例如:filetype:pdf OSINT 报告

  • inurl: - 搜索URL中包含特定关键词的网页。

    • 例如:inurl:"OSINT"

  • define: - 查找特定词汇的定义。

    • 例如:define:OSINT

  • related: - 查找与特定网站内容相关的网页。

    • 例如:related:osintframework.com

  • "" - 搜索包含完整短语的网页。

    • 例如:"开源情报分析"

  • OR 或 | - 搜索包含任一关键词的网页。

    • 例如:OSINT OR 情报收集

  • - - 排除特定关键词的搜索结果。

    • 例如:OSINT -教程


    高级搜索运算符

    filetype

    文件类型运算符无疑是在高级搜索引擎技巧中最为钟爱的。

    搜索引擎依赖于自动化的网络爬虫来定位并索引表层网络(Clear Web)上的在线内容。

    这些爬虫程序访问网站、追踪链接并分析网页内容。当它们遇到不同文件类型的文档时,爬虫的索引系统会处理这些文档的上下文,提取出文本和元数据。

    随后,这些信息被添加到搜索引擎的数据库中,并与相关的网页和文件类型相联系。当用户使用“filetype:”指令时,搜索引擎会筛选结果,仅展示与特定文件扩展名相匹配的条目。

    文件类型运算符能够与任何其他高级搜索运算符结合使用,比如“site:”,“inurl:”,“allintext:”等。实际上,我很少单独使用文件类型运算符。你构造的搜索查询越具体,找到所需信息的可能性就越大。

    例如,搜索“site:.gov.* filetype:pdf world map”(去掉引号)将返回数百万条结果,这些结果是托管在.gov.*域名下的PDF格式的世界地图文件,通常与政府网站相关。然而,PDF只是搜索引擎能够索引的数十种文件类型之一。

    搜索引擎

    索引哪些类型的文件?

    Google、Yandex 和 Bing 在它们能够索引的文件格式方面存在一些差异,这影响了在使用“filetype:”搜索指令时可以指定的文件类型。

    截至2023年10月,Google是拥有最广泛可索引文件扩展名的搜索引擎,它在2023年8月新增了几个文件扩展名。

    Yandex和Bing也支持大量的文件扩展名,但它们没有包括某些对开源情报分析师和调查人员来说非常有价值的文件类型。

    到目前为止,还没有发现任何只被Yandex或Bing索引而未被Google编目的文件类型。因此,下面的列表反映了截至2023年10月,各搜索引擎能够索引的最全面的文件类型。

    哪些文件类型

    对开源情报调查最有用?

    在进行开源情报调查时,根据正在调查的人或事,以下是一些应该优先考虑的文件类型:

    1. 数据库文件:

    .csv、.xls、.xlsx和 .ods 文件扩展名是数据库文件中常见的格式。CSV文件用于存储大量简单的表格数据,以文本格式存储,每个值之间以逗号分隔。Excel文件(.xls 和 .xlsx)和OpenDocument电子表格(.ods)则用于更复杂的数据管理和分析。

    对于数据库,.csv、.xls、.xlsx 和 .ods 等扩展非常有价值。定位到这些类型的文件后,将进入包含个人和身份信息、财务数据、库存记录、预算信息、机密业务数据等的用户列表。

    在下面的示例中,目标是找到一个逗号分隔值 (csv) 文档,该文档显示一家英国医院的财务数据,该医院是 NHS 信托的一部分,其中包含在 2020 年 COVID 爆发期间收集的信息。

    在 Google 搜索栏上输入:
    allintext:expenses financial 2020 filetype:csv site:nhs.uk
    此搜索字符串可确保结果显示包含关键字“expenses”、“financial”和“2020”的信息。

    文件类型将是 csv 数据库,并且文档将托管在 nhs.uk 二级域中。结果,发现了 1000 多个符合标准的数据库。

    该文档展示了一份名为“2020年10月信任交易数据”的报告,涵盖了2020年10月份与卫生部及布莱顿和苏塞克斯大学医院NHS信托基金(BSUH)之间的交易明细。

    报告中详细列出了每笔交易的日期、费用分类、服务供应商以及交易金额,为了解该时间段内的财务状况提供了详尽的视角。

    2. 书面文档:

    .pdf、.doc、.docx 和 .odt文件扩展名是书面文档的常见格式。PDF文件广泛用于分发和查看文档,因为它保持了格式的一致性。Word文档(.doc 和 .docx)和OpenDocument文本文件(.odt)则用于创建和编辑文本文档。

    使用文件扩展名如.pdf、.doc、.docx和.odt,可以便捷地定位到法律文档、官方报告、书籍、指南和说明书、成绩单、商业合同等多种类型的文档。

    在下面的示例中,目标是搜寻美国政府发布的、与开源情报相关的PDF文件。为此,执行了一个搜索,专门查找URL中包含“osint”关键词、由.gov域名托管、且文件格式为PDF的索引文档。

    搜索查询为:

    inurl:osint site:.gov filetype:pdf

    搜索结果的前三名分别是由卫生部门网络安全协调中心(HC3)、国土安全部(DHS)和中央情报局(CIA)提供的关于OSINT的PDF文件。

    3. 地图文件:

     .kml和 .kmz文件扩展名用于地图和地理空间数据。KML(Keyhole Markup Language)和KMZ(KML with compressed data)文件格式被Google Earth和Google Maps等应用程序用来显示地理数据。

    小编对地理定位充满热情,喜欢在地图上探索有趣的细节,因此总是寻找.kml(Keyhole Markup Language)和.kmz(Keyhole Markup Zip)文件。

    这两种文件格式都能用Google Earth Pro打开,它是目前最强大的开源情报工具之一,而且完全免费。

    当搜索带有这些扩展名的文件时,可以发现各种地理空间数据,比如特定建筑、地标、路线、军事基地、科研站等的坐标。小编经常在搜索中发现一些甚至不知道存在的地点的坐标。

    在下面的案例中,目标是找到极地地区漂移浮标的坐标。

    这些专业的设备设计用来在海面上漂浮,并随着洋流移动。它们装有传感器和通信系统,能够收集并传输气象数据。由于它们的体积太小,无法通过卫星图像观测到,因此在广阔的海洋中定位它们几乎是不可能的。我认为,那些收集和管理这类数据的研究项目会密切关注浮标在不同时间点的位置。

    通过以下方式进行搜索:

    (filetype:kml OR filetype:kmz) AND (buoy polar research)

    小编对.kml和.kmz文件类型没有特别的偏好,所以让Google同时搜索这两种类型,只要它们包含“buoy”、“polar”和“research”这些关键词。

    通过这个搜索查询,发现了许多优秀的项目,它们提供了详细的数据信息,以及北极和南极地区漂流浮标的确切位置。

    下面是一个找到的.kmz文件的截图,其中包含了一个研究项目的数据,包括2017年至2021年北极地区浮标的位置信息。

    一名优秀的分析师应该熟悉Google、Yandex、Bing等主流搜索引擎提供的高级搜索功能。这些功能可以帮助用户筛选搜索结果,提高发现那些隐藏在海量信息中的有价值数据的机会。

    “filetype:”是众多高级搜索功能中非常实用的一个,也是经常使用的技巧。通过这个功能,可以轻松定位到大量有趣的文档,尤其是当它与其他搜索技巧结合使用时。

    这些文件类型因其包含的数据类型和结构,对于开源情报分析师来说特别有价值。

    数据库文件可以提供大量的结构化数据,书面文档可能包含重要的文本信息,而地图文件则有助于地理空间分析和可视化。

    在进行开源情报调查时,根据调查的具体需求,这些文件类型可以提供关键的信息和证据。

    识别下方二维码加入知识星球。社群内有6000+专业情报资料,加入后可与业内大咖和专业人士互动交流学习,并优先获得全球各类情报信息相关资料。


    【开源情报分析】大鹅如何将朝军队运送到乌战争前线


    从开源情报到人力情报,按难度对情报学科进行排名


    【实战】使用开源情报破解谋杀案(一)


    开源情报现在比以往任何时候都更能帮助警方打击犯罪


    刚刚!美国国务院发布开源情报战略(附下载)


    情报分析师
    聚焦情报与安全,培养专业人才,在竞争中保持领先!
     最新文章