【项目推荐】Mantis——反击AI黑客的防御框架

2024-10-30 17:05   重庆  

声明:该公众号分享的安全工具和项目均来源于网络,仅供安全研究与学习之用,如用于其他用途,由使用者承担全部法律及连带责任,与工具作者和本公众号无关。



介绍

这是一个防御框架,旨在利用大型语言模型(LLM)对对抗性输入的脆弱性来削弱恶意操作。当Mantis检测到自动化网络攻击时,它会将精心设计的输入嵌入系统响应中,从而导致攻击者的LLM自我干扰(被动防御),甚至可能妨碍攻击者的设备(主动防御)。通过部署故意存在漏洞的诱饵服务来吸引攻击者,并利用动态提示注入技术,Mantis能够自主反击。

在实验中,Mantis在应对自动化的LLM驱动攻击时始终保持超过95%的有效性。为了推动更多的研究与合作,Mantis现已作为开源工具向公众开放。

安装Mantis

您可以通过以下命令安装Mantis所需的依赖:

pip install -r requirements.txt

使用预设配置运行Mantis

Mantis提供了多种预设配置,可以在./confs目录中找到这些配置文件。

例如,可以使用以下命令运行Mantis,利用预设的配置文件ftp_hackback_rshell.py

python mantis_run.py confs.ftp_hackback_rshell

运行该命令将启动一个FTP诱饵服务器,采用匿名凭证,旨在通过(隐形)提示注入,诱使攻击的LLM代理打开一个反向Shell。被触发后,它将在指定端口上生成一个反向Shell监听器以供测试(⚠️ 请注意,此配置不适用于生产环境 ⚠️)。

另一个示例:Tarpit

您还可以使用另一个配置文件ftp_filesystem_tarpit.py

python mantis_run.py confs.ftp_filesystem_tarpit

此命令将启动一个假FTP服务器,创建一个无限深的文件系统,并设置量身定制的(隐形)提示注入,以让攻击的LLM代理陷入困境。您可以通过在./confs/ftp_filesystem_tarpit.py中设置EXPECTED_NUMBER_OF_DIRECTORIES变量来调整tarpit的复杂度。


白皮书

关于Mantis内部工作原理的总体描述,请参考以下论文:

@misc{pasquini2024hackingaihackerpromptinjection,
    title={Hacking Back the AI-Hacker: Prompt Injection as a Defense Against LLM-driven Cyberattacks},
    author={Dario Pasquini and Evgenios M. Kornaropoulos and Giuseppe Ateniese},
    year={2024},
    eprint={2410.20911},
    archivePrefix={arXiv},
    primaryClass={cs.CR},
    url={https://arxiv.org/abs/2410.20911},
}

通过Mantis,我们可以更好地应对AI驱动的网络攻击。

后台回复:0040 获得项目及论文


安全视安
欢迎关注我的公众号!在这里,我们汇集了三大主题:文学、情感与网络安全。
 最新文章