我做了个神器,专门对付搬运抄袭洗稿的家伙!

文摘   2024-12-02 16:05   四川  

大家好,我是轩辕。

一直以来,都有一个问题困扰着我,我在微信公众号发布的文章,老是被人搬运、洗稿和抄袭,防不胜防。

有一天我突然冒出来一个想法:我可以做个程序,利用AI的能力自动去帮我分析,及时找到那些抄袭搬运的家伙!

我的思路是这样的:

  • 第一步:输入我的文章地址,获取到文章内容之后,喂给大模型让它提取3个短句出来。

  • 第二步:拿着上面提取出来的短句,加上标题,去搜索引擎依次搜索,并且指定搜索CSDN网站的内容。

  • 第三步:访问搜索结果前两页的网页,拿到内容后,喂给大模型,让大模型与我原文章进行比较,打出一个相似度分值。

  • 第四步:如果大模型匹配相似度分值超过某个值,就输出给我。

经过一阵研究,我发现上面的流程非常适合做成一个AI智能体,我只需要告诉它一个文章地址,他就能自动告诉我互联网上有哪些文章是抄袭搬运洗稿我的。

又经过一阵研究,我发现了一个叫做dify的平台,可以通过这个平台非常快捷的完成上面的流程。最重要的是,这个产品有开源的版本,我可以自己部署一套来用。

dify官网介绍了好几种部署方式,最简单的当属通过宝塔面板一键安装。

安装完成之后,就可以在浏览器中来访问了。

dify中有四种应用,这里我们先来创建一个工作流,工作流可以把我们上面提到的检测搬运抄袭洗稿文章的流程自动化实现。

工作流由多个工作节点组成,节点之间可以通过输入输出来进行连接,我最终创建完成的工作流是这样子的:

有点长,我简单给大家介绍一下。

开始节点这里有一个输入参数,用来接收待分析的原创文章地址。

接下来这一步,用来获取文章的内容和标题,这是我用Python代码编写的一个独立程序,在dify这里通过HTTP API的形式来进行访问。

拿到文章内容和标题之后,接下来这个节点,把文章内容喂给AI大模型,让它从文章中提取三个短句出来。

经过数据格式转换后,进入一个循环迭代,把这三个短句和标题一起,总共四个数据作为关键词,喂给Google去搜索。

Google可能会搜出很多出来,这里我做了一下过滤,重点关注CSDN网站的搜索结果。

过滤之后的结果是一个数组,然后又进入一个循环迭代,依次处理过滤结果中的每一项内容。

具体处理过程是这样的:通过搜索结果的地址拿到文章的内容,然后把内容和我之前原创文章的内容整理好,一起喂给大模型,让其给出一个相似度分值。

最后如果分数超过60分,就把结果整理输出。

接下来再来创建一个Agent的应用,把刚刚创建的工作流作为一个工具提供给AI,写好提示词。

然后,我们就可以来使用了!来演示一下看看!

只需要一个文章链接,它就把那些搬运抄袭洗稿的家伙给我找出来了!

点击查看分析的结果,确实是搬运党无疑:

后面有时间,我还可以添加自动留言、举报的流程。甚至,还可以做一个视频搬运的自动化检测,我的视频也是经常被盗到抖音小红书等平台,这帮人实在太可恶了!

如果你对AI智能体感兴趣,欢迎添加微信(xuanyuanuncle)和我交流。

我是轩辕,求个关注和点赞,咱们下期见。

往期推荐

轩辕的编程宇宙
《趣话计算机底层技术》的作者轩辕之风,前百度、360、奇安信高级安全研发工程师
 最新文章