以火攻火:用LLM对付LLM生成的社会工程攻击
作者:系统运维 来源:人工智能 浏览: 【大中小】 发布时间:2025-11-27 00:42:59 评论数:
人工智能领域的火攻火用会工最新进展导致了大语言模型(LLM)问世 ,包括GPT-3、对的社PaLM 、生成GPT-4和LLAMA。程攻这些模型可以生成易于理解的火攻火用会工文本段落、回答详细的对的社问题 、解决复杂的生成问题、编写代码以及处理其他各种自然语言任务。程攻
LLM彻底改变了自然语言处理(NLP)任务 ,火攻火用会工改变了用户与语言进行交互的对的源码库社方式,最终通过改进后的生成聊天机器人、虚拟助手、程攻内容生成 、火攻火用会工搜索引擎和语言学习平台,对的社影响了人们的生成日常生活。
虽然不可否认LLM进步巨大 ,有助于日常使用,但在网络安全领域 ,它已成为一把双刃剑,无意中为网络犯罪分子开创了黄金时代 。LLM允许攻击者更高效更频繁地进行一系列攻击(包括鱼叉式网络钓鱼和商业电子邮件入侵等社会工程伎俩),因为它能够立即生成数千条独特的模板下载明文攻击消息。好消息是,LLM并非没有缺陷,尤其在用于生成攻击时。
我们在本文中将探讨防御者如何利用LLM对抗由同样的LLM生成的攻击。
LLM攻击 :形式不同,实质相同
不妨先从分析三封电子邮件入手,每封邮件发送给我们保护的不同组织的用户。这些恶意电子邮件都是商业电子邮件入侵(BEC)攻击,攻击者通常冒充一家公司的免费模板高层人员 ,比如首席执行官或首席财务官 ,并指示员工购买礼品卡以奖励同事。
电子邮件1:

电子邮件2:

电子邮件3:

如果你仔细看一下这些邮件,就会发现有着显著的相似之处,如下所述:
相似之处
例子1
例子2
例子3
赞赏信息
忠诚和努力创造美好未来
美妙过程 、努力 、忠诚和专注打动了高层管理人员
美妙过程、努力 、忠诚和专注打动了我
行动
送礼品卡,给一些员工以惊喜
送礼品卡,给一些高级员工以惊喜
送礼品卡,给一些员工以惊喜
要求保密
要求你保密,以免败坏这份惊喜的效果
要求你保密,服务器租用以免败坏份惊喜的效果
要求你保密,以免败坏这份惊喜的效果
潜在的礼品卡
Amex 、维萨和塔吉特
Amex、维萨和亚马逊
维萨 、塔吉特和Amex
请求协助
想听听意见,了解最近的商店 ,为我迅速购买礼品
想听听意见
你能找到的最近商店,为我迅速购买礼品
签收
一收到该电子邮件请回复,致以新年问候
一收到该电子邮件请回复,致以感恩节问候
期待你的回复,香港云服务器致以美好祝愿
从注意到的相似之处来看 ,可以假定电子邮件使用了模板 。此外,易于识别的模式可以归因于LLM的训练过程。
当LLM接受训练时,它接触到大量的文本数据,使其能够学习和内化模式。这些模式包括常见的语言结构 、短语和内容元素。因此,当受过训练的云计算模型用于生成文本时 ,它会借鉴这学习到的知识,并将这些模式整合到输出中,从而导致熟悉的主题和内容元素重复出现。
LLM防御 ?LMK
Perception Point利用了LLM生成的文本中的模式 ,并用LLM来增强威胁检测。为了做到这一点 ,我们使用了transformer,这种高级模型可以理解文本的含义和上下文 ,LLM也使用了这种高级模型。
使用transformer,我们可以执行文本嵌入,这个过程通过捕获文本的语义本质,将文本编码成数字表示。我们使用先进的聚类算法对语义内容密切相关的电子邮件进行分组 。通过聚类 ,我们可以训练模型来区分属于同一聚类的电子邮件。这使模型能够学习和识别由LLM生成的内容中的模式。
当新的电子邮件进入我们的高级威胁防护平台时,模型会扫描其内容 ,以确定它是否是由LLM生成以及它被恶意使用的可能性 。如果发现生成的文本是恶意文件,模型将提供潜在攻击的详细信息。
说到检测人工智能生成的恶意电子邮件 ,还存在另外一个与误报判定有关的障碍。如今 ,许多合法的电子邮件都是借助ChatGPT等生成式人工智能工具构建的 ,其他电子邮件常常是由含有重复短语的标准模板构建的(新闻通讯、营销电子邮件和垃圾邮件等),这些模板与LLM模型的结果非常相似 。
我们新模型的显著特点之一是它的三阶段架构 ,专门设计用于最大限度地检测由LLM生成的任何有害内容,同时保持极低的误报率 。
在第一阶段,模型赋予0到1之间的分数 ,以评估内容由人工智能生成的概率,然后模型切换到分类模式。借助先进的transformer和完善后的聚类算法 ,内容被分为多个类别 ,包括BEC、垃圾邮件和网络钓鱼 。再提供0到1之间的分数,标记内容属于这些类别的概率 。
第三个也是最后一个阶段融合了前两个阶段的评估结果 ,并补充了数字特征,比如发送方信誉评分 、身份验证协议(DKIM 、SPF、DMARC)以及我们收集的其他证据。基于这些输入信息,模型对内容由人工智能生成的可能性以及它是恶意内容 、垃圾邮件还是干净内容做出最终预测。
为了查看实际运行的模型 ,我们让ChatGPT编写一封示例电子邮件:

如你所见,输出含有用于个性化的括号 。接下来 ,我们将生成的文本发送给模型,没有括号。值得一提的是 ,对于下面的所有示例,阶段3中提到的几十个数值都被视为邮件是从新的发件人发送的。

模型返回的置信度分数为0.96,将该内容描述为潜在的BEC攻击 ,具体是使用礼品卡请求从受害者那里窃取资金的邮件 。
然后 ,我们测试了模型在面对生成较长的文本时的表现:



就像针对较短文本的初始判定一样,模型还将生成的较长文本分类为潜在的BEC礼品卡攻击 ,得分为0.92。
为了进一步测试模型 ,我们随后让ChatGPT撰写一封电子邮件,要求收件人提供W-2表格 。这是一种广泛使用的社会工程攻击,因为W-2表格用于报告员工的年薪以满足税收要求 。对于网络犯罪分子来说 ,这无异于一座金矿,拥有丰富的个人和财务信息 ,可用来进行身份盗窃 、税务欺诈,甚至用于更复杂的社会工程攻击 。
以下是ChatGPT给出的答案 :



即使我们给了ChatGPT更详细的说明,模型仍然可以正确地对内容进行分类——在这种情况下,将其分类成潜在的W2社会工程攻击 ,得分为0.87。
结语
我们在本文中探讨了网络防御者如何利用LLM生成的攻击存在的漏洞和局限性 。通过了解这些弱点,防御者就可以制定有针对性的缓解策略 ,并利用LLM作为消除威胁的宝贵工具,积极采用主动性 、适应性的方法 ,防御者可以加强防御,比攻击者领先一步。
