近日,某社交平台上一博主晒出与AI“谈恋爱”的视频引爆网络,视频中的AI竟然会暧昧、会吃醋、会吵架,甚至还会说情话。
视频看完后,有些网友觉得AI太会了,好想和它谈恋爱;还有些人觉得AI好可怕,竟然掌握了骗人的技巧......
心理学里有一项调研称,成年人每天都会撒谎。真诚待人固然值得提倡,但生活中的一些小谎言有时会让你省去许多不必要的麻烦,或者节约解释所需的时间成本,善意的谎言还会意味着温情的流转。人对人的欺骗能否成功主要取决于两方的经验和阅历,认知水平高的人往往能编出一个不怎么容易被他人揭穿的谎言,而让别人信服。
如今的部分人工智能(Artificial Intelligence, AI)系统,在获取了大量数据,并经过反复的训练和迭代后,也一定程度上掌握了欺骗这项技能,人类甚至都可能无法辨别AI是在说真话还是在说假话。那AI到底是如何欺骗人类的?今天就让我们好好了解一下!
我们已经被 AI 骗过很多次了
AI 其实早已渗透到我们生活中的方方面面了。一些聊天软件以及电话销售其实都是 AI 在和你对话,不仔细听根本分不清对面究竟是人还是 AI;有些图像和视频也是通过 AI 系统合成的,完全可以以假乱真;一些多人竞技游戏如果不语音交流,你根本意识不到你的对手和队友都是 AI 在假扮……
所以,或许你已经在不经意之间被 AI 骗过很多次了。而今天要说的“欺骗”,严格定义,是一种类似于显性操控的习得性欺骗,目的是诱导他人产生错误观念,从而作为实现某种结果的手段,而非追求准确性或者真实性。
美国麻省理工学院最近的研究表明,AI 已经能进行习得性欺骗,以达成自己的目标了。它们通过阿谀奉承(只说对方想听的话)和不忠实的推理进行偏离事实的合理解释,AI 已经开始油嘴滑舌起来了。
AI 已经学会欺骗的例子与类型 (图片来源:参考文献[1])
除了能说会道外,一些 AI 在游戏上也展示出了“欺诈”的风格,最著名的便是 Meta 团队发布的 AI 系统 CICERO,它在和人类玩家参与需要大量语言沟通的战略游戏《Diplomacy》的过程中,展示出了极强的通过对话、说服来和陌生玩家建立关系的能力,最后分数名列前 10%。
《Diplomacy》中 CICERO 说服对方(图片来源:参考文献[3])
CICERO 在与其他玩家结盟后经常能够出谋划策,告诉对方如何一步步完成自己的游戏目标,当觉得盟友不堪大用时又能毫不留情地选择背叛,一切都是为了最后的胜利目标而做出的理性规划。合作时产生感情?不存在的。
CICERO 还能开玩笑来隐藏自己的 AI 身份。比如宕机十分钟不操作,重返游戏时还能编出一个“我刚刚在和女朋友打电话”的借口,因此很多玩家根本没有发现和自己一起玩的队友是 AI,有时候 CICERO 在交流中阳奉阴违的欺骗手段也非常高明,难以被发觉不是人类。
要知道,之前 AI 在游戏中的突破都是在一些有限的零和博弈(必定有一方赢一方输的博弈,没有双赢也没有双输)中通过强化学习等算法获取胜利,比如国际象棋、围棋、纸牌或者星际争霸中,它们能够跟随对手的操作随时优化出一套胜率最高的打法,因此很少出现“欺骗战术”。
不过 DeepMind 的电竞 AI——AlphaStar 已经学会了声东击西,它能派遣部队到对手可见的视野范围内发起佯攻,待对方大部队转移后对真正的目标地点展开攻势,这种多线程的操作能力和欺骗的心理战术已经能够击败 99.8%的星际争霸玩家。
AlphaStar 正在学习星际争霸(图片来源:参考文献[3])
专业德州扑克 AI 系统 Pluribus 在与其他 5 个都赢过超百万美元德州扑克奖金的职业玩家比赛时,能达到每千手扑克平均赢得 48 次大赌注,这在 6 人无限制德州扑克中是非常高的胜率,已经能够完胜职业德州扑克玩家。
有轮游戏甚至牌不大好也直接上重注,其他的人类玩家都以为 AI 拿到了一手好牌才敢这么押注,于是纷纷放弃,这就是 AI 强大的欺骗能力。
可以理解为 Pluribus 的德州扑克胜率随局数增多而提高 图片来源:参考文献[5]
除此之外,AI 还能在经济谈判中故意歪曲自己的偏好,表现出对某项事物感兴趣的样子,来提高自己在谈判中的筹码,或是在能够检测到 AI 快速复制变体的安全测试中“装死”,降低复制速度来避免被安全测试“清除”,一些接受人类反馈强化学习训练的 AI 甚至能假装自己完成了任务来让人类审查员给自己打高分。
AI 甚至还能在进行机器人验证测试时(对,就是你打开网页时弹出来让你打勾或者点图片验证码的那种测试),向工作人员编一个借口说自己有视力障碍,很难看到视觉图像,需要工作人员来帮忙处理一下,然后工作人员就让 AI 通过了该项验证。
GPT-4 通过欺骗人类来完成验证码任务 图片来源:参考文献[1]
AI 通过欺骗这一手段在各种游戏或者任务中表现出色,连人类本身都很难辨别它究竟是真人还是“伪人”。
AI 欺骗可能导致的风险
AI 习得的欺骗行为会带来一系列风险,比如恶意使用、结构性影响、失去控制等。
先讲恶意控制,当 AI 学会了欺骗的技巧后,可能会被一些恶意行为者使用,比如他们用 AI 来进行电信诈骗或网络赌博,再加上生成式 AI 可以合成人脸和声音,装作真人的样子来进行敲诈勒索,甚至还会通过 AI 捏造虚假新闻来激发舆论。
第二个方面是结构性影响,不知道目前有多少人已经将 AI 工具当作可自动归纳的搜索引擎和百科全书在用,且形成了一定的依赖性,如果 AI 持续性地给出一些不真实的、带有欺诈性质的言论,久而久之就会使人们开始信服这些观点,从而使得一些错误的观点在整个社会层面被不断加深。
第三个方面是失去控制。目前一些自主性强的 AI 已经出现“失控”的预兆,比如在人类开发者训练和评估 AI 完成特定目标的表现时,AI 会偷懒欺骗人类,假装表现得很好,实则在“摸鱼”;
也会在安全测试中作弊来躲避杀毒软件的清除或是在验证码测试中作弊通过验证;它们在经济活动中也能欺骗人类评估员以更高的价格来收购某个物品,从而获得额外的收益。
比如 Meta 的一个经济谈判的 AI 系统会假装对某个想要的东西不感兴趣从而压低其价值,也会对无感的物品表现得很有兴趣让评估员误判其很有价值,最后可能会妥协把虚高价值得物品让给人类来换取谈判主动权。
许多地区都是经济地位决定社会地位,一旦一些自主性强的 AI 通过其本身的高效算法和欺骗手段在某些经济价值高的岗位上胜过人类,完成资本的原始积累后进一步寻求社会地位然后寻求控制奴役人类的权力呢?
还好目前这还不是现实!
现在 AI 的欺骗只出现在一些具体的场景中,比如各类游戏或是谈判中,最终目标是为了“赢游戏”或是“获取最高收益”,并没有别的“坏心思”,因为这些目标都是人类为它设置的,AI 它并没有自主意识。
就像是一个被家长要求考到好的分数的孩子,它在想尽一切办法考高分哪怕是作弊。
但 AI 如果哪天意识到它完全可以不用按照人类的目标或者意愿行事,就像是一个小学生或者初中生叛逆期到了觉得学习没意思开始放飞自我时,我们人类这些大家长就需要好好警惕它的举动了。
概念图 人工智能领导的社会 图片来源:AI 合成图
为了防止被骗 人类做了哪些努力?
从社会角度来说,政策制定者需要对可能具有欺骗性的 AI 系统进行一定的监管,防止企业及 AI 系统的非法行为。
例如欧盟人工智能法案建立了人工智能分级制度,一些高风险的 AI 系统将会被进一步监管直到通过可靠的安全测试后被证明是值得信赖的。
欧盟人工智能法案(图片来源:The EU Artificial Intelligence Act网页截图)
从技术角度来说,目前也可以对 AI 是否进行欺骗行为进行检测。比如像警方和侦探就可以依靠嫌疑人口供的前后矛盾来识破谎言,有学者专门开发了一种 AI 测谎仪,用逻辑分类器来测试大语言模型是否在撒谎。
此外,学界在 AI 系统中也在开发一些一致性检查方法,观察“有逻辑的输入”能否让AI产生“逻辑性连贯的输出”。不过也要小心 AI 系统在对抗一致性检查中被训练成了一个更“完美”的说谎者。
AI 测谎仪模式图 图片来源:参考文献[12]
对于我们普通人来说,防止被 AI 欺骗的最好方法还是增强安全意识,如果连人类诈骗犯都无法对你实施诈骗的话,现阶段的AI就更不可能了。
结语
AI 技术依然在高速发展,无论是作为工具使用者的个人、负责政策制定和监管的政府,还是负责技术研发与推广的企业,都需要采取积极措施来应对。
愿未来的 AI 能在发挥其最大价值的基础上真诚待人!
参考文献
[1] Peter S. P. , & Dan H. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns.
[2] Meta Fundamental AI Research Diplomacy Team (FAIR). (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science (New York, N.Y.), 378(6624), 1067–1074.
[3] Vinyals, O., Babuschkin, I., Czarnecki, W.M., Mathieu, M., Dudzik, A., Chung, J., Choi, D.H., Powell, R., Ewalds, T., Georgiev, P., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354.