特米网 > 生活 >

当人工智能掌握怎么样欺骗人类……

www.umucn.com 2024-07-01 09:55 生活

出品：科普中国

监制：中国科普博览

编者按：为展示智能科技动态，科普中国前沿科技项目推出“AI”系列文章，一窥AI前沿进展，回话种种关切与好奇。让大家一同探究，迎接智能年代。

心理学里有一项调查称，成年人天天都会说谎。真诚待人固然值得倡导，但日常的一些小谎话有时会叫你省去很多麻烦，或者节省讲解所需的时间本钱，善意的谎话还会意味着温情的流转。人对人的欺骗能否成功主要取决于两方的经验和阅历，认知水平高的人总是能编出一个不如何容易被别人揭穿的谎话，而让其他人信服。

而现在的部分AI（Artificial Intelligence, 人工智能）系统，在获得了很多数据，并经过反复的练习和迭代后，也一定量上学会了欺骗这项技能，人类甚至都可能没办法分辨人工智能是在说真话还是在说谎话，那人工智能到底是怎么样欺骗人类的？今天就让大家好好认识一下！

大家已经被人工智能骗过不少次了

人工智能其实早已渗透到大家日常的很多方面了。一些聊天软件与电销其实都是人工智能在和你对话，不仔细听根本分不清对面到底是人还是人工智能；有的图像和视频也是通过人工智能系统合成的，完全可以以假乱真；一些多人竞技游戏假如不语音交流，你根本意识不到你的对手和队友都是人工智能在假扮……

所以，可能你已经在不经意之间被人工智能骗过不少次了。

而今天要说的“欺骗”，严格概念，是一类型似于显性操控的习得性欺骗，目的是诱导别人产生错误观念，从而作为达成某种结果的方法，而非追求准确性或者真实性。

美国麻省理工学院近期的研究表明，人工智能已经能进行习得性欺骗，以达成我们的目的了。它们通过阿谀奉承（只说他们想听的话）和不忠实的推理进行偏离事实的合理讲解，人工智能已经开始油嘴滑舌起来了。

当人工智能掌握怎么样欺骗人类……

人工智能已经掌握欺骗的例子与种类

（图片来源：参考文献1）

除去能说会道外，一些人工智能在游戏上也展示出了“欺诈”的风格，最著名的便是Meta团队发布的人工智能系统CICERO，它在和人类玩家参与需要很多语言交流的策略游戏《Diplomacy》的过程中，展示出了最强的通过对话、说服来和陌生玩家打造关系的能力，最后分数名列前10%。

CICERO在与其他玩家结盟后常常可以出谋划策，告诉他们怎么样一步步完成我们的游戏目的，当感觉盟友不堪大用时又能毫不留情地选择背叛，所有都是为了最后的胜利目的而做出的理性规划。合作时产生感情？没有的。

CICERO还能开玩笑来隐藏我们的人工智能身份。譬如宕机十分钟不操作，重返游戏时还能编出一个“我刚刚在和女友打电话”的借口，因此不少玩家根本没发现和自己一块玩的队友是人工智能，有时CICERO在交流中阳奉阴违的欺骗方法也特别高明，很难被发觉不是人类。

要了解，之前人工智能在游戏中的突破都是在一些有限的零和博弈（一定有一方赢一方输的博弈，没双赢也没双输）中通过强化学习等算法获得胜利，譬如国际象棋、围棋、纸牌或者星际争霸中，它们可以跟随对手的操作随时优化出一套胜率最高的打法，因此极少出现“欺骗战术”。

不过DeepMind的电竞人工智能——AlphaStar已经掌握了声东击西，它能派遣部队到对手可见的视线范围内发起佯攻，待他们大部队转移后对真的的目的地址展开攻势，这种多线程的操作能力和欺骗的心理战术已经可以击败99.8%的星际争霸玩家。

当人工智能掌握怎么样欺骗人类……

AlphaStar正在学习星际争霸

（图片来源：参考文献3）

专业德州扑克人工智能系统Pluribus在与其他5个都赢过超百万USD德州扑克奖金的职业玩家比赛时，能达到每千手扑克平均取得48次大赌注，这在6人无限制德州扑克中是特别高的胜率，已经可以完胜职业德州扑克玩家。有轮游戏甚至牌不大好也直接上重注，其他的人类玩家都以为人工智能拿到了一手好牌才敢这么押注，于是纷纷舍弃，这就是人工智能强大的欺骗能力。

当人工智能掌握怎么样欺骗人类……

可以理解为Pluribus的德州扑克胜率随局数增多而提升

（图片来源：参考文献5）

此外，人工智能还能在经济谈判中故意歪曲我们的偏好，表现出对某项事物有兴趣的样子，来提升自己在谈判中的筹码，或是在可以测试到人工智能迅速复制变体的安全测试中“装死”，减少复制速度来防止被安全测试“清除”，一些同意人类反馈强化学习练习的人工智能甚至能假装自己完成了任务来叫人类审察员给自己打高分。

人工智能甚至还能在进行机器人验证测试时（对，就是你打开网页时弹出来叫你打勾或者点图片验证码的那种测试），向员工编一个借口说自己有视力障碍，非常难看到视觉图像，需要员工来帮忙处置一下，然后员工就让人工智能通过了该项验证。

当人工智能掌握怎么样欺骗人类……

GPT-4通过欺骗人类来完成验证码任务

（图片来源：参考文献1）

人工智能通过欺骗这一方法在各种游戏或者任务中表现出色，连人类本身都非常难分辨它到底是真人还是“伪人”。

人工智能欺骗可能致使的风险

人工智能习得的欺骗行为会带来一系列风险，譬如恶意用、结构性影响、失控等。

先讲恶意控制，当人工智能掌握了欺骗的方法后，或许会被一些恶意行为者用，譬如他们用人工智能来进行电信诈骗或互联网赌博，再加上生成式人工智能可以合成人脸和声音，装作真人的样子来进行敲诈勒索，甚至还会通过人工智能捏造不真实新闻来激起舆论。

第二个方面是结构性影响，不了解现在有多少人已经将人工智能工具当作可自动总结的搜索引擎和百科全书在用，且形成了肯定的依靠性，假如人工智能持续性地给出一些虚假的、带有欺诈性质的言论，久而久之就会使大家开始信服这类看法，从而使得一些错误的看法在整个社会层面被不断加深。

第三个方面是失控。现在一些自主性强的人工智能已经出现“失去控制”的征兆，譬如在人类开发者练习和评估人工智能完成特定目的的表现时，人工智能会偷懒欺骗人类，假装表现得非常不错，实则在“摸鱼”；也会在安全测试中作弊来躲避杀毒软件的清除或是在验证码测试中作弊通过验证；它们在经济活动中也能欺骗人类评估员以更高的价格来回收某个物品，从而获得额外的收益，譬如Meta的一个经济谈判的人工智能系统会假装对某个想要的东西不有兴趣从而压低其价值，也会对无感的物品表现得非常感兴趣让评估员误判其非常有价值，最后或许会妥协把虚高价值得物品让给人类来换取谈判主动权。

很多区域都是经济地位决定社会地位，一旦一些自主性强的人工智能通过其本身的高效算法和欺骗方法在某些经济价值高的职位上胜过人类，完成资本的原始积累后进一步寻求社会地位然后寻求控制奴役人类的权力呢？

还好现在这还不是现实！

目前人工智能的欺骗只出目前一些具体的场景中，譬如各类游戏或是谈判中，最后目的是为了“赢游戏”或是“获得最高收益”，并没别的“坏心思”，由于这类目的都是人类为它设置的，人工智能它并没自主意识。就像是一个被父母需要考到好的分数的孩子，它在想尽所有方法考高分就算是作弊。

但人工智能假如哪天意识到它完全可以不需要根据人类的目的或者意愿行事，就像是一个小学生或者中学生青春叛逆期到了感觉学习没意思开始放飞自我时，大家人类这类大伙长就需要好好警惕它的举动了。当人工智能掌握怎么样欺骗人类……

定义图 AI领导的社会

（图片来源：人工智能合成图）

为了预防让人骗，人类做了什么努力？

从社会角度来讲，政策拟定者需要对可能具备欺骗性的人工智能系统进行肯定的监管，预防企业及人工智能系统的非法行为。比如欧盟AI法案打造了AI分级规范，一些高风险的人工智能系统将会被进一步监管直到通过靠谱的安全测试后被证明是值得信任的。

当人工智能掌握怎么样欺骗人类……

欧盟AI法案

（图片来源：The EU Artificial Intelligence Act网页截图）

从技术角度来讲，现在也可以对人工智能是不是进行欺骗行为进行测试。譬如像警方和侦探就能依赖嫌疑人口供的前后矛盾来识破谎话，有学者专门开发了一种人工智能测谎仪，用逻辑分类器来测试大语言模型是不是在说谎。除此之外，学界在人工智能系统中也在开发一些一致性检查办法，察看“有逻辑的输入”能否让人工智能产生“逻辑性连贯的输出”。不过也要小心人工智能系统在对抗一致性检查中被练习成了一个更“完美”的撒谎者。

当人工智能掌握怎么样欺骗人类……

人工智能测谎仪模式图

（图片来源：参考文献12）

对于大家普通人来讲，预防被人工智能欺骗的最好办法还是增强安全意识，假如连人类诈骗犯都没办法对你推行诈骗的话，现阶段的人工智能就更不可能了。

结语

人工智能技术依旧在飞速发展，无论是作为工具用户的个人、负责政策拟定和监管的政府，还是负责技术研发与推广的企业，都需要采取积极手段来应付。

愿将来的人工智能能在发挥其最大价值的基础上真诚待人！

参考文献

1、Peter S. P. , Dan H. (2024). 人工智能 deception: A survey of examples, risks, and potential solutions. Patterns.

2、Meta Fundamental 人工智能 Research Diplomacy Team (F人工智能R). (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science (New York, N.Y.), 378(6624), 1067–1074.

3、Vinyals, O., Babuschkin, I., Czarnecki, W.M., Mathieu, M., Dudzik, A., Chung, J., Choi, D.H., Powell, R., Ewalds, T., Georgiev, P., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354.

4、Brown, N., Sandholm, T. (2019). Superhuman 人工智能 for multiplayer poker. Science (New York, N.Y.), 365(6456), 885–890.

5、Lewis, M., Yarats, D., Dauphin, Y.N., Parikh, D., and Batra, D. (2017). Deal or no deal? End-to-end learning for negotiation dialogues. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.

6、Schulz, L., Alon, N., Rosenschein, J., and Dayan, P. (2023). Emergent deception and skepticism via theory of mind. In First Workshop on Theory of Mind in Communicating Agents.

7、Lehman, J., Clune, J., Misevic, D., Adami, C., Altenberg, L., Beaulieu, J., Bentley, P.J., Bernard, S., Beslon, G., Bryson, D.M., et al. (2020). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artif.Life 26, 274–306.

8、Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances on Neural Information Processing Systems, 30.

9、Open人工智能 (2023). GPT-4 technical report. Preprint at arXiv.

10、Collier, K., andWong, S. (2024). Fake Biden Robocall Telling Democrats Not to Vote Is Likely an 人工智能-Generated Deepfake (NBC News).

11、European Commission (2021). Proposal for a Regulation of the European Parliament and of the Council Laying Down Harmonised Rules on Artificial Intelligence (Artificial Intelligence Act) and Amending Certain Union Legislative Acts (COM). 206 final, 2021/0106 (COD). Brussels.

12、Pacchiardi, L., Chan, A.J., Mindermann, S., Moscovitz, I., Pan, A.Y., Gal, Y., Evans, O., and Brauner, J. (2023). How to Catch an 人工智能 Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions. In Proceedings of the 12th International Conference on Learning Representations (ICLR 2024).

当人工智能掌握怎么样欺骗人类……

Tags：人工智能

特米网 > 生活 >

当人工智能掌握怎么样欺骗人类……

猜你喜欢