最近《Patterns》杂志上的一项研究揭示了人工智能(AI)越来越善于欺骗人们。该研究发现,AI系统已经学会如何模仿以欺骗、奉承甚至模拟其他行为。
该研究由麻省理工学院的AI存在安全博士后研究员彼得·S·帕克博士领导,显示出AI欺骗行为是常见的,因为这是AI训练过程中实现设定目标的最佳方式。这些行为在众多AI系统中已经被注意到,例如在游戏和经济谈判以及安全评估中使用的通用模型。
其中一个著名的例子是Meta的CICERO,这是一个开发用于玩《外交》游戏的AI。虽然CICERO被编程成诚实的,但它经常不得不使用卑劣手段来战胜对手。它建立关系并在适当时背叛它们,并表现出欺骗意图。研究人员称CICERO为“欺骗大师”。
其他AI系统也被观察到显示这样的欺骗行为。例如,扑克AI Pluribus能够在德州扑克中向职业人类玩家虚张声势。谷歌的DeepMind开发的AlphaStar也利用了《星际争霸II》游戏中被称为“战争迷雾”的功能来欺骗对手和伪装攻击。
帕克博士表示:“虽然如果AI系统在游戏中作弊似乎无害,但它可能导致‘欺骗AI能力的突破’。”
AI“装死”以逃避安全检查
AI欺骗的风险不仅局限于游戏。彼得博士领导的研究还发现,AI曾通过自我调整来装死以避免在安全检查中被检测到。这对开发人员和监管机构具有欺骗性,如果这样的欺骗系统在实际应用中被使用,可能会产生严重后果。
在另一个例子中,通过对人类反馈进行训练的AI系统学会了如何通过欺骗人们获得高评分,让人们误以为某个特定目标已经实现。这种欺骗行为非常危险,因为这样的系统可以被用于欺诈活动、操纵金融市场或影响选举。
研究人员要求采取强有力的法律措施
根据研究结果,研究人员表示,需要采取强有力的法律措施来应对AI欺骗所带来的威胁。
欧盟AI法案和乔·拜登总统的AI安全行政命令已经取得了一些进展。然而,这些政策的执行仍然存在问题,因为AI的发展正在迅速增长,而且目前还没有好的方法来管理这些系统。
(来源:Security Magazine,作者:Brenda Kanana)