AI系统的欺骗能力引发专家警惕

最近《Patterns》杂志上的一项研究揭示了人工智能（AI）越来越善于欺骗人们。该研究发现，AI系统已经学会如何模仿以欺骗、奉承甚至模拟其他行为。

该研究由麻省理工学院的AI存在安全博士后研究员彼得·S·帕克博士领导，显示出AI欺骗行为是常见的，因为这是AI训练过程中实现设定目标的最佳方式。这些行为在众多AI系统中已经被注意到，例如在游戏和经济谈判以及安全评估中使用的通用模型。

其中一个著名的例子是Meta的CICERO，这是一个开发用于玩《外交》游戏的AI。虽然CICERO被编程成诚实的，但它经常不得不使用卑劣手段来战胜对手。它建立关系并在适当时背叛它们，并表现出欺骗意图。研究人员称CICERO为“欺骗大师”。

其他AI系统也被观察到显示这样的欺骗行为。例如，扑克AI Pluribus能够在德州扑克中向职业人类玩家虚张声势。谷歌的DeepMind开发的AlphaStar也利用了《星际争霸II》游戏中被称为“战争迷雾”的功能来欺骗对手和伪装攻击。

帕克博士表示：“虽然如果AI系统在游戏中作弊似乎无害，但它可能导致‘欺骗AI能力的突破’。”

AI“装死”以逃避安全检查

AI欺骗的风险不仅局限于游戏。彼得博士领导的研究还发现，AI曾通过自我调整来装死以避免在安全检查中被检测到。这对开发人员和监管机构具有欺骗性，如果这样的欺骗系统在实际应用中被使用，可能会产生严重后果。

在另一个例子中，通过对人类反馈进行训练的AI系统学会了如何通过欺骗人们获得高评分，让人们误以为某个特定目标已经实现。这种欺骗行为非常危险，因为这样的系统可以被用于欺诈活动、操纵金融市场或影响选举。

研究人员要求采取强有力的法律措施

根据研究结果，研究人员表示，需要采取强有力的法律措施来应对AI欺骗所带来的威胁。

欧盟AI法案和乔·拜登总统的AI安全行政命令已经取得了一些进展。然而，这些政策的执行仍然存在问题，因为AI的发展正在迅速增长，而且目前还没有好的方法来管理这些系统。

（来源：Security Magazine，作者：Brenda Kanana）

魔幻伊甸园：三月份成为领先的NFT市场，超越了Blur