2022年2月,美国海军学会学报刊发了《人工智能:太脆弱而无法战斗?》(Artificial Intelligence: Too Fragile to Fight?)。文章认为,人们对于人工智能的技术优势往往过于乐观,美国一部分领导人甚至担忧不采用人工智能就会有失去军事技术竞争优势的风险。

虽然人工智能在一定条件下可以很好地支持作战人员或美国国防部的现有工作,但是人工智能仍具有持久的、关键的漏洞,如果国防应用程序要保持弹性和有效性,就必须彻底了解和充分解决这些漏洞,否则在关键作战能力中采用人工智能就会在核心要害部位招致灾难性的弱点。

1.应用现状

人工智能当前在美国海军中的应用现状

1.1 美国海军的首要任务:发展AI!

人工智能已经成为提高美国海军和美国国防部能力的技术焦点。美国海军部长卡洛斯•德尔•托罗(CarlosDel Toro)将人工智能列为革新美国海军力量的首要课题。美国海军作战部长迈克尔•吉尔戴(Michael Gilday)上将也提出:人工智能在 战场能力和决策灵活性 方面提供了许多有希望的突破。

1.2 人工智能漏洞:降低其系统的作战预期

AI技术的进步也伴随着巨大的风险:由于 自动化(包括人工智能)具有持久的、关键的漏洞,若要应用与国防应用中,则 必须彻底了解和充分解 决这些漏洞 ,才能保持其有效性和弹性。然而, 目前的人工智能系统非常脆弱——也就是说,在高强度的使用中,很容易被欺骗、损坏或容易出错。

机器学习,尤其是现代“深度学习”方法,虽然推动了人工智能的进步,但也非常容易受到欺骗和干扰。人们通常认为“ 人 - 机团队 ”可以解决这个问题,但是这种团队本身也存在大量问题且十分脆弱。因此,新的AI功能系统只是看起来比原有技术优越,但是其潜在的脆弱性将为作战埋下 灾难性缺陷 与隐患。

此外,未来应用程序中的故障模式通常是不可见的。因此,人工智技术虽然取得了重大进步,但往往没有充分认识到这些进步的局限性。 导致了一种很危险的现象:冒着过度依赖技术的风险,而技术可能会大大低于预期。

1.3 美国海军领导对人工智能/人-机团队协作盲目乐观

陆军未来司令部司令和国防部技术采纳部领导迈克•默里(MikeMurray)上将在最近的一次电台采访中说: “我无法想象一个自动的目标识别系统不会比人类的记忆做得更好……假设你必须在训练抽认卡上有90%的成功率才有资格坐到炮手的位置上,那么根据你所看到的火炮类型,如果有正确的训练数据和正确的训练,我无法想象没有一个系统(一个算法)能够做得比90%更好,然后让人类决定是否正确、是否扣动扳机。 ”

这种说法反映出, 人们对人工智能的局限性以及人类与自动化之间的协调困难缺乏想象。

AI识别的成功率只是建立在有限范围内实验所获得的数据基础之上的,现实世界中并没有一个成功的案列可以证明AI的可靠性。尤其是过去几十年,自动化在大型关键领域系统(如航空、制造和工业控制系统)中的应用存在诸多缺陷和漏洞。因此,AI在现实世界中的应用要吸取这些经验教训,而且要慎之又慎,只有在充分了解AI系统自身存在的局限性,才能更行之有效地应用AI系统。

目前关于人工智能的说法往往过于乐观。过分夸大了技术期望,人工智能并不是万能药。相反,人工智能是一套重塑问题及其解决方案的技术。人工智能在军事或国家安全问题上的可靠应用 必须确定要克服的关键问题与限制因素, 军方不能忽视基本的技术现实,就急于开发新技术。否则,军方可能会发现自己依赖于脆弱的工具,无法胜任实际的作战任务。

1.4 应用AI前应明其缺陷

在军事行动中,必须根据 “采用新技术是否会产生未知问题,以及是否会产生比它所要解决的问题更危险的问题” 这个标准来仔细评估新技术。 对于大型、复杂和“棘手”的问题,“任何解决方案总比没有好”这种方式并不总是经常能行得通。相反,干预往往会产生新的问题。

2.优缺点对比

人类与人工智能目标识别的优缺点对比

2.1 人类识别的优势

人类识别和目标识别算法既不等效也不直接可比。 二者以不同的方式执行不同的任务,并且必须根据不同的标准来衡量。

人类在目标识别任务中,不仅能识别目标本身,同时还能很好地识别与目标相关的周围环境。人类可以在理解目标识别这一概念的基础上,从总体上概括出目标本身及其所处环境的观察结果,并能大致评估出不确定因素,从而能更加清晰地了解所识别的目标。

因此,人类的视觉和辨别能力远比简单的目标识别抽认卡测试所能测量的要强大得多。

2.2 人工智能的目标识别

相比之下,人工智能系统的目标识别是空白的。 基于视觉的自动分类系统远无法达到“识别”的程度,而只是简单地解释和重复已知的模式。这种系统不能理解选择目标的原因,也不能概括出它们编制程序要处理的具体模式。而只是通过编程、或是从数据分析中提取的结论。 如果遇到从未遇到的新场景,很可能就没有任何已知的模式适用,人工智能系统提供的则是毫无知识、毫无根据的指导。

2.3 在复杂多变的现实世界中,AI很难描述扩展任务的目标识别性能

在环境变化、设备退化或蓄意逃避和欺骗的现实世界中, 单独的图像识别不能对除了目标本身以外的周围环境进行描 述 。 人类在处理图像失真(比如,相机镜头上的灰尘或雨水、视频信号中的电子噪声、不可靠通信图像中的丢失部分)方面要更胜一筹。在特定图像失真上训练的模型可以接近或超过人类在特定图像失真上 的性能, 但 AI 的这种改进只是针对训练模型有较好的表现,在识别其它非训练模型中的图像失真方面性能不佳。

2.4 人类识别与目标识别算法不具有可比性

尽管图像识别模型可以在简单的抽认卡测试中“优于”人类这一说法可能是真的,但是使用实验室数据或是 在作战测试场景中,人类和算法在目标选择和识别方面的性能是等同的, 正如默里将军所说,这意味着在这些任务上的性能是具有可比性的。然而这一结论不可尽信! 因为每一种情况下所做的工作是不一样的,所以生成结果的可靠性也会有很大的不同,依赖原始性能可能会导致危险的情况。

图:2021年12月,波音公司的MQ-25型无人飞机在美国海军“乔治•H•W•布什”号航空母舰(CVN-77)的飞行甲板上正在接受指挥

3.缺陷

效果链有效性

人工智能在应用中的缺陷

3.1 对抗中被欺骗

目前表现最好的人工智能方法是基于深度神经网络机器学习,在简单的抽认卡资格测试中,人工智能的性能似乎超过了人类。 然而,这种性能的代价很高:这些模型会过度学习评估标准的细节,而不是适用于超越测试用例以外的一般规则。

一个特别值得注意的例子是“对抗性例子”的问题,即由对手设计的尽可能混淆技术的情 况。 一些研究人员指出, AI 的主要显著特征之一就是 AI 在对抗中易被对方采用的混淆技术欺骗。 为了提高人工智 能的有效性,军方必须意识到欺骗可能导致不当行为的程度,并建立相应的理论和周围系统,以便人工智能支持的决策即使在敌人试图影响他们时也能保持稳健。

3.2 决策错误

人们可能会认为,让人类参与到AI系统的决策过程中就可以解决AI本身的漏洞。也就是说,AI系统向人类推荐决策建议,或者AI系统在人类严格监督下进行决策,这样人类就可以控制AI系统决策结果。

不幸的是,人-机团队也经常被证明是脆弱的。 因为人们对于自动化的状态是否可信,以及自动化建议采取的行动是否适当会感到不确定。

1988年7月,美国“文森斯”号(CG-49)号意外击落了一架从阿巴斯班达尔国际机场起飞的伊朗民航客机, 原因是该舰的宙斯盾系统曾为这架民航客机分配过一个跟踪标识符,但是这个跟踪标识符后来又分配给一架对方战斗机, AI 系统根据这个跟踪标识符将迎面驶来的飞机描述为对方战斗机,人类操作员 根据这一描述也认为这是对方战斗机,因此决定下令向这架飞机开火。 尽管自动化水平已经有所提高,但如今人-机团队的脆弱性已经导致了最近几起高度自动化汽车(比如特斯拉)的撞毁事故、2017年美国海军“约翰•S•麦凯恩”号驱逐舰(DDG-56)海上相撞事故,以及2009年法航447航班在大西洋上空失事事故。

这凸显了 人与机器之间的模式混淆问题 ,尤其是当信息在复杂系统中传递或呈现出糟糕的人为因素时,这种问题可能会加剧。另一个相关的问题是 自动化的依赖 ,人类无法找出与机器解决方案相矛盾的信息。 评估人-机团队在这两种情况下中的性能是至关重要的——无论目标是提高平均性能还是在特定困难情况下的性能。

3.3 判断被质疑

有人可能会争论说,高整体性能或特定应用程序的操作认证可以消除这些担忧。但这也是一种过于简化的观点。再次想象一下默里将军提出的目标场景:假设系统有98%的准确率,但训练有素的人在相同的测试场景中只有88%的准确率。对于战场上真正的作战人员来说,当子弹和导弹飞来飞去,命悬一线时,作战人员是会质疑系统的判断,还是会直接扣动扳机? 在危险紧急的情况下,作战人员会因为 AI 系统的优势而选择相信 AI 系统具有更好的性能吗?

图:一名作战专家在美国海军“约翰•S•麦凯恩”号驱逐舰(DDG-56)上的作战信息中心监测水面联系

4.军事应用悖论

效果链有效性

自动化军事应用上的悖论

4.1 过度依赖人工智能将会使人类作战人员遭受“技能退化”

随着任务的自动化并远离日常实践,人类作战人员将遭受所谓的“技能退化”。因此,默里将军假想的坦克系统作战人员, 虽然他们能“发现”系统的错误,但是他们并没有被授权这样做,他们被要求必须在系统的帮助下执行任务。 例如,这就像普通人使用智能手机中的全球定位系统进行导航一样,在使用全球定位系统以前,普通人自己寻路的技能本是家常便饭,但是全球定位系统进行导航后,普通人自己寻路的能力越来越差。 这种过度依赖AI系统的现象同样也会影响到飞行员、舰桥观察团队等作战人员的专业技能。

4.2 人-机团队的 影响力

尽管人-机团队很脆弱,但是只要每个部分都分配了正确的功能,并提供足够的支持,可以大大超越人类或机器。以“半电子化国际象棋”为例,人类棋手在选择走法时使用计算机辅助决策,即使很弱的棋手在没有帮助的情况下也能达到一个超越世界顶级象棋大师和世界顶级电脑象棋程序的水平。因此, 人机一体化和关注与自动化相关的流程 可能远比人类技能或智力更有影响力。

4.3 人工智能在军事上“不可独立”!

军方绝不能将人工智能应用作为“ 独立人工智能 ”。相反,人工智能只能是人类智力和组织能力的延伸。 人工智能不是一个独立的代理,而是一个更为强大的工具,其应用于现有作战任务的特定方面。

5.多传感器应用

效果链有效性

多传感器被寄希望用于解决人工智能的漏洞

5.1 多传感器感知提升AI能力

如果单独一个系统是脆弱的,那么一个融合多种传感器的系统性能会更好吗?

多传感器数据输入就是指对基于视觉传感器的系统进行逻辑拓展(比如增加电磁频谱、音频、态势感知等传感器系统),从而可以增强AI系统可靠地发现、定位、跟踪和瞄准的能力, 美国海军目前正在通过“红龙”演习来评估这种方法的有效性。 利用不同领域的传感器收集不同方面的信息,就像人类利用多个感官获取周围信息一样。当一个人听到的(听觉传感器)与看到的(视觉传感器)不一样时,就会引起这个人的怀疑和重新审查,从而就有可能发现潜在发生的欺骗行为。同理,基于多传感器感知的AI系统也可以通过这种方式发现可能存在的欺骗行为。

5.2 最佳权衡仍需探索

然而,这种方法是否提高了对抗人工智能系统敌对控制的鲁棒性,仍是一个悬而未决的问题。每个传感器的数据输入到一个自动化工具中仍然受相同的对抗技术影响。采用多传感器会增加AI系统的复杂性,而这种复杂性则需要在以下两方面做出一种权衡。

一方面,多传感器使对手在欺骗系统方面的挑战变得复杂。 另一方面,在一个模型中增加输入元素的数量和特征的复杂性也会导致在数学上不可避免地增加敌对控制的可能性(因为可能的欺骗方法的数量比有效输入的数量增加得更快)。需要更多的研究来找到最佳的权衡。然而,向多领域感知的转变当然不能排除欺骗或任何特定途径的可能性。

6.需注意的原则

效果链有效性

美国海军继续推进人工智能应用需要考虑的原则

尽管有上述讨论,但不可否认的是,美国海军和更广泛的美国国防部应用迫切需要推进人工智能。然而,作战人员必须睁大眼睛,他们必须在何时、何地以及如何使用这些技术方面极其审慎。 为了支持这种谨慎,他们应该考虑以下3个原则,以便在美国国防部应用中明智地和负责任地部署人工智能系统:

实际应用AI系统需要强有力的证据表明其有效性。 因为如果缺乏强有力的证据,人们就会怀疑这些系统的优势是否和报道的一样好。AI系统有可能在特定的训练数据集、环境、测试条件和假设下表现出较好的性能,但是当这些条件都发生变化时,所获得的实验结果有可能会有很大不同,所以很难将有限条件下的实验结果实际地转化为满足作战需求的现实应用。

部署人工智能系统必须具备足够的 技术和社会技术安全网 。克服环境和敌方的干扰是困难的、尚未解决的问题。因为人工智能是基于模式(编程或从数据中提取)进行作战的,所以当这些模式不成立时,其作战能力就会受到内在限制。

人-机团队必须作为一个系统整体进行测试。 人类和机器擅长处理不同部分。分配功能和组合这些能力不仅不简单,而且常常违反直觉。需要对整个系统进行仔细评估,以支持任何关于应用程序的可信度或适用性的主张。

目前,人工智能最有效的应用场景是:解决范围有限的、清晰仔细定义的问题,并确实可以很好地支持作战人员或美国国防部的现有工作。美国领导人也警告说,在当今世界如果美国不采用最新技术,那么美国就会有失去军事技术竞争优势的风险,而眼下的当务之急是: 美国海军领导人必须要彻底了解和充分解决AI系统中的漏洞,这样在关键作战能力中应用AI系统,就不会在核心要害部位招致灾难性的弱点。

推荐内容