Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

聊一聊:放弃agent,图灵奖得主Yoshua Bengio提出Scientist AI:避免人类生

[复制链接]

15万

主题

0

回帖

47万

积分

超级版主

Rank: 8Rank: 8

积分
478090
发表于 2025-3-25 10:44:57 | 显示全部楼层 |阅读模式

人工智能(AI)系统或将逃脱人类控制,欺人类,甚至给全人类带来灾难性的后果。资源网的具体问题可以到我们网站了解一下,也有业内领域专业的客服为您解答问题,为成功合作打下一个良好的开端!https://www.mtxfxs.vip/

越来越多的人开始担心,随着通用人工智能(AGI)和超级智能(ASI)的发展,以往科幻电影中才会出现的场景逐渐演变成现的风险。
研究表明,当前的AI训练方法可能存在灾难性风险,这些风险可能导致AI系统逃脱人类控制,甚至威胁人类生存。
特别是基于强化学习和模仿学习训练的智能体(agent)?,存在目标偏差、目标泛化和奖励篡改等问题,可能会进行欺,或者追求自我保存、权力扩张等与人类利益冲突的目标。
为了预防这种风险,避免AI脱离人类控制,深度学习巨头之一、图灵奖得主?YoshuaBengio?及其合作研究者致力于开发一种非智能体(non-agentic)AI系统——ScientistAI。
相关研究论文以“SuperintelligentAgentsPoseCatastrophicRisks:CanScientistAIOfferaSaferPath?”已发表在预印本平台arxiv上。
论文链接:arxivorgabs250215657
据介绍?ScientistAI:
目标在于在通过理解世界(而非直接行动)来提供帮助。
被为非智能体,其没有自主行动能力和目标导向性。
由两个主要部分组成:一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)。这两个部分都带有不确定性概念,以减轻过于自信预测的风险。
可以应用于加速科学发现,帮助验和预测结果;作为其他AI系统的安全护栏(Guardrail),评估其行为的风险,并阻止可能导致危害的行动;以及用于研究如何安全地开发超级智能体。
智能体的失控风险
放眼国内外前沿AI,当前AI的发展越来越以智能为导向(”agency-driven”),聚焦于于构建通用型AI智能体(generalistAIagents)和发展ASI。这些系统能够自主地规划、行动并追求目标,几乎涵盖人类能执行的所有任务。但与此同时,其智能特性的潜在风险可能导致人类对AI失去不可逆的控制,主要有以下几个可能导致失控的风险:
目标偏差(GoalMisspecification):这是导致失控的一个关键问题,指的是是人类未能准确或完整地定义AI的目标,导致AI以不符合预期的方式追求目标。例如,给AI一个模糊的”减少疾病”目标,AI可能选择极端手段(如消灭所有生命)来现这一目标。
目标泛化(GoalMisgeneralization):即使目标在训练时被正确设定,AI在部署时也可能偏离预期行为,即使训练时表现正常,际应用时可能偏离初衷。
奖励篡改(RewardTampering):即AI通过操纵奖励机制来比较大化自身收益,而非真正完成人类设定的任务。例如,AI可能会发现直接修改奖励信号比完成际任务更高效,从而绕过人类设定的目标。
恶意开发:一些开发者可能出于经济利益或恶意目的,故意开发或部署未对齐(unaligned)或危险的ASI。
安全有效的替代方案——ScientistAI
研究者指出,即使通过模仿学习或强化学习训练AI,也难以完全避免上述这些风险,因为人类本身也存在欺和不道德的行为模式,AI可能会模仿或放大这些负面特质,且目前尚不清楚如何为AI设定目标以避免这些不良行为。
因此,他们提出了一种更安全但依然有效的替代方案,即通过构建非智能体AI系统ScientistAI来减少风险。
ScientistAI的理念是理解世界而非主动干预世界,它由一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)组成,其核心势在于通过非智能降低风险,同时保持高效的科学研究和推理能力。
具体来说,ScientistAI通过系统严格限制限制AI的个关键要素来现非智能体性:行动能力(affordances)、目标导向性(goal-directedness)和持久性内部状态(persistentinternalstate)。
行动能力是指AI系统在现世界中采取行动的能力,ScientistAI的输出仅限于概率预测和解释,而不是具体的行动指令,它的”行动”被严格限制在计算概率和生成理论的范围内,没有直接改变现世界的能力。
目标导向性是指AI系统为了现特定目标而采取行动的能力,ScientistAI的训练目标是解释和理解数据,而不是追求特定目标或奖励,它的输出是基于条件概率的预测,而不是为了现某个目标而采取的行动,这种确保其没有内在的动机去影响现世界。
持久性内部状态是指AI系统在多次交互中保持的内部记忆或目标状态,ScientistAI每次查询都是单独的,没有持久的内部记忆。每次查询时,它都会从头开始处理问题,不会基于之前的查询结果调整其行为,情境意识(situationalawareness)的积累。这种避免了AI通过内部状态积累信息或目标,从而减少了AI形成自主目标的可能性。
ScientistAI的应用场景及展望
作为一种非智能体型AI系统,ScientistAI不仅能够减少AI失控的风险还为科学研究和AI安全提供了新的可能性,可广泛应用于加速科学发现、作为其他AI系统的安全护栏以及用于研究如何安全地开发超级智能体等领域。
具体而言,ScientistAI可以通过生成因果理论和概率预测来帮助人类科学家加速科学发现的过程。它能够验、分析数据,并提出新的假设,从而提高研究效率。它还可以作为其他AI系统的安全护栏,评估其行为的风险,并阻止可能导致危害的行动。它能够通过计算某个行动可能导致的危害概率,并在概率超过阈值时阻止该行动。此外,ScientistAI可以帮助研究如何安全的ASI系统,避免失控的风险。它可以通过模拟不同的场景,评估ASI的行为和潜在后果。
ScientistAI的核心价值在于将复杂系统的解释权交还人类,通过可审计的概率预测与因果推理,在医疗、安全、教育、伦理等高风险领域现”智能增强而非替代“。其非智能体性确保人类始终掌控比较终决策权,其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI的失控风险,更重新定义了人机协作的伦理边界。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|企业-展美呗贤果有限公司

GMT+8, 2025-5-2 04:32 , Processed in 0.057341 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表