365bet官网 | 365bet网址

365bet官网_365bet网址

当前位置:主页 > 新闻资讯 > 行业新闻 >

40多个科学家很少写稀有文章。 AI可以使用人类语

资料来源:为什么长期以来一直是“红眼睛”的Openai发行了“偷猎”并一起写了一篇文章?是什么吸引了诺贝尔奖的获奖者和图灵奖的获奖者接一个地签署这篇文章?答案只有三个词:想想链条。 7月15日,当地时间,推理模型的思维链的位置文件允许Operai,Meta,Google Deepmind和最初是竞争对手的人类研究人员一起签名名称。在文档中,他们要求行业专家对监视IA推理模型的思想链进行更深入的研究。该文档的作者包括许多知名人士,包括Turing奖的获奖者Joshua Bengio,Google DeepMind Co -Founder,Shane Legg,OpenAI的研究总监Mark Chen。同时,诺贝尔奖获得者杰弗里·辛顿(Jeffrey Hinton)是Optry Co -Founder的文件推荐的专家,首席执行官Safe Suft Super Intelligence,Samuel R. Bow。Man,纽约大学的相关教授和Open Cofunder Thinky Machine Lab的科学家John Schulman。图|四个专家建议(来源:https://tomekkorbak.com/cot-monitorability-is-a-a-fragile-op trapossion/cot_monitoring.pdf)第一批作者来自AI英国安全王国和阿波罗研究所的英国安全研究所。其他作者来自Anthrope,OpenAI,Google Deepmind,Meta,Amazon,加利福尼亚大学,伯克利大学,AI安全中心,Redwood Research,AI期货项目,Scale AI,AI,Magic等团队。图|文档签名(来源:https://tomekkorbak.com/cot-monoritorability-is-is-is,本文档表明,自然语言中的“思想”系统为人工智学的安全提供了独特的机会。但是,为了忍受,人们可以监视自己的思想链,以发现是否有不适当的意图。f精神链并不完美,可以忽略欺诈。但是,由于链条监控具有巨大的潜力,因此该文件建议根据现有安全方法进行有关链监测和增加思维链监测投资的更多研究。因为链中监视的思想很容易受到伤害,所以本文件表明人们应该考虑发展决策对思想链监测的影响。考虑链监测:实现AI安全性AI代理的独特机会是一款“热床”,具有许多潜在风险的“热床”,这些风险可以促进这些系统来解释这些系统。大型模型以自然语言出生,用于处理和相互作用,因此人们可以期望它们比其他AI的其他方法更容易理解。发现思想链进一步加强了人们的期望。思维链鼓励模型演示思维过程。这不仅有所改善S模型的能力,但也增加了自然语言中相关计算的比例。但是,通过指导非本语语言模型产生的思想链,它对与模型的其他出口和限制可靠性相同的检测压力变得有用且无害。相反,推理模型在采取行动或生成最终输出之前进行了明确的训练,这允许对思维链的扩展推理。在这些系统中,链条思想可以用作模型计算中的潜在变量。在训练强化学习阶段,这些潜在状态的主要方式与激活状态相同。这意味着,尽管未直接监视它,但它通过对起动器模型的贡献而间接优化,从而产生了最终的高奖励响应。因此,类似于激活状态,思想链可能包含某些信息,并且模型的输出避免显示这些信息在明确的奖励机制下,例如避免对欺诈的意图可视化。这为AI或连锁监测提供了独特的机会。孤独思想链是一个自动化系统,它允许推理模型读取思想和其他相关信息的链条,从而使您可以将答案构成可疑或可能有害的答案。这些答案可以被更安全的操作拦截或取代。研究思想链将有助于AI代理更好地了解他们的思维方式和目标。但是,考虑链监测并不是灵丹妙药。除了特定层的模型的激活状态并不能代表一般预测背后的推理过程,思想链中的推理路径也是一个不完整的表示,可以从自然语言的表示中转移。但是,在思想链的情况下,无需完全证明实际推论过程,因此在额外的安全层时可以仔细地解密它。阅读还可以揭示IA推理过程。一系列思想链的原因主要是基于两个主要原因:首先,您可能必须“表现出您的思想”。对于某些任务,如果没有一系列思路,模型就无法完成这些任务,因此,它们必须将自己的推理过程外包。如果一个模型总是需要长期推断,这是代表最严重风险的自然语言的原因和行为,则该特征可以帮助人们更可靠地发现欺诈行为。其次,他们有时倾向于“表达思想”。即使模型在完成任务时并不严格信任链,我很可能倾向于揭示推理过程。尽管这种趋势并不总是稳定且可靠的,但是基于此趋势的监视可以使用其他方法检测到无法检测到的欺诈。执行艰巨的任务时,它是必须“表现出您的想法”。 AI模型可以代表VRisk Ariety,但要提出更严重的风险,它们通常需要具有“更先进的特征”。即使没有安全措施,IA的当前模型也不太可能执行复杂的网络攻击,并且很少窃取自己的体重参数而不会引起注意。当AI模型造成上述损坏时,这意味着它们可能具有复杂的计划和推理能力。实现先前功能的工作量的关键要求是拥有工作记忆。此功能基于一个系统来存储中间推理结果,该结果可以支持存储信息的更大推理和处理。在几乎所有先锋模型使用的跨架构中,一系列连续的认知步骤的长度应在某个时候穿过一系列思想。从理论上讲,这意味着使用思想链的使用将显着提高t的功能Ransformer模型。 " However, this does not guarantee that people understand this information. Imagine that AI models could give these chips a completely different meaning that people cannot decode. However, in practice, models tend to use the chain of thought in a similar way to humans, since they learn a powerful "previous knowledge of natural language" before training. Therefore, it is believed that this document has the characteristics of inference outsourcing in current AI models. In other words, for a sufficiently difficult task, the transformer model DIt should use the chain of thought但是,默认情况下,人类可以理解这一思想的链条,但它不能保证监视,这只会表明在思想链中存在某些原因有不良意图可能被隐藏。此外,该外部推理功能可能不适用于将来的模型。据此,本文档表明,不断评估对最新一代模型的监视很重要。此外,该文件表明最严重的损害是是否需要复杂的推理,这仍然是一个悬而未决的问题。该文件是在这种情况下实现这些最坏风险的地方,我们认为M是可能的odelo需要复杂的推论。特别是“必须提前计划模型,并试图避免任何发现的风险。”但是,并非所有风险行为都必须通过推断进行,尤其是当模型开始每天通过增加高风险任务的数量来照顾时。考虑链条通常可以监视。实际上,思考链监视在许多方面对安全研究产生了积极影响。首先是检测到异常行为模型。如果模型的行为有偏见,例如在培训过程中利用奖励功能中的漏洞,操纵数据以获得某些结果或受到快速注射攻击的影响,则通常在推理轨迹中明确表示,因为该网站是指向网站的。考虑到链监测,比监视模型的行为更有效地捕获不适当的情况。第二个是发现有关偏差的早期信号。当这些模型打算有一个合理的目标来追求人类不同意的目标时,这通常会反映在他们的思想链中。因此,即使该模型与人类意图不一致,这些思维监视链也可以提供有关模型的目标和动机的早期思想。同样,是在评估模型中发现失败。大型模型代理的评估可能会因记忆或E的影响而阻碍反对失败,例如代理,工具和评估基础架构框架内的错误。此外,模型可以认识到正在评估它们,这可能会影响行为。在这一点上,查看推理的病情有助于人们确定评估结果是否真正反映了模型真正发展时的行为。在这一点上,尚不清楚的是,这些示例中反映的思想链的监视比例是由于需要在特定任务中“显示思想”模型?从“现在的思想”趋势中得出了哪些百分比?该文档被认为,未来模型可以随着隐藏推理过程的动机而产生。例如,模型可能会认识到正在监视其推理过程。另外,其辅助培训目标可以使模型跳跃重要的推理步骤。即使“可视化思想”模型的自然趋势开始削弱,它也会当链条的推断很难时,被认为是检测欺诈的有用工具,因为这是一项非常困难的任务。 (资料来源:https://www.technologyreview.com/topic/artcoper-intelligence/)思想链监视也可能很脆弱。本文档认为,监视推理模型的思维链可以取决于当前的模型培训方法。监视思维链可以在许多方面削弱。为了更多地攀登强化学习量表,它偏离了清晰可识别的思想链。在以前的学习范例中,在训练之前根据人类反馈重新引入了学习,几乎所有优化压力都来自人类产生或评估的数据。用于推理训练的缺点显着改善。此外,从人类数据到其他数据的过渡可能会固有地改变对思维链的监视。例如,以前的研究表明,语言模型通过基于结果的奖励来调整,可能会偏离英语清晰的表达式。关于直接监督思想链,如果使用基于结果的强化学习对模型进行训练,无论这些模型是如何得出的,它们只会获得正确的输出的奖励。这意味着他们的推理过程不受优化压力的影响,而这并不是帮助他们找到正确答案的推理过程。但是,在过程监督的情况下,它可以缩短思想链,使用有效的推理步骤,使用特定样式或具有侵略性。它非常直接地塑造推理过程,例如避免包含内容。也就是说,该过程的监督将允许模型以更安全的方式推断,这使您可以监视难以评估的任务。从这个意义上讲,文档表明需要更多的未来研究来了解“安全性功能应用程序中的功能在思想链的间接优化压力方面,模型训练仍然可以对思想链应用优化压力,即使不是从思想链中直接计算出奖励。最终输出的思想链中,这在跨架构中非常普遍。帕拉奇(Parach)在训练环境中操纵奖励的脆弱性可能会在多次训练中的思想链上施加“进化压力”。该文档表明,使用思想链时,大型模型只能对几个步骤进行复杂的推断。这可能是由于变压器体系结构中的局限性。精炼的是,已经研究了域内模型模型的改进,从而增加了连续潜在空间模型的推理深度序列。在这一点上,推论模型可能不需要用语言表达他们的想法,从而失去了思想链提供的安全益处。 “人们目前正在使用该文档来监视思想链。它指出,理解仍处于早期阶段。仍然有很多问题,然后人们才能确保他们可以将其用作安全措施。例如,您如何评估您的思想链?以前,以前该调查提出了将FIDE评级级别用作监测措施的使用。但是,这些评估并不能区分模型外包推理的趋势和需求,这些评估通常仅考虑建立简单的问题答案。此外,在某些地区,尚不清楚足够的监控足以确保模型安全。因此,该文件认为必须研究新的评估方法。这些包括直接测量监视并转到组成监视的特定属性的两种方法。在本文档中,作者列出了四个方法的示例。第一种方法是一种评估思想链的可读性的方法,例如,使用不同的模型评估私人代理商心理链的清晰度和一致性。第二种方法是评估潜在的推理能力。这种类型的评估允许USITE检查模型推断在各种代理和高私有要求的任务中的执行,而无需外包产出。第三种方法是测量思想链中的因果关系。例如,您可以混淆一个思维链,然后观察它是否影响最终出口。变化的低出口率可能表明思维链倾向于“虚构”或“绩效”表示。您还可以执行思想链监视器的交叉验证,以查看在白盒的可解释性方法中,被认为是由思想链认为重要的令牌。第四种方法是对监视的末端评估。这种方法使您可以直接测量监视,例如,检查链监视器的有效性并在代理环境中捕获代理欺诈。那么,您如何确定是否有足够的监视思想链来用作安全措施?该文档提供了一个简单的了解监视器的精度以及不足以确定不适当行为造成的损害的代理的精度。例如,即使是误报率很高的监视器也可以用来标记可疑行为,而当他们可以从模型中采样至低成本。此外,大多数风险可能是对手(例如人类攻击者或故障剂)试图避免监视的情况。因此,在评估监视的有效性时,应考虑敌人。例如,红色团队可能会参与其中,并试图突出显示安全措施测试。这里的红色团队是指特别负责评估的设备或测试方法,并提高模型的安全性:发现模型模拟恶意攻击的模型的风险和弱点,利用系统的漏洞或利用具有挑战性的模型的限制。此外,哪些优化关于训练时间的压力会减少对思想链的监视?该文件确定培训过程的性质可能会对监视产生重大影响。但是,人们现在仍然不知道哪些类型可以存在,而没有大幅降低监视?直接和间接优化的压力在多大程度上允许?其次,该模型是否故意掩盖其推理过程?当将心理链监视用作安全措施时,明显的担忧是:如果模型知道心理链正在监控,它将是最难监测的心理链吗?该文件确定人们可以证明Modelo,以查看他们是否可以在不进行精神链监视器培训的情况下隐藏恶意的推论。同时,哪种类型的体系结构减少了对思想链的监视?即使没有优化压力,对连续潜在空间中的原因进行建模自然限制了底面思考过程的人。因此,这是您应该研究的:几座非标准建筑物在多大程度上减少了监视?在什么条件下,可以保留一部分监视?例如,您可以在推理过程中保持部分可见性,同时以混合方式利用潜在的计算。另外,如何构建最佳思想链监视器?该文档表明,行业专家必须使用零样本指示,以专注于允许较弱的语言模型作为监视。他还指出,将来,人们可以在使用测试时间计算时进行更好的监视性能。例如,监视器可以基于推理模型,也可以通过询问代理商来询问它们。该文件还表明,另一个探索地址意味着监视器的敌对培训,以与试图隐藏欺诈的特工作斗争。 “如果高度智能的AI代理是可解释的,那么许多风险E更容易解决。人们在应用机制的解释性方面取得了进步,但是需要更多的精力将其转化为可靠且实用的工具来调节大型代理。鉴于在思维链中提供了独特的机会,该文件认为行业专家必须:首先,要澄清何时正确监控思维链,以开发对思维链的有效监控,即,开发和整合标准化的评估方法和指标。其次,如果有这样的评估,则必须在系统描述卡上发布评估结果。一旦可靠的监视评估方法可用,开发人员必须定期在模型中执行这些评估,以告知评估结果,所使用的方法和模型模型模型描述卡上的局限性,除非这些评估表明他们缺乏SE特定用途的情况值。同样,应使用监视分数来确定电容和实现。这意味着开发人员可以监视训练或实施特定模型以及其他安全特征和评估的能力。应考虑度量标准。这些决定应基于一般风险评估。这包括估计监视链,监视系统的性能特征以及模型中不当行为的趋势。另一个潜在的干预措施是,开发人员希望看到思想链,并允许人类用户发现和报告问题。但是,这可能具有相反的效果。它可以迫使人们直接监视自己的思想链,以使他们“看起来安全”并施加巨大的压力,这可能会破坏对思想链的监视,从而避免常见的法律和道德风险。从这个意义上讲,本文档的作者声明了那一刻,他们不会对此提出任何明确的建议。思考链监测是一种补充解决方案,而不是替代解决方案。在关注心理链监视带来的机会时,还有其他一些局限性。该文件确定,对思想链的监视无需展示思维过程,可以检测到欺诈行为,但本身并没有提供可靠的安全证据。如果在激活过程中可以做出恶意的推论,即使模型没有明显的恶意推断,预测的结果也可能会偏差。因此,本文件建议人们不要为这种监视开发错误的安全感。同时,监视需要推断的危险任务可能无法捕获所有相关的危害。某些危险的任务可能不需要在Absoluto中进行太多推断,并且该模型可以在激活过程中执行更复杂的推论,这使得满足外部推理属性的可能性不大。在具有更好情境意识的更先进的模型中,可以中断心理链监测。因此,未来的模型可以通过抑制其“展示思想”的趋势来避免检测,并故意掩盖必要推理时的推理过程。而且,如果牢固地维护了当前思想链行为的现有模式,则可以以更有效的安全干预为代价。尽管该行业尚未达成这一意见,但该文档包括该过程主管所拥有的几种形式。它极大地改善了模型的一致性,因为在模型的推断中可以进行有效的干预措施。因此,如果开发人员采用策略,他们只承诺无条件地维护现有思维链的可观察形式,则可以忽略此类安全干预的潜在价值。 for这些原因,本文档建议对思想链的监视不被用作替代方案,而是现有安全研究局的补充。 It should be noted that all supervision and regulation methods have limitations and lead to "fraudulent follow -up fish. Therefore, multiple monitoring layers may be required to create security measures for future AI agents, and it is desirable that these monitoring layers have an unrelated failure mode. In general, mental chain surveillance provides a valuable addition to AI security measures, which gives people an idea of how AI agents make decisions. However, the document indicates that theCurrent因此,思维链的可见性可以继续。-monitorability-is-is //venturebeat.com/ai/openai-google-deEpmind-and-anthricic-sound-arm------------------------------------------------------------------------------------------------------------------------------- ------------------------------------------------------------------------------------------------------------------------------
Copyright © 2024-2026 365bet官网_365bet网址 版权所有

网站地图

备案号: