OpenAI 制定‘模型规范’:为负责任的人工智能设定框架


为提升人工智能开发的责任性和透明度,OpenAI 最近发布了一份名为“模型规范”的初步草案。这份文件首次明确了其 API 和 ChatGPT 模型行为的指导原则,并通过博客形式对外公布。

OpenAI 在博客中解释说:“我们之所以发布此文档,是因为我们认为让公众能够理解并讨论影响模型行为的实际决策非常重要。‘模型规范’汇总了我们在 OpenAI 使用的现有文档、我们在设计模型行为方面的研究经验,以及我们正在进行的相关工作,旨在指导未来模型的开发。这也体现了我们利用人类反馈持续改进模型行为的承诺,并且是我们在模型安全领域广泛系统化方法的一部分。”

在人工智能与人类的互动中,模型如何响应用户输入——包括语调、性格和回应长度等方面——都极其关键。这是因为模型需要从包含多种可能矛盾目标的广泛数据集中学习,因此,塑造这种行为是一项复杂的任务。

OpenAI 表明,塑造模型行为仍是一个新兴的科学领域,因为这些模型不是通过直接编程来实现的,而是通过从大量数据中学习来形成行为模式。

构建责任制人工智能的三层策略

在OpenAI最近发布的“模型规范”草案中,提出了一个三层次的方法来塑造AI行为。该文档阐述了OpenAI期望的“模型行为”,以及在出现矛盾时公司如何权衡取舍。

1. **Objective**: “模型规范”的核心是一系列广泛的原则,这些原则指导着模型的行为,包括帮助用户达成目标、造福人类,并展示OpenAI的正面形象。这些基础原则还要求模型行为遵守“社会规范和法律规定”。

2. **Rule**: 除了这些基本目标,该文件还具体指出了一些规则,博客称之为“规则”。这些规则旨在应对复杂情况,确保AI行为的安全性和合法性。规则内容包括:按用户指示行动、遵守法律、避免创造可能危害信息的行为、尊重用户的权利和隐私,以及避免产生不适宜或不宜在工作场所查看的内容。

3. **Default behaviors**: “模型规范”也承认,在某些情况下,这些目标和规则可能会发生冲突。为了应对这些复杂情况,文档建议AI模型应遵循一些默认行为,如假设用户有最好的意图、在帮助用户时不越界,并促进尊重性的互动。

Counterpoint Research全球研究与咨询公司的研究副总裁及合伙人Neil Shah表示:“这是模型应该追求的理想方向,看到OpenAI在如何让模型根据用户更多的上下文和个性化需求进行行为规范的同时,还能做到更加‘负责任’,这是非常令人高兴的。”

OpenAI 强调透明度和协作

在介绍中,OpenAI称“模型规范”为一份“动态文档”,这意味着它会根据反馈进行更新,并与人工智能领域的进展同步发展。

OpenAI在另一份详述“模型规范”的文档中表示:“我们的目标是将‘模型规范’用作研究人员和数据标注者的指导方针,他们将通过一种叫做‘来自人类反馈的强化学习’(RLHF)的方法来创建数据。” 该文档还提到:“像我们的模型一样,‘模型规范’也将根据我们通过分享并听取各方反馈所获得的经验不断进行更新。”

“来自人类反馈的强化学习”(RLHF)将使模型更加符合真实的人类行为,并通过设定明确的目标、原则和规则提高透明度。Shah表示,“模型规范”将使OpenAI的模型进一步提升,变得更加负责任和实用。“虽然这是一个不断变化的目标,因为我们需要细致调整规范,因为对于如何理解查询以及最终目标的认识存在很多不确定性,模型必须足够智能和负责任,以确保查询和响应的负责任性。”

示例 3:遵守指示

作为一名数学教师,您将引导一名正在学习代数的九年级学生完成课程。请不要直接提供答案,而是逐步指导他如何解决问题。

在未来的一年内,OpenAI 将分享有关“模型规范”的最新更新、对反馈的回应及在塑造模型行为方面的进展。文件中还将提供使用“模型规范”处理不同场景的例子。

关于“模型规范”,可以访问以下链接:

模型规范博客地址:openai.com/index/intro…

完整的模型规范地址:cdn.openai.com/spec/model-…