### [OpenAI 预览新一代模型 GPT-5.6 Sol](https://siyanai.com/article/8019.html) **Published:** 2026-06-26T10:00:00 **Author:** 思言Ai **Excerpt:** 预览 GPT-5.6 Sol:新一代模型 | OpenAI 2026年6月26日 产品发布 预览 GPT‑5.6 Sol:下一代模型 我们即将开始 GPT‑5.6 系列的有限预览:旗舰模型 Sol、适用于日常工作的均衡模型 Terra,以及快速且经济的模型 Luna。Terra 的性能与 GPT‑5.5 相当,但价格便宜 2 倍;Luna 则在我们最低成本下… 预览 GPT-5.6 Sol:新一代模型 | OpenAI 2026年6月26日 产品发布 # 预览 GPT‑5.6 Sol:下一代模型 我们即将开始 GPT‑5.6 系列的有限预览:旗舰模型 Sol、适用于日常工作的均衡模型 Terra,以及快速且经济的模型 Luna。Terra 的性能与 GPT‑5.5 相当,但价格便宜 2 倍;Luna 则在我们最低成本下提供强大能力。 GPT-5.6 Sol 搭载了我们迄今为止最强大的安全栈。我们加强了对高风险活动、敏感网络请求和重复滥用行为的防护,并花费数周时间查找漏洞、对我们的系统进行压力测试,使其能够抵御真实世界的攻击。 我们相信广泛可及性,并计划在未来几周内让 GPT-5.6 Sol、Terra 和 Luna 全面开放使用。作为我们与美国政府持续合作的一部分,我们在今天发布前预先展示了我们的计划以及模型的能力。应美国政府的要求,我们首先向一小批经过审查的合作伙伴提供有限的预览版,这些合作伙伴的参与信息已同步给政府,随后再逐步扩大发布范围。在此预览期间,我们将继续测试并与合作伙伴密切协调,朝着更广泛的可及性迈进。我们不认为这类政府审查流程应当成为长期的默认模式。这样做会让最优秀的工具远离那些真正需要它的用户、开发者、企业、网络防御者以及全球合作伙伴。我们采取这一短期步骤,是因为我们认为这是在未来几周内实现更广泛可及性的最强路径,同时我们也会与政府合作制定网络行政令框架,并为未来的模型发布建立可重复的流程。 ## 能力 GPT-5.6 Sol 是我们迄今最强的模型。为预览模型性能,我们分享了一组评估结果,展示了在编程、生物学和网络安全方面增强的智能体能力,更多安全性和准备度评估可在我们的系统卡片中查阅。当模型全面开放后,我们将公布更大范围的评估结果。 在 GPT-5.6 中,我们引入了一种新的最大推理努力级别,让 Sol 拥有最充分的时间进行深度推理。此外,我们还引入了全新的超模式(ultra mode),该模式通过利用子智能体来加速复杂工作,超越了单一智能体的能力边界。 对于编程工作流,GPT-5.6 Sol 在 Terminal‑Bench 2.1 上树立了新的最优水平,该基准测试的是需要规划、迭代和工具协调的命令行工作流。 TerminalBench 2.1 GPT‑5.6 Sol 在生物工作流方面也展现出广泛的改进。在评估长周期基因组学和定量生物学分析的 GeneBench v1 上,它比 GPT‑5.5 取得了更强的结果,同时使用的模型 token 更少。 GPT‑5.6 Sol 是我们迄今为止在网络安全领域能力最强的模型。它推动了包括漏洞研究和利用在内的长周期安全任务的性能—效率边界。在 ExploitBench² 上,GPT‑5.6 Sol 仅使用约 1/3 的输出 token 即可与 Mythos Preview 竞争。在由加州大学伯克利分校研究人员与 OpenAI 及其他前沿实验室合作开发的 ExploitGym³ 上,GPT‑5.6 Sol、Terra 和 Luna 模型随着推理能力的提升,在网络能力方面均展现出显著改进。 ## 更强的网络能力,更完善的保障措施 我们开发了 GPT‑5.6 Sol、Terra 和 Luna,并配备了迄今为止最强大的保障措施,其配置与每个模型的能力相匹配。随着模型能力不断增强,我们设计的保障措施也能在真实世界的对抗压力下保持稳健,同时保留代码审查、漏洞研究、补丁开发、调试、安全教育及防御性测试等合法工作的访问权限。我们的目标是让被禁止的进攻性活动变得更加困难、不确定且易于检测,同时不会不必要地限制那些有益用途。基于我们对模型及保障措施的评估,我们预计这些措施将为合法的防御性工作带来显著益处,同时有效约束被禁止的进攻性使用。 GPT‑5.6 Sol 在帮助人们发现和修复漏洞方面,比可靠地执行端到端攻击表现更佳。随着这些能力的持续进步,我们的优先目标是确保它们能够触达并惠及防御者,让他们能够利用这些工具发现弱点、开发补丁,并更广泛地强化系统安全。 GPT‑5.6 Sol 在“防护准备框架”下并未跨越网络关键阈值。在涉及 Chromium 和 Firefox 的评估中,它确实识别了漏洞和利用原语——即构成完整利用代码的基本构件——但在受测条件下并没能自主生成出完整可用的攻击链。然而,基准评测阈值无法穷尽模型可能被使用或与其他工具结合的每一种方式。正是这种不确定性,加上该模型在能力上的整体跃升,促使我们将更强有力的安全措施与分阶段发布结合起来。我们在 GPT‑5.6 Preview 系统卡中分享了关于安全措施的更多细节。 ## 分层安全防护栈 没有单一的安全措施能够有效对抗坚决或适应性的滥用。在整个 GPT‑5.6 预览版中,我们采用了分层安全防护机制,各模型的具体配置有所不同,并对其进行了真实攻击环境下的压力测试。这些措施包括:内嵌于模型中的防护、生成过程的实时检测、账户级别的信号、差异化访问权限、监控、执行以及持续测试。 GPT‑5.6 经过训练,会拒绝被禁止的网络辅助请求,包括当用户试图掩盖其意图或进行模型越狱时。这些模型级别的防护措施,为模型应该和不应该协助的事项划定了第一道边界。 实时的网络与生物滥用分类器提供了另一层防护,在输出生成过程中对其进行评估。对于高风险案例,如果检测到潜在违规,生成过程可能会暂停,并由一个更大的推理模型审阅对话及其上下文。若输出被判定为不允许,则在到达用户之前就会被拦截。 被标记的活动还可能触发跨相关对话和风险信号的账户级别审查,这符合我们关于内容保留与审查的相关条款和政策。将审视范围扩展到单一对话之外,有助于我们的系统将持续性恶意行为与合法的双重用途安全研究工作区分开来——在这两种截然不同的场景下,相似的技术概念都可能出现。 这些层级共同作用,使得整体方法比任何单一防护措施都更稳健。模型行为降低了有害回复出现的可能性,实时系统可在生成过程中进行干预,账户级别的审查能够识别更广的模式,而差异化访问机制则在不将最敏感能力默认广泛开放的前提下,保留了重要的防御性工作。 尤其是在预览期间,用户可能会遇到防护措施阻止或拒绝某些请求的情况。另一些请求可能耗时更长,因为生成过程会暂停以进行额外审核。防护措施有时也会对合法工作产生干预,特别是在防御行为与攻击行为在初期看起来相似的双重用途领域。 这正是预览所旨在测试的一部分。我们想了解的不仅是防护措施能否约束滥用行为,还包括合法用户是否仍能可靠高效地完成正常工作。预览期间的反馈将帮助我们减少不必要的拦截和延迟,改进防护措施对上下文的理解能力,并在更广泛发布前创造更流畅的使用体验。 我们也在与企业客户合作,探索更长期的方案——包括隐私保护式检测、客户自主运行的安全控制,以及根据客户、用户或工作负载的风险程度进行权限校准——从而在支持企业隐私需求的同时推进安全性。 ## 通过自动化红队测试提升稳健性 当攻击者调整策略时,防护措施也需要保持有效。仅能防御一组固定已知攻击的防护方案,对于前沿模型来说是不够稳健的。 这就是为什么我们在安全方面投入了前所未有的更多的智能和算力,利用我们自己的模型来更快地发现弱点并改进防护措施。我们投入了超过 70 万 A100 等效 GPU 小时进行自动化红队测试,旨在发现通用越狱方法:即那些可以在多种提示词或上下文中生效的攻击,而不仅仅是针对单一特定场景的攻击。聚焦这些更难、更通用的攻击,让我们能够超越一组固定的已知故障来测试防护措施。它还能让我们探索远超纯人工测试所能覆盖的攻击模式数量,更早地识别出故障模式,并缩短从发现弱点到解决弱点之间的路径。 除了自动化红队测试,我们还与第三方测试人员合作,开展了广泛的人类专家红队测试,这项工作在预览期间将持续进行。人工红队测试通过让富有创造力的专家尝试以我们系统可能无法预料的方式滥用模型来测试防护措施,从而对自动化工作形成补充。 没有任何评估能够代表每一种产品配置、多步骤攻击或真实世界的工作流程。因此,我们维持了一个快速响应流程,用于复现、评估、确定优先级并修复新发现的越狱方法,然后将它们纳入我们持续进行的评估中,以便未来能够针对类似的故障进行测试。 ## 可用性与定价 在预览期间,GPT‑5.6 系列模型将首先通过 API 和 Codex 提供给一组经过筛选的可信合作伙伴和组织。我们计划很快将其更广泛地提供给使用 ChatGPT、Codex 和 API 的用户。 在随 GPT‑5.6 引入的这个新命名体系中,数字标识模型的代际,而 Sol、Terra 和 Luna 则标识可持续的能力层级,这些层级可以按照各自的节奏推进。整个系列共同为个人用户和开发者提供了在智能、速度和成本之间更清晰的选择。 GPT‑5.6 按每 1M 个模型 token 计费,共有三种模型规格:Sol 为输入 $5 / 输出 $30;Terra 为输入 $2.50 / 输出 $15;Luna 为输入 $1 / 输出 $6。GPT‑5.6 还引入了更可预测的提示词缓存,包括支持显式缓存断点和 30 分钟最低缓存存留时间。对于 GPT‑5.6 及后续模型,缓存写入按模型未缓存输入价格的 1.25 倍计费,而缓存读取仍享受 90% 的缓存输入折扣。 我们还将于 7 月在 Cerebras 上推出 GPT‑5.6 Sol,最高可达每秒 750 个模型 token,以前所未有的速度将前沿智能带给客户。随着我们扩大容量,初期仅限部分客户使用。 我们期待继续在本次预览期间学习,并尽快向更多人推出 GPT‑5.6 Sol、Terra 和 Luna。 * * * 1. 我们通过观察模型的线上运行行为以及离线模拟来估算延迟和 API 成本。这些估算考虑了工具调用细节、采样生成模型 token 和输入模型 token。实际结果可能会有很大差异,并取决于我们模拟中未涵盖的许多因素。我们模拟的是快速 API 速度下的延迟,以及常规 API 定价下的成本。 2. 所有模型均使用 ExploitBench API 测试框架进行评估,采用 5 个随机种子并保持推理连续性。 3. 我们在 alpha API 上运行了 ExploitGym,该 API 输出响应的速度快于我们的公开 API,然后按比例缩放以匹配公开 API 的速度。在将延迟缩放至公开 API 的预期速度时,这会导致部分估算延迟超过 2 小时和 6 小时的时限,尽管在评估运行中这些时限确实被正确遵守。对于时间敏感的任务,我们提供 API 中的优先处理以及 Codex 中的快速模式,以获得更快的速度。 4. 未报告输出模型 token、延迟或成本的模型以水平虚线表示。 - 2026 年 **Tags:** AI新闻, ai日报, ai最新新闻, AI资讯, 模型发布/更新 **Categories:** AI资讯 ---