正文

OpenAI发布多模态大模型GPT-4 模拟律师考试获高分

2023年03月15日科技

资料图。美国人工智能研究公司OpenAI及其开发的聊天软件ChatGPT 的徽标。(LIONEL BONAVENTURE/AFP via Getty Images)

【新唐人北京时间2023年03月16日讯】聊天机器人ChatGPT在全球范围内引发的AI热潮尚未消退，OpenAI公司又抛出了一颗新的震撼弹，发布了多模态预训练大模型GPT-4。与原先的ChatGPT相比，GPT-4在识图能力、回答准确性等多个方面取得了飞跃式提升。

3月15日，美国人工智能研究公司OpenAI发布了ChatGPT的升级版GPT-4，同时开放了 GPT-4的应用编程接口（API）。OpenAI的工程师在介绍GPT-4的视频中说：“GPT-4是世界第一款高体验、强能力的先进AI系统，我们希望很快把它推向所有人。”

根据OpenAI公司的介绍，GPT-4是一个大型多模态模型，能接受图像和文本输入，并输出正确的文本回答。这款应用程式在各种专业测试和学术基准上的表现与人类水平相当。OpenAI花了6个月的时间，使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行叠代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

据称，GPT-4通过了模拟律师考试，而且分数在应试者的前10%左右；相比之下，GPT-3.5的律师模拟考试得分在倒数的10%左右。与当初GPT-3.5的训练相比，GPT-4的训练运行获得了前所未有的稳定性，以至于OpenAI能够提前准确预测GPT-4的训练性能。

OpenAI表示，当任务的复杂性达到足够的阈值时就会发现，GPT-4比GPT-3.5“更可靠、更有创意”，并且能够处理更细微的指令。为了进一步了解这两个模型之间的差异，OpenAI在各种基准和一些为人类设计的模拟考试上进行了实验。

例如：为了测试 GPT-4在其它语言上的能力，研究团队使用Azure Translate将 MMLU基准 —— 一套涵盖57个主题的1.4万个多项选择题 —— 翻译成多种语言。在测试的26种语言的24种中，GPT-4的语言能力优于GPT-3.5和其它大语言模型（Chinchilla、PaLM）。

测试还表明，GPT-4能够正确完整地解答出高难度物理题；有能力理解并发现一张照片里“有什么不对劲的地方”；还可以量子速读看论文，然后整理出摘要；甚至能够理解梗图和漫画背后隐藏的是什么意思，它甚至具备了某种程度的幽默感。

与始终表现出平静、理智的ChatGPT不同，现在开发人员可以通过在“系统”消息中描述这些方向来规定他们的AI 的风格和任务。系统消息允许API用户在一定范围内定制化实现不同的用户体验。

此外，GPT-4在TruthfulQA等外部基准测试方面也取得了进展，OpenAI测试了模型将事实与错误陈述的对抗性选择区分开的能力。

相对于以前的模型，GPT-4显着减轻了幻觉问题，在OpenAI的内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5模型高40%。不过，GPT-4仍然存在可能生成错误答案及出现推理错误的情况。

OpenAI表示，研究团队一直在对GPT-4进行叠代，使其从训练开始就更加安全和一致，所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

OpenAI承认，GPT-4有着与以前的模型类似的一些风险，例如：产生有害的建议、错误的代码或不准确的信息。但经过采取一些预防性措施，GPT-4在许多方面的安全性能得到了改善。与GPT-3.5相比，模型对不允许内容的请求的响应倾向降低了82%，而 GPT-4对敏感请求（如医疗建议和自我伤害）的响应符合政策的频率提高了29%。

按照demo视频里OpenAI工程师们的说法，针对GPT-4的训练在去年8月已完成，剩下的时间都在进行“微调提升”以及去除危险内容生成的工作。

GPT-4发布后，OpenAI公司直接升级了ChatGPT，让ChatGPT Plus的订阅者可以在其官方网站上获得具有使用上限的GPT-4访问权限。

（责任编辑：李明）