聊天机器人模型最新版本gpt-4技术到底怎么样?为了了解这模型差异,根据官方实验表明,gpt-4在各种专业测试和学术基准上的表现与人类水平相当。
首先,在美国bar律师执照统考模拟中,gpt-4得分约为前10%——击败了90%人类,而chatgpt背后的gpt-3.5得分约为倒数10%;生物奥林匹克竞赛,gpt-3.5能达到后31%水平分位,gpt-4可达到前1%水平分位;研究生入学考试(gre)、sat数学考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。
第二个测试是与其他英文机器学习模型的技术能力。研究团队使用微软azuretranslate,将mmlu基准——一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,gpt-4优于gpt-3.5和其他大语言模型(chinchilla、palm)的英语语言性能。
而在truthfulqa等外部基准测试方面,gpt-4也取得了进展。openai测试了gpt-4模型将事实与错误陈述的对抗性选择区分开的能力。实验结果显示,gpt-4基本模型在此任务上仅比gpt-3.5略好。但在经过rlhf训练之后,二者的差距就很大了,例如gpt-4在测试中并不是所有时候它都能做出正确的选择。
此外,gpt-4还支持做编程、玩梗图、回答关键问题、理解图片、看懂法语题目并解答等其他更多扩展技术能力,研究人员发现,gpt-4能随着时间不断处理令人兴奋地新任务——现在的矛盾是ai的能力和人类想象力之间的矛盾。不过openai表示,图像输入是研究预览,目前不公开。
总的来说,gpt-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了判断失误问题。在openai的内部对抗性真实性评估中,gpt-4的得分比chatgpt使用的gpt-3.5模型能力高40%。
很显然,虽然gpt-4对于许多现实场景的处理比人类差,但在各种专业和学术基准上已表现出和人类相当的水平。
不过,gpt-4模型也有很多不足,有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息,以及对实时事件的不了解等。
1、该模型在其输出中可能会有各种偏见,但openai在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
2、gpt-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
3、gpt-4预测时也可能出错但很自信,意识到可能出错时也不会再检查一遍(double-check)。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过openai目前训练后的过程,校准减少了。
openai表示,研究团队一直在对gpt-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。数据显示,与gpt-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而gpt-4对敏感请求(如医疗建议和自我伤害)的响应符合要求的频率提高了29%。
另外,openai团队还聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试,从而为改进gpt模型提供了依据。
“随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。”openai表示。
目前gpt-4版本默认速率限制为每分钟40k个token和每分钟200个请求,而gpt-4的上下文长度为8192个token,最多提供32768个token上下文(约50页文本)版本的有限访问,但版本也会随着时间自动更新。
不过,目前openai公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,也不包括期待已久的ai视频功能,也并没有开放gpt-4的任何核心技术论文信息。
但openai正在开源其软件框架openaievals,用于创建和运行基准测试以评估gpt-4等模型,同时逐个样本地检查它们的性能。
复旦大学计算机学院教授、博士生导师黄萱菁此前表示,openai迄今为止没有开放过它的模型,只开放过api接口,你可以调用它,但拿不到gpt-3.5内部细节,而且今年连论文都没有,需要大家去猜测。