尽管功能强大,但gpt-4与早期的gpt模型具有相似的局限性。最重要的是,它仍然不完全可靠——它仍然会大胆自信地编造事实,并且会出现推理错误。openai强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
在gpt-4公告中,openai强调该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,gpt-4的得分比最新的gpt-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于gpt-3.5。”
这也意味着,gpt-4相对于以前的模型来说,还是显著地减少了一本正经胡说八道的频率,而且用户千方百计提示它以让它说出被禁内容的成功率,也小了很多。
但是,这并不意味着系统不会出错或输出有害内容。例如,微软透露其bing聊天机器人其实一直由gpt-4提供支持,但许多用户还是能够以各种创造性的方式打破bing的护栏,让机器人提供危险的建议、威胁用户和编造信息。
此外,gpt-4仍然是基于2021年9月之前的数据训练的,这也意味着它和前一代一样,仍然缺乏对于2021年9月之后的数据的有效理解。
“gpt-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”openai表示。