一项关于OpenAI的ChatGpt-5模型的研究确定,在大约25%的病例中会产生错误的答案。该研究将这些不准确性归因于模型培训数据中的固有局限性及其概率推理体系结构,如Tom的指南报告中所述。该模型表明,与其前任GPT-4相比,错误的错误减少了45%,“幻觉”或完全伪造的答案减少了45%。尽管有这些进步,但该研究证实,Chatgpt-5仍然可以表现出过度自信,这是一种现象,在该现象中,它具有高度确定性的事实不正确的信息。幻觉的这种持久性虽然减少,但仍然是影响其可靠性的核心问题。性能准确性取决于任务的特定领域。例如,该模型在2025 AIME数学测试中获得了94.6%的精度得分,并且在一组实际的编码任务上达到了74.9%的成功率。研究表明,在涉及通用知识或需要复杂的多步推理的任务中,错误变得更加普遍,而模型的性能不那么一致。当针对MMLU Pro基准测试评估时,一项严格的学术考试涵盖了包括科学,数学和历史在内的广泛学科,Chatgpt-5的精度约为87%。该研究确定了其余错误的几个根本原因。这些包括无法完全理解细微的问题,依赖可能过时或不完整的培训数据,以及该模型的基本设计是一种概率的模式预测机制,这些机制可以产生合理但实际上正确的答案。根据这些发现,该报告建议用户独立验证Chatgpt-5产生的任何关键信息。该建议与精确度至关重要的专业,学术或与健康有关的询问特别相关。即使有了明显的改进,一致的错误率也强调了对模型输出的谨慎使用和外部验证的需求。