实测大模型的局限性-巴拉冬

1、大模型回答很简单的数字推理问题，好多都错了。具体错误可以看下图其中一个测试用例：

2、我用ChatGPT及其他模型测试这个提示词：用1000字概括出莫言小说《丰乳肥臀》的主要章节的内容。

结果各个大模型生成的内容首先字数不对，其次都没有去概括小说的主要内容，而是生成了类似文艺评论的内容。其实概括章节内容需要将各个章节的主要内容提炼汇总，而不是笼统地分析写作手法、时代背景之类的。

从生成结果来看，大模型的答案还是网上诸多答案的融合。虽然生成了答案，但是对于用户把握小说的情节并没有太大帮助，尤其是某些内容原著作者都没有明说。

3、人物、时间和事件的错位

之前让大模型梳理过去十年发生的某一主题的事件，结果生成的结果中很多时间、人物和事件出现错误，比如，大模型把A事件的人物放到B事件中。

这种偶发性的错误在生产中会带来工作事故，而且人工检查的成本过高。不过，大模型对于非精确性、中低智能任务的表现还是不错的，不过这一类任务往往用户付费意愿不高。

注意：本站所有文章和设计产品均为原创，任何人不得抄袭、盗售及用于任何商业用途，侵权必究！！！

脑机接口及神经科学领域创业公司大汇总 >>