消灭“幻觉”!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

2024-01-24每日热点

  【新智元导读】谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向。

  大模型的「幻觉」问题马上要有解了?

  威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。

  如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。

  如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成「我没法回答这个问」,从而有望最大限度的改善幻觉问题。

  ASPIRE能让LLM输出答案以及答案的置信度得分。

  研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。

  让LLM不仅要回答问题,还要评估这些答案 。

  在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。

  就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。

  这就是ASPIRE的本质,它涉及三个阶段:

  (1) 针对特定任务的调优,

  (2) 答案采样,

  (3) 自我评估学习。

  在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。

  如果LLM可以成为决策过程中值得信赖的合作伙伴。

  只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。

  研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。

  ASPIRE 的机制

  针对特定任务的微调

/

  答案采样

/

  自评估学习

/

/

/

  结果

/

/

  当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。

  例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。

  TriviaQA数据集评估中出现了一个有趣的模式。

  虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。

  相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。

  这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。

  研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。

  相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。

  因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。

标签: 今日热榜

“消灭“幻觉”!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型” 的相关文章

理想汽车2月交付新车20251辆 同比增长21.8%

理想汽车2月交付新车20251辆 同比增长21.8%

  凤凰网科技讯 3月1日,理想汽车今日公布2024年2月交付数据。2024年2月,理想汽车共计交付新车20,251辆,同比增长21.8%。自交付以来,理想汽车累计交付量达到684,780...

视障者的新助手:微软Seeing AI应用终于登陆安卓平台

视障者的新助手:微软Seeing AI应用终于登陆安卓平台

  IT之家 12 月 5 日消息,早在 2017 年 7 月视障者的新助手:微软Seei,微软就为使用 iPhone 等苹果 iOS 设备的用户推出了 Seeing AI 应用。该应用通...

国产大飞机C919春运首秀“成绩单”来了:顺利执行10个航班,承运1274名旅客

国产大飞机C919春运首秀“成绩单”来了:顺利执行10个航班,承运1274名旅客

  IT之家 1 月 27 日消息,综合澎湃新闻、《中国民用航空》杂志,中国东方航空 4 架国产大飞机 C919 于春运首日(1 月 26 日)全部投用,顺利完成首秀。C919 大飞机共执...

多图曝光!腾讯“企鹅岛”来了

多图曝光!腾讯“企鹅岛”来了

  腾讯深圳前海新总部“企鹅岛”   正在火热建设中   建成后将面向公众开放   成为深圳旅游打卡新地标   近日...

一季度营收221亿美元!英伟达送新财报:黄仁勋赚麻 股价暴涨10%

一季度营收221亿美元!英伟达送新财报:黄仁勋赚麻 股价暴涨10%

  快科技2月22日消息,就在刚刚英伟达送出了新一季度的业绩,远超所有投行的预期,黄仁勋在AI人工智能的助力下,真的是赚麻了。PS:你还指望消费级显卡降价嘛...   英...

亚马逊标记苹果iPhone精织斜纹保护套:用户退货比例过高

亚马逊标记苹果iPhone精织斜纹保护套:用户退货比例过高

  IT之家 3 月 1 日消息,亚马逊近日更新了苹果 iPhone 精织斜纹保护套产品页面,用户尝试下单的时候会看到“频繁退货”(frequently returned)标记,表明用户退...