微软推出“从错误中学习”模型训练法,号称可“模仿人类学习过程,改善AI推理能力”

2023-11-07每日热点

  IT之家 11 月 7 日消息,微软亚洲研究院联合北京大学、西安交通大学等高校,提出了一项名为“从错误中学习(Learning from Mistake,LeMA)”的 AI 训练方法,号称可以通过模仿人类学习知识的过程微软推出“从错误中学习”模型训练法,号称,来改进 AI 推理能力。

  

  当下 OpenAI GPT-4 和谷歌 aLM-2 等大语言模型在自然语言处理(NLP)任务,及思维链(chain-of-thought,CoT)推理的数学难题任务中都有不错的表现。

  但例如 LLaMA-2 及 Baichuan-2 等开源大模型,在处理相关问题时则有待加强可“模仿人类学习过程,改善AI推理能力”。为了提升开源这些大语言模型的思维链推理能力,研究团队提出了 LeMA 方法。这种方法主要是模仿人类的学习过程,通过“从错误中学习”,以改进模型的推理能力。

  

  ▲ 图源 相关论文

  IT之家发现,研究人员的方法是使用一对包含“错误解答”与“修正后正确答案”的数据来微调相关模型。为取得相关数据,研究人员收集了 5 个不同大语言模型(包括 LLaMA 及 GPT 系列)的错误答案和推理过程,再以 GPT-4 作为“订正者”,提供修正后的正确答案。

  据悉,修正后的正确答案中包含三类信息,分别是原推理过程中错误片段、原推理过程出错的原因、以及如何修正原方法以获得正确答案。

  研究人员采用 GSM8K 及 MATH,来测试 LeMa 训练法对 5 个开源大模型的效果,结果显示,以改进过的 LLaMA-2-70B 为例,在 GSM8K 的准确率分别为 83.5% 及 81.4%,在 MATH 则分别为 25.0% 及 23.6%。

标签: 今日热榜

“微软推出“从错误中学习”模型训练法,号称可“模仿人类学习过程,改善AI推理能力”” 的相关文章

龙年首发!成功!

龙年首发!成功!

  桑茜 科技日报记者 付毅飞   2月23日19时30分,长征五号遥七运载火箭在文昌航天发射场点火起飞,随后将通信技术试验卫星十一号送入预定轨道,发射任务取得圆满成功。...

SpaceX“星舰”第三次试飞发射升空

SpaceX“星舰”第三次试飞发射升空

     凤凰网科技讯 北京时间3月14日,美国中部时间周四8:25分(北京时间周四21:25分),SpaceX巨...

华为x央视官宣!问界M9将登2024龙年春晚

华为x央视官宣!问界M9将登2024龙年春晚

  快科技2月6日消息,今日,AITO汽车官微宣布,问界M9将登2024龙年春晚。   日前,赛力斯汽车宣布,赛力斯超级工厂已建成投用,问界M9首批车主已顺利举行交付活动...

比亚迪首款百万级轿车仰望U7实车曝光 博主:霸气不亚于BBA旗舰

比亚迪首款百万级轿车仰望U7实车曝光 博主:霸气不亚于BBA旗舰

  快科技1月14日消息,继百万级硬派豪华越野仰望U8、百万级纯电性能超跑之后,比亚迪又迎来了仰望系列的第三款车型——百万级新能源旗舰轿车仰望U7。   此前,该车的路试...

360集团:已完成旗下360浏览器等鸿蒙原生应用核心版本开发

360集团:已完成旗下360浏览器等鸿蒙原生应用核心版本开发

  IT之家 12 月 27 日消息,360 集团宣布,基于 HarmonyOS NEXT,已完成旗下 360 浏览器、360 天气大师等鸿蒙原生应用核心版本开发。...

字节跳动已建起万卡GPU集群

字节跳动已建起万卡GPU集群

  《科创板日报》1日讯,《科创板日报》记者获悉,截止2023年9月,字节跳动已经建立超过一万张的英伟达Ampere架构GPU集群,目前正在建设Hopper架构的集群。英伟达Ampere架...