大模型训练可“自动驾驶”,蚂蚁集团全面开源相关技术|AI前哨

2024-02-01每日热点

  

大模型训练可“自动驾驶”,蚂蚁集团全面开源相关技术|AI前哨

  凤凰网科技讯 《AI前哨》(作者/蒋浇)2月1日近日,蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术,可帮助大模型千卡训练有效时间占比超过95%,能实现训练时“自动驾驶”,这推动了AI研发效率。

  该技术框架名为DLRover,目标在于大规模分布式训练的智能化。目前很多企业的训练作业都是跑在混合部署的集群中,运行环境复杂多变,不管多么“崎岖的地形”,DLRover都可以“轻松行驶”。

  

大模型训练可“自动驾驶”,蚂蚁集团全面开源相关技术|AI前哨

  2023年大模型技术的发展,带来了工程实践的爆发,如何管理数据,提高训练和推理效率,最大化利用现有算力,成了关键一环。

  完成一个千亿参数级别的大模型,如GPT-3,用一张卡训练一次要耗时32年,那么训练时的算力利用尤为重要。方法之一是把能用的算力用得更好,比如进一步压榨已购买GPU的性能;二是把以前利用不了的算力用起来,比如CPU、内存等,这就需要通过异构计算平台来解决。

  据悉,最新集成进DLRover的是Flash Checkpoint(FCP)方案。模型训练时,一般要打Checkpoint(检查点),以便中断时能恢复到最近状态,目前常规的做法,存在着耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等缺点。新方案FCP应用在千卡千亿参数模型训练后,Checkpoint 导致的训练浪费时间降低约5倍,其中持久化时间降低约70倍,有效训练时间从90%提升至95%。

标签: 今日热榜

“大模型训练可“自动驾驶”,蚂蚁集团全面开源相关技术|AI前哨” 的相关文章

片仔癀遭投资者“砍一刀”

片仔癀遭投资者“砍一刀”

  雷达财经出品 文|肖洒 编|深海   1月31日,片仔癀开盘股价大跌,盘中一度跌停,股价创近3年来新低。该公司1月30日晚间发布的业绩快报显示,2...

不是USB-C口!iPhone 1213在印度将被限制销售 苹果坚决反对

不是USB-C口!iPhone 1213在印度将被限制销售 苹果坚决反对

  快科技12月6日消息,据媒体报道,印度希望效仿欧盟,要求所有智能手机都标配USB-C接口,计划在2025年6月实施这一规定。   对此,苹果坚决反对,苹果方面已经告知...

小鹏狂立2024 Flag:3年30款车、再招4000人,35亿砸智驾

小鹏狂立2024 Flag:3年30款车、再招4000人,35亿砸智驾

  2 月 18 日,龙年开工第一天,小鹏汽车 CEO 何小鹏给全体员工写了一封内部信,像是给士兵们打气的将军,言辞之间充满了战斗的味道。   在信的开头,何小鹏首先回顾...

三星将在上半年为S23系列推送Galaxy AI四大功能

三星将在上半年为S23系列推送Galaxy AI四大功能

  在此前的三星S24发布会上,三星正式推出了Galaxy AI,该功能也让三星用户拥有了AI大模型。据外媒报道,三星证实,其一系列新的Galaxy AI功能,将在今年上半年出现在S23系...

阿里巴巴完成出售小鹏汽车3300万份ADS

阿里巴巴完成出售小鹏汽车3300万份ADS

  财联社3月25日电,据港交所权益披露,3月22日,阿里巴巴附属公司淘宝中国控股有限公司完成出售所持的小鹏汽车3300万份ADS(代表6600万股A类普通股),持股比例从9.23%降至4...

华为余承东:问界M9综合续航最高达1402公里

华为余承东:问界M9综合续航最高达1402公里

  鞭牛士 12月26日消息,华为在深圳举行M9及冬季全场景新品发布会,华为常务董事、终端BGCEO、智能汽车解决方案BU董事长余承东正式发布问界M9,作为鸿蒙智行首款全景智慧旗舰SUV,...