国产大模型落地为王！讯飞星火如何快人一步？

2024-01-31每日热点

　　作者 | 程茜

　　编辑 | 漠影

　　大模型毋庸置疑是去年以来科技行业的“主角”，今天，大模型产业竞争的核心已然改变。

　　自2022年11月ChatGPT发布掀起的科技革命，到百模大战群雄逐鹿，如今随着大模型与产业落地的结合日益紧密，各类应用层出不穷，大模型商业化成为所有参与者的核心目标。2024年俨然已经成为大模型商业化元年。

　　此前大模型受研发成本高昂、落地场景不明晰、部署成本高等困扰商业化进程缓慢。就在昨天，2024年农历春节前夕，AI国家队、国内大模型产业赛道的重要玩家科大讯飞给出了自己的破局之道。

　　科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5，讯飞星火V3.5七大核心能力全面提升，数学、语言理解、语音交互能力超GPT-4 Turbo。

北京获准的大模型占全国近半；OpenAI

　　科大讯飞发布了星火语音大模型，语音识别方面首批37个主流语种效果超过OpenAI Whisper V3，基于此重磅升级了能自动识别语种的讯飞翻译机，并首次发布深度适配国产算力的讯飞星火开源大模型“星火开源-13B”，已在昇思开源社区联合首发上线。

　　自去年5月以来，以讯飞星火认知大模型为核心的技术积累与应用经验，已经成为科大讯飞在大模型商业化应用元年的重要支撑。

　　那么，曾困扰大模型商业化的难题如何解？科大讯飞眼中的大模型落地场景应该是什么样？科大讯飞又是如何找到一步步走出属于自己的路，成为行业引领者？我们试图从科大讯飞星火大模型V3.5的重磅升级出发，找到这些问题的答案。

　　一、大模型进入商业化元年，三大难题待解

　　轰轰烈烈的百模大战热潮逐渐冷静，但技术变革的深远影响尚未停歇，科技发展的进阶无不是真正与产业相结合，在真正的应用中发挥价值。

　　数据研究和分析机构Gartner预测，到2026年超过80%的企业将使用生成式AI的API（应用程序编程接口）、模型，或在生产环境中部署支持生成式AI的应用，而在2023年初这一比例不到5%。

　　但一直以来，大模型真正在行业应用中发挥价值，走向落地的进程都十分缓慢。这与大模型的能力、应用落地场景、算力三大挑战有关。

　　首先是模型能力的挑战。大模型的幻觉、智能化程度不够等问题，直接会影响不同行业用户对其的接受程度。不同于消费者，企业对于数据的安全隐私、大模型的可用性、生成内容的准确性要求极高，因此大模型除强大的生成、理解等能力，还需要真正解决行业问题，在业务中发挥价值。

　　其次是应用场景的挑战。大模型需要找到有效的落地场景，其在企业内部的应用范围十分宽泛，需要和内部大量数据进行深度融合，找到企业真正的痛点，并通过大模型的能力加以解决。这才能让企业最迫切的需求与大模型能力相互匹配，在进一步提升大模型能力的同时，形成丰富的应用场景。

　　第三是算力挑战。这既包含企业定制、微调大模型的算力成本，还包含国产大模型算力底座的自主可控。

　　对于下游企业而言，其没有足够算力成本去定制、微调大模型。算力是大模型训练和推理阶段极为重要的物质基础，但大模型热潮涌起使得算力成本高涨，中小企业难以维系。然而，企业想要让大模型与自己业务深度结合，就必须对大模型进行定制、微调，这也成为企业面前的一大拦路虎。

　　受波谲云诡的国际形势影响，国产化大模型产业的自主可控也是一大难题。只有建立在自主可控的国产化算力平台上，大模型产业才能实现可持续的良好发展。

　　随着这些难题被逐渐突破，大模型的实用性更上一个台阶，结合其综合能力解决真实世界的刚需被提上日程。在这一背景下，在大模型核心能力升级、商业落地应用、算力平台部署上面有诸多经验的讯飞，已经成为大模型商业化准备最充分的玩家代表，并向着成为大模型落地的领跑者突围。

　　二、讯飞星火V3.5升级，发语音、开源大模型，均基于全国产算力平台“飞星一号”训练

　　大模型改变世界的愿景逐渐清晰，那么站在大模型商业化元年？科大讯飞到底有哪些储备？又该如何领跑？我们可以从这场发布会的重点抽离出这家如今大模型头部玩家的布局逻辑，也代表了下一步大模型商业落地的竞争焦点。

　　讯飞星火V3.5实现了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力七大核心能力升级。其中，语言理解、数学能力超过GPT-4 Turbo，代码能力达到GPT-4 Turbo的96%，多模态理解能力达到GPT-4V的91%。

　　这些强大的能力已经在解决真实世界的刚需方面展现出强大潜力。

　　万物互联时代的人机交互方式正在被重塑，讯飞星火App上线了语音交互功能，该功能在与人的对话中能自动调用大模型的外部能力，实现全语音的自然交互。刘庆峰谈道，从DOS界面到Windows界面成就了微软的传奇，从键盘到触摸有了苹果的神话，这一次全语音的自然交互会推动整个产业出现新一次的繁荣。

北京获准的大模型占全国近半；OpenAI

　　语音技术一直以来都是科大讯飞的强项，自成立之初该公司就确定了实现人类和人机信息沟通无障碍的愿景。科大讯飞在通用人工智能时代，继续保持在语音交互方面领先优势的同时，看到了新技术浪潮下的更多可能性。大模型可以帮助小语种语料训练，通过更统一的多任务建模能力推动语音技术发展。

　　讯飞星火语音大模型基于语音属性解耦表征预训练，结合常规的语音大模型架构，实现了首批37个主流语种语音识别效果超过OpenAI Whisper V3，在多语种语音合成、超拟人语音合成方面MOS分有绝对优势，MOS分指的就是生成的声音是否自然。

北京获准的大模型占全国近半；OpenAI

　　此次搭载星火语音大模型的讯飞翻译机还实现了重磅升级，可以实现多语种自主识别，无需用户自主选择，就可以自动识别说话人的语种并翻译成中文。

　　此外，为了丰富大模型应用生态，科大讯飞发布了130亿参数规模的星火开源大模型系列，包括基础模型、精调模型、微调工具和人设定制工具。星火开源-13B在多项知名公开评测任务中的文本生成、语言理解等典型场景中排名靠前。

北京获准的大模型占全国近半；OpenAI

　　最后就是大模型训练的坚实底座——算力平台，讯飞星火V3.5、星火语音大模型、星火开源大模型都是基于“飞星一号”训练，飞星一号就是去年10月24日讯飞宣布正式启用的首个支撑万亿参数大模型训练的国产算力平台。

　　讯飞星火V3.5是国内首个基于全国产算力训练的大模型。星火开源大模型也基于飞星一号实现了全栈国产适配优化，训练效率达A100的90%。这也意味着，科大讯飞为企业客户提供了另外一种“大模型+算力”的选择。

　　在这一特殊节点，大模型要立足于国产自主可控的算力平台至关重要，刘庆峰称，讯飞星火3.5正是对于国产算力平台能否支撑起未来大模型研发的一次重要检验。

　　可以看出，科大讯飞在大模型产业的浪潮中很清楚自己要做什么，怎么做，并且在此前深厚的行业积累中，真正瞄准了行业痛点，知道自己要如何在这个行业中扎根生存并实现领先。

　　三、大模型升级与解决行业痛点并进，从通用大模型进阶到解决民生刚需

　　纵观整个大模型产业的发展，如今的商业化之争既是全球科技的竞争，也成为国内生成式AI与全球同频发展的关键环节，国内玩家这一波百模大战也进入了新的竞争关键。

　　从去年8月至今，国产大模型已经有共计4批通过大模型备案面向公众化开放，并且如今在金融、教育、办公赛道已经有诸多大模型应用。

　　作为首批通过备案的讯飞星火大模型的应用进展也毫不逊色。自去年5月至今，星火大模型在七大核心能力不断升级的同时，硬件方面在教育领域打造了讯飞AI学习机，办公领域有讯飞智能办公本、讯飞录音笔，软件方面有讯飞听见、讯飞星火App、讯飞输入法等，还有内容创作的工具，如音视频创作工具“讯飞智作”、图文创作工具“星火内容运营大师”等已经将大模型的价值逐渐释放给大量的用户。

　　在讯飞开放平台之上，大模型总开发者超35万，其中企业开发者超22万。

北京获准的大模型占全国近半；OpenAI