大动作不停,Google加入开源战局!低配版“Gemini ”Gemma来了!相
几家巨头之间的大模型竞争,越来越像打牌了。你出完炸弹我出炸弹。
这不,又一个深夜炸弹。
2月21日,在与闭源的OpenAI打得火热的同时,Google突然加入了开源的战局。北京时间夜间Google突然宣布,开源了一个新的模型系列Gemma,这个模型使用了与它最强的Gemini同源的技术,并且在一系列的标准测试上秒杀了几款今天最热门的开源模型。
怎么理解这个动作的重要性呢?你可以粗暴的理解为:
这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天Sam Altman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。)
(X上一张有意思的图)
根据Google官方对Gemma的介绍,它的基本信息如下:
Gemma是谷歌开源的一个大型语言模型,而非像Gemini那样是多模态的,它基于与Gemini相同的技术构建,但完全公开并允许商用授权。
Gemma模型有两个主要版本,分别是Gemma 7B(70亿参数)和Gemma 2B(20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens。
Gemma模型的特点包括:
架构细节:Gemma模型具有不同的参数规模,Gemma-2B有18层,d_model为2048,而Gemma-7B有28层,d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。
新技术:Gemma采用了一些新技术,如Multi-Query Attention、RoPE Embeddings、GeGLU激活函数以及Normalizer Location,这些技术有助于提高模型的性能。
评测结果:谷歌官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。
开源情况:Gemma模型遵循一个自定义的开源协议,允许商业使用。
发布完,Jeff Dean就对这个系列模型划了重点: