Grok-1 – 马斯克旗下xAI开源的大模型，参数量3140亿

发布时间： 2025-3-14

Grok-1是什么

Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型，是一个混合专家（MoE）模型，拥有 3140 亿参数，使其成为目前参数量最大的开源大语言模型。Grok-1 的开发和训练过程遵循了开源的原则，其权重和网络架构已经公开，基于Apache 2.0许可，允许用户自由地使用、修改和分发，用于个人和商业用途。

Grok-1的官网入口

官方文章介绍：Grok聊天机器人背后的引擎，用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。局限性虽然Grok-1在信息处理方面表现出色，但是需要人类审查Grok-1的工作以确保准确性。Grok-1语言模型没有能力独立搜索网络。在Grok中部署时，搜索工具和数据库增强了模型的能力和事实性。即使在访问外部信息源的情况下，模型仍然可能产生幻觉。训练数据Grok-1发布版本使用的训练数据来自截至2023年第三季度的互联网和xAI的AI训练人员提供的数据。评估Grok-1在一系列推理基准任务和精选的外国数学考试问题上进行了评估。xAI已与早期alpha测试者接触，评估了包括对抗性测试在内的Grok-1版本。xAI正在通过Grok早期访问扩大我们的早期采用者范围，以便进行封闭beta测试。

Grok-1的技术细节

基础模型和训练：Grok-1是基于大量文本数据进行训练的，没有针对任何具体任务进行微调。这意味着它是一个通用的语言模型，可以应用于多种不同的自然语言处理任务。它的训练从头开始，使用JAX库和Rust语言组成的自定义训练堆栈。参数数量：Grok-1拥有3140亿个参数，是目前参数量最大的开源大语言模型。这些参数在给定token上的激活权重为25%，表明了模型的规模和复杂性。混合专家模型（MoE）：Grok-1采用了混合专家系统的设计，这是一种将多个专家网络（expert networks）结合起来的方法，以提高模型的效率和性能。在Grok-1中，每个token从8个专家中选择2个进行处理。激活参数：Grok-1的激活参数数量为860亿，这比Llama-2的70B参数还要多，表明其在处理语言任务时的潜在能力。嵌入和位置嵌入：Grok-1使用旋转嵌入而非固定位置嵌入，这是一种处理序列数据的方法，可以提高模型处理长文本的能力。Tokenizer词汇大小为131,072，类似于GPT-4，嵌入大小为6,144。Transformer层：模型包含64个Transformer层，每层都包含一个解码器层，由多头注意力块和密集块组成。多头注意力块有48个头用于查询，8个头用于键/值（KV），KV大小为128。密集块（密集前馈块）的加宽因子为8，隐藏层大小为32,768。量化：Grok-1还提供了一些权重的8bit量化内容，这有助于减少模型的存储和计算需求，使其更适合在资源有限的环境中运行。运行要求：由于Grok-1是一个规模较大的模型（314B参数），因此需要有足够的GPU内存的机器才能运行。据估计，可能需要一台拥有628GB GPU内存的机器（每个参数2字节）。

AI资讯

Grok-1 – 马斯克旗下xAI开源的大模型，参数量3140亿

Grok-1是什么

Grok-1的官网入口

Grok-1的技术细节

Open-Sora - 开源的类Sora架构的视频生成模型和复现方案

AutoDev - 微软推出的AI编程和程序开发智能体框架

设计师神器

大产品小细节

官方微信

已收录

还有更赞的我来推荐

AI资讯

Grok-1 – 马斯克旗下xAI开源的大模型，参数量3140亿

Grok-1是什么

Grok-1的官网入口

Grok-1的技术细节

Open-Sora - 开源的类Sora架构的视频生成模型和复现方案

AutoDev - 微软推出的AI编程和程序开发智能体框架

设计师神器

大产品 小细节

官方微信

已收录

还有更赞的 我来推荐

大产品小细节

还有更赞的我来推荐