XV

XVERSE-Ent-A4.2B

基础大模型

XVERSE-Ent-A4.2B

发布时间: 2025-12-30

61
模型参数(Parameters)
250.0
最高上下文长度(Context Length)
8K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

8K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2025-12-30

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
免费商用授权 - 免费商用授权
GitHub 源码
Hugging Face
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

XVERSE-Ent-A4.2B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

XVERSE-Ent-A4.2B模型解读

模型定位与简介

XVERSE-Ent-A4.2B 属于 XVERSE(Shenzhen Yuanxiang/元象XVERSE)发布的 XVERSE-Ent 系列预训练模型,面向 Entertainment(娱乐内容)领域的文本生成与理解场景。该系列在娱乐领域的大规模高质量数据上进行训练与优化,并提供中英双语两款:XVERSE-Ent-A4.2B(中文)与 XVERSE-Ent-A5.7B(英文)。

架构与技术规格

该模型采用 Mixture-of-Experts(MoE)架构,并在“Sparse Upcycling(稀疏升级)”框架下,将稠密模型转换为大规模 MoE,以在不从零训练的情况下提升总容量并控制训练成本。XVERSE-Ent-A4.2B 的训练采用多阶段训练流程(S0 能力重建、S1 语言增强、S2 领域增强),其中 S2 使用通用数据与娱乐领域数据混合,以在增强领域能力的同时尽量保留通用能力。

项目取值
语言中文
总参数量(Total Parameters)25B
激活参数量(Activated Parameters)4.2B
层数(Layers)28
隐藏维度(Hidden Size)2560
注意力头数(Attention Heads)32
共享专家数(Shared Experts)2
非共享专家数(Non-Shared Experts)64
每 token 选择专家数(Selected Experts per Token)8
词表大小(Vocab Size)100K
上下文长度(Context Length)8K

训练方面,官方在模型卡中说明该系列训练规模约为 ~1T tokens,并指出中文模型是在通用领域骨干模型 XVERSE-MoE-A4.2B 基础上进行 S2 领域增强训练得到。

核心能力与适用场景

模型定位于娱乐内容相关的生成与理解任务(例如小说/故事文本、对话文本等)。官方在评测部分给出了以困惑度(Perplexity, PPL)为指标的多数据集对比,用于衡量在 fiction、conversation、web 文本上的语言建模表现。

评测与基准呈现(官方给出的 PPL 示例)

官方使用 PPL(越低越好)对比了通用领域模型与娱乐领域增强后的表现,并给出多项数据集上的数值结果;同时描述在一般基准(如 MMLU、数学、代码)上通用能力退化较小,并给出“通用能力保留超过 98%”的表述(以模型卡为准)。

访问方式与许可

  • 模型权重:通过 Hugging Face 模型仓库获取(Transformers 加载需 trust_remote_code)。
  • 开源协议:模型卡说明代码遵循 Apache-2.0;模型权重需遵循其 Model License Agreement,并在模型卡中说明支持不受限制的商业使用(以许可文本为准)。

限制与免责声明(官方说明)

官方在模型卡中提示:模型可能产生不准确、有偏见或冒犯性内容,建议在部署前进行安全测试与针对性优化,并避免用于产生或传播有害信息等不当用途。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat