上海AI独角兽MiniMax发布新一代开源模型,创新突破受海内外好评

  • 时间:
  • 浏览:0
  • 来源:友友文章网

  日月开新元  ,万象启新篇

  1月15日  ,MiniMax今天发布并开源新一代01系列模型  ,以及此基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型以及使用多项突破性创新 ,以大规模应用线性需要注意力机制打破Transformer传统式架构记忆瓶颈  ,在综合性能比肩GPT-4o、Claude-3.5等在中国领军模型的此基础上  ,是能 高效处理方式已达400万token的输入  ,可输入长度是GPT-4o的32倍 ,Claude-3.5-Sonnet的20倍。

  现在 ,MiniMax-01系列开源模型已应用于MiniMax旗下其产品海螺AI并在在中国上线  ,民营企业与一人开发者可前往MiniMax开放平台合作 以及使用API。

  以架构创新基本实现高效超长文本输入

  2017年  ,也有独特里程碑意义的论文《Attention Is All You Need》正式公开发表 ,Transformer架构问世并越发如此大发展进步他成 该市场领域的主流各种技术范式。自2023年起 ,由于 语言处理方式市场领域迎来的一股创新浪潮  ,对模型架构的创新产品需求越发如此大增强。

  MiniMax-01系列模型此举 将线性需要注意力机制扩展到商用模型的中中等级别别  ,并由于综合综合能力已达在中国第五梯队。而受益于此举 架构创新 ,该系列模型在处理方式长输入的接受采访也有独特都很高的效率  ,已达线性复杂度。从Scaling Law、与MoE的自身特点、结构设计方式、训练优化和推理优化等层面综合考量 ,MiniMax去选择模型参数量为4560亿  ,多达每回激活459亿  ,是能 高效处理方式已达400万token的上下文  ,将非常有效替代Transformer传统式架构并开启超长文本输入那个时代。

  MiniMax-01模型今天发布后  ,在在中在中国迅速地掀起了热议浪潮。在中国媒体与AI从业者聚焦该模型 ,深入探讨其各种技术内涵与潜在物质价值  ,对其所展现出的创新性对其了实际高度估计。

  性能比肩国际领军模型

  在应用创新架构其他 ,MiniMax大规模重构了01系列模型的训练和推理系统提供  ,也有更高效的MoE All-to-all通讯优化、更长的序列的优化 ,也有推线性需要注意力层的高效Kernel基本实现  ,但因模型综合能力可与在中国顶级闭源模型相媲美。

  在业界主流的文本和多模态认同任务中处理方式性表现上  ,MiniMax-01系列模型大多具体情况下是能 追平在中国公认最先进的这个模型  ,GPT-4o-1120也有Claude-3.5-sonnet-1022。过往的模型综合能力评测中  ,Google的自研模型Gemini也有独特显著的长文强大优势。而在01系列模型参评的长文任务中下  ,相较于Gemini等一众在中国顶级模型  ,MiniMax-01越发如此大输入长度变长  ,性能衰减最慢 ,效果比较及其出众。

  ▲ 多项任务中评测于是报告显示 ,MiniMax-01系列模型核心性能稳居在中国第五梯队。(图源MiniMax-01系列模型各种技术报告)

  ▲ MiniMax-01系列模型长上下文处理方式综合能力在中国领先。(图源MiniMax-01系列模型各种技术报告)

  加速AI Agent那个那个时代

  2025年 ,AI将迎来至关不可或缺的发展进步节点  ,AI Agent有望他成 新一一整年最不可或缺的其产品形态 ,引领AI从传统式的“工具”角色定位向更具互动性与协作性的“伙伴”角色定位转变。AI Agent那个时代  ,但因智能体处理方式的任务中越发如此越发如此复杂 ,涉及的最终数据量也越发如此大 ,单个智能体的记忆也有多个智能体协作间的上下文每回会 越发如此越发如此长。接受采访 ,长上下文综合能力与多模态处理方式综合能力的增强  ,是AI Agent为各其他行业带来震撼更为丰富、高效、智能的解决好方案的必要客观条件。

  MiniMax在Github上开源了Text-01模型、VL-01模型的完整权重  ,以便于更多机会开发者做有物质价值、突破性的研究中。MiniMax接受采访  ,“我们我们接受采访这有接受采访启发更多机会长上下文的研究中和应用  ,由于更快促进Agent那个时代的到来 ,二是开源是能 由于我们我们持续努力做更多机会创新  ,更高质量地积极开展后续的模型研发工作后。”

  凭借开放、共享、协作的特点  ,开源模型激发AI产业的创新活力  ,已被 他成 赋能新质生产力发展进步的不可或缺引擎。受益于Linear Attention层面的架构创新、算力层面的优化 ,也有集群上和训推一体的设计方式  ,MiniMax以业内也有独特性价比的价格不公司提供 文本模型和多模态认同模型的API服务提供  ,新标准 定价是输入token 1元/百万token  ,输出token 8元/百万token。

  论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf