炸出GPT-5后，DeepSeek又逼出了跳票的Grok3的简单介绍

吃瓜网站&吃瓜事件：

1、一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

DeepSeek-V2的定价为每百万token输入0.14美元（约1元人民币），输出0.28美元（约2元人民币，32K上下文），价格仅为GPT-4-turbo的近百分之一。

谷歌在深夜发布最新多模态大模型Gemini 5系列，更高支持10，000K token超长上下文，开创性地将上下文窗口提升至百万级，超过GPT-4 Turbo的20万token，创下了最长上下文窗口的纪录。这款大模型在处理百万级token的文本、音频和视频时，均能实现高精度检索。

MoE层堆叠：通过堆叠多个MoE层，进一步提升模型性能。Noisy TopK Gating技术：应用此技术进一步优化模型性能和计算效率，通过引入噪声增强模型的鲁棒性。MoE技术在现代数据集中展现出巨大的潜力，不仅适用于大型语言模型的优化，还在Transformer架构中发挥关键作用，成为高性能大模型的首选架构。