吃瓜网站&吃瓜事件:
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
DeepSeek-V2的定价为每百万token输入0.14美元(约1元人民币),输出0.28美元(约2元人民币,32K上下文),价格仅为GPT-4-turbo的近百分之一。
谷歌在深夜发布最新多模态大模型Gemini 5系列,更高支持10,000K token超长上下文,开创性地将上下文窗口提升至百万级,超过GPT-4 Turbo的20万token,创下了最长上下文窗口的纪录。这款大模型在处理百万级token的文本、音频和视频时,均能实现高精度检索。
MoE层堆叠:通过堆叠多个MoE层,进一步提升模型性能。Noisy TopK Gating技术:应用此技术进一步优化模型性能和计算效率,通过引入噪声增强模型的鲁棒性。MoE技术在现代数据集中展现出巨大的潜力,不仅适用于大型语言模型的优化,还在Transformer架构中发挥关键作用,成为高性能大模型的首选架构。
在AI领域,一个初创公司的惊人崛起引起了广泛关注。Mistral AI凭借8个70亿参数的小型MoE模型,以开源形式强势逆袭,似乎正在逼近GPT-4的辉煌。这款模型在基准测试中展现出超越Llama 2 700亿参数的惊人表现,引发了业界对于开源模型能否挑战闭源巨头的深度讨论。