PANews 1月21日消息,据量子位报道,DeepSeek在GitHub更新的FlashMLA代码中首次出现“MODEL1”名称,覆盖114个文件中28处提及,且与现有版本V32(DeepSeek-V3.2)并列,暗示MODEL1为下一代新架构模型。代码差异显示该模型在KV缓存布局、稀疏性处理及FP8解码等方面进行了优化,或将在春节前后正式发布。结合近期公开的mHC残差连接机制与Engram记忆模块,MODEL1有望整合多项自研创新。
DeepSeek新模型MODEL1代码曝光,疑为全新架构
sưu tầm
đăng lại
Tuyên bố từ chối trách nhiệm: Bản quyền của bài viết này thuộc về tác giả gốc và không đại diện cho MyToken(www.mytokencap.com)Ý kiến và vị trí; vui lòng liên hệ với chúng tôi nếu bạn có thắc mắc về nội dung
Về MyToken:https://www.mytokencap.com/aboutusLiên kết đến bài viết này:https://www.mytokencap.com/news/556093.html
Trước:顾景辞:1.21比特币/以太坊操作策略附行情分析
Tiếp theo:RWA、Meme和隐私:2026年谁才是真正的Alpha来源?
Đọc liên quan