开源通讯

讨论DeepSeek的核心技术及全面的技术支持

2025-04-27 13:00:51 577

讨论DeepSeek的核心技术及全面的技术支持

陆首群,2025.4.26


DeepSeek(或Kimi-K1.5)与其他语言大模型对比,其显著的优势只用大约1/20的训练成本,凭其高效率推理与训练的机制,便能产生与后者对等的性能(或更高的性价比),其核心技术是什么?还有无进一步发展的前景?
国内外学者均在探索和议论中。



其中有IBM程海旭博士并向我们推荐的阿里云开发者公开发表的解决方案是:核心技术来源于三部分:①多头潜在注意力机制HLA,通过Cache来激活训练,②混合精度训练框架FP8,通过减少内存开销来激活训练,③辅助损失负载均衡策略(或动态路由的混合专家系统架构)MoE,通过参数系统、乃至专家系统来激活训练。


这三者架构组成的核心技术均可大大降低训练成本,而这些所谓的核心技术并无太大的秘密或高深的理论可言,易于推广应用。


如果需要进一步扩大训练成本的降幅,或提高推理与训练机制的能效,我曾提出可选择异步脉冲神经网络(SNN),研发其中高效的稀疏激活机制及其构成的超级算法,予以解决。


我曾对比具有高效稀疏激活机制的SNN及不具高效稀疏激活机制的人工神经网络(ANN),这引起程博士对我意图的误解,后来当他明白我所提的解决方案是直指大幅度降低训练成本目标的,他即向DeepSeek(机器)作了咨询,随后程博士向我转达了DeepSeek的回答:“陆总,DeepSeek的回答和您的判断完全一致!”


谈到DeepSeek全面技术支持,应为开源创新+核心技术(超级算法)+工程突破能力。


DeepSeek主张全面开源,指开源迭代创新、维稳升级(Fixbug,patch)、开拓生态、将全开源与开源商业模式铸成一体、开源的推广应用。


DeepSeek的核心技术已如前述。


DeepSeek的工程突破能力,指结合开源创新、研发的核心技术,利用STEM工具(数学推导、代码生成、物理建模等),坚决、果断、迅速地作出部署、实施。


图片关键词


首页
秘书处
开源通讯
开源活动