tg-me.com/codedump_notes/626
Create:
Last Update:
Last Update:
#人工智能
#开源项目
前两天的Deepseek v3发布,效果有点震惊,看论文所说,只用了2048张H800显卡,2个月不到时间训练完毕,计算预算只有不到600万美元就训练出来了新的模型。
与其他大模型玩家不同的是,deepseek背后是一家叫幻方量化的公司,不是传统的互联网企业,前几个月看到的采访《揭秘DeepSeek:一个更极致的中国技术理想主义故事》,更早的一篇采访《疯狂的幻方:一家隐形AI巨头的大模型之路》。
BY codedump的电报频道

Share with your friend now:
tg-me.com/codedump_notes/626