从OpenAI排拒中国用户,到Deepseek的绝地反攻

美国将会更严格地管制GPU出口,DeepSeek适配中国国产GPU,是合理的下一步。

DeepSeek据报绕开英伟达编程框架,适配中国国产GPU
联合早报,
(略)

据美国科技网站“Tom’s Hardware”1月29日报道,韩国未来资产证券在分析DeepSeek技术论文时发现,DeepSeek在花两个月训练所研发的语言大模型时,只用了英伟达2048个含H800晶片的图形处理器(GPU),硬件效能比AI领域佼佼者Meta高出10倍。
分析指出,DeepSeek这项突破通过使用英伟达为GPU设计的中间指令集框架(Parallel Thread Execution,简称PTX),而不是英伟达开发的软硬体统一计算架构(Compute Unified Device Architecture,简称CUDA)。
CUDA是一种通用编程框架,允许开发者利用英伟达的GPU进行通用计算。
据网易新闻和快科技报道,大模型开发商在使用英伟达GPU,一般是基于CUDA做研发。使用CUDA对开发者的要求较低,因为CUDA里已经封装好一些函数,使用时完全无需理会太多细节,但肯定会损失执行效率。
由于CUDA是通用型编程框架,因此会导致训练模型时损失一些灵活性。 DeepSeek的做法是直接使用PTX,以绕开硬件对训练速度的限制,可缩短训练时长。其他模型训练时长要10天,DeepSeek五天就能完成。
快科技引述消息人士称,DeepSeek拥有一些擅长写PTX语言的内部开发者,倘若DeepSeek未来有意改适配中国国产的GPU,在硬体适配方面将更得心应手。
DeepSeek据报绕开英伟达编程框架 适配中国国产GPU

华为芯片为DeepSeek AI的推理阶段提供了支持
(略)

他表示,DeepSeek R1 LLM(大型语言模型)是在 NVIDIA H100 上进行的训练,但使用了 Ascend 910C 芯片进行推理,即使用训练好的模型生成回复。由于 Ascend 芯片不涉及训练,因此对 GPU 的功耗要求并不高。
不过,Ascend 910C 相对较低的性能限制了它在训练方面的适用性。 华为计划通过即将推出的 920C 芯片来解决这一问题,旨在与 NVIDIA 用于人工智能操作的领先芯片组 Blackwell B200 竞争。
华为芯片为 DeepSeek AI的推理阶段提供了支持 - Huawei 华为 - cnBeta.COM

2 个赞