不太相信ai,倒是很相信”中时新闻网“胡说八道,大放狗屁,这些傻X玩意连“GPT-4o”都写不对。
以下是被超越的GPT-4o写的评论,我看比很多人的脑子好用得多:
这篇新闻中的内容存在一些不实信息或者潜在的错误,主要体现在以下几个方面:
1. DeepSeek-V3 与 GPT-40 的比较
- 不存在 GPT-40:截至我的知识更新(2023年10月),OpenAI 最新发布的 GPT 模型是 GPT-4,且 GPT-4 的发布至今并未有任何公开报道或证据表明存在 “GPT-40” 这一版本。因此,新闻中提到的“GPT-40”很可能是虚构或错误的。如果这篇新闻的发布日期是 2024 年 12 月 31 日,可能涉及到了误报、错误的命名或某种误解。
- 无可比性:假设存在类似的 “GPT-40”,深度探索(DeepSeek)与这种虚构的模型做对比,实际上无法进行客观、公正的技术对比。这种对比是不具备有效性的,可能是为了制造新闻的轰动效应。
2. DeepSeek-V3 是否真的可以与 GPT-4 比拟
- 技术可行性疑问:文章中称 DeepSeek-V3 以 557 万美元的训练成本与 OpenAI 的 GPT-4 “性能匹敌”。然而,OpenAI GPT-4 的训练成本可能高达数亿美元,涉及大量的计算资源、人才和时间成本。即使深度探索公司(DeepSeek)采用的是较低成本的硬件配置,如 2000 张 GPU 卡,和 2 个月的训练时间,这种声明也值得质疑。因为深度学习模型的开发不仅仅取决于硬件和训练时间,算法创新、数据质量、团队的技术实力等多个因素都非常重要。
- 缺乏独立验证:对于 DeepSeek-V3 性能的任何宣称(如“匹敌 GPT-4”或“超越 GPT-4”),都需要第三方、独立的评估和验证。目前没有权威的公开资料或学术论文支持该声明。
3. “完全开源” 的声明
- “完全开源”:尽管很多技术公司会宣布他们的模型为开源,但真正做到“完全开源”并不容易。开源不仅仅是代码开放,还涉及到模型权重、数据集、训练过程等。如果 DeepSeek-V3 真的像声明中所说是“完全开源”,那么模型的权重、训练过程等都应该是公开可用的。而目前在大部分国内外人工智能公司的情况中,尤其是涉及到大模型,很多公司仍然对一些核心技术(如模型参数、数据集等)进行保护,避免完全开源。因此,这个声明的真实性值得怀疑。
4. 训练成本过低
- 557万美元的训练成本问题:文章提到 DeepSeek-V3 的训练成本为 557 万美元,而对比 OpenAI 的 GPT-4 的训练成本,显得相对较低。要知道,GPT-4 的训练成本远高于这个数字,估计在几千万美元到几亿美元之间。虽然 DeepSeek-V3 可能优化了硬件和训练算法,降低了成本,但这个成本低得异常,尤其是在大规模自然语言处理模型的训练中,通常需要大量的 GPU 资源以及巨额的电力和计算费用。这一部分的描述可能是过于简化或不真实。
5. 两千张 GPU 卡和两个月训练时间的描述
- 计算资源和训练时间:深度学习模型的训练时间和所需 GPU 数量通常取决于模型的大小、训练数据量和计算架构。虽然两千张 GPU 卡可能在某些情况下是足够的,但对于像 GPT-4 这样的大规模模型(包含数百亿至上千亿参数),训练时间和计算需求通常是非常庞大的。文章中提到的“仅需两个月”也显得过于乐观,尤其是没有提供具体的细节来证明这些参数(如 GPU 配置、并行计算架构等)。因此,这个部分的描述也需要进一步的验证。
6. “超越 OpenAI” 的声明
- 无法验证的超越声明:文章称 DeepSeek-V3 “经常超越” OpenAI 的 GPT-4。这种超越的主观性很强,因为要对比两个大模型的表现,必须通过公开的、可复现的评测标准(如 GLUE、SuperGLUE 等)来进行。没有第三方评测数据,单纯的内部声明无法支撑“超越”的说法。
总结
这篇新闻中存在以下主要问题:
- GPT-40 的不存在:GPT-40 是一个虚构的版本,可能是误报或者错误的命名。
- 过于简化的技术对比:将 DeepSeek-V3 与 GPT-4 做对比,且宣称其性能匹敌或超越,是未经验证的说法。
- 不实的训练成本和资源:557 万美元的训练成本对于如此规模的模型来说过低,且两个月的训练时间也缺乏充分的证据支持。
- “完全开源” 的声明需要验证:如果真是完全开源,则需要明确提供所有模型和训练数据的开放。
因此,整个新闻中的描述可能包含夸大其词和不实的信息,读者应当保持怀疑态度,尤其是当这些信息没有得到独立验证时。
这种专业的话题就不要问 GPT 了。。DeepSeek-V3 是前几天的热门话题,国内外那么多评论文章,没看到有质疑数据造假的,就算有质疑也是在说内容审核之类的东西。
中文评论可以看这里:
反正用各种AI翻译米塞斯的文章段落,动不动就“根据相关法律法规,有关信息不予显示”,算了,还是老老实实查字典学英语吧。
刚用了deepseek,有个问题,他联网照样只能联到国内网。也就是说在查找英文文献上的能力约等于0。我试着让他帮我找几篇中文论文,也是从百度学术,万方找的,显然他用不了知网。
那么他在学术上的价值和chatgpt 4o差得就太远了吧。
某大国建起新时代特色长城,不曾想给自己的新兴产业缚上这么多手脚吧。
我个人感觉麻烦的是真人与AI之间聊天不同,真人可能会要求澄清概念,彼此交流后修改计划和看法,达成共识和目标。而AI一般不会这样,直接给出正确或错误的答案,反应。AI没有什么意向性,目前也无法与世界做到真正有感知交互。
关于AI,目前我的看法还是处理各种数据模型的黑箱——人不用全学完某个大型语料库就能掌握语言,也不用全学完数学某一分支才有推理能力。一些涉及先验式的知识,能力人生而有之,而AI从纯粹的数学证明思维上讲,还是不能达到百分百正确解决数学问题,生成似是而非的推理论证。
你也可以反思下,为什么排名第一的开源大模型会出现在中国。(谁开源我就支持谁
我在这里下载、研究英文/英汉词典一个目的就是避免、不看中文新闻和中文评论,十余年来其公信力严重下降,逆向淘汰,主流平台基本都沦落成大粪坑了。粪坑里或许也能偶尔发现几个玉米粒,但也太费劲了,还要忍受辅天盖地的臭气。
DeepSeek-v3模型我在twitter和reddit看过很多评测,自己也用少量私人题目测试过,它大致属于gpt-4级别的模型,但类似的“卫星”,李开复的Yi-lightning模型和阿里的qwen早放过了。
据李开复介绍,在国际权威盲测榜单 LMSYS 上,Yi-Lightning 超越 OpenAI GPT-4o-2024-05-13、Anthropic Claude 3.5 Sonnet,排名世界第六,中国第一。他还称,Yi-Lightning是“顶级模型白菜价”,在推理速度和价格上,Yi-Lightning 的最高生成速度提速近四成,每百万 token 仅需 0.99 元,且该定价仍有利润。
谈及成本问题, 李开复称,此次预训练零一万物用了2000张GPU,训练了一个半月,花费了三百多万美元,但成本约为Grok的1%-2%。
https://www.sohu.com/a/817230935_116132
李开复也许喜欢吹牛逼,但 Yi-Lightning 模型的性能实际也不差,并不逊色DeepSeek-v3多少,但它是闭源的,媒体当时也没有跟风炒作。
最根本的问题是gpt-4是2年前的模型了,实际训练完成于2022 年8 月份,早期版本知识库截止日期是2021年9月份,deepseek v3比别人晚了两三年,哪里轮到你来谈“史普尼克时刻”?
GPT-4o这些都是openai为了减少推理部署成本推出的量化蒸馏模型,强调多模态,跟原始的gpt-4完全不是一回事,有人推测gpt-4o的参数是200b,而gpt-4o-mini模型只有8b参数,训练一个8b参数、200b参数的模型要花多少亿美金?
就大模型训练成本论,当年gpt-2的训练成本是4-5万美金,现在随着机器性能、算法、数据质量等的改进,训练至同等性能,只需要几分钟几十美金,成本整整减低了1000倍,具体数据可见 GitHub - KellerJordan/modded-nanogpt: NanoGPT (124M) in 3.6 minutes ,那么,吹嘘的比别人成本低10倍或者100倍又算得了什么呢?
——这里训练的是gpt-2较小参数的模型,但也有人重新训练过“ largest GPT-2 (1.5B)”,见 x.com ,成本是172美元。
It took about 10 hours to train on 10B tokens on 8xH100.
One H100 is $2.2/hr for rent, so about $172
无所谓啦,就在遥遥领先的道路上自嗨得啦。
单从学术文章多段落语篇翻译的角度来说,现在用chatgpt 3.5,翻译的结果虽然不是十分完美 ,还需要人工修改调整,但正确性已经吊打简体中文世界的大多数正式出版物了。
前两天刚买了一本商务印书馆出的哈耶克的《货币理论与商业周期》,薄薄的一本也就一百多页,译者就多达三人,还没看就能想象翻译质量堪忧。
个人感受有多多少少不同吧,即使是有一个benchmark分数,到具体问题,某种语境下,就目前AI表现是否满足需求,令人感到满意得到的反馈不同。
代码能力,目前还是有一些是能看出人写的还是AI写的。
让AI充当老师,通过询问一些问题来考学生的理解,或是引起学生思考,像这种教育类的,通常是直接给答案或是生成带着答案的问题,或问题很肤浅,不深刻等。
翻译材料有时候显得中文不怎么地道,明明可以用简洁语言说明的
与AI聊天出现“鬼打墙”现象
……
通用人工智能AGI还有很长一段路要走,但目前,开发者的价值观植入到AI中,或是用AI充当大量代理进行像网络攻击这样的恶意工作,AI训练的库涉及虚假欺骗内容等问题已经有些端头了。
Meet DeepSeek: the Chinese start-up that is changing how AI models are trained
South China Morning Post
Wed, January 1, 2025
DeepSeek V3 comes with 671 billion parameters and was trained in around two months at a cost of US$5.58 million, using significantly fewer computing resources than models developed by bigger tech firms such as Facebook parent Meta Platforms and ChatGPT creator OpenAI.
Leveraging new architecture designed to achieve cost-effective training, DeepSeek required just 2.78 million GPU hours - the total amount of time that a graphics processing unit is used to train an LLM - for its V3 model. DeepSeek’s training process used Nvidia’s China-tailored H800 GPUs, according to the start-up’s technical report posted on December 26, when V3 was released.
Karpathy’s observation prompted Fan to respond on the same day in a post on X: “Resource constraints are a beautiful thing. Survival instinct in a cutthroat AI competitive land is a prime driver for breakthroughs.”
How China’s DeepSeek-V3 AI model challenges OpenAI’s dominance
DeepSeek-V3 is an incredibly powerful, free, and open-source AI model that outperforms some of the latest models from OpenAI and Meta on key benchmarks, all while being developed at a fraction of the cost.
Touted to be more capable of even the most advanced AI models, Chinese AI lab DeepSeek’s proprietary model DeepSeek-V3 has surpassed GPT-4o and Claude 3.5 Sonnet in various benchmarks.
What is DeepSeek-V3?DeepSeek-V3 is a massive open-source AI model that has been trained on a budget of $5.5 million, quite contrary to the $100 million cost of training GPT-4o. This is an AI model that can be categorised as Mixture-of-Experts (MoE) language model. In essence, MoE models are like a team of specialist models working together to answer a question. In place of one big model handling everything, MoE has numerous ‘expert’ models, each trained to be good at specific tasks. The model has 671 billion parameters, but reportedly only 37 billion are activated to process any given task. Experts say this selective activation lets the model deliver high performance without excessive computational resources.
DeepSeek-V3 is trained on 14.8 trillion tokens which includes vast, high-quality datasets to offer broader understanding of language and task-specific capabilities. Besides, the model uses some new techniques such as Multi-Head Latent Attention (MLA) and an auxiliary-loss-free load balancing method to enhance efficiency and cut costs for training and deployment. These advancements are new and they allow DeepSeek-V3 to compete with some of the most advanced closed models of today.
Defining features
As mentioned above, the DeepSeek-V3 uses MLA for optimal memory usage and inference performance. Reportedly, MoE models are known for performance degradation, which DeepSeek-V3 has minimised with its auxiliary-loss-free load balancing feature.
Moreover, DeepSeek-V3 can process up to 128,000 tokens in a single context, and this long-context understanding gives it a competitive edge in areas like legal document review and academic research.
The model also features multi-token prediction (MTP), which allows it to predict several words at the same time, thereby increasing speed by up to 1.8x tokens per second. It needs to be noted that traditional models predict one word at a time. Perhaps one of the biggest advantages of DeepSeek-V3 is its open-source nature. The model provides researchers, developers, and companies with unrestricted access to its capabilities. In essence, this allows smaller players to access high-performance AI tools and allows them to compete with bigger peers.
When it comes to mathematics and coding, the model outperformed its competitors in benchmarks like MATH-500 and LiveCodeBench. This shows the model’s superior problem-solving and programming abilities. Besides, the model also excels in tasks that require an understanding of lengthy texts. In Chinese language tasks, the model demonstrated exceptional strength.
When it comes to limitations, the DeepSeek-V3 may need significant computational resources. Although it is faster than its previous version, the model’s real-time inference capabilities reportedly need further optimisation. Some users also argued that its focus on excelling in Chinese-language tasks has impacted its performance in English factual benchmarks.
不止多项排名领先或接近,对普通用户来说最大的优点是便宜,推理费用便宜了 53 倍。
To put it simply, DeepSeek is much more affordable than models like Claude 3.5 Sonnet, GPT-4o, and Gemini 1.5 Pro. In fact, DeepSeek V3 is 53x cheaper to use for inference than Claude Sonnet ! On OpenRouter, it costs a mere $0.14 for input and $0.28 for output.
Twitter&Hacker News&Reddit 上有很多讨论:
的确是个进步,希望能不花太多钱,就能本地部署有相同水准,“小而美”的模型。
目前能用LLM解决一些类似代码,简单的语言分析问题就够了。
这两年来,大型语言(图像,音乐等)模型有内在的两大缺陷——重复,幻觉;还没有突破性解决方案。还得花一些时间等LLM像“埃尼阿克”到“笔记本”转变吧