2025年8月初,美国总统唐纳德·特朗普以整顿首都治安为名,下令在华盛顿特区(D.C.)增派联邦执法力量乃至部署国民警卫队。这一行动不...
2025-08-13 1 腾讯新闻
时刻”就成为AI领域关键节点的代名词。即便在OpenAI等“硅谷新贵”发布新品的间隙,不少海外用户也在搜寻关于DeepSeek-R2的蛛丝马迹。
OpenAI推出开源语言模型GPT-OSS拉开了序幕,紧接着GPT-5也于8月7日(美国时间)发布。“使用GPT-4 感觉像在和一名大学生对线是第一次让我真正感觉像在与一位博士级别的专家交谈。”OpenAI CEO Sam Altman 如此形容GPT-5 能力的提升。
未见其人,先闻其声。自今年初 DeepSeek-R1凭着高性能、低成本和开源的特点引爆全球科技圈以来,产业界便期盼梁文锋团队能带来新的惊喜,而R2作为R1的后续产品,近半年来一直是行业关注的焦点。
查阅杭州深度求索人工智能基础技术研究有限公司(以下简称深度求索)微信公众号、官网、X账号等公司官方渠道发现,截至目前,DeepSeek并未正式公布过DeepSeek-R2的信息。
早在2月份,路透社就曾爆料,DeepSeek内部正在加速推出R2模型,该模型原计划在5月初发布。不过从实际进展看,截至目前,依然未见DeepSeek-R2的踪影。
据深度求索官方微信号显示,自2025年3月至今,DeepSeek的动向主要集中在DeepSeek V3 模型和DeepSeek R1的小版本升级上。
据DeepSeek介绍,升级后的DeepSeek V3 模型在推理任务表现、前端开发能力、中文写作、中文搜索能力等方面都有所优化。
大模型训练可简单分成三个阶段——预训练、后训练、微调。一般而言,后训练主要是为了解决大模型幻觉率高、理解指令不足等问题。
据DeepSeek官方信息显示,DeepSeek-R1-0528对“幻觉”问题进行了优化,与旧版相比,新版 DeepSeek R1在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45—50% 左右。
从DeepSeek官网公布的信息来看,过去半年里,DeepSeek主要保持小步迭代的节奏,不断优化R1在复杂推理、创意写作和降低幻觉率等方面的功能,而非急于推出下一代模型。
对于DeepSeek R2迟迟未能面世的原因,外媒The Information于6月报道称,R2很可能不会在短期内发布了,原因主要有以下两点。
一是梁文锋对新模型不满意。“尽管DeepSeek工程师过去数月一直在高强度开发 R2 模型,但CEO 梁文锋对新模型的性能表现并不满意。”The Information援引两位知情人士报道称。
二是算力储备紧缺。据The Information报道,英伟达H20芯片的意外禁售,使得DeepSeek在算力储备上出现紧缺状况。梁文锋担心新模型一旦上线,会因为短时间内调用量过高而造成体验不佳。
对于“英伟达H20禁售影响了DeepSeek R2推出”这一说法,有投资人透露,受出口限制影响,英伟达H20的单卡算力被严重“”,其优势不在训练,而在推理。
“AI推理市场未来将比训练市场更大,应用场景遍布云端、边缘和终端,形态更加多元,对单一生态(如英伟达)的依赖性降低。随着国内供应链自主化趋势越来越明确,英伟达H20的禁售与否对国内推理芯片生态影响有限。”上述投资人说。
就在DeepSeek模型小步迭代的当下,OpenAI、月之暗面(Moonshot AI)等竞争对手正通过迭代新模型、推出新AI产品等加速技术布局。
在国内,曾被DeepSeek抢走风头的月之暗面7月11日发布了Kimi K2 模型,拥有1万亿总参数(320亿激活参数),采用专家混合(MoE)架构,并同步开源。对于部分网友指出Kimi K2有“抄袭”DeepSeek的嫌疑,Kimi 团队也大方地承认“其采用了与DeepSeek -V3相似的架构”。
当AI大模型竞速逐步从完善功能升级为代际比拼时,或许留给 DeepSeek 的“沉默期”正在收窄。比较直观的感受是,DeepSeek的月活用户规模和使用率较年初峰值已出现下滑。
据QuestMobile数据显示,虽然DeepSeek仍是国内用户量最多的AI工具平台,但其移动端月活跃用户规模已经从今年3月的1.94亿下降至6月的1.63亿。而据Semianalysis的统计数据显示,DeepSeek的使用率由年初高点的7.5%下滑至7月份的3%。
需要指出的是,上述机构的数据统计主要以DeepSeek官网为主,不包括腾讯元宝、百度、夸克等深度接入DeepSeek的第三方渠道。
有投资人评价称,DeepSeek最不缺的就是流量,梁文锋要做的事情一直都是在探索AGI的本质。
联想创投集团高级合伙人和首席投资官宋春雨去年2月就和梁文锋有过深度交流,“梁文锋是坚信AGI的人,他是技术极客背景出身,他给自己的使命就是要去摸AGI的上限,或者说人类能达到硅基智能的上限是什么。DeepSeek不融资,梁文锋对商业化不感兴趣,他专注打磨基础模型,确保每一代模型都保持领先。”
有消息称,DeepSeek不会为了达成某一数据指标,在安卓及iOS渠道上投流,其和用户的交流主要以近百个微信交流群为主。
对于公司为何不重运营DeepSeek应用,梁文锋在去年接受“暗涌Waves”采访时表示:“我们认为,当前阶段是技术创新期,而不是应用爆发期。从长远来看,我们希望建立一个生态系统,让行业直接使用我们的技术和成果,其他公司基于我们的模型开发B2B/B2C服务,而我们专注于基础研究。如果产业链完整,我们无需亲自做应用。当然,如果有必要,我们完全有能力去做,但研究和创新始终是我们的核心优先级。”
自1月20日DeepSeek R1发布至今,梁文锋几乎处于“隐身”状态,其仅有的两次公开露面,一次是上了新闻联播,一次是参加民营企业家座谈会。
据该论文显示,NSA的核心组件主要包括动态分层稀疏策略、粗粒度标记压缩、细粒度的令牌选择。NSA 针对现代硬件进行了优化设计,在不影响性能的情况下,加快了推理速度,同时降低了预训练成本。它在通用基准测试、长上下文任务和基于指令的推理方面,性能堪比甚至超越了全注意力模型。
据DeepSeek官网显示,目前“产品&设计”、“深度学习研发工程师”、“全栈开发工程师”、“核心系统研发工程师”、“深度学习研究员”等岗位都处于“急招”状态。
据海外招聘平台领英信息显示,DeepSeek也用中文在领英上发布了10个职位,招聘前端开发工程师、全栈工程师、核心系统研发工程师、深度学习研发工程师、深度学习研究员、AGI大模型实习生等,工作地点在北京或杭州。
有曾参与DeepSeek的面试的人士透露,“面试时可直接与创始人对话,公司不设KPI考核,采取扁平化管理模式,每位核心算法人员都能直接与梁文锋探讨问题,不太像传统公司,更像大学的一个研究团队。”
标签: 腾讯新闻
相关文章
2025年8月初,美国总统唐纳德·特朗普以整顿首都治安为名,下令在华盛顿特区(D.C.)增派联邦执法力量乃至部署国民警卫队。这一行动不...
2025-08-13 1 腾讯新闻
12日晚间,一直处于停牌状态的中国恒大突然发布公告。中国恒大表示,于2025年8月8日公司收到联交所发出的信函,表示基于本公司未能满足...
2025-08-13 3 腾讯新闻
8月12日,记者从海口政法部门获悉,演员兼导演郑某峰因涉嫌猥亵儿童,早前已被检察院批捕,目前正等待起诉。 郑某峰...
2025-08-13 2 腾讯新闻
深秋的长白山余脉总裹着一层雾。我踩着腐叶走进濛江林区,一片柞树的枯叶落在手背上,粗糙的触感,让我想起杨靖宇将军纪念馆里那枚锈透的铜扣。...
2025-08-11 3 腾讯新闻
【#沈阳女子疑被男友骗入电诈园失联##杨泽琪称在电诈园见过失联沈阳女子#】8月11日,辽宁省沈阳王女士反映,她女儿被“高富帅男友”骗到...
2025-08-11 3 腾讯新闻
发表评论