优惠论坛
Well123
注册
找回密码 |
天策评选的优秀公司,所有会员与公司发生的问题我们将负责尽力协助处理。
收起/展开
新晋公司
 

新晋公司具有驻站代表,并不在论坛纠纷服务范围内,请会员自行判断选择

  • 356
S级信誉公司
ManBetX万博
YZ
乐投
taptap(点点)
E世博
瑞丰国际
A级信誉公司
吉祥坊
星宝合营
乐动体育
B级信誉公司
bet365
C级合作公司
CMP
金星
LOKI
平博
  • 推荐主题
  • 热门活动
  • 币圈快讯
  • 商城动态
重要通知
 
论坛搜索
              搜索
Array ( [fid] => 6974 [description] => 专注于币圈最新最快资讯,数字货币应用及知识普及 [password] => [icon] => b1/common_6974_icon.png [redirect] => [attachextensions] => [creditspolicy] => Array ( [post] => Array ( [usecustom] => 1 [cycletype] => 1 [cycletime] => 0 [rewardnum] => 5 [extcredits1] => 1 [extcredits2] => 1 [extcredits3] => 0 [extcredits4] => 0 [extcredits5] => 0 [extcredits6] => 0 [extcredits7] => 0 [extcredits8] => 0 [rid] => 1 [fid] => 6974 [rulename] => 发表主题 [action] => post [fids] => 32,52,67,447,1120,1151,1156,6750,6762,6763,6766,6769,6772,6773,6787,6796,6808,6809,6810,6813,6814,6820,6829,6830,6846,6856,6864,6865,6827,6930,6931,6776,6858,6880,6764,6932,6871,6758,6905,1116,6788,6812,6798,6736,6759,6842,6966,6767,6828,6924,6935,6936,6938,6940,6941,6826,6909,6803,6919,6911,6908,6881,6920,6912,6913,6921,6925,6922,6789,6818,6819,6872,6928,6969,6889,6888,6917,6939,6947,6961,6937,6943,6970,6869,6900,6902,6783,6817,1111,6870,6821,6876,6952,6954,6960,6942,6910,6949,6962,6963,6964,6927,6926,6973,6728,6929,6874,6894,6896,6885,6857,6868,1113,6778,56,6844,6878,6802,6933,6811,6923,6877,6875,6918,6892,6757,6832,6833,6795,6793,6848,6837,6849,6850,6851,6852,6853,6854,6863,6882,6836,6790,6838,6794,6791,6873,555,6934,6958,6944,6945,6907,6779,6886,6950,6904,6956,6862,6957,6855,6955,6959,6914,6965,6971,6972,6953,6976,6824,6815,6891,6866,6979,6977,6765,6903,6948,6980,6981,6983,6799,6982,6951,6984,6975,6895,6845,6879,1121,6974 ) [reply] => Array ( [usecustom] => 1 [cycletype] => 1 [cycletime] => 0 [rewardnum] => 0 [extcredits1] => 0 [extcredits2] => 1 [extcredits3] => 10 [extcredits4] => 0 [extcredits5] => 0 [extcredits6] => 0 [extcredits7] => 0 [extcredits8] => 0 [rid] => 2 [fid] => 6974 [rulename] => 发表回复 [action] => reply [fids] => 32,52,67,447,1120,1151,1156,6750,6763,6766,6769,6772,6773,6787,6796,6808,6809,6810,6813,6814,6820,6829,6830,6846,6856,6864,6865,6827,6930,6931,6776,6858,6880,6764,6932,6871,6758,1116,6788,6812,6798,6736,6759,6842,6966,6767,6828,6924,6935,6936,6938,6940,6941,6826,6909,6803,6919,6911,6908,6881,6920,6912,6913,6921,6925,6922,6789,6818,6819,6872,6928,6969,6889,6888,6917,6939,6947,6961,6937,6943,6970,6869,6900,6902,6783,6817,1111,6870,6821,6876,6952,6954,6960,6942,6910,6949,6962,6963,6964,6927,6926,6973,6728,6929,6874,6894,6896,6885,6857,6868,1113,6778,56,6844,6878,6802,6933,6811,6923,6877,6875,6918,6892,6757,6832,6833,6795,6793,6848,6837,6849,6850,6851,6852,6853,6854,6863,6836,6790,6838,6794,6791,6873,555,6934,6958,6944,6945,6907,6779,6886,6950,6904,6956,6862,6957,6855,6955,6959,6914,6965,6971,6972,6953,6976,6824,6815,6891,6866,6979,6977,6765,6903,6948,6980,6981,6983,6799,6982,6951,6984,6975,6895,6845,6879,1121,6974 ) ) [formulaperm] => a:5:{i:0;s:0:"";i:1;s:0:"";s:7:"message";s:0:"";s:5:"medal";N;s:5:"users";s:0:"";} [moderators] => 实习版主1 [rules] => [threadtypes] => Array ( [required] => 1 [listable] => 1 [prefix] => 1 [types] => Array ( [1590] => 论坛公告 [1752] => 公司优惠 [1603] => 虚拟币交流 [1753] => 数字钱包 [1754] => 虚拟币存提 [1755] => 交易所 [1655] => 虚拟币资讯 [1756] => 银行卡 [1757] => 第三方支付 [1760] => 币圈大佬 [1758] => 科技前沿 [1759] => 天策嗨聊 [1661] => 入驻合作 ) [icons] => Array ( [1590] => [1752] => [1603] => [1753] => [1754] => [1755] => [1655] => [1756] => [1757] => [1760] => [1758] => [1759] => [1661] => ) [moderators] => Array ( [1590] => 1 [1752] => [1603] => [1753] => [1754] => [1755] => [1655] => [1756] => [1757] => [1760] => [1758] => [1759] => 1 [1661] => ) ) [threadsorts] => Array ( ) [viewperm] => 9 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 31 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 7 8 [postperm] => 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [replyperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [getattachperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [postattachperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [postimageperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [spviewperm] => [seotitle] => [keywords] => [seodescription] => [supe_pushsetting] => [modrecommend] => Array ( [open] => 0 [num] => 10 [imagenum] => 0 [imagewidth] => 300 [imageheight] => 250 [maxlength] => 0 [cachelife] => 0 [dateline] => 0 ) [threadplugin] => Array ( ) [replybg] => [extra] => a:2:{s:9:"namecolor";s:0:"";s:9:"iconwidth";s:2:"60";} [jointype] => 0 [gviewperm] => 0 [membernum] => 0 [dateline] => 0 [lastupdate] => 0 [activity] => 0 [founderuid] => 0 [foundername] => [banner] => [groupnum] => 0 [commentitem] => [relatedgroup] => [picstyle] => 0 [widthauto] => 0 [noantitheft] => 0 [noforumhidewater] => 0 [noforumrecommend] => 0 [livetid] => 0 [price] => 0 [fup] => 6729 [type] => forum [name] => 虚拟币讨论大厅 [status] => 1 [displayorder] => 3 [styleid] => 0 [threads] => 29980 [posts] => 487125 [todayposts] => 144 [yesterdayposts] => 232 [rank] => 2 [oldrank] => 2 [lastpost] => 2813113 ASTER销毁45.5万枚代币:回购收紧流通供应,价格维持区间稳定(转) 1773206077 舞出精彩 [domain] => [allowsmilies] => 1 [allowhtml] => 1 [allowbbcode] => 1 [allowimgcode] => 1 [allowmediacode] => 0 [allowanonymous] => 0 [allowpostspecial] => 21 [allowspecialonly] => 0 [allowappend] => 0 [alloweditrules] => 1 [allowfeed] => 0 [allowside] => 0 [recyclebin] => 1 [modnewposts] => 2 [jammer] => 1 [disablewatermark] => 0 [inheritedmod] => 0 [autoclose] => 0 [forumcolumns] => 3 [catforumcolumns] => 0 [threadcaches] => 0 [alloweditpost] => 1 [simple] => 16 [modworks] => 1 [allowglobalstick] => 1 [level] => 0 [commoncredits] => 0 [archive] => 0 [recommend] => 0 [favtimes] => 0 [sharetimes] => 0 [disablethumb] => 0 [disablecollect] => 0 [ismoderator] => 0 [threadtableid] => 0 [allowreply] => [allowpost] => [allowpostattach] => )
发帖
1234下一页
打印 上一主题 下一主题
[虚拟币交流] DeepSeek 被误读的 5 个真相,AI 大佬亲自揭秘-转载
[复制链接]
avatar
跳转到指定楼层
1#
DeepSeek 已经爆火了一个春节,红起来自然是非就多。尤其在海外局势变化错综复杂的情况下,DeepSeek 的天朝血统,给它招来了许多谣言。. |2 D& }+ ?/ _
% s' O, p! Q# N! N4 j7 ^# _
Stability AI 曾经的研究主管 Tanishq Mathew Abraham 昨天挺身而出,以自己业内人士的身份下场,指出了 DeepSeek 极为特殊的几点:% d9 I4 u1 [) c
; W0 l. V) F( O4 d
1.性能实际上与 OpenAI 的 o1 一样好,这是一个前沿模型,标志着开源真正赶上了闭源  h6 L8 G  v) g7 p& {
! H# l- o9 r1 z3 j0 N4 I6 {. d
2.与其他前沿模型相比,DeepSeek 以相对较低的训练费用完成+ \8 m* l: Z5 U8 N3 W  ~9 T

" }2 q5 Z; h& j$ _" \3.易于使用的界面,结合其网站和应用程序中可见的思维链,吸引了数百万新用户加入
* r% t# H% k7 E7 z6 B% y1 M+ p/ |/ _6 r( f4 m8 G4 e6 K
除此之外,他更是针对几大流行的谣言,写了长长一篇博文,分析解释了围绕在 DeepSeek 四周的(离谱)言论。" M& w) ?$ Z9 V0 X/ E2 H

5 h8 h" n0 e; ]1 c$ |: E以下为博客文章,内容有所编辑:
6 o/ O, Q- K; p; ~
7 @- \* Y: ?4 {% K2025 年 1 月 20 日,一家名为 DeepSeek 的天朝 AI 公司开源并发布了他们的推理模型 R1。鉴于 DeepSeek 是一家天朝公司,美国及其 AGI 公司存在各种「国家安全担忧」。由于这一点,**关于它的错误信息已经广泛传播。**; w% E% |1 c# k& c* |& s$ @  o

  S$ S/ k; B4 t: W) s这篇文章的目的是反驳自 DeepSeek 发布以来,许多关于 DeepSeek 的极端糟糕的 AI 相关观点。同时,作为一个在生成式 AI 前沿工作的 AI 研究人员,提供更有平衡性的观点。
; s- Q( x: W  W% L8 S4 i. y. O2 i0 u9 m. _
谣言 1:可疑!DeepSeek 是一家突然冒出来的天朝公司
7 P4 O/ N9 v$ u- j( |8 x完全错误,到 2025 年 1 月,几乎所有生成式 AI 研究人员都已经听说过 DeepSeek。DeepSeek 甚至在完整发布前几个月就发布了 R1 的预览!; v6 ^! o. e% |2 T2 l7 ?
# g9 m! E5 O* \2 I4 M2 b& O
任何传播这种谣言的人,很可能并不从事人工智能工作——如果你不涉足该领域,却以为自己了解这个领域的一切,是荒谬且极其自负的。+ K/ a+ q. l: S. Z- G

' t0 ^; z2 Z+ `2 m! H! RDeepSeek 的首个开源模型 DeepSeek-Coder,于 2023 年 11 月发布。当时是业界领先的代码 LLMs(编者注:专注于理解和生成代码的语言模型)。正如下面的图表所示,DeepSeek 在一年内持续发货,达到 R1:
; m; a, d1 I7 c  [
+ L: ~; y; S7 ]8 a7 L# J+ @  b$ W; H/ v5 S
这不是一夜之间的成功,他们进步的速度也没有什么可疑之处。在人工智能发展如此迅速,且他们拥有一个明显高效的团队的情况下,一年内取得这样的进步在我看来是非常合理的。5 f  i, p' B+ B' X( G1 ^! I/ X; n
0 \) I7 Z" |7 b
如果您想知道哪些公司在公众视野之外,但 AI 领域内备受看好,我会推荐关注 Qwen(阿里巴巴)、YI(零一万物)、Mistral、Cohere、AI2。需要注意的是,它们没有像 DeepSeek 那样持续发布 SOTA 模型,但它们都**有潜力发布出色的模型**,正如它们过去所展示的那样。
+ s5 Z1 Q0 Z0 J9 |
4 e7 K7 y! e0 t+ J+ k$ |谣言 2:撒谎!这个模型的成本不是 600 万美元
, O$ @2 K% q3 C( h; }0 \/ Q6 H这是一个有趣的问题。这类谣言认为 DeepSeek 想避免承认他们有非法的幕后交易来获取他们不应获得的计算资源(由于出口管制),从而在关于模型训练成本的真实性上撒谎。; J3 n; j8 v; \6 R/ Z0 w* A9 U* {

% u2 s* k8 h, g( n首先,600 万美元这个数字值得好好研究。它在 DeepSeek-V3 论文中有提及,该论文是在 DeepSeek-R1 论文发布前一个月发布的:' T3 _5 H' J5 _' o* b* z3 k
% s/ n" P7 o) s4 _

+ H% N' r6 d0 q) N' \DeepSeek-V3 是 DeepSeek-R1 的基础模型,这意味着 DeepSeek-R1 是 DeepSeek-V3 加上一些额外的强化学习训练。所以在某种程度上,成本已经不准确,因为强化学习训练的额外成本没有被计算在内。但那可能只会花费几十万美元。1 u! ~$ w) m/ g
7 f; L7 T5 E3 V. F: ]5 j! a
好的,那么 DeepSeek-V3 论文中提到的 550 万美元,是不正确的吗?基于 GPU 成本、数据集大小和模型大小的众多分析,已经得出了类似的估计。请注意,虽然 DeepSeek V3/R1 是一个 671B 参数的模型,但它是一个专家混合模型,这意味着模型的任何函数调用/前向传递只使用约 37B 参数,这是计算训练成本所使用的值。
- L" u$ k  Y- b9 {. m6 p& O0 O+ P
2 T  K& P! @) X然而,DeepSeek 的成本,是基于当前市场价格估计的这些 GPU 的成本。我们实际上并不知道他们的 2048 个 H800 GPU 集群(注意:不是 H100s,这是一个常见的误解和混淆!)的成本。通常,连续的 GPU 集群在批量购入时成本会更低,因此甚至可能更便宜。: u* ~3 H, e6 g- c+ K# o
/ \2 s  A2 m0 g6 ~0 \& t- t/ }
但是这里有个问题,这是最终运行的成本。在这成功之前,可能进行了许多在小规模的实验和消融,这一部分会需要相当大的成本,但这些并未在此处报告。  z. K8 D2 P& p& i5 i1 [

, `3 U! T7 M, }- Z# B& _5 d2 @" r! g除此之外,可能还有许多其他成本,如研究员薪资。SemiAnalysis 报告称,DeepSeek 的研究员薪资传闻约为 100 万美元。这相当于 AGI 前沿实验室如 OpenAI 或 Anthropic 的高薪水平。
6 T6 x2 J5 d5 T6 q( `1 ]2 E3 p) a( P4 z! n3 [4 M: G
通常,当报道和比较不同模型的训练成本时,最终的训练运行成本是最受关注的。但由于糟糕的论调和错误信息的传播,人们一直在争论额外的成本使 DeepSeek 的低成本和高效运营性质受到质疑。这是极其不公平的。无论是从消融/实验的角度,还是从其他 AGI 前沿实验室的研究人员薪酬的角度来看,成本都非常显著,但这些通常在这样的讨论中没有被提及!
* A* y0 w& P" V" A! Q- F/ v* c* C, z" D) T# d6 _) \3 w
谣言 3:这么便宜?所有美国 AGI 公司都在浪费钱,看跌英伟达5 y( Z1 e( k: Y: h% |/ S
我认为这又是一个相当愚蠢的看法。与许多其他 LLM 相比,DeepSeek 在训练中确实效率更高。是的,许多美国前沿实验室在计算上效率低下是非常可能的。然而,这并不一定意味着拥有更多的计算资源是坏事。  m, r7 i( N$ g- A' D4 x- t2 R
2 x4 }* @  A- G! A) P& U+ m$ A- t
老实说,每当听到这样的观点,我就清楚地知道他们不懂 scaling laws,也不懂 AGI 公司 CEO(以及任何被视为 AI 专家的人)的心态。让我就这个话题发表一些看法。
6 g% H! g7 T! j1 ?# z/ S1 |
  N$ u1 k2 H# ~4 }% GScaling laws 表明,只要我们继续将更多的计算能力投入到模型中,我们就能获得更好的性能。当然,AI 扩展的确切方法和方面随着时间的推移而发生了变化:最初是模型大小,然后是数据集大小,现在是推理时间计算和合成数据。' ?4 J0 P. @. A* N

) ~$ @3 j' p+ p$ X3 Z8 y$ g5 u自 2017 年原始 Transformer 以来,更多的计算能力等于更好的性能的整体趋势似乎仍在持续。
4 d3 B0 k  ]+ v' {) r
. w+ g" C# I) o4 R( g更高效的模型意味着您可以在给定的计算预算下获得更高的性能,但更多的计算资源仍然更好。更高效的模型意味着你可以用更少的计算资源做更多的事情,但使用更多的计算资源,可以做到更多!
! }. E6 u" n2 `: i
9 c6 j' {! @+ f' v. C1 A6 k4 m2 J你可能有自己的关于 scaling laws 的看法。你可能认为即将出现一个平台期。你可能认为过去的表现并不能预示未来的结果,正如金融界所说。
& B: \4 b1 o2 C' U3 ?; s% d5 L, h
! E/ n0 R# [" g& C但如果所有最大的 AGI 公司都在押注 scaling laws 能够持续足够长的时间,以实现 AGI 和 ASI。这是他们的坚定信念,那么唯一合理的行动就是获取更多的计算能力。  y, @8 }+ q# ^# c

8 T( e1 F# n9 h& @# D- U' t, v现在你可能认为「NVIDIA 的 GPU 很快就会过时,看看 AMD、Cerebras、Graphcore、TPUs、Trainium 等」,blabla。有数百万种针对 AI 的硬件产品,都在试图与 NVIDIA 竞争。其中之一可能在将来获胜。在这种情况下,也许这些 AGI 公司会转向它们——但这与 DeepSeek 的成功完全无关。
7 _& H' R+ ~/ i$ }3 g4 Q/ t5 c1 b7 F! ?1 s
个人而言,我认为没有强有力的证据表明其他公司会撼动 NVIDIA 在 AI 加速芯片领域的统治地位,鉴于 NVIDIA 目前的市场统治地位和持续的创新水平。
1 `* k% ~: U7 _5 P0 s- Z
" u; O6 K/ y! B. m) R. H总体而言,我看不出为什么 DeepSeek 意味着你应该看跌 NVIDIA。你可能有其他理由看跌 NVIDIA,这些理由可能非常合理且正确,但 DeepSeek 似乎不是我认为合适的理由。
5 P% g; A1 J. K$ ~7 A2 t6 I
; p# A$ f) v* ^4 ]谣言 4:模仿罢了!DeepSeek 没有做出任何有意义的创新
2 o! t) [; b# Q) t6 E$ O" W错误。**语言模型的设计和训练方法有很多创新,其中一些比其他更重要**。以下是一些(不是完整的列表,可以阅读 DeepSeek-V3 和 DeepSeek-R1 论文以获取更多详细信息):
% A6 C: \$ y/ z. T3 q* X7 [9 W! h
3 c5 w. ~& t0 y多头潜注意力 (MLA) – LLMs 通常是指利用所谓的多头注意力(MHA)机制的 Transformer。DeepSeek 团队开发了一种 MHA 机制的变体,它既更节省内存,又提供更好的性能。% f% f1 e3 ]. R, U) F/ U
' j5 V# Y3 v" C, h, _$ X
GRPO 与可验证奖励 – 自从 o1 发布以来,AI 从业者一直在尝试复制它。由于 OpenAI 对它的工作方式一直相当保密,大家不得不探索各种不同的方法来实现类似 o1 的结果。有各种尝试,如蒙特卡洛树搜索(谷歌 DeepMind 在围棋中获胜所采用的方法),结果证明不如最初预期的那样有希望。
! s0 H8 f8 @( W  c% i
) u& a8 |; R  W; yDeepSeek 展示了一个非常简单的强化学习(RL)管道实际上可以实现类似 o1 的结果。除此之外,他们还开发了自己变种的常见 PPO RL 算法,称为 GRPO,它更高效且性能更好。我想 AI 社区中的许多人都在想,我们为什么之前没有尝试过这种方法呢?8 q, y% u) F8 S% X0 R

3 m, ?, U' I% D4 }0 jDualPipe – 在多个 GPU 上训练 AI 模型时,有许多效率方面需要考虑。你需要弄清楚模型和数据集如何在所有 GPU 之间分配,数据如何通过 GPU 流动等。你还需要减少 GPU 之间任何数据传输,因为它非常慢,最好尽可能在每个单独的 GPU 上处理。无论如何,有许多设置此类多 GPU 训练的方法,DeepSeek 团队设计了一种新的、效率更高且速度更快的解决方案,称为 DualPipe。
  e$ ?/ Q. a9 W+ R( u9 Y. H- P, }! t2 q) V3 l4 D7 f1 e1 i. y
我们非常幸运,DeepSeek 完全开源了这些创新,并写了详细的介绍,这与美国 AGI 公司不同。现在,每个人都可以受益,用这些创新的办法来提高他们自己的 AI 模型训练。- X/ ?% \$ `0 f+ n& V  J
& W' `8 |- O' f  r
谣言 5:DeepSeek 正在「汲取」ChatGPT 的知识
: I( n% ^" }$ u& [9 s1 m" Y3 B戴维·萨克斯(美国ZF的 AI 和加密巨头)和 OpenAI 声称,DeepSeek 使用一种称为蒸馏的技术「汲取」ChatGPT 的知识。$ W2 d0 `6 k( ~$ E( J5 @- I7 t

- B# p' I3 ]$ X: h9 z  t9 S+ J首先,这里的「蒸馏」一词使用得非常奇怪。通常,蒸馏指的是在所有可能的下一个词(token)的全概率(logits)上进行训练,但这个信息甚至不能通过 ChatGPT 暴露出来。7 l5 W* u* b( @2 Z. Z

* T0 z( d( z8 e& H! P但是好吧,就假设我们在讨论如何使用 ChatGPT 生成的文本进行训练,尽管这并不是该术语的典型用法。6 A7 Z, Z) |5 }- U
" g+ ?6 Z5 B4 c9 g* r( O2 C
OpenAI 及其员工声称 DeepSeek 自己使用 ChatGPT 生成文本并在此基础上进行训练。他们没有提供证据,但如果这是真的,那么 DeepSeek 显然违反了 ChatGPT 的服务条款。我认为这对一家天朝公司来说,法律后果尚不明确,但我对此了解不多。
8 a' `; W% I; F( V" m- H+ g6 O! J' G" [% L
请注意,这仅限于 DeepSeek 自己生成了用于训练的数据。如果 DeepSeek 使用了来自其他来源的 ChatGPT 生成数据(目前有许多公开数据集),我的理解是这种「蒸馏」或合成数据训练并未被 TOS 禁止。. R0 N* }) d6 ]# S1 t
' Q$ _* a3 g2 a! ]
尽管如此,在我看来,这并不减少 DeepSeek 的成就。与 DeepSeek 的效率方面相比,作为研究人员,让我印象更深刻的是他们对 o1 的复制。我非常怀疑对 ChatGPT 进行「蒸馏」有任何帮助,这种怀疑完全是出于 o1 的 CoT 思维过程从未公开过,那么 DeepSeek 如何能够学习它呢?* o9 j6 R- k# C3 @+ o

" g0 I' ^4 @- Z! |8 z0 O此外,许多 LLMs 确实在 ChatGPT(以及其他 LLM)上进行了训练,而且在新抓取的任何互联网内容中自然也会有 AI 文本。" e( b  h1 |) t5 E9 X/ E( h6 ^" B' O

/ R% w. Q) _* O* h1 w6 H总体而言,认为 DeepSeek 的模型表现良好仅仅是因为它简单提炼了 ChatGPT 的观点,是忽略了 DeepSeek 在工程、效率和架构创新方面的现实。
- ~9 c& t% D& }% u  j# ?$ I# C1 [/ D% K$ I
应该担心天朝在人工智能领域的霸权吗?5 {" ~# C+ N# `- j4 ?, }: [
或许有一点?坦白说,现在和两个月前相比,中美 AI 竞赛在实质上并没有太多变化。相反,外界的反应相当激烈,这确实可能通过资金、监管等方面的变化影响整体 AI 格局。
2 B$ r- w5 M; G3 d+ a- E
% S7 Z) w9 |9 ~6 K4 o5 t天朝人一直都在人工智能领域具有竞争力,DeepSeek 现在让他们变得无法忽视。
0 S: b7 V. @3 {
0 r$ I; @' q9 `: N; ?4 H关于开源的典型论点是,由于天朝落后,我们不应该公开分享我们的技术,让他们赶上。但显然,天朝已经赶上了,他们实际上很久以前就已经赶上了,他们在开源方面实际上处于领先地位,因此不清楚进一步收紧我们的技术,实际上的帮助是否有那么大。
& E5 U. N2 o, t  g1 s* C& l; f
& [- E0 n7 q. y3 Y( b/ G5 e请注意,像 OpenAI、Anthropic 和 Google DeepMind 这样的公司肯定有比 DeepSeek R1 更好的模型。例如,OpenAI 的 o3 模型的基准测试结果相当令人印象深刻,他们可能已经有一个后续模型正在开发中。' r* Q/ w) G: c1 Z* z

6 L5 R( h$ E! N- ^  H" E在此基础上,随着像星门项目以及 OpenAI 即将到来的融资轮等重要额外投资,OpenAI 和其他美国前沿实验室将拥有充足的计算能力,以保持他们的领先地位。
7 O# {. i8 [6 o, s+ }* k* R) s% P2 P2 F/ O: K) U
当然,天朝将向人工智能发展投入大量额外资金。所以总的来说,竞争正在升温!但我认为,美国 AGI 前沿实验室保持领先的道路仍然相当有希望。
# _( k& Z6 b# D* ?( g
$ I- M$ o# `$ ]# K2 p结论
5 c' Q% U; b! a. L" Q一方面,一些 AI 人士,尤其是 OpenAI 的一些人,试图淡化 DeepSeek。而另一方面,一些评论家和自称专家对 DeepSeek 又反应过度。8 R0 B8 [: T& p) w" H

, v9 `9 H5 c" b& l, ]$ q+ i' @; @需要指出的是,' O/ `2 Q* s: k" c/ V8 H: s( [1 {0 ?
OpenAI/Anthropic/Meta/Google/xAI/NVIDIA 等并没有就此完蛋。不,DeepSeek (很可能)没有在说他们所做的事情上撒谎。无论如何必须承认的是:DeepSeek 应得到认可,R1 是一个令人印象深刻的模型。( }- d. P4 T& K

1 I3 D9 d7 @# [6 d# l/ t
avatar
2#
这个真相是需要去了解下了啊。
avatar
3#
管它怎么读呢,各人有各人的理解
avatar
懂得这个方法我非常也是必定收藏起来了的哦。
avatar
主题回复处广告图案-天策传媒
这个楼主的一些看法我是觉得还是挺好的了啊
avatar
看上去老哥的看法是挺有感悟的许多的道理不错
avatar
7#
这个方法行自己好好掌握,也是很棒的。
avatar
8#
感恩大佬的分享,好人一生幸福。
avatar
9#
方法最后一段话觉得是有道理的,但是在我面前就难以实现,毕竟好运太差了。
avatar
你的看法很不错,看论坛的决定了,没想到你的文采这么好
avatar
11#
菠菜肯定有推荐,这是必须的
avatar
12#
感谢您介绍的技巧都不能无视技巧啊
avatar
楼主的这些看法也是要好好看看了,你的用心了的!
avatar
这一次方法在论坛的运气还是值得肯定的.
avatar
15#
我是看完了,老哥后面的看法和提议也是赞同
avatar
搞小一点,就是运气不好,也不会搞的输了,心态肯定好啊
avatar
这样的分享是可以收藏起来,然后学习一下的。
1234下一页
您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
{:8_286:} {:8_287:} {:8_288:} {:8_289:}
{:8_290:} {:8_291:} {:8_292:} {:8_293:}
{:8_294:} {:8_295:} {:8_296:} {:8_297:}
{:8_298:} {:8_299:} {:8_300:} {:8_301:}
{:8_302:} {:8_303:} {:8_304:} {:8_305:}
{:8_306:} {:8_307:} {:8_308:} {:8_309:}
{:8_310:} {:8_311:} {:8_312:}
{:8_313:} {:8_314:} {:8_315:} {:8_316:}
{:8_317:} {:8_318:} {:8_319:} {:8_320:}
:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory:
:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake:
未有绑定记录
 


Powered by 天策论坛   © 2007-2026 天策论坛 | 小黑屋 | 手机|
1717 : 0