西安钢绞线一米多少公斤 DeepSeek V4讲述太细心了！484天换代之路全公开

DeepSeek V4 "迟到"半年西安钢绞线一米多少公斤，但发布后的好评如潮还在如潮。

中外热搜上了整圈，科技媒体的版面今天都让给了它，OpenAI 也成了它的陪衬。

大咋舌于 DeepSeek 在有限条件下作出舛错蹧蹋的创造力，也佩服其在 2026 年，还能刚烈弃取开源阶梯的决心。

不错说，期间信息多的有些载，但多归多，干线就两条。

条，百万 token 高下文开源，KV cache 大幅缩减。

V4-Pro 和 V4-Flash，1.6 万亿参数 /2840 亿参数，高下文都是 1M。1M 场景下，V4-Pro 的单 token FLOPs 唯有 V3.2 的 27，KV cache 唯有 10。

亚马逊硬件师 GPD 暗意，这意味着 DeepSeek 可能惩办现时的 HBM 穷苦问题。

二条，国产芯片适配，一经维持华为算力，展望下半年昇腾 950 节点批量上市。

此外，大关注的，还莫过于在往日四个月中，DeepSeek 陆续放出了几篇「可能进 V4」的论文，今天技能讲述开源了，不错对下账。

mHC（流形连续集结）：2025 年 12 月 31 日上传 arXiv，梁文锋挂名。进了 V4。

Engram（条件挂念模块）：1 月 DeepSeek 联北大发布。没进 V4，但在将来向里被点名，留给 V5。

DualPipe：V3 老店员。连续用，针对 mHC 作念了治愈。

Muon 化器：从 Kimi 那里借的。V4 把 AdamW 替了，禁受大多量参数的测验。

四个预期，三个落地，个给下代。

合座架构

V4 这代，是 DeepSeek 系列里动刀多的版。比较 V3，V4 在三个地作念了升。

，引入 mHC（Manifold-Constrained Hyper-Connections）强化残差集结。

二，联想 hybrid attention 架构，CSA 和 HCA 轮流重复，惩办长文率问题。

三，采用 Muon 动作主化器。

MoE 部分仍然用 DeepSeekMoE，MTP（Multi-Token Prediction）模块跟 V3 保抓致。

些细节微调包括，affinity score 的激活函数从 Sigmoid 换成了 Sqrt ( Softplus ( · ) ) ，去掉了 routing target nodes 的数目连续，前几层 dense FFN 换成了用 Hash routing 的 MoE 层。

接下来，咱们个个看。

mHC，给残差集结加层连续

残差集结是何恺明2016 年在 ResNet 里提议来的，十年没何如变过。模子层层堆，梯度沿着残差往回传，这是度学习能 work 的前提。

但模子越来越、参数越来越多之后，传统残差运转露怯，信号传递不稳，测验容易崩。

先说 Hyper-Connections（HC），这是 Kimi 团队之前提议的想法。中枢是把残差流从维造成 n_hc 条并行通谈，每层之间通过个矩阵 B 来混。

A、B、C 是三个线映射。想法很雅，越过于给残差流加多了个新的 scaling 维度。但 DeepSeek 在堆多层时发现，HC 平庸出现数值不褂讪，测验说崩就崩。

V4 的作念法叫 mHC，把矩阵 B 连续到「双立地矩阵」的流形上（数学上叫 Birkhoff polytope），行和列都归化为 1。这个连续带来两个克己。

矩阵的谱范数不外 1，残差传播套上硬上限，爆不起来。

这种矩阵在乘法下是紧闭的，堆好多层也稳。

输入映射 A 和输出映射 C 则通过 Sigmoid 函数保证非负且有界，避信号相互对消。

已毕上用 Sinkhorn-Knopp 迭代，轮流作念行归化和列归化，迭代 20 次治理。整个这个词过程对每层都跑遍。

听起来贵，但 DeepSeek 作念了 fused kernel，再配弃取 recomputation，实测 mHC 带来的 wall-time 支出截至在 overlapped pipeline 的 6.7。

天津市瑞通预应力钢绞线有限公司

技能判断上，mHC 不是那种让东谈主咫尺亮的架构立异，像是个「稳得住大模子」的工程补丁。但跟着模子度和参数目连续往上，这种补丁会造成刚需。

混肃穆力机制

这是全篇论文厚的块，亦然「百万 token 率」的中枢魔刑场所。

V4 的肃穆力层不是种，是两种轮流使用的结构，CSA（Compressed Sparse Attention）和 HCA（Heavily Compressed Attention）。

CSA 作念两件事，先压缩，再疏淡弃取。

步，KV 压缩。每 m 个 token 的 KV entries，通过个带学习权重的 attention-like 机制压成个。

二步，lightning indexer + top-k 弃取。这部分承袭自 V3.2 的 DSA。对每个 query token，用个轻量的 indexer 野心它和每个压缩 KV 块的有关分数。

三步，core attention。在选中的这 top-k 压缩 KV 块上作念 Multi-Query Attention，获得肃穆力输出。

四步，grouped output projection。因为 V4 把 head dimension c 设成了 512（比 V3.2 的 128 大得多），要是径直把整个 head 的输出投影回 d 维会很贵，是以作念了分组投影，把 n_h 个 head 分红 g 组，每组先投影到个中间维度 d_g，后再并投影回 d。

整个这个词 CSA 等于作念了两层压缩。层是序列长度压缩，n 造成 n/m。二层是疏淡弃取，n/m 造成 top-k。对 1M token 的序列，正本需要 attend 1M 个 token，当今只需要 attend 1024 个压缩块。

HCA 的想路浅薄粗暴，压得狠，但不作念疏淡。

压缩率 m ’ =128，每 128 个 token 压成个。压缩过程也莫得 CSA 那样的 overlap，径直每 m ’个组压。然后对整个压缩后的 KV 作念 dense attention。

论文里莫得长篇大套地讲授 CSA 和 HCA 为什么要配对使用，但读完整个这个词 architecture 章节，能看出它们的单干。

CSA 的压缩平和、靠疏淡把关，适作念 token-level 的紧密检索。HCA 的压缩凶猛、保抓 dense，适作念长距离的全局信号汇总。

V4 把两者层层轮流。Pro 有 61 层，Flash 有 43 层，CSA 和 HCA 层层往上叠。既不漏细节，也不被细节拖住。

此外，论文还骄慢了几个 trick。

Q/KV normalization。 CSA 和 HCA 在 core attention 之前，都对 query 和 KV entries 作念次 RMSNorm，止 attention logits 爆炸。

Partial RoPE。只对 query 和 KV entries 的后 64 维施加旋转位置编码，其余维度不动。

因为 KV entries 既作念 key 又作念 value，naive 的 RoPE 会让输出带上对位置信息，是以在 output 端也对应施加个位置为 -i 的 RoPE 来对消，只保留相对位置信息。这是个神秘的工程处理。

Sliding window attention 动作接济分支。

因为压缩肃穆力保证严格因果，个 query token 看不到我方压缩块内其他 token 的信息。为了赔偿近距离依赖，V4 异常加了个 sliding window 分支，每个 query 除了看压缩 KV 以外，还能看近 128 个 token 的 uncompressed KV。

Attention sink。模仿 OpenAI 和 StreamingLLM 的 trick，在 attention 分母上加个 learnable sink logit，允许 attention score 总数不等于 1。

这在长序列里尤其有效，能避模子被动把肃穆力均派。

Muon 化器

V4 测验中大多量参数化用的不是 AdamW，是 Muon。

Muon 是前几年 Keller Jordan 那批东谈主（他当今在 OpenAI）在小模子上考证过的化器，基于矩阵正交化。

它只化 2D 参数矩阵，钢绞线厂家其他参数（embedding、prediction head、RMSNorm 权重、mHC 的静态偏置等）如故走 AdamW。

Muon 在 LLM 鸿沟上的次大鸿沟考证是 Kimi K2。 2025 年，Moonshot 用 Muon（加上他们我方的 QK-Clip 变种，称 MuonClip）训了个 1T 参数的 MoE，15.5T token，全程崩溃。

当今 DeepSeek 也用上了。不外他们作念了我方的版块，hybrid Newton-Schulz 迭代，10 步分两段。

前 8 步用激进统共，快速把奇异值向 1 近邻。

后 2 步用平和统共，精准地把奇异值褂讪在 1。

这里有个细节值得肃穆。Kimi 用 Muon 需要 QK-Clip 来止 attention logits 爆炸，DeepSeek 没用这招。他们的原理是，V4 的肃穆力架构允许径直对 query 和 KV 作念 RMSNorm，从源泉把爆炸的可能压住了。

两公司，同个化器，惩办同个问题，走的是两条路。这种跨团队的技能分享和各自演化，是 2026 年开源社区有道理的面。

模子测验

DeepSeek-V4 系列在预测验数据量上已毕了翻倍。

对比 V3 仅用 14.8T Token 测验，V4-Flash 与 V4-Pro 的数据销耗量区别达到了 32T 和 33T。测验数据量整整翻了倍多（增长约 1.2 倍）。

数据组成上，长文档数据单 curate，先收录科学论文和技能讲述这类有学术价值的长材料。tokenizer 仍用 V3 的 128K 词表。

在模子架构上，V4-Flash，43 层，荫藏维度 4096。

MoE 用 1 个 shared expert + 256 个 routed experts，每 token 激活 6 个。总参数 284B，激活 13B。

V4-Pro，61 层，荫藏维度 7168。MoE 用 1 个 shared expert + 384 个 routed experts，每 token 激活 6 个。总参数 1.6T，激活 49B。

测验调理上，序列长度走四段，4K → 16K → 64K → 1M。sparse attention 不是从新开，前 1T token 用 dense attention 作念 warmup，扩到 64K 时才 introduce sparsity。

论文暗意，测验中间出过次严重的 loss spike，DeepSeek 摸到两个土办法，Anticipatory Routing 和 SwiGLU Clamping。论文原话相配诚实，这两个 trick work，但底层机理仍是 open question。

个测验了两个万亿参数 MoE 的团队公开承认「咱们不知谈为什么这两个 trick 管用」，在 2026 年一经是件挺特殊的事。

在后测验阶段，V4 这代作念了次法论替换，传统的 mixed RL 阶段被 On-Policy Distillation（OPD）替代。

过程分两步。

步，训 domain specialist。

数学、代码、agent、领导奴才四个域，各自强训个 expert。先 SFT 底，再用 GRPO 作念 domain-specific RL。V4 还引入了三档 reasoning effort mode，Non-think、Think High、Think Max，每档输出长度不同。

二步，OPD 并。

十几个 expert 通过 on-policy distillation 进个统的 student。student 我方 rollout，小化 reverse KL 向对应域的 expert 对皆。数学任务向数学 expert 靠，编程任务向编程 expert 靠。

法论听起来很雅。但工程上装不下，十几个 teacher 每个都是万亿，vocab size 过 10 万。

V4 的作念法是 teacher 权重 offload 到漫步式存储按需加载，只缓存 hidden states 不 materialize logits，按 teacher 排序样本保证每个 mini-batch 只加载个 teacher head。

套看似雅的后测验法论，背后是堆「不这么作念就装不下」的工程协调。

实验论断

在实验部分，有三件值得说的事。

开源先。

SimpleQA-Verified 上 V4-Pro-Max 拿到 57.9，K2.6 是 36.9，GLM-5.1 是 38.1。先整个开源模子 20 个百分点。

匹敌闭源。

Codeforces rating 3206，过了 GPT-5.4 的 3168 和 Gemini-3.1-Pro 的 3052，在东谈主类选手榜单上名次 23。开源模子匹敌闭源泉部，此次是简直匹敌了。

差距仍在。

HLE 上 V4-Pro-Max 37.7，Gemini-3.1-Pro 44.4，Claude-Opus-4.6-Max 40.0。1M MRCR 上 V4 于 Gemini 但彰着不如 Claude。学问类和前沿的理任务仍有 3-6 个月的 gap。

论文中，DeepSeek 暗意：

DeepSeek-V4-Pro-Max 在圭臬理 benchmark 上于 GPT-5.2 和 Gemini-3.0-Pro，但略过期于 GPT-5.4 和 Gemini-3.1-Pro。这标明其发展轨迹大要过期前沿闭源模子 3 到 6 个月。

Flash-Max 可能是这篇论文被低估的部分。

V4-Flash-Max 只激活 13B 参数，理任务上能平 GPT-5.2 和 Gemini-3.0-Pro，代码和数学致使过 K2.6-Thinking。

要是只看激活参数目，这是目前率致的理模子之。

履行任务里值得提的是里面 R&D 代码 benchmark，V4-Pro-Max 67，接近 Claude Opus 4.5 的 70。

85 东谈主的里面诞生者调研里，91 暗意 V4-Pro 不错动作主力 coding 模子。

在官的文中，也侧面印证了这个说法：

目前 DeepSeek-V4 已成为公司里面职工使用的 Agentic Coding 模子，据评测反应使用体验于 Sonnet 4.5，托付质地接近 Opus 4.6 非想考模式，但仍与 Opus 4.6 想考模式存在定差距。

在论文的后，DeepSeek 也暗意：

为了追求致的长文率，V4 系列采用了个相对激进的架构联想。为了裁减风险，咱们保留了许多已训诲证过的组件和 trick，这让架构变得相对复杂。在将来的迭代中，咱们将进行、有原则的预计，把架构精简到内容的部分。

将来向几条，探索新维度的 sparsity（点名了 Engram 那条线）、低延伸架构、万古程多轮 agentic 任务、多模态、好的数据 curation。

有个蛮有道理的小细节，在面目化数学评测中，DeepSeek 也皮了下友商：

咱们在 K2.6 和 GLM-5.1 的部分条款留空了，因为它们的 API 太忙，没法实时复返咱们查询的效劳。

太火了，即是说。

转头

把 V4 放回 DeepSeek 的完好意思旅途里看，它不是在追逐 frontier。

往日三年的趋势相配明晰。闭源大厂追求的是智商上限，谁的模子能在 HLE 上拿分。DeepSeek 追求的直是另条线，通常智商下的本钱下限。

V4 把这件事到了百万 token。个 1M 的高下文，在 V3.2 的本钱结构下是不成抓续的，KV cache 会把显存吃光。V4 把它压到 V3.2 的 10，本钱弧线片刻直了。

那效劳会若何呢。个很长的 agent 会话，份反复回读的技能文档，次跨多仓库的重构，这些往日要切窗口、要加 retrieval、要用心管理高下文的场景，在 V4 这里造成了「全塞进去望望再说」。

DeepSeek 这几年作念的事，底层动作很明晰，直在删。从 V2 的 MLA 运转，每代都在删 KV cache、删激活参数、删肃穆力野心量。

删到 V4，单 token 理 FLOPs 到四分之，KV cache 到十分之。

百万 token 不是个新的智商，是同个高下文窗口被压到不错承担的本钱。

One more thing

论文的收尾有份长长的孝敬者名单。

梁文锋在其中。

其中有不少带星号的名字，是一经离开团队、但仍然对 V4 作念出过进击孝敬的预计者。

往日这年，对于 DeepSeek 东谈主才流失的音问传过好几轮。但这份名单把他们的名字和 V4 这个大等了整整年多的模子，绑在了同张纸上。

每个东谈主都算数，每天也都算数。

V4 发布今日，DeepSeek 预计员陈德里在 x 上转发并写谈：

DeepSeek-V3：2024 年 12 月 26 日。

DeepSeek-V4：2026 年 4 月 24 日。

484 天后，咱们回绝地分享这份心的干事。

如既往，咱们永远坚抓历久见地和全民开源。

AGI 属于每个东谈主。

参考相连

[ 1 ] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

[ 2 ] https://arxiv.org/pdf/2512.24880

键三连「点赞」「转发」「留心心」

迎接在辩驳区留住你的想法！

— 完 —

� � 谁会代表 2026 年的 AI？

龙虾爆火，带动波 Agent 与生息居品波浪。

但真实巧得历久关注的 AI 公司和居品，简略不啻于此。

要是你正在作念，或见证着这些变化，迎接申报。

让多东谈主看见你。� � https://wj.qq.com/s2/25829730/09xz/

键关注 � � 点亮星标

科技前沿推崇逐日见

相关词条:罐体保温塑料挤出设备钢绞线超细玻璃棉板万能胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定西安钢绞线一米多少公斤，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

西安钢绞线一米多少公斤 DeepSeek V4讲述太细心了！484天换代之路全公开

推荐资讯

热点资讯

推荐资讯