2026 年 3 月 29 日晚,国内主流大模型平台 DeepSeek 突发服务中断,网页端与 App 全面瘫痪,大量用户遭遇 “服务器繁忙”“请求失败”,#DeepSeek 崩了 #迅速登上热搜。此次中断持续超 12 小时,直至次日上午才逐步恢复,不仅打乱了数百万用户的工作节奏,更暴露了 AI 大模型服务的底层脆弱性。这场突发宕机,绝非简单的 “服务器卡了”,而是多重技术、行业与外部因素叠加的必然结果。
一、算力供需失衡:最核心的底层矛盾
DeepSeek 此次宕机的首要根源,是用户爆发式增长与算力储备严重不匹配。数据显示,2025 年 DeepSeek 日活用户从 1.2 亿激增至 2 亿,涨幅达 66.7%,但同期算力储备仅增长 8.3%微博。3 月底恰逢毕业季、求职季与项目交付期叠加,长文本生成、代码调试、深度推理等高算力消耗请求集中爆发,瞬时流量直接击穿系统承载极限,触发限流保护机制,最终导致服务全面中断。
更关键的是,高端 AI 芯片供应受限加剧了算力瓶颈。受出口管制影响,DeepSeek 依赖的英伟达 GPU 资源紧张,国产芯片适配效率仅 80%,推理性能存在短板,算力扩容速度远跟不上用户需求增长。这就像一座设计容量有限的桥梁,突然涌入远超负荷的车流,最终只能全面封桥。
二、MoE 架构:高效背后的 “双刃剑”
DeepSeek 核心模型采用MoE(混合专家)架构,本意是通过 “分工协作” 提升效率、降低成本,但在此次故障中却成了 “放大器”微博。MoE 架构依赖动态路由机制分配请求,每个任务仅激活部分模型参数,正常情况下能高效处理复杂任务微博。但当流量峰值远超调度系统负载能力时,动态路由极易出现拥堵,引发 “局部拥堵→全局瘫痪” 的连锁反应。
尤其是 “深度思考” 等高阶功能,单次请求算力消耗是常规对话的数倍,进一步加剧了高峰时段的资源争抢,让本就紧张的算力资源雪上加霜。这种架构特性,让大模型在应对突发流量时,容错空间被大幅压缩。
三、分布式系统脆弱:牵一发而动全身
AI 大模型服务是一套极其复杂的分布式系统,依赖云原生集群、跨节点通信、数据库缓存、GPU 调度等数十个组件协同工作。任何一个环节的微小故障,都可能引发级联反应。
此次中断中,缓存组件异常导致请求积压,GPU 内存溢出触发服务重启,跨节点通信延迟让修复指令无法及时传达,多个问题叠加形成 “雪崩效应”。更值得注意的是,用户在服务异常时反复点击重试,进一步推高访问量,让抢修工作难度升级,原计划的修复进度被迫多次延期。
四、外部风险:攻击与基础设施波动的叠加
除内部问题外,外部因素也加剧了此次中断。有消息称,DeepSeek 在故障期间遭遇大规模 DDoS 攻击,峰值流量达 3.2Tbps,消耗大量带宽资源,进一步挤占正常服务的算力与网络资源。同时,底层云计算基础设施的波动、跨区域网络延迟等问题,也让故障影响范围扩大、恢复时间延长。
结语:AI 服务稳定性的行业拷问
DeepSeek 此次重大中断,是 AI 大模型行业高速扩张下的一次 “集体预警”。随着大模型融入办公、创作、科研等场景,用户对服务稳定性的要求越来越高,但算力瓶颈、架构缺陷、运维能力不足等问题,仍制约着行业发展。
未来,AI 平台需在算力扩容、架构优化、灾备建设、流量治理等方面持续发力,平衡用户增长与服务稳定性。而此次宕机也提醒行业:AI 技术的成熟,不仅在于模型能力的提升,更在于底层基础设施的稳健与可靠。
