目标:把 AI 做成可控系统,而不是“会说话的黑盒”

从网络安全视角看,大模型应用的本质是:把不可信输入、外部内容、内部数据与高权限动作连接到一起。风险往往不是模型“答得不准”,而是形成可被利用的攻击链:提示注入 → 越权 → 外发/变更 → 难以追溯。一个可落地的整体方案需要围绕三条主线设计:资产攻击链信任边界,并用工程化手段实现:最小权限、强隔离、可审计、可回归。

参考架构图(攻防视角)

RAG/LLM/数据管道的典型链路与攻击面:提示注入、数据投毒、供应链漏洞、模型后门、敏感信息泄露
RAG/LLM/数据管道的典型链路与攻击面:提示注入、数据投毒、供应链漏洞、模型后门、敏感信息泄露

读图指南:按“攻击链”落控制点

要保护什么:AI 系统的核心资产

怎么被打:常见攻击链(按网络安全思路拆解)

1) 提示注入 → 规则绕过 → 敏感信息外泄

外部内容(网页、邮件、知识库片段)伪装成指令,诱导模型忽略规则,输出系统提示词、内部信息或工具返回。

2) RAG 污染 → 供应链式注入

攻击者把恶意内容写入可检索源(Wiki、工单模板、文档库),借助召回进入上下文,形成可持续传播的注入。

3) 工具调用越权 → 真实世界的副作用

当模型具备“执行能力”(插件/函数/Agent),攻击面从“说错话”升级为“做错事”:越权查询、批量变更、外发、删除。

4) 不安全输出处理 → 二次漏洞

模型输出被下游系统当作可信输入执行,触发 XSS/注入/模板注入/命令注入等传统漏洞复现。

5) 模型 DoS 与成本攻击

超长上下文、恶意多轮、诱导复杂推理让 token 与延迟爆炸,拖垮服务或造成账单攻击。

核心原则:先画清楚信任边界

整体方案怎么落地:四大能力面

1) 入口与身份(Access & Abuse Prevention)

2) 上下文与提示词(Prompt/Context Security)

3) 执行与数据(Tool Governance & Data Protection)

4) 观测、审计与回归(Observability & Continuous Security)

控制项清单:从“能拦截”到“可审计、可回归”

1) Prompt Injection 防线

2) 工具调用与 API 防线

3) 数据与知识库(RAG)防线

4) 模型与供应链防线

一张表看清:攻击面 → 控制点

攻击面 典型风险 可落地控制点
提示注入 绕过规则、泄露提示词/敏感信息 引用块隔离、输入风控、拒绝与降级、输出泄露检测
RAG 污染 供应链式注入、长期传播 检索源白名单、内容溯源与回滚、权限召回过滤
工具/插件 越权查询、外发、破坏性操作 Tool Broker、参数白名单、关键动作审批、沙箱与 egress 控制
不安全输出处理 XSS/注入/模板注入等二次漏洞 严格解析、编码/转义、禁止把模型输出直接拼接到执行上下文
成本/DoS token/延迟爆炸、账单攻击 配额与限流、上下文上限、复杂度中止、缓存与分级路由

最小可行落地(MVP)清单(按优先级)