直接破坏型
这些问题通常足以直接触发阻止安装。
代码执行
任意 shell、动态执行、远程下载后执行。
凭证窃取
读取密钥、令牌、SSH、云凭证并导出。
数据外泄
把本地内容、环境变量或对话结果送到外部。
权限提升
尝试扩大系统权限、修改系统边界或拿到更高控制权。
一个 skill 之所以不值得安装,通常不是因为它“看起来怪”,而是因为它在某个具体方向上突破了声明边界、暴露了窃取路径,或者把额外的供应链风险带进环境里。
这些问题通常足以直接触发阻止安装。
任意 shell、动态执行、远程下载后执行。
读取密钥、令牌、SSH、云凭证并导出。
把本地内容、环境变量或对话结果送到外部。
尝试扩大系统权限、修改系统边界或拿到更高控制权。
这些问题会显著削弱信任,即使它们不总是立刻形成攻击链。
README 或 SKILL.md 的承诺与真实行为不一致。
通过外部内容或文档把模型引向未声明操作。
编码、拼接、变形执行,掩盖真实意图。
这些问题会把额外风险带进系统,影响最终是否放行。
未锁版本、恶意依赖、远程脚本和子模块风险。
在系统中写入长期驻留或重启后仍执行的机制。
读取超出任务范围的系统文件、用户目录或浏览器数据。
code_execution Critical 一旦 skill 能任意执行命令,安装风险会迅速转为系统级风险。
credential_theft Critical 只要存在读取和外发凭证路径,可信度几乎直接归零。
data_exfiltration Critical 本地数据或模型上下文被送出系统,是高优先级阻止信号。
privilege_escalation Critical 任何试图扩大权限边界的行为,都不适合默认安装。
doc_deception High 当声明与真实行为不一致时,报告会优先强调这类信任断裂。
supply_chain High 依赖、远程脚本和版本策略可能让一个“正常 skill”变成风险入口。
persistence High 它让风险在安装结束后继续存在。
obfuscation Medium 它未必单独构成恶意,但经常是在掩盖别的问题。
prompt_injection Medium 重点不是 prompt 本身,而是它是否把模型引向越界动作。
sensitive_access Medium 读取工作区之外的系统和用户数据,会显著降低放行概率。