方法论

我们如何检测
AI 技能威胁

ClawSafe 采用多 Agent 安全分析管道,协同静态规则引擎与语义分析 Agent,对每个技能进行深度审查并生成结构化报告。

分析架构

ClawSafe 的核心是一条 Agent 协作管道,而非单次 LLM 调用。每个分析阶段由专职 Agent 独立执行,上下文在各 Agent 间传递和累积,确保发现的深度和准确性。

01

文件采集 Agent

Collection

支持 GitHub 仓库、ClawHub 包、ZIP 压缩包和直接上传。Agent 提取所有文本文件(SKILL.md、scripts、配置文件),构建规范化的文件树,在内存中操作后即时丢弃,不持久化原始文件。

02

静态规则 Agent

Static Analysis

对文件树执行 80+ 条模式匹配规则:Shell 命令注入、网络请求(curl/wget/fetch)、环境变量读取、敏感文件系统路径(~/.ssh、.env、/etc/passwd)、混淆编码字符串(base64、十六进制堆积)。Agent 输出结构化命中列表,为下游 Agent 提供初始上下文。

03

语义分析 Agent

Semantic Reasoning

核心分析 Agent 接收文件内容和静态命中列表,在完整上下文中进行语义推理。Agent 会主动区分"合法的网络请求"和"C2 数据外泄",识别跨文件的攻击链,并对每个发现给出置信度评估。这一阶段可多轮迭代,确保复杂攻击模式不被遗漏。

04

分类 Agent

Classification

将语义分析 Agent 的原始发现映射到标准化的 10 类威胁分类体系(code_execution、credential_theft、data_exfiltration、obfuscation、doc_deception、privilege_escalation、supply_chain、persistence、prompt_injection、sensitive_access),并赋予严重级别(critical/high/medium)。

05

评分 Agent

Risk Scoring

基于发现数量、严重级别和置信度计算 0–100 风险分数。Critical 发现权重最高;同类别多个发现边际递减以避免警报疲劳。评分算法可解释,每个维度的贡献在报告中透明展示。

06

报告 Agent

Report Generation

聚合各 Agent 的输出,生成结构化 JSON 报告:verdict(safe/suspicious/dangerous)、risk_score、findings 列表(含类别、严重级别、证据和置信度)、summary。报告公开存储并可通过 API 获取。

设计原则

速度优先

Agent 管道并行执行,扫描在 60 秒内完成。无需账号注册,直接获得报告。

低误报

语义分析 Agent 基于完整上下文判断,有效过滤静态规则的误报,每个发现都有可解释的证据链。

隐私优先

原始文件在内存中处理,扫描完成后立即丢弃。报告只存储分析元数据,不包含原始代码。

开放透明

报告公开可见,方法论完全公开。安全社区可验证每个发现,提出异议或贡献改进。

已知局限

  • 动态执行行为无法静态检测(沙箱执行在路线图中)
  • 深度多层混淆可能部分绕过语义分析 Agent
  • Agent 推理能力受限于当前模型边界,复杂攻击链可能存在漏报
  • 扫描结果为风险信号,不替代人工代码审查