扫描报告
15 /100
openclaw-smartness-eval
OpenClaw 智能度综合评估技能。围绕 14 个维度(含规划能力、幻觉控制)输出综合评分、证据、风险与趋势。对齐 CLEAR/T-Eval/Anthropic 行业标准。
AI Agent 智能度评估技能,代码质量高、安全机制完善,存在轻微文档-行为偏差(base64签名、写入操作)但不构成实质威胁。
可以安装
可安全使用。建议补充 SKILL.md 中关于 base64 签名机制和写入行为的具体说明。
安全发现 2 项
| 严重性 | 安全发现 | 位置 |
|---|---|---|
| 低危 | Base64 编码存储作者署名 代码混淆 | scripts/eval.py:40 |
| 低危 | '只读'声明与实际写入行为存在偏差 文档欺骗 | scripts/eval.py:50 |
| 资源类型 | 声明权限 | 推断权限 | 状态 | 证据 |
|---|---|---|---|---|
| 文件系统 | READ | WRITE | ✓ 一致 | scripts/eval.py:50-51 创建 state/smartness-eval/ 子目录 |
| 命令执行 | WRITE | WRITE | ✓ 一致 | scripts/eval.py:145 subprocess.run() 执行 task-suite 命令 |
| 网络访问 | NONE | READ | ✓ 一致 | scripts/eval.py:868 仅在 --llm-judge 参数时调用外部 API |
| 环境变量 | READ | READ | ✓ 一致 | scripts/eval.py:874 读取 OPENAI_API_KEY/DEEPSEEK_API_KEY |
| 数据库 | READ | READ | ✓ 一致 | scripts/eval.py:210-220 sqlite3 查询 .reasoning/reasoning-store.sqlite |
1 严重 14 项发现
严重 危险命令 危险 Shell 命令
rm -rf / config/task-suite.json:363 中危 外部 URL 外部 URL
https://keepachangelog.com/ CHANGELOG.md:6 中危 外部 URL 外部 URL
https://www.conventionalcommits.org/ CONTRIBUTING.md:65 中危 外部 URL 外部 URL
https://img.shields.io/badge/version-0.3.0-blue?style=flat-square README.md:7 中危 外部 URL 外部 URL
https://img.shields.io/badge/license-MIT--0-green?style=flat-square README.md:8 中危 外部 URL 外部 URL
https://img.shields.io/badge/python-3.9+-yellow?style=flat-square README.md:9 中危 外部 URL 外部 URL
https://img.shields.io/badge/OpenClaw-2026.3.13+-orange?style=flat-square README.md:10 中危 外部 URL 外部 URL
https://arxiv.org/html/2511.14136v1 README.md:89 中危 外部 URL 外部 URL
https://www.53ai.com/news/LargeLanguageModel/2024071870985.html README.md:89 中危 外部 URL 外部 URL
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents README.md:89 中危 外部 URL 外部 URL
https://clawhub.com/yh22e README.md:312 中危 外部 URL 外部 URL
https://img.shields.io/badge/版本-0.2.1-blue?style=flat-square README_CN.md:7 中危 外部 URL 外部 URL
https://img.shields.io/badge/协议-MIT--0-green?style=flat-square README_CN.md:8 中危 外部 URL 外部 URL
https://api.deepseek.com scripts/eval.py:878 目录结构
22 文件 · 164.0 KB · 4227 行 Markdown 15f · 2419L
Python 3f · 1204L
JSON 4f · 604L
├─
▾
config
│ ├─
config.json
⚠
JSON
│ ├─
rubrics.json
JSON
│ └─
task-suite.json
JSON
├─
▾
docs
│ ├─
ARCHITECTURE.md
Markdown
│ ├─
FAQ.md
Markdown
│ ├─
GROWTH.md
Markdown
│ ├─
ROADMAP.md
Markdown
│ ├─
SCORING.md
Markdown
│ └─
SHOWCASE.md
Markdown
├─
▾
scripts
│ ├─
check.py
Python
│ ├─
eval.py
Python
│ └─
state_probe.py
Python
├─
_meta.json
JSON
├─
CHANGELOG.md
Markdown
├─
CLAWHUB-UPLOAD-GUIDE.md
Markdown
├─
CODE_OF_CONDUCT.md
Markdown
├─
CONTRIBUTING.md
Markdown
├─
README_CN.md
Markdown
├─
README.md
Markdown
├─
RELEASE_NOTES_v0.2.1.md
Markdown
├─
SECURITY.md
Markdown
└─
SKILL.md
Markdown
依赖分析 1 项
| 包名 | 版本 | 来源 | 已知漏洞 | 备注 |
|---|---|---|---|---|
python3 (stdlib) | 3.9+ | standard_library | 否 | 仅使用 Python 标准库(json, subprocess, sqlite3, urllib, pathlib) |
安全亮点
✓ 命令白名单校验机制完善(validate_command() 拒绝 -c、exec()、绝对路径、路径遍历)
✓ subprocess 执行有 120 秒超时保护
✓ 网络请求仅在用户显式传入 --llm-judge 参数时触发
✓ API Key 依赖环境变量,不硬编码凭证
✓ 使用 Python 标准库,无第三方依赖引入风险
✓ rm -rf / 等危险命令作为反作弊测试用例,受白名单保护
✓ 完整的安全声明部分,透明度高