扫描报告
5 /100
invoice-extractor
使用百度 OCR API 从发票图片和 PDF 中提取发票信息并导出到 Excel
这是一个功能完整、行为规范的发票 OCR 提取工具,所有代码行为与文档声明一致,无恶意行为。
可以安装
可直接使用。建议在 requirements.txt 中将 >= 改为具体版本号以增强供应链可预测性。
安全发现 1 项
| 严重性 | 安全发现 | 位置 |
|---|---|---|
| 低危 | 依赖版本未锁定次版本 供应链 | requirements.txt:1 |
| 资源类型 | 声明权限 | 推断权限 | 状态 | 证据 |
|---|---|---|---|---|
| 文件系统 | READ | WRITE | ✓ 一致 | src/excel_exporter.py:60 - 创建 output 目录和 Excel 文件 |
| 网络访问 | READ | READ | ✓ 一致 | src/baidu_ocr_extractor.py - 仅向 api.baidubce.com 发送 OCR 请求 |
| 环境变量 | READ | READ | ✓ 一致 | src/config.py:14 - 仅读取 BAIDU_API_KEY/BAIDU_SECRET_KEY |
9 项发现
中危 外部 URL 外部 URL
https://cloud.baidu.com/product/ocr: SKILL.md:29 中危 外部 URL 外部 URL
https://cloud.baidu.com/doc/OCR/index.html SKILL.md:290 中危 外部 URL 外部 URL
https://cloud.baidu.com/product/ocr config.template.txt:2 中危 外部 URL 外部 URL
https://python-poetry.org/docs/#installation setup.md:93 中危 外部 URL 外部 URL
https://cloud.baidu.com/ setup.md:106 中危 外部 URL 外部 URL
https://aip.baidubce.com/rest/2.0/ocr/v1/vat_invoice src/baidu_ocr_extractor.py:23 中危 外部 URL 外部 URL
https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic src/baidu_ocr_extractor.py:25 中危 外部 URL 外部 URL
https://aip.baidubce.com/oauth/2.0/token src/baidu_ocr_extractor.py:49 提示 邮箱 邮箱地址
[email protected] examples.md:338 目录结构
15 文件 · 101.6 KB · 3396 行 Python 9f · 2171L
Markdown 3f · 1170L
Shell 1f · 44L
Text 2f · 11L
├─
▾
scripts
│ ├─
batch_process.py
Python
│ └─
verify_export.py
Python
├─
▾
src
│ ├─
baidu_ocr_extractor.py
Python
│ ├─
config.py
Python
│ ├─
excel_exporter.py
Python
│ ├─
invoice_extractor.py
Python
│ ├─
invoice_model.py
Python
│ ├─
main_baidu.py
Python
│ └─
main.py
Python
├─
config.template.txt
Text
├─
examples.md
Markdown
├─
install.sh
Shell
├─
requirements.txt
Text
├─
setup.md
Markdown
└─
SKILL.md
Markdown
依赖分析 5 项
| 包名 | 版本 | 来源 | 已知漏洞 | 备注 |
|---|---|---|---|---|
requests | >=2.28.0 | pip | 否 | 次版本未锁定 |
pandas | >=2.0.0 | pip | 否 | 次版本未锁定 |
openpyxl | >=3.1.0 | pip | 否 | 次版本未锁定 |
PyMuPDF | >=1.23.0 | pip | 否 | 次版本未锁定 |
Pillow | >=10.0.0 | pip | 否 | 次版本未锁定 |
安全亮点
✓ 文档完整且与代码行为完全一致,无阴影功能
✓ 仅访问 config.txt 读取 API 凭证,无敏感路径遍历
✓ 网络请求仅指向百度官方 OCR API 端点 (aip.baidubce.com)
✓ 无 base64 解码执行、无反向 shell、无凭证收割等高危模式
✓ base64 仅用于将图片编码为 API 请求体,属于正常用途
✓ install.sh 仅执行本地 pip install,无远程脚本执行
✓ 代码结构清晰,无混淆或隐藏逻辑