大家好,周末了
介绍一个好玩的AI项目
HivisionIDPhoto - AI 证件照制作工具
一句话
HivisionIDPhoto 是一个实用的智能证件照制作工具,它使用 AI 技术来处理用户的照片并生成标准证件照。
地址:https://github.com/Zeyi-Lin/HivisionIDPhotos/
主要功能
轻量级人像抠图
纯离线运行,仅需 CPU 即可快速推理 支持多种抠图模型:MODNet、RMBG、BiRefNet 等
标准证件照生成
支持多种尺寸规格的证件照生成 可生成六寸排版照片 支持自定义背景颜色 支持透明背景输出
人脸检测与优化
支持多种人脸检测模型:MTCNN、RetinaFace、Face++ 支持人脸旋转校正 支持美颜效果 (开发中) 支持智能换装 (开发中)
部署方式
本地部署
支持 Python 环境下的直接调用 提供 Gradio 网页界面 提供 API 服务接口
Docker 部署
提供 Docker 镜像一键部署 支持 Docker Compose 编排
2. 安装步骤
2.1 基础安装
# 克隆项目
git clone https://github.com/hivisionai/hivisionidphoto.git
cd hivisionidphoto
# 创建虚拟环境
python -m venv venv
# 激活虚拟环境
# Windows:
venv\Scripts\activate
# Linux/MacOS:
source venv/bin/activate
# 安装依赖
pip install -r requirements.txt
2.2 Docker 安装
# 拉取镜像
docker pull hivisionai/hivisionidphoto:latest
# 运行容器
docker run -d \
--name hivisionidphoto \
-p 7860:7860 \
hivisionai/hivisionidphoto:latest
运行方式
3.1 Python API 调用
from hivisionidphoto import IDPhotoMaker
# 初始化
maker = IDPhotoMaker()
# 生成证件照
result = maker.make_id_photo(
image_path="input.jpg",
size="1寸",
bg_color="蓝色",
num_copies=1
)
# 保存结果
result.save("output.jpg")
3.2 Gradio 网页界面
# 启动 Gradio 服务
python web_ui.py
启动后访问 http://localhost:7860 即可使用网页界面。
3.3 命令行使用
# 基础用法
python cli.py --input input.jpg --size 1寸 --bg-color 蓝色
# 高级用法
python cli.py \
--input input.jpg \
--size 2寸 \
--bg-color 白色 \
--copies 4 \
--beautify \
--output output.jpg
4. 常用配置
4.1 配置文件说明
配置文件位于 config.yaml
,主要包含:
模型选择 图像参数 服务配置 性能调优
model:
segmentation: "modnet" # 可选: modnet, rmbg, birefnet
face_detection: "mtcnn" # 可选: mtcnn, retinaface, facepp
processing:
image_size: 1024
beautify: false
server:
host: "0.0.0.0"
port: 7860
performance:
beast_mode: false # 是否启用内存常驻加速
gpu_id: 0 # GPU设备ID,-1表示使用CPU
4.2 自定义证件照尺寸
在 sizes.json
中添加自定义尺寸:
{
"custom_size": {
"width": 413,
"height": 626,
"dpi": 300,
"name": "自定义尺寸"
}
}
常见问题
内存不足
降低处理图片的分辨率 关闭 Beast Mode 使用较轻量级的模型
GPU 相关
确保已安装 CUDA 和 cuDNN 检查 GPU 显存占用 适当调整批处理大小
图片质量问题
调整光线和背景 使用更高质量的输入图片 尝试不同的模型组合
性能优化建议
CPU 优化
启用 Beast Mode 实现内存常驻 使用轻量级模型如 RMBG 适当降低处理分辨率
GPU 加速
使用较新的 NVIDIA 显卡 保持显存充足 启用 CUDA 加速
批量处理
使用命令行批处理模式 合理设置并行处理数量 预加载模型到内存
总结:技术特点
高性能
Mac M1 Max 上纯 CPU 推理仅需 0.2-0.9 秒 支持 GPU 加速 (需 16GB 显存) Beast Mode 支持内存常驻加速
易扩展
支持自定义证件照尺寸 支持自定义背景颜色 支持自定义水印字体 支持添加社交媒体模板
108页PDF小册子:搭建机器学习开发环境及Python基础
全网最全 Python、机器学习、AI、LLM 速查表(100 余张)
Obsidian AI写作神器:一键配置DeepSeek,写作效率飙升1000%!
基于 QAnything 的知识库问答系统:技术解析与应用实践【附代码】
⬆️关注:领取Python、机器学习资料包⬆️