@hiker-ren/gemini-hyperframes
v1.2.2
Published
Claude Code skill — free AI digital human video: Gemini image + HyperFrames render + audio-reactive portrait + subtitle sync
Maintainers
Readme
gemini-hyperframes — 免费的 AI 数字人口播视频技能
Claude Code Skill · npm 发布 · 零 API Key · 全流程免费
一句话介绍
输入一段文案,自动生成 AI 人像 + 语音 + 字幕 + 音频驱动动画的口播视频 MP4。全流程免费,不需要任何 API Key。
安装
npm exec --package=@hiker-ren/gemini-hyperframes -c "gemini-hyperframes"安装后在 Claude Code 中通过 /gemini-hyperframes 或自然语言触发。
它能做什么
你的文案 → Gemini 网页版生图 → edge-tts 配音 → HyperFrames 渲染 → MP4一个 60 秒的口播视频,从文案到出片约 3 分钟:
- AI 人像:opencli 驱动 Gemini 网页版,根据性别/场景/气质描述生成写实人像
- TTS 配音:edge-tts 本地生成,支持 XiaoxiaoNeural / YunxiNeural,语速可调
- 字幕同步:字符比例插值算法,精确到帧,自动处理长句拆分
- 音频驱动动画:人像随语音呼吸感缩放、光晕脉冲、边框亮起
- 多音字处理:同义词替换 + SSML phoneme,解决 "一行命令" 读成 xíng 的问题
- BGM:Pixabay 免费音乐库,科技/史诗/轻快/自定义
激活后的引导流程
技能激活后会自动询问 6 个问题:
- 口播文案(你说的内容)
- 数字人形象(男/女 · 工作室/自然光/科技风 · 专业/温暖/时尚)
- 视频长度(~20s / ~40s / ~60s+)
- BGM 风格(无/科技/史诗/轻快/自定义)
- TTS 声音和语速
- 输出目录名
确认后全自动执行 12 步管线,无需手动操作。
效果演示
| 场景 | 内容 | |---|---| | 人像 | 1024×1024 写实人像,左侧展示 | | 文字 | 右侧动态场景,5-7 个分段 | | 字幕 | 底部居中,字符比例插值精确同步 | | 动画 | 人像微动(点头/呼吸/光晕),音频能量驱动 | | BGM | 可选 Pixabay 免费配乐 | | 输出 | 1920×1080 MP4,H.264,30fps |
技术亮点
- 零依赖付费 API:Gemini 网页版(opencli COOKIE 复用登录态)、edge-tts(本地免费)、HyperFrames(Apache 2.0 开源)
- 音频驱动动画引擎:ffmpeg 提取 PCM → numpy 逐帧 RMS → GSAP
tl.call()每帧采样,6 个 DOM 属性同步响应 - 字幕算法移植:从 promo-video 的 Remotion/TypeScript 移植为纯 JS,字符比例插值 + GSAP 帧级动画
- 多音字处理:同义词替换(promo-video 方案)+ SSML
<phoneme>+edge_tts_ssml.py绕过 HTML 转义 bug
版本
| 版本 | 更新 | |---|---| | v1.0.0 | 模板 + 三大引擎(字幕/音频驱动/场景) | | v1.1.0 | 引导式配置(6 项问答标准化) | | v1.2.0 | 多音字处理(同义词 + SSML phoneme) | | v1.2.1 | 验证兼容性修复 |
链接
- npm:
@hiker-ren/gemini-hyperframes - 安装:
npm exec --package=@hiker-ren/gemini-hyperframes -c "gemini-hyperframes" - 卸载:
rm -rf ~/.claude/skills/gemini-hyperframes
