Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。
它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画、艺术创作等多个领域。

- 支持文本到视频(T2V):可生成 20 秒以上 流畅、连贯的视频。
- 支持多种风格:写实、3D 动画、剪纸、赛博朋克等。
-广告优化版(Goku+):可直接生成真人广告、产品展示、人物交互的数字人视频。
- 真实人物 & 手部优化:面部表情自然,手势精准。
- 电影级动态镜头:支持慢动作、特写、追踪拍摄等。
- 高分辨率 & 智能光影:画质清晰,色彩自然,光影真实。

Goku 采用先进的 流模型架构(Flow-Based Model),与传统的视频生成模型相比,它能够生成更 稳定、流畅、长时序的视频,并能 精准控制 视频中的人物、物体、环境等细节。

GitHub:goku
论文:https://arxiv.org/pdf/2502.04896