有人可以推荐支持此功能的工具或库吗?我目前想到的唯一解决方案是使用具有稳定扩散的 ControlNet 来生成图像/姿势并将它们组合成视频。不过,我愿意探索其他可能更适合此要求的工具或库。
提前感谢您的帮助!
我研究过基本的图像到视频转换工具,但没有发现很多明确支持以灵活的方式添加提示或注释的工具。任何建议、库指针甚至代码示例将不胜感激。
我使用python制作了转换函数。 请检查https://github.com/degenPick/lipsSync