如何通过大模型创建能够根据文字生成视频的应用

视频信息