在 Sora 及其技术报告推出后,我们看到了长达 60 秒,高清晰度且画面可控、能多角度切换的高水平效果。在背后的技术上,研究人员训练了一个基于 Diffusion Transformer(DiT)思路的新模型,其中的 Transformer ...