将“Combining next-token prediction and video diffusion in computer vision and robotics”翻译成中文为:“在计算机视觉和机器人领域结合下一个标记预测和视频扩散”。 发布日期 2024年10月18日