2024-10-25 15:32 点击次数:140
据智源权略院,下一token推测已在大说话模子界限收场了 ChatGPT 等龙套,然而在多模态模子中的适用性仍不解确,多模态任务仍然由扩散模子(如Stable Diffusion)和组合措施(如麇集 CLIP视觉编码器和LLM)所主导。
2024年10月21日,智源权略院认真发布原生多模态宇宙模子Emu3。该模子只基于下一个token推测,无需扩散模子或组合措施,即可完成文本、图像、视频三种模态数据的知晓和生成。
Emu3在图像生成、视频生成、视觉说话知晓等任务中高出了 SDXL 、LLaVA、OpenSora等驰名开源模子,然而无需扩散模子、CLIP视觉编码器、预磨真金不怕火的LLM等技艺,只需要推测下一个token。
Emu3提供了一个强盛的视觉tokenizer,大约将视频和图像转机为闹翻token。这些视觉闹翻token不错与文本tokenizer输出的闹翻token一齐送入模子中。与此同期,融资炒股该模子输出的闹翻token不错被转机为文本、图像和视频,为Any-to-Any的任务提供了愈加长入的权略范式。而在此前,社区枯竭这么的技艺和模子。
此外,受益于Emu3下一个token推测框架的无邪性,胜利偏好优化(DPO)可无缝期骗于自转头视觉生成,使模子与东说念主类偏好保握一致。
Emu3权略后果阐发,下一个token推测不错动作多模态模子的一个强盛范式,收场卓绝说话自己的大界限多模态学习,并在多模态任务中收场先进的性能。通过将复杂的多模态狡计箝制到token自己,能在大界限磨真金不怕火和推理中开释高大的后劲。下一个token推测为构建多模态AGI提供了一条出路广袤的说念路。
Powered by 众豪优配 @2013-2022 RSS地图 HTML地图
建站@kebiseo; 2013-2024 万生优配app下载官网 版权所有