LTX-2是什么LTX-2 是 Lightricks 开发的先进 AI 视频生成模型,专为高质量视频创作设计。能以原生 4K 分辨率和 50fps 的帧率生成电影级视频,支持多模态输入,包括文字、图片
Ming-UniAudio是什么Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生成和编辑任务。核心是 MingTok-Audio,一个基于 VAE 框架和因果 Transf
NVIDIA正式发布了支持虚幻引擎5.6版本的DLSS 4插件,开发者可以轻松在游戏中集成和支持相关技术。该插件可谓满血版本,完整支持Transformer模型、多帧生成、帧生成、光线重建、超分辨率、
Chonky:一个完全基于神经网络的文本分块工具。它能将文本智能分割成有意义的语义块,帮助你更高效地处理和理解长文本。亮点:使用Transformer模型,精准分块;支持RAG系统,拓展应用范围;一行
今日,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较 MoE 架构提升2-6倍,推理成本最高可降低83%。目前,国内外大模型领
机器之心报道机器之心编辑部来自 Mata AI、法国索邦大学、巴黎高师的研究者成功让 Transformer 直接预测出完整的数学表达式。符号回归,即根据观察函数值来预测函数数学表达式的任务,通常涉及
选自getrevue.co作者:Jean de Dieu Nyandwi机器之心编译机器之心编辑部这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。1958 年:感知机的兴起1958 年,弗兰克
机器之心报道机器之心编辑部在这篇论文中,来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4
选自 Quanta Magazine机器之心编译作者:Stephen Ornes机器之心编辑部从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transformer 会成为下一个神
丰色 发自 凹非寺量子位 | 公众号 QbitAI都说Transformer适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒76帧)