字节跳动开源全新 AI 模型 LatentSync,精准控制唇形同步
字节跳动推出的 LatentSync 是一项先进的端到端唇同步技术,利用音频条件的潜在扩散模型,实现了视频中人物唇部动作与音频的精确匹配。该技术通过引入 TREPA 技术,增强了时间一致性,同时优化了 SyncNet 的收敛性,显著提升了唇...
字节跳动推出的 LatentSync 是一项先进的端到端唇同步技术,利用音频条件的潜在扩散模型,实现了视频中人物唇部动作与音频的精确匹配。该技术通过引入 TREPA 技术,增强了时间一致性,同时优化了 SyncNet 的收敛性,显著提升了唇...
谷歌在最近的 I/O 柏林大会上宣布开源最新语言模型 Gemma2,该模型性能超越 Llama3,同时具有高效推理和广泛的硬件支持。Gemma2 的开放许可和兼容性使其成为开发人员和研究人员的理想选择。谷歌还推出了负责任的 AI 工具包和计...
OpenAI 近期宣布,他们基于 GPT-4 的模型,训练了一个名为 CriticGPT 的模型。这个模型可以用来检查 ChatGPT 输出的内容是否存在错误,CriticGPT 可以撰写评论,来强调 ChatGPT 生成答案中有错误的地方...
腾讯宣布旗下大模型应用「腾讯元宝」AI 搜索能力升级,上线深度搜索模式。更新到最新版本后,腾讯元宝将在 AI 搜索深度模式下对问题进行扩展,从深度和广度两方面,提供更结构化、更丰富的回答,并可同步生成内容大纲、思维导图及相关人物事件梳理,帮...
百度在 2024 年 WAVE SUMMIT 深度学习开发者大会上发布了文心大模型 4.0Turbo 版本,速度和效果显著提升。新版本已在官网上线,回复速度快,内容质量高。在多个应用场景表现出色,包括信息获取、问答效果测试、专业知识问答、文...
Google CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线。据介绍,这是 AI 模型的巨大飞跃,最终将影响几乎所有的 Google 产品。Gemini 大模型包括三种量级:能力最强的 Gemin...
阿里近日推出了名为「Animate Anyone」的视频生成技术,只需一张角色图片,即可生成与角色一致且动作可控的生动视频。同时,能够确保视频中的角色保持和原图一样的外观和特征,不管是真人还是动漫角色都可以。试用地址
阿里近日推出了名为「Animate Anyone」的视频生成技术,只需一张角色图片,即可生成与角色一致且动作可控的生动视频。同时,能够确保视频中的角色保持和原图一样的外观和特征,不管是真人还是动漫角色都可以。试用地址
微软宣布 Copilot 将集成 OpenAI 最新工具,特别是强化版的 GPT-4Turbo。GPT-4Turbo 具有更大的上下文窗口和更新的知识截止日期,提供更深入的见解。微软表示,整合后将使 Copilot 用户处理更复杂、更长的任...
MagicAnimate 是新加坡国立大学和字节跳动联合推出的「人体图像动画生成器」,能够把指定的人物图片按照既定动作序列生成视频。只需要选择指定的图片和动作,就可以产出对应的动效短片。地址
krea AI 近日宣布推出实时增强功能,支持将实时绘制的图像二次放大,放大后的图像会增加细节和分辨率。据了解,Krea AI 是一款集成了文生图、AI pattern、Logo Illustration 以及 AI 模型训练等功能的 AI...