AI导航
AI开源项目
Animate Anyone
Animate Anyone是什么?Animate Anyone 是由阿里巴巴智能计算研究院推出的一款开源框架,专门用于将静态图像中的角色或人物进行动态化。它在GitHub上获得了近...
CogVideoX-Fun
CogVideoX-Fun 是什么:CogVideoX-Fun 是一个基于 CogVideoX 结合 EasyAnimate 修改的 AI 视频生成工具,它提供更自由的生成条件,支持从文字、图片到视频的...
StoryMaker
StoryMaker 是什么: StoryMaker 是一个文本到图像生成工具,旨在生成具有整体一致性的角色图像,包括面部、服装、发型和身体特征。它通过结合面部身份信息和...
Outfit Anyone
Outfit Anyone是什么?Outfit Anyone 是由阿里巴巴智能计算研究院推出的高质量服装虚拟试穿的开源项目。它利用先进的AI技术,允许用户或模特在无需实际试穿衣...
PhotoMaker V2
PhotoMaker V2是什么?PhotoMaker V2 是腾讯推出的新一代 AI 图像生成框架,它在前代基础上进行了显著的改进和优化,专注于快速生成逼真的人物照片。V2 版本...
FaceChain
FaceChain是什么?FaceChain是由阿里巴巴达摩院推出的一个开源AI框架,专注于人物写真和个人数字形象的生成。它允许用户通过提供一张照片生成个性化的数字形...
书生·物华2.0(3DTopia 2.0)
书生·物华2.0(3DTopia-XL)是一款由上海人工智能实验室与南洋理工大学等机构联合开发的三维物体生成模型。它采用创新的原语(primitive-based)三维表示方法...
I2VGen-XL:阿里推出的图生视频模型
I2VGen-XL是什么?I2VGen-XL是阿里巴巴达摩院推出的一款开源的图像到视频的生成模型。它通过创新的级联扩散方法,将文本视频数据与视频结构解耦,同时利用静...
MagicVideo-V2
MagicVideo-V2是什么?MagicVideo-V2是由字节跳动公司团队开发的一款AI视频生成模型和框架,通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧...
Motionshop
Motionshop是什么?Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架,能够将视频中的人物角色替换为3D化身,同时不改变视频中的其他场景和人物...
AnyText
AnyText是什么?AnyText是阿里巴巴智能计算研究院推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。它通过辅助潜在...
cogvlm2-llama3-caption
CogVLM2-LLaMA3-Caption是什么CogVLM2-LLaMA3-Caption 是一个基于CogVLM2架构的视频描述生成模型,用于理解视频内容并自动生成描述视频内容的文本标题或字幕...
DDColor
DDColor是什么?DDColor是阿里达摩院研究人员推出的开源AI图像着色框架,专门用于将黑白图片一键上色变为全彩图像。它采用双解码器架构实现灰度图像的自动着...
Real-ESRGAN
Real-ESRGAN是什么?Real-ESRGAN是由腾讯ARC实验室开发的开源深度学习模型,专注于将低分辨率图像通过“盲超分辨率”技术提升至高分辨率图像的质量。它不依赖真...
Gummy
Gummy是什么:Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型,能够实时流式生成语音识别与翻译结果,支持十余种语言的语音输入,并将其翻...
Ovis1.6
Ovis1.6是什么:Ovis1.6是阿里国际AI团队推出的多模态大模型,它在多模态权威综合评测基准OpenCompass上取得了优异的成绩,尤其在30亿参数以下的模型中综合得...
DemoFusion
DemoFusion是什么:DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架。主要特点:低成本:无需昂贵的硬件投资。高分辨率:支持生成高分辨率图像。...
ActAnywhere
ActAnywhere是什么?ActAnywhere是由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型,主要用于自动化地生成与前景主体运动相协调的视频背景,...
RapidPages
RapidPages是什么:RapidPages是一个开源的集成开发环境(IDE),专注于利用人工智能技术快速生成React和Tailwind CSS的UI组件。它通过自然语言处理支持用户...
Draw an Audio
Draw an Audio是什么:Draw an Audio是由中国科学院自动化研究所和美团点评的研究人员共同开发的一个视频生成音频系统。该系统能够根据视频内容自动生成匹配...
Vary-toy
Vary-toy是什么?Vary-toy是由MEGVII Technology、University of Chinese Academy of Sciences和Huazhong University of Science and Technology的研究人员共...
Void
Void是什么:Void是一个基于VS Code的文本编辑器,它集成了人工智能功能,以增强用户的编程和编辑体验。它允许用户利用AI来提高生产力,包括自动补全、内联编...
FineVideo
FineVideo是什么:FineVideo是由Hugging Face推出的大型多模态视频数据集,它专注于视频理解领域中的复杂任务,如情绪分析、故事叙述和媒体编辑。该数据集包...
abab-music-1
abab-music-1是什么:abab-music-1是由MiniMax推出的一款端到端AI音乐生成大模型,它支持多功能端到端音乐生成,能合成多种音乐形式,包括纯音乐和清唱作品,...
Lepton Search
Lepton Search是什么?Lepton Search是由Lepton AI提供的一个对话式AI搜索引擎,由前阿里巴巴技术副总裁贾扬清领导的团队开发。这个平台允许用户构建和运行自...
Follow Your Pose
Follow Your Pose是什么?Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员共同开发的文本到视频生成框架。该框架允许用户通过...
IP-Adapter
IP-Adapter是什么?IP-Adapter(Image Prompt Adapter)是由腾讯AI实验室研究人员提出的一种适配器,它专为预训练的文本到图像扩散模型设计,如Stable Diffus...
OLMo
AI2 OLMo是什么?AI2 OLMo(Open Language Model)是由Allen AI研究所开发的一款高性能、真正开放的语言模型和框架。它旨在提供数据、训练代码、模型和评估代...
DiffusionGPT
DiffusionGPT是什么?DiffusionGPT是一个由字节跳动和中山大学的研究人员共同开发的开源大模型(LLM)驱动的文本到图像生成系统。它旨在解决文本到图像领域中...
MetaGPT
MetaGPT是什么?MetaGPT是一个由DeepWisdom团队开发的多智能体协作框架,用于通过模拟人类工作流程来解决复杂的编程任务。它结合了标准化操作程序(SOPs)和...
12