AI开源项目

Animate Anyone

Animate Anyone是什么？Animate Anyone 是由阿里巴巴智能计算研究院推出的一款开源框架，专门用于将静态图像中的角色或人物进行动态化。它在GitHub上获得了近...

10个月前

CogVideoX-Fun

CogVideoX-Fun 是什么：CogVideoX-Fun 是一个基于 CogVideoX 结合 EasyAnimate 修改的 AI 视频生成工具，它提供更自由的生成条件，支持从文字、图片到视频的...

10个月前

StoryMaker

StoryMaker 是什么： StoryMaker 是一个文本到图像生成工具，旨在生成具有整体一致性的角色图像，包括面部、服装、发型和身体特征。它通过结合面部身份信息和...

10个月前

Outfit Anyone

Outfit Anyone是什么？Outfit Anyone 是由阿里巴巴智能计算研究院推出的高质量服装虚拟试穿的开源项目。它利用先进的AI技术，允许用户或模特在无需实际试穿衣...

10个月前

PhotoMaker V2

PhotoMaker V2是什么？PhotoMaker V2 是腾讯推出的新一代 AI 图像生成框架，它在前代基础上进行了显著的改进和优化，专注于快速生成逼真的人物照片。V2 版本...

10个月前

FaceChain

FaceChain是什么？FaceChain是由阿里巴巴达摩院推出的一个开源AI框架，专注于人物写真和个人数字形象的生成。它允许用户通过提供一张照片生成个性化的数字形...

10个月前

书生·物华2.0（3DTopia 2.0）

书生·物华2.0（3DTopia-XL）是一款由上海人工智能实验室与南洋理工大学等机构联合开发的三维物体生成模型。它采用创新的原语（primitive-based）三维表示方法...

10个月前

I2VGen-XL：阿里推出的图生视频模型

I2VGen-XL是什么？I2VGen-XL是阿里巴巴达摩院推出的一款开源的图像到视频的生成模型。它通过创新的级联扩散方法，将文本视频数据与视频结构解耦，同时利用静...

10个月前

MagicVideo-V2

MagicVideo-V2是什么？MagicVideo-V2是由字节跳动公司团队开发的一款AI视频生成模型和框架，通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧...

10个月前

Motionshop

Motionshop是什么？Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架，能够将视频中的人物角色替换为3D化身，同时不改变视频中的其他场景和人物...

10个月前

AnyText

AnyText是什么？AnyText是阿里巴巴智能计算研究院推出的一个基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确和连贯的文本。它通过辅助潜在...

10个月前

cogvlm2-llama3-caption

CogVLM2-LLaMA3-Caption是什么CogVLM2-LLaMA3-Caption 是一个基于CogVLM2架构的视频描述生成模型，用于理解视频内容并自动生成描述视频内容的文本标题或字幕...

10个月前

DDColor

DDColor是什么？DDColor是阿里达摩院研究人员推出的开源AI图像着色框架，专门用于将黑白图片一键上色变为全彩图像。它采用双解码器架构实现灰度图像的自动着...

10个月前

Real-ESRGAN

Real-ESRGAN是什么？Real-ESRGAN是由腾讯ARC实验室开发的开源深度学习模型，专注于将低分辨率图像通过“盲超分辨率”技术提升至高分辨率图像的质量。它不依赖真...

10个月前

Gummy

Gummy是什么：Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型，能够实时流式生成语音识别与翻译结果，支持十余种语言的语音输入，并将其翻...

10个月前

Ovis1.6

Ovis1.6是什么：Ovis1.6是阿里国际AI团队推出的多模态大模型，它在多模态权威综合评测基准OpenCompass上取得了优异的成绩，尤其在30亿参数以下的模型中综合得...

10个月前

DemoFusion

DemoFusion是什么：DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架。主要特点：低成本：无需昂贵的硬件投资。高分辨率：支持生成高分辨率图像。...

10个月前

ActAnywhere

ActAnywhere是什么？ActAnywhere是由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型，主要用于自动化地生成与前景主体运动相协调的视频背景，...

10个月前

RapidPages

RapidPages是什么：RapidPages是一个开源的集成开发环境（IDE），专注于利用人工智能技术快速生成React和Tailwind CSS的UI组件。它通过自然语言处理支持用户...

10个月前

Draw an Audio

Draw an Audio是什么：Draw an Audio是由中国科学院自动化研究所和美团点评的研究人员共同开发的一个视频生成音频系统。该系统能够根据视频内容自动生成匹配...

10个月前

Vary-toy

Vary-toy是什么？Vary-toy是由MEGVII Technology、University of Chinese Academy of Sciences和Huazhong University of Science and Technology的研究人员共...

10个月前

Void

Void是什么：Void是一个基于VS Code的文本编辑器，它集成了人工智能功能，以增强用户的编程和编辑体验。它允许用户利用AI来提高生产力，包括自动补全、内联编...

10个月前

FineVideo

FineVideo是什么：FineVideo是由Hugging Face推出的大型多模态视频数据集，它专注于视频理解领域中的复杂任务，如情绪分析、故事叙述和媒体编辑。该数据集包...

10个月前

abab-music-1

abab-music-1是什么：abab-music-1是由MiniMax推出的一款端到端AI音乐生成大模型，它支持多功能端到端音乐生成，能合成多种音乐形式，包括纯音乐和清唱作品，...

10个月前

Lepton Search

Lepton Search是什么？Lepton Search是由Lepton AI提供的一个对话式AI搜索引擎，由前阿里巴巴技术副总裁贾扬清领导的团队开发。这个平台允许用户构建和运行自...

10个月前

Follow Your Pose

Follow Your Pose是什么？Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员共同开发的文本到视频生成框架。该框架允许用户通过...

10个月前

IP-Adapter

IP-Adapter是什么？IP-Adapter（Image Prompt Adapter）是由腾讯AI实验室研究人员提出的一种适配器，它专为预训练的文本到图像扩散模型设计，如Stable Diffus...

10个月前

OLMo

AI2 OLMo是什么？AI2 OLMo（Open Language Model）是由Allen AI研究所开发的一款高性能、真正开放的语言模型和框架。它旨在提供数据、训练代码、模型和评估代...

10个月前

DiffusionGPT

DiffusionGPT是什么？DiffusionGPT是一个由字节跳动和中山大学的研究人员共同开发的开源大模型（LLM）驱动的文本到图像生成系统。它旨在解决文本到图像领域中...

10个月前

MetaGPT

MetaGPT是什么？MetaGPT是一个由DeepWisdom团队开发的多智能体协作框架，用于通过模拟人类工作流程来解决复杂的编程任务。它结合了标准化操作程序（SOPs）和...

10个月前

AI导航

AI开源项目

Animate Anyone

CogVideoX-Fun

StoryMaker

Outfit Anyone

PhotoMaker V2

FaceChain

书生·物华2.0（3DTopia 2.0）

I2VGen-XL：阿里推出的图生视频模型

MagicVideo-V2

Motionshop

AnyText

cogvlm2-llama3-caption

DDColor

Real-ESRGAN

Gummy

Ovis1.6

DemoFusion

ActAnywhere

RapidPages

Draw an Audio

Vary-toy

Void

FineVideo

abab-music-1

Lepton Search

Follow Your Pose

IP-Adapter

OLMo

DiffusionGPT

MetaGPT

最新文章

免责声明：本站上所有网站资料、信息、资源、广告等均取之于互联网，仅供参考。其真实性、准确性，合法性，均与本站无关，本站不承担任何相关法律责任。