AI开源项目

SafeEar

SafeEar是什么:SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检测框架,旨在保护用户隐私的同时检测音频伪造。它采用基于神经音频编解码器的解耦模型...

美图奇想大模型

美图奇想大模型是什么:美图奇想大模型(MiracleVision)是由美图公司推出的一款专注于美学创作的AI视觉大模型。它涵盖了东方美学、人像和商业设计等多个领域...

MIMO

MIMO是什么:MIMO是由阿里巴巴集团智能计算研究所推出的一款可控角色视频合成的AI框架。它利用空间分解建模技术,能够将2D视频转换为3D空间代码,实现对角色...

Make-A-Character

Make-A-Character(Mach)是什么:Make-A-Character(简称Mach)是由阿里巴巴集团智能计算研究院开发的人工智能3D数字人生成框架。它利用大型语言和视觉模型...

MotionCtrl

MotionCtrl是什么: MotionCtrl是由腾讯ARC Lab联合其他机构推出的一款统一且灵活的运动控制器,专为视频生成模型设计,能够在视频中独立控制相机运动和物体...

AnimateDiff

AnimateDiff是什么:AnimateDiff是一个由上海人工智能实验室、香港中文大学和斯坦福大学研究人员开发的框架,它能将现有的个性化文本到图像(T2I)模型转换成...

Llama 3.2

Llama 3.2是什么:Llama 3.2是Meta公司推出的新一代开源AI大模型系列,包括小型和中型视觉语言模型(11B和90B参数)以及轻量级纯文本模型(1B和3B参数)。这...

MMMLU

MMMLU是什么:MMMLU(Massive Multitask Multilanguage Language Understanding)是一个大规模的多语言、多任务语言理解数据集,由OpenAI推出。它旨在评估和...

PortraitGen

PortraitGen是什么:PortraitGen是由中国科学技术大学研究团队开发的一款AI人像视频编辑工具。它利用3D高斯溅射技术和神经高斯纹理机制,将2D人像视频转换为4...

GOT-OCR2.0

GOT-OCR 2.0是什么:GOT-OCR 2.0是由中国科学技术大学研究团队开发的一款先进的光学字符识别(OCR)模型,它代表了OCR技术向2.0时代的转变。该模型采用端到端...

V-JEPA

V-JEPA是什么: V-JEPA(Video Joint-Embedding Predictive Architecture)是由Meta的研究人员推出的一种新型的视频自监督学习方法。它专注于通过特征预测来...

onewebot2

oneWebot2是什么:oneWebot2是一款用户友好的微信AI机器人一键运行软件包。它允许用户通过下载一个可执行文件(exe)来启动机器人,无需进行复杂的Python环境...

SFR-RAG

SFR-RAG是什么:SFR-RAG是由Salesforce AI Research推出的一款专注于检索增强生成(RAG)的大型语言模型。它通过整合外部上下文信息来提升生成文本的事实准确...

Boximator

Boximator是什么:Boximator是由字节跳动研究团队开发的一种视频合成技术,专注于生成丰富且可控的运动,以增强视频合成的质量和可控性。通过引入硬框和软框...

DiT

DiT是什么:DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles和Saining Xie提出,结合了去噪扩散概率模型(DDPMs)和Transformer架构...

VideoPoet

VideoPoet是什么: VideoPoet是由谷歌研究团队开发的一款AI视频生成工具,它基于大型语言模型架构,能够从文本、图像或视频输入中合成高质量的视频内容,并生...

ConsiStory

ConsiStory是什么: ConsiStory是由NVIDIA和特拉维夫大学共同开发的一种创新的文本到图像生成技术。它能够在不需要额外训练的情况下,利用预训练的文本到图像...

ScreenAgent

ScreenAgent是什么:ScreenAgent是由吉林大学人工智能学院与知识驱动的人工智能教育部工程研究中心联合开发的一个基于视觉语言模型(VLM)的计算机控制智能体...

GPT-SoVITS

GPT-SoVITS是什么?GPT-SoVITS是一个结合了GPT(Generative Pre-trained Transformer)模型和SoVITS(Speech-to-Video Voice Transformation System)技术的...

OpenCodeInterpreter

OpenCodeInterpreter是什么?OpenCodeInterpreter是一个先进的开源代码解释器系统,它通过集成代码生成、执行和迭代精炼的功能,辅助软件开发过程中的代码生...

ChatMusician

ChatMusician 是什么:ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员共同开发的一款开源大型语言模型...

EMO

EMO(Emote Portrait Alive)是什么:EMO是一个由阿里巴巴集团智能计算研究院研发的音频驱动的AI肖像视频生成系统。该系统能够根据输入的单一参考图像和语音...

StarCoder 2

StarCoder 2 是什么:StarCoder 2 是由 BigCode 项目(得到 Hugging Face 和 ServiceNow 的支持)以及 Nvidia 团队共同开发的新一代大型代码语言模型。它利用...

Snap Video

Snap Video 是什么:Snap Video 是由 Snap Inc. 研究团队开发的一款先进的 AI 视频生成工具,它可以根据文本描述合成视频内容。这款工具专门针对视频的冗余性...

TextDiffuser-2

TextDiffuser2 是什么:TextDiffuser2 是一个基于文本的图像生成工具,它利用最新的深度学习技术,可以根据用户提供的文本描述生成相应的图像。这个工具采用...

UniEdit

UniEdit 是什么:UniEdit 是一个由浙江大学、微软研究院亚洲和北京大学的研究人员共同开发的统一的、无需调优的框架,用于视频运动和外观编辑。该框架允许用...

OmniGen

OmniGen是什么?OmniGen是一种新型的扩散模型,用于统一图像生成。它是第一个将多种图像生成任务整合到单一框架中的模型,简化了架构设计。OmniGen不仅能够进...
12