模型与多模态 | AI 原生全景图

通用模型、权重发布与模型家族。

Keras

Keras 是一个高级深度学习 API，运行在 TensorFlow 之上，提供直观的界面用于构建和训练神经网络模型，支持快速实验。

-- 评分加载中

PaddlePaddle

百度开发的开源深度学习平台，为机器学习和深度学习研究与生产提供全面的生态系统。

-- 评分加载中

模型转换、量化、压缩与部署辅助。

Detectron2

Facebook AI Research 的下一代目标检测与分割库，提供高性能的检测/分割算法与丰富的基准模型。

-- 评分加载中

Hugging Face Transformers

面向文本、视觉、音频和多模态任务的模型定义框架，提供推理和训练能力，是现代 AI/ML 开发的事实标准库。

-- 评分加载中

文本、图像、音频、视频跨模态处理。

Chandra

Chandra 是一个高精度 OCR 模型，能将图片与 PDF 转为带布局信息的结构化输出。

-- 评分加载中

ElevenLabs UI

ElevenLabs UI 是基于 shadcn/ui 构建的组件库与注册表，帮助更快构建多模态智能体界面组件。

-- 评分加载中

LeRobot

面向真实世界机器学习与机器人学的开源库，提供数据集、预训练策略与仿真环境，方便复现实验与工程化部署。

-- 评分加载中

LightX2V

LightX2V 提供轻量化的图像到向量转换模型，便于在低资源环境中进行视觉特征提取与向量检索。

-- 评分加载中

olmOCR

用于将 PDF 与图像化文档线性化为可读纯文本和 Markdown 的工具包，面向 LLM 数据集构建与大规模文档处理。

-- 评分加载中

PaddleOCR

PaddleOCR 是一个轻量且高性能的 OCR 工具包，支持 100+ 语言并可将图片或 PDF 转为结构化数据。

-- 评分加载中

vLLM-Omni

一个为文本、图像、视频与音频等多模态模型提供高性能、低成本推理与服务的框架。

-- 评分加载中

语音识别、语音合成和音频理解。

AutoSubs

在本地或与 DaVinci Resolve 集成，快速生成可编辑且精确的字幕。

-- 评分加载中

CosyVoice

多语种、高质量的流式 TTS / 语音生成工具包，支持零样本克隆与低延迟生成。

-- 评分加载中

Fish Speech

业界领先的开源文本转语音系统，具备声音克隆能力，支持多语言自然语音合成。

-- 评分加载中

GenMedia Creative Studio

GenMedia Creative Studio 是一个基于 Vertex AI 的生成媒体演示应用，展示图像、视频、音频与文本到语音等多模态能力。

-- 评分加载中

GPT-SoVITS

GPT-SoVITS 是一个开源少样本语音转换与 TTS WebUI，支持跨语言推理与工程化部署。

-- 评分加载中

Handy

一款开源、本地化且可扩展的跨平台语音转文本桌面应用，注重隐私并支持 Whisper 与 Parakeet 等离线模型。

-- 评分加载中

MockingBird

一个开源的语音克隆与实时语音生成工具，主打在数秒内克隆声音并支持边训练边在线合成。

-- 评分加载中

noScribe

面向质性研究和记者的本地化音频转录与编辑工具，基于 Whisper 与 Pyannote 提供说话人分离与可视化编辑功能。

-- 评分加载中

OpenAI Whisper

基于大规模弱监督训练的鲁棒语音识别系统，支持 100+ 语言的转录和翻译，达到业界领先的准确率。

-- 评分加载中

TEN Framework

面向实时多模态对话与语音代理的开源框架与生态，提供示例、工具与运行时支持。

-- 评分加载中

Vibe

一款支持完全离线运行的跨平台音视频转录工具，强调隐私保护与批量处理能力。

-- 评分加载中

VibeVoice

用于生成长对话式文本到语音的研究型框架，擅长多说话人长时段合成。仓库目前因安全与滥用风险被项目方暂时禁用，使用时请注意合规与伦理要求。

-- 评分加载中

Voicebox

开源 AI 语音工作室，支持声音克隆、听写和音频创作，提供现代化 Web 界面。

-- 评分加载中

Vosk API

Vosk API 提供离线语音识别能力，支持 Android、iOS、Raspberry Pi 及服务器端的多语言 ASR。

-- 评分加载中

whisper.cpp

whisper.cpp 是 Whisper 的高性能本地实现，支持边缘设备与桌面平台上的语音识别部署。

-- 评分加载中

视觉生成模型与图像视频创作工具。

ComfyUI

基于节点的可视化 Stable Diffusion 工作流构建器，便于用图形化方式组装与调试图像生成流水线。

-- 评分加载中

Deep-Live-Cam

Deep-Live-Cam 是一个开源的实时面部替换与虚拟形象（avatar）工具，支持离线运行并面向内容创作者与流媒体使用场景。

-- 评分加载中

huggingface diffusers

Diffusers：Hugging Face 提供的模块化扩展库，包含用于图像、音频及 3D 生成的预训练扩散模型与流水线。

-- 评分加载中

Hyperframes

HeyGen 出品的 HTML 转视频工具，专为 AI Agent 设计，通过代码即可程序化生成视频。

-- 评分加载中

Open Generative AI

AI 视频平台的开源替代方案，内置 200+ 模型，支持 Flux、Midjourney 风格生成和视频创作工作室。

-- 评分加载中

OpenMontage

首个开源的智能体视频生产系统，将 AI 编程助手变成完整的视频工作室，自动完成调研、脚本、素材生成、剪辑与最终合成。

-- 评分加载中