模型与多模态

基础模型、模型工具链与多模态能力。

49 项目 4 子类 25 标签

已跟踪

这是旧分类兼容页，结果已按新分类体系聚合。

通用模型、权重发布与模型家族。

AgentScope

以更简单的方式构建由大语言模型赋能的多智能体应用程序。

-- 评分加载中

Agno

智能体智能的全栈平台，支持多模态和多智能体系统，集成超过 23 个模型提供者和 20 多个向量存储，具有推理优先设计。

-- 评分加载中

Cherry Studio

AI 对话客户端，支持多种服务提供商集成。注重隐私和安全，所有数据都存储在本地。

-- 评分加载中

Data Prep Kit

Data Prep Kit 用于为 LLM 应用加速非结构化数据的清洗、转换与增强。

-- 评分加载中

Eino

Eino 是一个以 Go 为核心的 LLM 应用开发框架，强调可组合性、流处理和工程化能力。

-- 评分加载中

Free LLM API resources

一个社区维护的清单，汇集可通过 API 访问的免费或试用 LLM 服务与提供者。

-- 评分加载中

GenAI Agents

生成式 AI 智能体技术的全面教程和实现集合，包含 45+ 个从基础到高级的智能体实现，是构建智能交互式 AI 系统的完整指南。

-- 评分加载中

GuideLLM

GuideLLM 提供用于引导、解释和控制大语言模型（LLM）的工具与范式，便于在交互式应用中实现更好的可控性。

-- 评分加载中

k8sgpt

为 Kubernetes 提供诊断与分析能力的 AI 工具，使用 LLM 对集群进行问题定位与解释。

-- 评分加载中

Keras

Keras 是一个高级深度学习 API，运行在 TensorFlow 之上，提供直观的界面用于构建和训练神经网络模型，支持快速实验。

-- 评分加载中

LangExtract

一个基于 LLM 的文档结构化抽取库，擅长从非结构化文本中提取并可视化结构化信息。

-- 评分加载中

Langfuse

Langfuse 是一个开源的 LLM 工程平台，支持团队协作开发、监控、评估和调试 AI 应用，具备强大的可观测性和集成能力。

-- 评分加载中

LLaMA Factory

用于微调 LLaMA 模型的综合框架，支持多种训练方法、高效算法和易于使用的界面，适用于研究和生产环境。

-- 评分加载中

Local Deep Researcher

完全本地化的网络研究与报告写作助手，支持通过本地 LLM（如 Ollama/LMStudio）进行迭代式检索与摘要。

-- 评分加载中

Mindcraft

基于 LLM 的 Minecraft 多主体与代理框架，用于在 Minecraft 世界中构建可交互的智能机器人与任务系统。

-- 评分加载中

MLX LM

在 Apple Silicon 上运行与微调 LLM 的 Python 工具包，支持模型量化、分布式推理与 Hugging Face 集成。

-- 评分加载中

Ollama

本地大语言模型运行工具，让用户能够在本地环境中轻松运行和管理各种开源 LLM 模型。

-- 评分加载中

PaddlePaddle

百度开发的开源深度学习平台，为机器学习和深度学习研究与生产提供全面的生态系统。

-- 评分加载中

Pydantic AI

由 Pydantic 和 FastAPI 团队打造的结构化生产级 AI 系统框架，支持多智能体设置，具有严格的数据验证和实时输出功能。

-- 评分加载中

文本、图像、音频、视频跨模态处理。

Chandra

Chandra 是一个高精度 OCR 模型，能将图片与 PDF 转为带布局信息的结构化输出。

-- 评分加载中

ElevenLabs UI

ElevenLabs UI 是基于 shadcn/ui 构建的组件库与注册表，帮助更快构建多模态智能体界面组件。

-- 评分加载中

LeRobot

面向真实世界机器学习与机器人学的开源库，提供数据集、预训练策略与仿真环境，方便复现实验与工程化部署。

-- 评分加载中

LightX2V

LightX2V 提供轻量化的图像到向量转换模型，便于在低资源环境中进行视觉特征提取与向量检索。

-- 评分加载中

Midscene.js

一个使用视觉语言模型驱动的跨平台 UI 自动化框架，用截图为主的纯视觉定位与操作来编写自动化脚本。

-- 评分加载中

NeMo

NVIDIA 的 NeMo 框架，覆盖语音、语音合成、多模态和大语言模型训练与微调。

-- 评分加载中

Next AI Draw.io

一个基于 Next.js 的开源 Web 应用，将 AI 能力与 draw.io 图表编辑结合以支持自然语言驱动的图形创建与增强。

-- 评分加载中

olmOCR

用于将 PDF 与图像化文档线性化为可读纯文本和 Markdown 的工具包，面向 LLM 数据集构建与大规模文档处理。

-- 评分加载中

Open Notebook

一个开源且注重隐私的笔记与研究管理平台，支持多模型接入与多模态内容管理。

-- 评分加载中

PaddleOCR

PaddleOCR 是一个轻量且高性能的 OCR 工具包，支持 100+ 语言并可将图片或 PDF 转为结构化数据。

-- 评分加载中

Pixeltable

一个面向多模态 AI 工作负载的声明式数据基础设施，简化数据存储、索引与推理流程。

-- 评分加载中

vLLM-Omni

一个为文本、图像、视频与音频等多模态模型提供高性能、低成本推理与服务的框架。

-- 评分加载中

语音识别、语音合成和音频理解。

AutoSubs

在本地或与 DaVinci Resolve 集成，快速生成可编辑且精确的字幕。

-- 评分加载中

CosyVoice

多语种、高质量的流式 TTS / 语音生成工具包，支持零样本克隆与低延迟生成。

-- 评分加载中

GenMedia Creative Studio

GenMedia Creative Studio 是一个基于 Vertex AI 的生成媒体演示应用，展示图像、视频、音频与文本到语音等多模态能力。

-- 评分加载中

GPT-SoVITS

GPT-SoVITS 是一个开源少样本语音转换与 TTS WebUI，支持跨语言推理与工程化部署。

-- 评分加载中

Handy

一款开源、本地化且可扩展的跨平台语音转文本桌面应用，注重隐私并支持 Whisper 与 Parakeet 等离线模型。

-- 评分加载中

LiveKit Agents

用于构建实时、多模态语音 agent 的框架，集成 WebRTC 和可扩展插件生态。

-- 评分加载中

MockingBird

一个开源的语音克隆与实时语音生成工具，主打在数秒内克隆声音并支持边训练边在线合成。

-- 评分加载中

noScribe

面向质性研究和记者的本地化音频转录与编辑工具，基于 Whisper 与 Pyannote 提供说话人分离与可视化编辑功能。

-- 评分加载中

Pipecat

面向实时语音与多模态 agent 的开源框架，支持低延迟语音交互与多平台 SDK。

-- 评分加载中

pyvideotrans

pyvideotrans 可将视频从一种语言翻译并合成配音，支持端到端的音视频处理流程。

-- 评分加载中

TEN Framework

面向实时多模态对话与语音代理的开源框架与生态，提供示例、工具与运行时支持。

-- 评分加载中

Vibe

一款支持完全离线运行的跨平台音视频转录工具，强调隐私保护与批量处理能力。

-- 评分加载中

VibeVoice

用于生成长对话式文本到语音的研究型框架，擅长多说话人长时段合成。仓库目前因安全与滥用风险被项目方暂时禁用，使用时请注意合规与伦理要求。

-- 评分加载中

Vosk API

Vosk API 提供离线语音识别能力，支持 Android、iOS、Raspberry Pi 及服务器端的多语言 ASR。

-- 评分加载中

whisper.cpp

whisper.cpp 是 Whisper 的高性能本地实现，支持边缘设备与桌面平台上的语音识别部署。

-- 评分加载中

视觉生成模型与图像视频创作工具。

ComfyUI

基于节点的可视化 Stable Diffusion 工作流构建器，便于用图形化方式组装与调试图像生成流水线。

-- 评分加载中

Deep-Live-Cam

Deep-Live-Cam 是一个开源的实时面部替换与虚拟形象（avatar）工具，支持离线运行并面向内容创作者与流媒体使用场景。

-- 评分加载中

huggingface diffusers

Diffusers：Hugging Face 提供的模块化扩展库，包含用于图像、音频及 3D 生成的预训练扩散模型与流水线。

-- 评分加载中