AG AgentScope
以更简单的方式构建由大语言模型赋能的多智能体应用程序。
基础模型、模型工具链与多模态能力。
通用模型、权重发布与模型家族。
AG 以更简单的方式构建由大语言模型赋能的多智能体应用程序。
AG 智能体智能的全栈平台,支持多模态和多智能体系统,集成超过 23 个模型提供者和 20 多个向量存储,具有推理优先设计。
CH AI 对话客户端,支持多种服务提供商集成。注重隐私和安全,所有数据都存储在本地。
DA Data Prep Kit 用于为 LLM 应用加速非结构化数据的清洗、转换与增强。
EI Eino 是一个以 Go 为核心的 LLM 应用开发框架,强调可组合性、流处理和工程化能力。
FR 一个社区维护的清单,汇集可通过 API 访问的免费或试用 LLM 服务与提供者。
GE 生成式 AI 智能体技术的全面教程和实现集合,包含 45+ 个从基础到高级的智能体实现,是构建智能交互式 AI 系统的完整指南。
GU GuideLLM 提供用于引导、解释和控制大语言模型(LLM)的工具与范式,便于在交互式应用中实现更好的可控性。
K8 为 Kubernetes 提供诊断与分析能力的 AI 工具,使用 LLM 对集群进行问题定位与解释。
KE Keras 是一个高级深度学习 API,运行在 TensorFlow 之上,提供直观的界面用于构建和训练神经网络模型,支持快速实验。
LA 一个基于 LLM 的文档结构化抽取库,擅长从非结构化文本中提取并可视化结构化信息。
LA Langfuse 是一个开源的 LLM 工程平台,支持团队协作开发、监控、评估和调试 AI 应用,具备强大的可观测性和集成能力。
LL 用于微调 LLaMA 模型的综合框架,支持多种训练方法、高效算法和易于使用的界面,适用于研究和生产环境。
LO 完全本地化的网络研究与报告写作助手,支持通过本地 LLM(如 Ollama/LMStudio)进行迭代式检索与摘要。
MI 基于 LLM 的 Minecraft 多主体与代理框架,用于在 Minecraft 世界中构建可交互的智能机器人与任务系统。
ML 在 Apple Silicon 上运行与微调 LLM 的 Python 工具包,支持模型量化、分布式推理与 Hugging Face 集成。
OL 本地大语言模型运行工具,让用户能够在本地环境中轻松运行和管理各种开源 LLM 模型。
PA 百度开发的开源深度学习平台,为机器学习和深度学习研究与生产提供全面的生态系统。
PY 由 Pydantic 和 FastAPI 团队打造的结构化生产级 AI 系统框架,支持多智能体设置,具有严格的数据验证和实时输出功能。
文本、图像、音频、视频跨模态处理。
CH Chandra 是一个高精度 OCR 模型,能将图片与 PDF 转为带布局信息的结构化输出。
EL ElevenLabs UI 是基于 shadcn/ui 构建的组件库与注册表,帮助更快构建多模态智能体界面组件。
LE 面向真实世界机器学习与机器人学的开源库,提供数据集、预训练策略与仿真环境,方便复现实验与工程化部署。
LI LightX2V 提供轻量化的图像到向量转换模型,便于在低资源环境中进行视觉特征提取与向量检索。
MI 一个使用视觉语言模型驱动的跨平台 UI 自动化框架,用截图为主的纯视觉定位与操作来编写自动化脚本。
NE NVIDIA 的 NeMo 框架,覆盖语音、语音合成、多模态和大语言模型训练与微调。
NE 一个基于 Next.js 的开源 Web 应用,将 AI 能力与 draw.io 图表编辑结合以支持自然语言驱动的图形创建与增强。
OL 用于将 PDF 与图像化文档线性化为可读纯文本和 Markdown 的工具包,面向 LLM 数据集构建与大规模文档处理。
OP 一个开源且注重隐私的笔记与研究管理平台,支持多模型接入与多模态内容管理。
PA PaddleOCR 是一个轻量且高性能的 OCR 工具包,支持 100+ 语言并可将图片或 PDF 转为结构化数据。
一个面向多模态 AI 工作负载的声明式数据基础设施,简化数据存储、索引与推理流程。
VL 一个为文本、图像、视频与音频等多模态模型提供高性能、低成本推理与服务的框架。
语音识别、语音合成和音频理解。
AU 在本地或与 DaVinci Resolve 集成,快速生成可编辑且精确的字幕。
CO 多语种、高质量的流式 TTS / 语音生成工具包,支持零样本克隆与低延迟生成。
GE GenMedia Creative Studio 是一个基于 Vertex AI 的生成媒体演示应用,展示图像、视频、音频与文本到语音等多模态能力。
GP GPT-SoVITS 是一个开源少样本语音转换与 TTS WebUI,支持跨语言推理与工程化部署。
HA 一款开源、本地化且可扩展的跨平台语音转文本桌面应用,注重隐私并支持 Whisper 与 Parakeet 等离线模型。
LI 用于构建实时、多模态语音 agent 的框架,集成 WebRTC 和可扩展插件生态。
MO 一个开源的语音克隆与实时语音生成工具,主打在数秒内克隆声音并支持边训练边在线合成。
NO 面向质性研究和记者的本地化音频转录与编辑工具,基于 Whisper 与 Pyannote 提供说话人分离与可视化编辑功能。
PI 面向实时语音与多模态 agent 的开源框架,支持低延迟语音交互与多平台 SDK。
PY pyvideotrans 可将视频从一种语言翻译并合成配音,支持端到端的音视频处理流程。
TE 面向实时多模态对话与语音代理的开源框架与生态,提供示例、工具与运行时支持。
VI 一款支持完全离线运行的跨平台音视频转录工具,强调隐私保护与批量处理能力。
VI 用于生成长对话式文本到语音的研究型框架,擅长多说话人长时段合成。仓库目前因安全与滥用风险被项目方暂时禁用,使用时请注意合规与伦理要求。
VO Vosk API 提供离线语音识别能力,支持 Android、iOS、Raspberry Pi 及服务器端的多语言 ASR。
WH whisper.cpp 是 Whisper 的高性能本地实现,支持边缘设备与桌面平台上的语音识别部署。
视觉生成模型与图像视频创作工具。
CO 基于节点的可视化 Stable Diffusion 工作流构建器,便于用图形化方式组装与调试图像生成流水线。
DE Deep-Live-Cam 是一个开源的实时面部替换与虚拟形象(avatar)工具,支持离线运行并面向内容创作者与流媒体使用场景。
HU Diffusers:Hugging Face 提供的模块化扩展库,包含用于图像、音频及 3D 生成的预训练扩散模型与流水线。
没有项目匹配当前筛选条件。