AX AXLearn
基于 JAX/XLA 的可扩展深度学习库,支持大规模模型的开发、训练与部署。
训练框架、微调对齐、实验评测、观测与质量治理流程。
分布式训练和训练生态组件。
AX 基于 JAX/XLA 的可扩展深度学习库,支持大规模模型的开发、训练与部署。
CL ClearML 是一个开源的 MLOps 平台,提供实验管理、数据管理、流水线与模型服务等能力。
CO 面向大规模并行训练与推理的系统,提供多种并行策略、内存管理与高性能推理组件,旨在让大模型训练与推理更高效、可复现。
DE 用于专家并行(expert-parallel)的高效通信库,提供针对大规模分布式训练的低开销通信原语。
DE 一个高性能的深度学习训练与推理优化库,可显著加速大规模模型的训练与推理并降低成本。
DL DLRover 是一个自动化的分布式深度学习系统,提供弹性调度、闪电检查点与自动伸缩,简化大规模模型在 Kubernetes/Ray 上的训练与运维。
EA EasyR1 是一个高效、可扩展的多模态强化学习训练框架,基于 veRL 设计并支持大模型与视觉 - 语言模型的训练与评估。
GY 面向单智能体强化学习环境的 API 标准,提供参考环境与相关工具(前身为 OpenAI Gym)。
JA 用于加速数值计算与可微变换的高性能 Python 库,适用于规模化机器学习与研究。
LI 高效的梯度提升树(GBDT)框架,支持分布式训练与 GPU 加速,广泛应用于排序、分类和大规模数据场景。
LI 高性能、面向工程的 LLM 工具链,提供从训练到部署的端到端配方与实用教程。
MA 高性能、可扩展的 JAX+Python LLM 库与参考实现,面向 Google Cloud TPU 与 GPU。
ME Megatron-LM 是 NVIDIA 提供的大规模语言模型训练参考实现,面向分布式训练与性能优化。
MO 面向医疗影像的 AI 工具包,专注深度学习在医学图像处理与分析中的应用。
NA 一个简洁且高效的仓库,用于训练与微调中等规模的 GPT 模型,适合教学与实验。
NE NVIDIA 的 NeMo 框架,覆盖语音、语音合成、多模态和大语言模型训练与微调。
NE NeMo RL 是一个面向大模型的可扩展后训练强化学习库,支持高性能分布式训练与多样化后端。
OP 用于创建、部署与使用隔离执行环境的端到端框架,面向 agentic 强化学习训练与环境开发。
PY 开源深度学习框架,支持动态图与高效 GPU 加速,适用于研究与生产部署。
PY PyTorch Lightning 是一个简化 PyTorch 训练流程的开源框架,帮助用户高效构建、训练和部署深度学习模型。
RL RLinf 是一个灵活可扩展的开源强化学习基础设施,专为具身智能和智能体 AI 设计,支持 PPO、GRPO、SAC 等多种 RL 训练流程,可无缝扩展至大规模 GPU 集群。
RO 用于大规模强化学习优化与训练流水线的框架,支持多后端与 Agentic 训练。
SK 一个面向大语言模型(LLM)的模块化全栈强化学习(RL)库,用于训练长时程、真实环境任务。
TE Google 开源的端到端机器学习平台,用于构建和训练深度学习模型。
TO 面向生成式模型预训练与分布式优化的 PyTorch 平台参考实现。
VE 用于大模型的强化学习训练框架,面向大规模 RLHF 与 agent 训练的可扩展项目。
XL xLLM 是一个面向视觉语言模型的开源框架,提供训练与推理工具及文档。
SFT、RLHF、偏好优化与对齐方法。
AR 一个面向大规模推理与智能体模型的全异步强化学习训练系统,强调可扩展性与工程复现能力。
AX 免费开源的 LLM 后训练与微调框架,支持多模型、多种微调方法与多卡/多节点优化。
HE Heretic 是一个完全自动化的工具,可以在不进行昂贵的后训练的情况下,从基于 transformer 的语言模型中移除审查 (即"安全对齐")。它结合了定向消融 (也称为"abliteration") 的高级实现和基于 Optuna 的 TPE 参数优化器,能够自动找到高质量的消融参数,同时最小化拒绝次数和与原始模型的 KL 散度,从而保留原始模型的智能水平。
LL 用于微调 LLaMA 模型的综合框架,支持多种训练方法、高效算法和易于使用的界面,适用于研究和生产环境。
LM LMFlow 是一个可扩展、便捷且高效的微调与推理工具箱,针对大规模基础模型的工程化训练与部署提供完整支持。
ML 基于 MLX 的本地化多模态推理与微调工具,支持图像、音频与视频的视觉语言模型在 Mac 与通用硬件上的高效运行与训练。
MS ModelScope 社区提供的 SWIFT 框架,面向大模型与多模态模型的轻量化微调、评估与部署,支持丰富训练方法、量化与推理加速。
OP 基于 Ray、vLLM 与 DeepSpeed 的高性能开源 RLHF 框架,提供分布式训练与多种 RL 算法支持。
PE 面向大语言模型的参数高效微调库,实现 LoRA、QLoRA 等方法,用极少 GPU 资源即可完成适配器训练。
TO PyTorch 原生的后训练(post-training)和微调工具集,提供可复用的训练 recipes、优化器和量化支持,适用于大模型微调与评估。
TR 开源跨平台的 LLM 与生成模型工具,提供一键下载模型、可视化、微调和推理引擎切换功能,便于在本地或云端进行模型实验与开发。
TR TRL 是 Hugging Face 提供的用于在变换器模型上进行强化学习训练的开源工具包。
TU Tunix 是一个基于 JAX 的 LLM 后训练库,提供高效的微调、强化学习训练与知识蒸馏工具。
UN 用于大规模模型微调与强化学习的高性能训练工具集,支持多种模型与记忆优化策略。
实验追踪、模型管理与流水线管理。
GO Google Research 汇集了 Google 的开源研究代码与数据集,涵盖机器学习、计算机视觉、语言模型等多个研究方向。
SK Skypilot 是一个用于在云和本地集群上自动化分布式训练与推理任务的开源工具,简化资源调度与环境配置。
SL Slurm 是一个开源的集群资源管理和作业调度系统,具有简单、可扩展、可移植、容错和互连无关的特性,广泛用于高性能计算和 AI 训练集群的作业调度。
SW SwanLab 是一个开源、现代化的模型训练追踪与可视化工具,支持云端与自托管部署。
WE 面向机器学习全流程的开发与观测平台,支持实验追踪、模型管理、Artifact 与可视化,帮助团队从试验到生产管理模型生命周期。
ZE 统一的 MLOps 框架,支持从经典模型到多智能体系统的一体化开发、评估与部署。
评测框架、基准套件与测试集。
AG Agenta 是一个开源的 LLMOps 平台,集成提示管理、评测与可观测性,帮助团队快速构建可靠的 LLM 应用。
DE DeepEval:模型评测与基准工具(占位),请补充测试用例与说明。
DE 一个用于对大语言模型与 LLM 系统进行红队测试的开源框架,聚焦安全性与稳健性评估。
DI 一个用于自动化数据质量评估的工具,支持规则与模型相结合的多维度评估。
EA 一个易用的知识编辑(model editing)框架,提供多种编辑方法、评估指标与数据集,支持 LLM 与部分多模态模型的知识插入、更新与擦除。
EV 一个开源的 ML 与 LLM 评估、测试与监控框架,支持从实验到生产的一站式质量检查与仪表盘展示。
FU 一款用于评估代码‘混乱度’并生成可读报告的静态分析工具,支持多语言和 Markdown 输出。
GI 一款开源的 AI 评估与测试框架,用于自动检测性能、偏差与安全问题。
HE 由 Stanford CRFM 开发的 Holistic Evaluation 框架,用于可复现的基础模型评估与基准管理。
IN Inspector 是一款用于 MCP(Model Context Protocol)服务器的可视化测试工具,帮助开发者验证与展示 MCP 服务的行为与可视化输出。
KE 基于真实流量自动生成 API 和集成测试的开发者工具,支持记录并回放 API 调用、数据库操作与消息流,生成可重复运行的测试与 mocks。
LI Hugging Face 出品的轻量级 LLM 评估工具,支持多后端与丰富基准任务。
LI LiveBench 是一个面向客观评测与最小污染的 LLM 基准套件,提供可复现的题库、自动评分与在线排行榜服务。
LM lm-evaluation-harness 是一个用于对生成式语言模型进行大规模、可复现评测的框架,支持多种数据集与评测方式,便于研究与基准比较。
OP 面向大模型评估的一站式平台,提供丰富的基准、评估工具与排行榜,便于复现与比较模型能力。
OP OpenLIT 是一个面向 AI 工程的开源平台,提供 LLM 可观测性、Prompt 管理、评估与 Guardrails 等工具与 SDK。
OP Opik:一个开源的 LLM 评估与可观测平台,帮助团队构建、评估并优化 LLM 应用。
PE Petri 是一个用于快速探索对齐假设的对齐审计代理,旨在帮助研究者自动化对齐评估流程并发现模型潜在风险。
PR Promptfoo 是一个面向开发者的本地化 LLM 测试与红队工具,支持自动化评测、红队扫描与 CI 集成。
RA Ragas 是一个用于评估与优化 LLM 应用的开源工具包,提供客观度量、测试数据生成与生产级反馈回路。
RE ReLE(chinese-llm-benchmark)是社区维护的中文大模型评测与排行榜项目,覆盖教育、医疗、金融、法律、推理等多个细分能力维度。
SH 用于将机器学习模型的预测解释为交互式可视化报告,帮助业务人员与决策者理解模型决策。
链路追踪、日志分析与线上观测。
Helicone 是一款面向 LLM 的开源可观测与分析平台,提供请求追踪、指标、提示管理与成本/延迟分析等功能,便于调试、评估与优化 AI 系统。
LA Langfuse 是一个开源的 LLM 工程平台,支持团队协作开发、监控、评估和调试 AI 应用,具备强大的可观测性和集成能力。
OP 基于 OpenTelemetry 思想的 LLM/AI 可观测性工具,提供模型请求的跟踪与指标聚合,用于诊断与监控。
PH Phoenix 是一个高性能的 Elixir Web 框架,适用于实时、分布式与可扩展的 Web 应用开发。
PO Polyaxon:用于管理、训练与监控大规模机器学习工作负载的 MLOps 平台。
提示词管理、版本控制和质量分析。
CO 将代码库转换为单一 LLM 提示的工具,便于代码分析、生成与自动化工作流整合。
GU GuideLLM 提供用于引导、解释和控制大语言模型(LLM)的工具与范式,便于在交互式应用中实现更好的可控性。
PR 开源的 AI 驱动的代码审核与 PR 辅助工具,可本地运行或在 CI 中部署,支持多平台集成与可定制化提示。
内容安全、行为约束与风险控制。
AN 754 个面向 AI 智能体的结构化网络安全技能,映射到 MITRE ATT&CK、NIST CSF 2.0 等 5 大安全框架。
MC 用于扫描 MCP 服务器与工具以发现潜在安全问题的检测工具,支持多引擎分析与可定制报告。
SK NVIDIA 出品的 AI Agent 技能安全扫描器,覆盖 16 大类 64 种漏洞模式,检测恶意模式和安全风险。
编译优化、自动调优和训练仿真。
NE 基于 NVIDIA Warp 的 GPU 加速物理仿真引擎,面向机器人与仿真研究。
没有项目匹配当前筛选条件。