训练、评测与优化 | AI 原生全景图

分布式训练和训练生态组件。

AXLearn

基于 JAX/XLA 的可扩展深度学习库，支持大规模模型的开发、训练与部署。

-- 评分加载中

ClearML

ClearML 是一个开源的 MLOps 平台，提供实验管理、数据管理、流水线与模型服务等能力。

-- 评分加载中

Colossal-AI

面向大规模并行训练与推理的系统，提供多种并行策略、内存管理与高性能推理组件，旨在让大模型训练与推理更高效、可复现。

-- 评分加载中

DeepEP

用于专家并行（expert-parallel）的高效通信库，提供针对大规模分布式训练的低开销通信原语。

-- 评分加载中

DeepSpeed

一个高性能的深度学习训练与推理优化库，可显著加速大规模模型的训练与推理并降低成本。

-- 评分加载中

DLRover

DLRover 是一个自动化的分布式深度学习系统，提供弹性调度、闪电检查点与自动伸缩，简化大规模模型在 Kubernetes/Ray 上的训练与运维。

-- 评分加载中

EasyR1

EasyR1 是一个高效、可扩展的多模态强化学习训练框架，基于 veRL 设计并支持大模型与视觉 - 语言模型的训练与评估。

-- 评分加载中

Gymnasium

面向单智能体强化学习环境的 API 标准，提供参考环境与相关工具（前身为 OpenAI Gym）。

-- 评分加载中

JAX

用于加速数值计算与可微变换的高性能 Python 库，适用于规模化机器学习与研究。

-- 评分加载中

LightGBM

高效的梯度提升树（GBDT）框架，支持分布式训练与 GPU 加速，广泛应用于排序、分类和大规模数据场景。

-- 评分加载中

LitGPT

高性能、面向工程的 LLM 工具链，提供从训练到部署的端到端配方与实用教程。

-- 评分加载中

MaxText

高性能、可扩展的 JAX+Python LLM 库与参考实现，面向 Google Cloud TPU 与 GPU。

-- 评分加载中

Megatron-LM

Megatron-LM 是 NVIDIA 提供的大规模语言模型训练参考实现，面向分布式训练与性能优化。

-- 评分加载中

MONAI

面向医疗影像的 AI 工具包，专注深度学习在医学图像处理与分析中的应用。

-- 评分加载中

nanoGPT

一个简洁且高效的仓库，用于训练与微调中等规模的 GPT 模型，适合教学与实验。

-- 评分加载中

NeMo

NVIDIA 的 NeMo 框架，覆盖语音、语音合成、多模态和大语言模型训练与微调。

-- 评分加载中

NeMo RL

NeMo RL 是一个面向大模型的可扩展后训练强化学习库，支持高性能分布式训练与多样化后端。

-- 评分加载中

OpenEnv — Agentic Execution Environments

用于创建、部署与使用隔离执行环境的端到端框架，面向 agentic 强化学习训练与环境开发。

-- 评分加载中

PyTorch

开源深度学习框架，支持动态图与高效 GPU 加速，适用于研究与生产部署。

-- 评分加载中

PyTorch Lightning

PyTorch Lightning 是一个简化 PyTorch 训练流程的开源框架，帮助用户高效构建、训练和部署深度学习模型。

-- 评分加载中

RLinf

RLinf 是一个灵活可扩展的开源强化学习基础设施，专为具身智能和智能体 AI 设计，支持 PPO、GRPO、SAC 等多种 RL 训练流程，可无缝扩展至大规模 GPU 集群。

-- 评分加载中

ROLL

用于大规模强化学习优化与训练流水线的框架，支持多后端与 Agentic 训练。

-- 评分加载中

SkyRL

一个面向大语言模型（LLM）的模块化全栈强化学习（RL）库，用于训练长时程、真实环境任务。

-- 评分加载中

TensorFlow

Google 开源的端到端机器学习平台，用于构建和训练深度学习模型。

-- 评分加载中

TorchTitan

面向生成式模型预训练与分布式优化的 PyTorch 平台参考实现。

-- 评分加载中

verl

用于大模型的强化学习训练框架，面向大规模 RLHF 与 agent 训练的可扩展项目。

-- 评分加载中

xLLM

xLLM 是一个面向视觉语言模型的开源框架，提供训练与推理工具及文档。

-- 评分加载中

SFT、RLHF、偏好优化与对齐方法。

AReaL

一个面向大规模推理与智能体模型的全异步强化学习训练系统，强调可扩展性与工程复现能力。

-- 评分加载中

Axolotl

免费开源的 LLM 后训练与微调框架，支持多模型、多种微调方法与多卡/多节点优化。

-- 评分加载中

Heretic

Heretic 是一个完全自动化的工具，可以在不进行昂贵的后训练的情况下，从基于 transformer 的语言模型中移除审查 (即"安全对齐")。它结合了定向消融 (也称为"abliteration") 的高级实现和基于 Optuna 的 TPE 参数优化器，能够自动找到高质量的消融参数，同时最小化拒绝次数和与原始模型的 KL 散度，从而保留原始模型的智能水平。

-- 评分加载中

LLaMA Factory

用于微调 LLaMA 模型的综合框架，支持多种训练方法、高效算法和易于使用的界面，适用于研究和生产环境。

-- 评分加载中

LMFlow

LMFlow 是一个可扩展、便捷且高效的微调与推理工具箱，针对大规模基础模型的工程化训练与部署提供完整支持。

-- 评分加载中

MLX-VLM

基于 MLX 的本地化多模态推理与微调工具，支持图像、音频与视频的视觉语言模型在 Mac 与通用硬件上的高效运行与训练。

-- 评分加载中

MS-SWIFT

ModelScope 社区提供的 SWIFT 框架，面向大模型与多模态模型的轻量化微调、评估与部署，支持丰富训练方法、量化与推理加速。

-- 评分加载中

OpenRLHF

基于 Ray、vLLM 与 DeepSpeed 的高性能开源 RLHF 框架，提供分布式训练与多种 RL 算法支持。

-- 评分加载中

PEFT

面向大语言模型的参数高效微调库，实现 LoRA、QLoRA 等方法，用极少 GPU 资源即可完成适配器训练。

-- 评分加载中

Torchtune

PyTorch 原生的后训练（post-training）和微调工具集，提供可复用的训练 recipes、优化器和量化支持，适用于大模型微调与评估。

-- 评分加载中

Transformer Lab

开源跨平台的 LLM 与生成模型工具，提供一键下载模型、可视化、微调和推理引擎切换功能，便于在本地或云端进行模型实验与开发。

-- 评分加载中

TRL

TRL 是 Hugging Face 提供的用于在变换器模型上进行强化学习训练的开源工具包。

-- 评分加载中

Tunix

Tunix 是一个基于 JAX 的 LLM 后训练库，提供高效的微调、强化学习训练与知识蒸馏工具。

-- 评分加载中

Unsloth

用于大规模模型微调与强化学习的高性能训练工具集，支持多种模型与记忆优化策略。

-- 评分加载中

实验追踪、模型管理与流水线管理。

Google Research

Google Research 汇集了 Google 的开源研究代码与数据集，涵盖机器学习、计算机视觉、语言模型等多个研究方向。

-- 评分加载中

Skypilot

Skypilot 是一个用于在云和本地集群上自动化分布式训练与推理任务的开源工具，简化资源调度与环境配置。

-- 评分加载中

Slurm

Slurm 是一个开源的集群资源管理和作业调度系统，具有简单、可扩展、可移植、容错和互连无关的特性，广泛用于高性能计算和 AI 训练集群的作业调度。

-- 评分加载中

SwanLab

SwanLab 是一个开源、现代化的模型训练追踪与可视化工具，支持云端与自托管部署。

-- 评分加载中

Weights & Biases (W&B)

面向机器学习全流程的开发与观测平台，支持实验追踪、模型管理、Artifact 与可视化，帮助团队从试验到生产管理模型生命周期。

-- 评分加载中

ZenML

统一的 MLOps 框架，支持从经典模型到多智能体系统的一体化开发、评估与部署。

-- 评分加载中

评测框架、基准套件与测试集。

Agenta

Agenta 是一个开源的 LLMOps 平台，集成提示管理、评测与可观测性，帮助团队快速构建可靠的 LLM 应用。

-- 评分加载中

DeepEval

DeepEval：模型评测与基准工具（占位），请补充测试用例与说明。

-- 评分加载中

DeepTeam

一个用于对大语言模型与 LLM 系统进行红队测试的开源框架，聚焦安全性与稳健性评估。

-- 评分加载中

Dingo

一个用于自动化数据质量评估的工具，支持规则与模型相结合的多维度评估。

-- 评分加载中

EasyEdit

一个易用的知识编辑（model editing）框架，提供多种编辑方法、评估指标与数据集，支持 LLM 与部分多模态模型的知识插入、更新与擦除。

-- 评分加载中

Evidently

一个开源的 ML 与 LLM 评估、测试与监控框架，支持从实验到生产的一站式质量检查与仪表盘展示。

-- 评分加载中

fuck-u-code

一款用于评估代码‘混乱度’并生成可读报告的静态分析工具，支持多语言和 Markdown 输出。

-- 评分加载中

Giskard OSS

一款开源的 AI 评估与测试框架，用于自动检测性能、偏差与安全问题。

-- 评分加载中

HELM

由 Stanford CRFM 开发的 Holistic Evaluation 框架，用于可复现的基础模型评估与基准管理。

-- 评分加载中

Inspector

Inspector 是一款用于 MCP（Model Context Protocol）服务器的可视化测试工具，帮助开发者验证与展示 MCP 服务的行为与可视化输出。

-- 评分加载中

Keploy

基于真实流量自动生成 API 和集成测试的开发者工具，支持记录并回放 API 调用、数据库操作与消息流，生成可重复运行的测试与 mocks。

-- 评分加载中

LightEval

Hugging Face 出品的轻量级 LLM 评估工具，支持多后端与丰富基准任务。

-- 评分加载中

LiveBench

LiveBench 是一个面向客观评测与最小污染的 LLM 基准套件，提供可复现的题库、自动评分与在线排行榜服务。

-- 评分加载中

lm-evaluation-harness

lm-evaluation-harness 是一个用于对生成式语言模型进行大规模、可复现评测的框架，支持多种数据集与评测方式，便于研究与基准比较。

-- 评分加载中

OpenCompass

面向大模型评估的一站式平台，提供丰富的基准、评估工具与排行榜，便于复现与比较模型能力。

-- 评分加载中

OpenLIT

OpenLIT 是一个面向 AI 工程的开源平台，提供 LLM 可观测性、Prompt 管理、评估与 Guardrails 等工具与 SDK。

-- 评分加载中

Opik

Opik：一个开源的 LLM 评估与可观测平台，帮助团队构建、评估并优化 LLM 应用。

-- 评分加载中

Petri

Petri 是一个用于快速探索对齐假设的对齐审计代理，旨在帮助研究者自动化对齐评估流程并发现模型潜在风险。

-- 评分加载中

Promptfoo

Promptfoo 是一个面向开发者的本地化 LLM 测试与红队工具，支持自动化评测、红队扫描与 CI 集成。

-- 评分加载中

Ragas

Ragas 是一个用于评估与优化 LLM 应用的开源工具包，提供客观度量、测试数据生成与生产级反馈回路。

-- 评分加载中

ReLE Chinese LLM Benchmark

ReLE（chinese-llm-benchmark）是社区维护的中文大模型评测与排行榜项目，覆盖教育、医疗、金融、法律、推理等多个细分能力维度。

-- 评分加载中

Shapash

用于将机器学习模型的预测解释为交互式可视化报告，帮助业务人员与决策者理解模型决策。

-- 评分加载中

链路追踪、日志分析与线上观测。

Helicone

Helicone 是一款面向 LLM 的开源可观测与分析平台，提供请求追踪、指标、提示管理与成本/延迟分析等功能，便于调试、评估与优化 AI 系统。

-- 评分加载中

Langfuse

Langfuse 是一个开源的 LLM 工程平台，支持团队协作开发、监控、评估和调试 AI 应用，具备强大的可观测性和集成能力。

-- 评分加载中

OpenLLMetry

基于 OpenTelemetry 思想的 LLM/AI 可观测性工具，提供模型请求的跟踪与指标聚合，用于诊断与监控。

-- 评分加载中

Phoenix

Phoenix 是一个高性能的 Elixir Web 框架，适用于实时、分布式与可扩展的 Web 应用开发。

-- 评分加载中

Polyaxon

Polyaxon：用于管理、训练与监控大规模机器学习工作负载的 MLOps 平台。

-- 评分加载中

提示词管理、版本控制和质量分析。

Code2Prompt

将代码库转换为单一 LLM 提示的工具，便于代码分析、生成与自动化工作流整合。

-- 评分加载中

GuideLLM

GuideLLM 提供用于引导、解释和控制大语言模型（LLM）的工具与范式，便于在交互式应用中实现更好的可控性。

-- 评分加载中

PR-Agent

开源的 AI 驱动的代码审核与 PR 辅助工具，可本地运行或在 CI 中部署，支持多平台集成与可定制化提示。

-- 评分加载中

内容安全、行为约束与风险控制。

Anthropic Cybersecurity Skills

754 个面向 AI 智能体的结构化网络安全技能，映射到 MITRE ATT&CK、NIST CSF 2.0 等 5 大安全框架。

-- 评分加载中

MCP Scanner

用于扫描 MCP 服务器与工具以发现潜在安全问题的检测工具，支持多引擎分析与可定制报告。

-- 评分加载中

SkillSpector

NVIDIA 出品的 AI Agent 技能安全扫描器，覆盖 16 大类 64 种漏洞模式，检测恶意模式和安全风险。

-- 评分加载中

编译优化、自动调优和训练仿真。

Newton

基于 NVIDIA Warp 的 GPU 加速物理仿真引擎，面向机器人与仿真研究。

-- 评分加载中