训练、评测与优化

训练框架、微调对齐、实验评测、观测与质量治理流程。

55 项目 6 子类 36 标签

已跟踪

这是旧分类兼容页，结果已按新分类体系聚合。

分布式训练和训练生态组件。

ClearML

ClearML 是一个开源的 MLOps 平台，提供实验管理、数据管理、流水线与模型服务等能力。

-- 评分加载中

EasyR1

EasyR1 是一个高效、可扩展的多模态强化学习训练框架，基于 veRL 设计并支持大模型与视觉 - 语言模型的训练与评估。

-- 评分加载中

Gymnasium

面向单智能体强化学习环境的 API 标准，提供参考环境与相关工具（前身为 OpenAI Gym）。

-- 评分加载中

JAX

用于加速数值计算与可微变换的高性能 Python 库，适用于规模化机器学习与研究。

-- 评分加载中

nanoGPT

一个简洁且高效的仓库，用于训练与微调中等规模的 GPT 模型，适合教学与实验。

-- 评分加载中

NeMo RL

NeMo RL 是一个面向大模型的可扩展后训练强化学习库，支持高性能分布式训练与多样化后端。

-- 评分加载中

OpenEnv — Agentic Execution Environments

用于创建、部署与使用隔离执行环境的端到端框架，面向 agentic 强化学习训练与环境开发。

-- 评分加载中

PyTorch Lightning

PyTorch Lightning 是一个简化 PyTorch 训练流程的开源框架，帮助用户高效构建、训练和部署深度学习模型。

-- 评分加载中

RLinf

RLinf 是一个灵活可扩展的开源强化学习基础设施，专为具身智能和智能体 AI 设计，支持 PPO、GRPO、SAC 等多种 RL 训练流程，可无缝扩展至大规模 GPU 集群。

-- 评分加载中

SkyRL

一个面向大语言模型（LLM）的模块化全栈强化学习（RL）库，用于训练长时程、真实环境任务。

-- 评分加载中

xLLM

xLLM is an open-source framework for vision-language models, providing tools and documentation for training and inference.

-- 评分加载中

SFT、RLHF、偏好优化与对齐方法。

AReaL

一个面向大规模推理与智能体模型的全异步强化学习训练系统，强调可扩展性与工程复现能力。

-- 评分加载中

Axolotl

免费开源的 LLM 后训练与微调框架，支持多模型、多种微调方法与多卡/多节点优化。

-- 评分加载中

Heretic

Heretic 是一个完全自动化的工具,可以在不进行昂贵的后训练的情况下,从基于 transformer 的语言模型中移除审查(即"安全对齐")。它结合了定向消融(也称为"abliteration")的高级实现和基于 Optuna 的 TPE 参数优化器,能够自动找到高质量的消融参数,同时最小化拒绝次数和与原始模型的 KL 散度,从而保留原始模型的智能水平。

-- 评分加载中

LMFlow

LMFlow 是一个可扩展、便捷且高效的微调与推理工具箱，针对大规模基础模型的工程化训练与部署提供完整支持。

-- 评分加载中

MLX-VLM

基于 MLX 的本地化多模态推理与微调工具，支持图像、音频与视频的视觉语言模型在 Mac 与通用硬件上的高效运行与训练。

-- 评分加载中

OpenRLHF

基于 Ray、vLLM 与 DeepSpeed 的高性能开源 RLHF 框架，提供分布式训练与多种 RL 算法支持。

-- 评分加载中

Petri

Petri 是一个用于快速探索对齐假设的对齐审计代理，旨在帮助研究者自动化对齐评估流程并发现模型潜在风险。

-- 评分加载中

TRL

TRL 是 Hugging Face 提供的用于在变换器模型上进行强化学习训练的开源工具包。

-- 评分加载中

Tunix

Tunix 是一个基于 JAX 的 LLM 后训练库，提供高效的微调、强化学习训练与知识蒸馏工具。

-- 评分加载中

Unsloth

用于大规模模型微调与强化学习的高性能训练工具集，支持多种模型与记忆优化策略。

-- 评分加载中

评测框架、基准套件与测试集。

Agenta

Agenta 是一个开源的 LLMOps 平台，集成提示管理、评测与可观测性，帮助团队快速构建可靠的 LLM 应用。

-- 评分加载中

DeepEval

DeepEval：模型评测与基准工具（占位），请补充测试用例与说明。

-- 评分加载中

DeepTeam

一个用于对大语言模型与 LLM 系统进行红队测试的开源框架，聚焦安全性与稳健性评估。

-- 评分加载中

Dingo

一个用于自动化数据质量评估的工具，支持规则与模型相结合的多维度评估。

-- 评分加载中

EasyEdit

一个易用的知识编辑（model editing）框架，提供多种编辑方法、评估指标与数据集，支持 LLM 与部分多模态模型的知识插入、更新与擦除。

-- 评分加载中

Evidently

一个开源的 ML 与 LLM 评估、测试与监控框架，支持从实验到生产的一站式质量检查与仪表盘展示。

-- 评分加载中

fuck-u-code

一款用于评估代码‘混乱度’并生成可读报告的静态分析工具，支持多语言和 Markdown 输出。

-- 评分加载中

Giskard OSS

一款开源的 AI 评估与测试框架，用于自动检测性能、偏差与安全问题。

-- 评分加载中

HELM

由 Stanford CRFM 开发的 Holistic Evaluation 框架，用于可复现的基础模型评估与基准管理。

-- 评分加载中

Inspector

Inspector 是一款用于 MCP（Model Context Protocol）服务器的可视化测试工具，帮助开发者验证与展示 MCP 服务的行为与可视化输出。

-- 评分加载中

LightEval

Hugging Face 出品的轻量级 LLM 评估工具，支持多后端与丰富基准任务。

-- 评分加载中

LiveBench

LiveBench 是一个面向客观评测与最小污染的 LLM 基准套件，提供可复现的题库、自动评分与在线排行榜服务。

-- 评分加载中

lm-evaluation-harness

lm-evaluation-harness 是一个用于对生成式语言模型进行大规模、可复现评测的框架，支持多种数据集与评测方式，便于研究与基准比较。

-- 评分加载中

MS-SWIFT

ModelScope 社区提供的 SWIFT 框架，面向大模型与多模态模型的轻量化微调、评估与部署，支持丰富训练方法、量化与推理加速。

-- 评分加载中

OpenCompass

面向大模型评估的一站式平台，提供丰富的基准、评估工具与排行榜，便于复现与比较模型能力。

-- 评分加载中

OpenLIT

OpenLIT 是一个面向 AI 工程的开源平台，提供 LLM 可观测性、Prompt 管理、评估与 Guardrails 等工具与 SDK。

-- 评分加载中

Opik

Opik：一个开源的 LLM 评估与可观测平台，帮助团队构建、评估并优化 LLM 应用。

-- 评分加载中

Promptfoo

Promptfoo 是一个面向开发者的本地化 LLM 测试与红队工具，支持自动化评测、红队扫描与 CI 集成。

-- 评分加载中

Ragas

Ragas 是一个用于评估与优化 LLM 应用的开源工具包，提供客观度量、测试数据生成与生产级反馈回路。

-- 评分加载中

ReLE Chinese LLM Benchmark

ReLE（chinese-llm-benchmark）是社区维护的中文大模型评测与排行榜项目，覆盖教育、医疗、金融、法律、推理等多个细分能力维度。

-- 评分加载中

TileLang

TileLang 是一个面向高性能 AI 工作负载的领域特定语言，用于简化 GPU/CPU/加速器核的开发。

-- 评分加载中

Torchtune

PyTorch 原生的后训练（post-training）和微调工具集，提供可复用的训练 recipes、优化器和量化支持，适用于大模型微调与评估。

-- 评分加载中

链路追踪、日志分析与线上观测。

Helicone

Helicone 是一款面向 LLM 的开源可观测与分析平台，提供请求追踪、指标、提示管理与成本/延迟分析等功能，便于调试、评估与优化 AI 系统。

-- 评分加载中

OpenLLMetry

基于 OpenTelemetry 思想的 LLM/AI 可观测性工具，提供模型请求的跟踪与指标聚合，用于诊断与监控。

-- 评分加载中

Polyaxon

Polyaxon：用于管理、训练与监控大规模机器学习工作负载的 MLOps 平台。

-- 评分加载中

提示词管理、版本控制和质量分析。

Code2Prompt

将代码库转换为单一 LLM 提示的工具，便于代码分析、生成与自动化工作流整合。

-- 评分加载中

PR-Agent

开源的 AI 驱动的代码审核与 PR 辅助工具，可本地运行或在 CI 中部署，支持多平台集成与可定制化提示。

-- 评分加载中

Repomix

将整个代码库打包为 AI 友好格式的工具，便于向大模型提供完整、结构化的代码上下文。

-- 评分加载中

内容安全、行为约束与风险控制。

Anthropic Cybersecurity Skills

754 个面向 AI 智能体的结构化网络安全技能，映射到 MITRE ATT&CK、NIST CSF 2.0 等 5 大安全框架。

-- 评分加载中

LiteBox

一个面向安全的 library OS，支持内核与用户态受限执行，用于将宿主接口最小化并降低攻击面。

-- 评分加载中

MCP Scanner

用于扫描 MCP 服务器与工具以发现潜在安全问题的检测工具，支持多引擎分析与可定制报告。

-- 评分加载中

NemoClaw

NVIDIA NemoClaw 是一个开源参考技术栈，用于在 NVIDIA OpenShell 安全运行时中更安全地运行 OpenClaw 常驻智能体，提供引导式入驻、加固蓝图、状态管理和路由推理。

-- 评分加载中

OpenShell

NVIDIA OpenShell 是面向自主 AI 智能体的安全、私密运行时环境，通过声明式 YAML 策略提供沙箱隔离执行，保护用户数据、凭证与基础设施免受未授权访问。

-- 评分加载中

Superagent

为应用、模型与工具之间提供运行时保护与受控代理，检测提示注入并验证工具调用。

-- 评分加载中