CL ClearML
ClearML 是一个开源的 MLOps 平台,提供实验管理、数据管理、流水线与模型服务等能力。
训练框架、微调对齐、实验评测、观测与质量治理流程。
这是旧分类兼容页,结果已按新分类体系聚合。
分布式训练和训练生态组件。
CL ClearML 是一个开源的 MLOps 平台,提供实验管理、数据管理、流水线与模型服务等能力。
EA EasyR1 是一个高效、可扩展的多模态强化学习训练框架,基于 veRL 设计并支持大模型与视觉 - 语言模型的训练与评估。
GY 面向单智能体强化学习环境的 API 标准,提供参考环境与相关工具(前身为 OpenAI Gym)。
JA 用于加速数值计算与可微变换的高性能 Python 库,适用于规模化机器学习与研究。
NA 一个简洁且高效的仓库,用于训练与微调中等规模的 GPT 模型,适合教学与实验。
NE NeMo RL 是一个面向大模型的可扩展后训练强化学习库,支持高性能分布式训练与多样化后端。
OP 用于创建、部署与使用隔离执行环境的端到端框架,面向 agentic 强化学习训练与环境开发。
PY PyTorch Lightning 是一个简化 PyTorch 训练流程的开源框架,帮助用户高效构建、训练和部署深度学习模型。
RL RLinf 是一个灵活可扩展的开源强化学习基础设施,专为具身智能和智能体 AI 设计,支持 PPO、GRPO、SAC 等多种 RL 训练流程,可无缝扩展至大规模 GPU 集群。
SK 一个面向大语言模型(LLM)的模块化全栈强化学习(RL)库,用于训练长时程、真实环境任务。
XL xLLM is an open-source framework for vision-language models, providing tools and documentation for training and inference.
SFT、RLHF、偏好优化与对齐方法。
AR 一个面向大规模推理与智能体模型的全异步强化学习训练系统,强调可扩展性与工程复现能力。
AX 免费开源的 LLM 后训练与微调框架,支持多模型、多种微调方法与多卡/多节点优化。
HE Heretic 是一个完全自动化的工具,可以在不进行昂贵的后训练的情况下,从基于 transformer 的语言模型中移除审查(即"安全对齐")。它结合了定向消融(也称为"abliteration")的高级实现和基于 Optuna 的 TPE 参数优化器,能够自动找到高质量的消融参数,同时最小化拒绝次数和与原始模型的 KL 散度,从而保留原始模型的智能水平。
LM LMFlow 是一个可扩展、便捷且高效的微调与推理工具箱,针对大规模基础模型的工程化训练与部署提供完整支持。
ML 基于 MLX 的本地化多模态推理与微调工具,支持图像、音频与视频的视觉语言模型在 Mac 与通用硬件上的高效运行与训练。
OP 基于 Ray、vLLM 与 DeepSpeed 的高性能开源 RLHF 框架,提供分布式训练与多种 RL 算法支持。
PE Petri 是一个用于快速探索对齐假设的对齐审计代理,旨在帮助研究者自动化对齐评估流程并发现模型潜在风险。
TR TRL 是 Hugging Face 提供的用于在变换器模型上进行强化学习训练的开源工具包。
TU Tunix 是一个基于 JAX 的 LLM 后训练库,提供高效的微调、强化学习训练与知识蒸馏工具。
UN 用于大规模模型微调与强化学习的高性能训练工具集,支持多种模型与记忆优化策略。
评测框架、基准套件与测试集。
AG Agenta 是一个开源的 LLMOps 平台,集成提示管理、评测与可观测性,帮助团队快速构建可靠的 LLM 应用。
DE DeepEval:模型评测与基准工具(占位),请补充测试用例与说明。
DE 一个用于对大语言模型与 LLM 系统进行红队测试的开源框架,聚焦安全性与稳健性评估。
DI 一个用于自动化数据质量评估的工具,支持规则与模型相结合的多维度评估。
EA 一个易用的知识编辑(model editing)框架,提供多种编辑方法、评估指标与数据集,支持 LLM 与部分多模态模型的知识插入、更新与擦除。
EV 一个开源的 ML 与 LLM 评估、测试与监控框架,支持从实验到生产的一站式质量检查与仪表盘展示。
FU 一款用于评估代码‘混乱度’并生成可读报告的静态分析工具,支持多语言和 Markdown 输出。
GI 一款开源的 AI 评估与测试框架,用于自动检测性能、偏差与安全问题。
HE 由 Stanford CRFM 开发的 Holistic Evaluation 框架,用于可复现的基础模型评估与基准管理。
IN Inspector 是一款用于 MCP(Model Context Protocol)服务器的可视化测试工具,帮助开发者验证与展示 MCP 服务的行为与可视化输出。
LI Hugging Face 出品的轻量级 LLM 评估工具,支持多后端与丰富基准任务。
LI LiveBench 是一个面向客观评测与最小污染的 LLM 基准套件,提供可复现的题库、自动评分与在线排行榜服务。
LM lm-evaluation-harness 是一个用于对生成式语言模型进行大规模、可复现评测的框架,支持多种数据集与评测方式,便于研究与基准比较。
MS ModelScope 社区提供的 SWIFT 框架,面向大模型与多模态模型的轻量化微调、评估与部署,支持丰富训练方法、量化与推理加速。
OP 面向大模型评估的一站式平台,提供丰富的基准、评估工具与排行榜,便于复现与比较模型能力。
OP OpenLIT 是一个面向 AI 工程的开源平台,提供 LLM 可观测性、Prompt 管理、评估与 Guardrails 等工具与 SDK。
OP Opik:一个开源的 LLM 评估与可观测平台,帮助团队构建、评估并优化 LLM 应用。
PR Promptfoo 是一个面向开发者的本地化 LLM 测试与红队工具,支持自动化评测、红队扫描与 CI 集成。
RA Ragas 是一个用于评估与优化 LLM 应用的开源工具包,提供客观度量、测试数据生成与生产级反馈回路。
RE ReLE(chinese-llm-benchmark)是社区维护的中文大模型评测与排行榜项目,覆盖教育、医疗、金融、法律、推理等多个细分能力维度。
TI TileLang 是一个面向高性能 AI 工作负载的领域特定语言,用于简化 GPU/CPU/加速器核的开发。
TO PyTorch 原生的后训练(post-training)和微调工具集,提供可复用的训练 recipes、优化器和量化支持,适用于大模型微调与评估。
链路追踪、日志分析与线上观测。
Helicone 是一款面向 LLM 的开源可观测与分析平台,提供请求追踪、指标、提示管理与成本/延迟分析等功能,便于调试、评估与优化 AI 系统。
OP 基于 OpenTelemetry 思想的 LLM/AI 可观测性工具,提供模型请求的跟踪与指标聚合,用于诊断与监控。
PO Polyaxon:用于管理、训练与监控大规模机器学习工作负载的 MLOps 平台。
提示词管理、版本控制和质量分析。
CO 将代码库转换为单一 LLM 提示的工具,便于代码分析、生成与自动化工作流整合。
PR 开源的 AI 驱动的代码审核与 PR 辅助工具,可本地运行或在 CI 中部署,支持多平台集成与可定制化提示。
RE 将整个代码库打包为 AI 友好格式的工具,便于向大模型提供完整、结构化的代码上下文。
内容安全、行为约束与风险控制。
AN 754 个面向 AI 智能体的结构化网络安全技能,映射到 MITRE ATT&CK、NIST CSF 2.0 等 5 大安全框架。
LI 一个面向安全的 library OS,支持内核与用户态受限执行,用于将宿主接口最小化并降低攻击面。
MC 用于扫描 MCP 服务器与工具以发现潜在安全问题的检测工具,支持多引擎分析与可定制报告。
NE NVIDIA NemoClaw 是一个开源参考技术栈,用于在 NVIDIA OpenShell 安全运行时中更安全地运行 OpenClaw 常驻智能体,提供引导式入驻、加固蓝图、状态管理和路由推理。
OP NVIDIA OpenShell 是面向自主 AI 智能体的安全、私密运行时环境,通过声明式 YAML 策略提供沙箱隔离执行,保护用户数据、凭证与基础设施免受未授权访问。
SU 为应用、模型与工具之间提供运行时保护与受控代理,检测提示注入并验证工具调用。
没有项目匹配当前筛选条件。