推理与运行时

模型推理服务化、执行运行时、加速和访问路由能力。

73 项目 6 子类 35 标签

已跟踪

这是旧分类兼容页，结果已按新分类体系聚合。

推理服务框架和生产部署方案。

BentoML

BentoML：用于将机器学习模型打包、容器化并在生产环境中高效部署与服务化的开源框架。

-- 评分加载中

Beta9

面向大规模 AI 工作负载的开源无服务器推理引擎，支持快速容器启动与 GPU 支持。

-- 评分加载中

Golem

一个开源的可持久计算平台，使构建和部署高可靠分布式系统更容易。

-- 评分加载中

HAMi

HAMi 是一款面向异构 AI 计算的虚拟化中间件，提供统一的资源抽象、调度与管理能力，便于在多种加速器与集群环境中部署 AI 工作负载。

-- 评分加载中

KServe

KServe：Kubernetes 原生的标准化模型推理与生成式 AI 服务平台，支持高可扩展性、自动伸缩与多框架的生产部署。

-- 评分加载中

kvcached

将操作系统风格的虚拟内存抽象带入 LLM 系统，提供弹性按需的 KV 缓存分配，从而提升 GPU 在动态负载下的利用率。

-- 评分加载中

Motia

统一 API、后台作业、事件流和 AI 智能体的后端框架，类似 React 用于服务器端逻辑，支持多种编程语言和实时可视化。

-- 评分加载中

oMLX

面向 Apple Silicon 的 LLM 推理服务器，支持连续批处理和 SSD 缓存，可直接从 macOS 菜单栏管理。

-- 评分加载中

Triton Inference Server

Triton Inference Server：NVIDIA 高性能推理服务器，支持多种模型格式和多样化部署方式。

-- 评分加载中

高性能推理内核与执行引擎。

Amplifier

微软推出的开发与部署辅助工具，专注于 AI 项目的性能分析、模型部署和流水线支持。

-- 评分加载中

Apache Spark

一个用于大规模数据处理的统一分析引擎，支持批处理、流处理和机器学习。

-- 评分加载中

Chitu

一个面向生产的大模型推理框架，提供高性能、多算力适配与可伸缩部署能力。

-- 评分加载中

Compounding Engineering Plugin

一个面向工程复合场景的开源插件，提供与 Claude Code 集成的复合工程能力。

-- 评分加载中

Coral NPU

Google Coral 提供的面向边缘设备的能效型机器学习加速器核心。

-- 评分加载中

DeepGEMM

实现干净且高效的 FP8 GEMM（矩阵乘加）内核，提供细粒度缩放以支持更高效的低精度矩阵计算。

-- 评分加载中

DeepSpeed

一个高性能的深度学习训练与推理优化库，可显著加速大规模模型的训练与推理并降低成本。

-- 评分加载中

exo

exo：在家中用日常设备组成 AI 集群，支持跨设备分布式推理与 ChatGPT 兼容 API。

-- 评分加载中

Flash Linear Attention (fla)

基于 Triton 的 PyTorch 库，提供高效线性注意力内核与模型组件。

-- 评分加载中

FlashInfer

FlashInfer 是一个面向 LLM 推理与服务的高性能内核库，提供高效的 attention 与采样内核以提升 GPU 推理吞吐与延迟表现。

-- 评分加载中

Genesis

通用物理仿真与生成式数据平台，面向机器人与具身智能的开源物理引擎。

-- 评分加载中

ggml

ggml 是一个面向机器学习的轻量级张量库，适配多种硬件与量化方案。

-- 评分加载中

gpt-oss

gpt-oss 是 OpenAI 发布的开源权重系列模型，面向高推理能力与可定制化的开发场景。

-- 评分加载中

KAI Scheduler

一个 Kubernetes 原生的大规模 AI 工作负载调度器，为容器化 AI 训练与推理工作流提供高效的资源编排与优化能力。

-- 评分加载中

KTransformers

面向 LLM 推理优化的灵活框架，提供内核注入、前缀缓存与多种 GPU/CPU 加速策略。

-- 评分加载中

KubeAI

用于在 Kubernetes 上部署和扩展模型的推理操作器，支持 LLM、嵌入与语音转写等场景。

-- 评分加载中

KubeRay

KubeRay 是 Ray 官方的开源 Kubernetes operator，用于简化在 Kubernetes 上部署与管理 Ray 应用。

-- 评分加载中

LiteRT

面向边缘设备的高性能、可扩展轻量级深度学习推理运行时。

-- 评分加载中

llm-d

用于在 Kubernetes 上进行高性能分布式推理的开源栈，提供调度、分发与性能优化路径。

-- 评分加载中

Machine Learning Systems (MLSysBook)

一本面向真实世界 AI 系统工程的开源教材，覆盖从边缘设备到云端部署的系统设计与实践。

-- 评分加载中

Mini-SGLang

一个轻量而高性能的大语言模型推理框架，兼顾工程化与可读性。

-- 评分加载中

mistral.rs

mistral.rs 是一个用 Rust 实现的轻量级、高性能的 Mistral 模型推理库，适合在资源受限环境中运行小到中等规模模型。

-- 评分加载中

Mooncake

Mooncake 是一个以 KVCache 为中心的分布式 LLM 服务架构，提供高性能的 Transfer Engine 与分布式 KVCache 存储。

-- 评分加载中

NCCL

针对多 GPU 环境的高性能集合通信库，优化 PCIe、NVLink、NVSwitch 与 RDMA 网络下的带宽与延迟。

-- 评分加载中

Newton

基于 NVIDIA Warp 的 GPU 加速物理仿真引擎，面向机器人与仿真研究。

-- 评分加载中

NVIDIA GPU Operator

NVIDIA GPU Operator 在 Kubernetes 中自动部署、配置并管理 GPU 相关组件与驱动。

-- 评分加载中

ONNX

ONNX 是一个开放的模型交换格式与生态，旨在提高机器学习模型在框架、工具与硬件之间的互操作性。

-- 评分加载中

ONNX Runtime

ONNX Runtime 是一个跨平台的高性能机器学习推理与训练加速器，支持从 PyTorch、TensorFlow 等导出的模型在多种硬件上高效运行。

-- 评分加载中

OpenVINO

OpenVINO：Intel 提供的推理优化工具套件，专注于在 Intel 硬件上加速深度学习模型的推理。

-- 评分加载中

RamaLama

RamaLama 是一个通过 OCI 容器简化本地与生产环境 AI 模型部署与推理的开源工具。

-- 评分加载中

Spice.ai

一个面向时序数据与应用集成的开源加速引擎，提供 SQL 查询、全文检索与 LLM 推理能力。

-- 评分加载中

tinygrad

tinygrad 是一个极简的深度学习库，旨在以最小的代码量演示深度学习的核心原理，适合教学与轻量实验使用。

-- 评分加载中

Triton

Triton 是一个面向高性能深度学习算子与编译器开发的语言与工具链，旨在简化 GPU 算子开发并提升性能。

-- 评分加载中

vLLM Production Stack

一个为 vLLM 提供 Kubernetes 原生集群部署与性能优化的参考系统。

-- 评分加载中

XGrammar

高效、灵活且可移植的结构化生成引擎，提供对 JSON/自定义 CFG 的约束解码以保证输出结构正确。

-- 评分加载中

Xinference (Xorbits Inference)

面向模型部署的推理与服务框架，支持多后端、分布式和 OpenAI 兼容接口，便于在云端或本地快速部署模型。

-- 评分加载中

代码执行沙箱、代理执行环境和隔离运行时。

Agent Sandbox

一个由 Kubernetes SIGs 发起的智能体沙箱项目，旨在提供可扩展、安全的智能体执行与编排平台原型。

-- 评分加载中

BoxLite

一个用于嵌入、沙箱运行与交付智能体的轻量化运行时与容器化工具集。

-- 评分加载中

E2B

用于 AI 应用和智能体的安全开源云运行时环境。

-- 评分加载中

Flox

一个以 Nix 为核心、可复现且可分享的开发环境与包管理工具。

-- 评分加载中

OM1

OpenMind 的模块化 AI 运行时，面向多模态代理与机器人应用，支持传感器、LIDAR、相机与动作执行

-- 评分加载中

OpenSandbox

通用的 AI 场景沙箱平台，提供多语言 SDK、统一协议与可扩展运行时。

-- 评分加载中

Sandbox Runtime

一个轻量级的沙箱工具，用于在操作系统层面对任意进程实施文件系统与网络访问限制。

-- 评分加载中

GPU 算子优化、并行与吞吐优化。

CUTLASS

CUDA Templates for Linear Algebra Subroutines（CUTLASS），NVIDIA 提供的高性能矩阵运算模板库。

-- 评分加载中

LightGBM

高效的梯度提升树（GBDT）框架，支持分布式训练与 GPU 加速，广泛应用于排序、分类和大规模数据场景。

-- 评分加载中

XLA

XLA（Accelerated Linear Algebra）是一个用于机器学习模型编译的高性能编译器，能够为 CPU、GPU 与专用加速器生成高效执行代码。

-- 评分加载中

端侧设备和本地环境推理。

Transformers.js

Transformers.js：在浏览器与 Node 环境中运行 Hugging Face Transformers 的 JavaScript 实现，支持多模态任务与预编译 WASM/ONNX 加速。

-- 评分加载中

模型路由、代理、成本与策略治理。

agentgateway

面向 agent 的高性能代理数据平面，为 agent-to-agent 与 agent-to-tool 提供安全、可观测与治理能力。

-- 评分加载中

AI Gateway (Portkey)

Portkey 的 AI Gateway 是一个高性能、企业级的 LLM 路由与治理平台，支持多种模型提供方与丰富的守护规则。

-- 评分加载中

ArchGW

ArchGW 是一个面向 agent 的模型原生代理服务器，提供路由、护栏、工具调用与端到端可观测能力。

-- 评分加载中

Claude Code Router

智能代码路由工具，优化 Claude AI 在代码开发中的请求分发和响应处理，提升开发效率。

-- 评分加载中

ClawRouter

ClawRouter 是一个专为 AI 智能体设计的 LLM 路由器，支持智能路由、成本优化和微支付，由 BlockRunAI 为 OpenClaw 打造。

-- 评分加载中

CloudBase AI ToolKit

CloudBase AI ToolKit 提供开箱即用的 AI IDE、前端与后端示例和部署流水线，帮助开发者快速生成、部署并托管全栈 AI 应用。

-- 评分加载中

CSGHub

一个开源的 LLM 资产与生命周期管理平台，支持 SaaS 与本地部署并兼容 Python SDK。

-- 评分加载中

Envoy AI Gateway

基于 Envoy Proxy 的 AI API 网关，为 AI 服务提供高性能的路由、负载均衡和安全管理。

-- 评分加载中

Gateway API Inference Extension

将 Gateway API 与外部处理扩展结合，构建 Kubernetes 原生的推理网关以优化生成式 AI 推理部署。

-- 评分加载中

Higress

基于 Istio 和 Envoy 的云原生 API 网关，支持 Wasm 插件和 AI Gateway 功能，包括 MCP 托管与多模型集成。

-- 评分加载中

LiteLLM

LiteLLM 是一个轻量级的 LLM 支持与代理框架，提供统一的 OpenAI 格式代理、路由、限流与可插拔的模型提供商支持，适合用于构建 LLM Gateway。

-- 评分加载中

llms.py

轻量的多提供商 LLM 客户端，提供兼容 OpenAI 的服务器 API 与可选的聊天 UI。

-- 评分加载中

LocalAGI

LocalAGI 是一个可自托管的智能体平台，强调隐私、本地运行与丰富的连接器生态。

-- 评分加载中

Obot

开源的 MCP 网关与 AI 平台，支持自托管或云端部署，提供聊天、管理与审计功能。

-- 评分加载中

Plano

Plano 是一个开源 AI 网关与策略运行时，用于在生产环境中对 LLM/API 流量进行路由、安全治理与可观测性管理。

-- 评分加载中

ToolHive

一套用于部署与治理 MCP 服务器的企业级平台，提供注册中心、运行时、网关与门户组件。

-- 评分加载中

vLLM Semantic Router

智能的 Mixture-of-Models 路由器，用于提高大模型推理的效率和准确性。

-- 评分加载中