推理与运行时

模型推理服务化、执行运行时、加速和访问路由能力。

92 项目 6 子类 52 标签

已跟踪不可访问已归档不活跃

推理服务框架和生产部署方案。

AIBrix

AIBrix 是一个面向大规模 LLM 推理的云原生基础设施框架，提供高可扩展性与成本效率的推理组件。

-- 评分加载中

BentoML

BentoML：用于将机器学习模型打包、容器化并在生产环境中高效部署与服务化的开源框架。

-- 评分加载中

Beta9

面向大规模 AI 工作负载的开源无服务器推理引擎，支持快速容器启动与 GPU 支持。

-- 评分加载中

Dynamo

面向数据中心级分布式推理的开源框架，优化多 GPU / 多节点场景下的大模型推理与调度，支持多种引擎（vLLM、SGLang、TensorRT-LLM）。

-- 评分加载中

Golem

一个开源的可持久计算平台，使构建和部署高可靠分布式系统更容易。

-- 评分加载中

gpustack

面向 GPU 集群管理与训练与推理编排的开源平台，聚焦资源利用率与运维可观测性。

-- 评分加载中

HAMi

HAMi 是一款面向异构 AI 计算的虚拟化中间件，提供统一的资源抽象、调度与管理能力，便于在多种加速器与集群环境中部署 AI 工作负载。

-- 评分加载中

Kaito

Kaito 是一个面向 Kubernetes 的 AI 工具链 Operator，自动化大模型推理与调优工作流并支持 RAG 引擎与节点自动扩容。

-- 评分加载中

KServe

KServe：Kubernetes 原生的标准化模型推理与生成式 AI 服务平台，支持高可扩展性、自动伸缩与多框架的生产部署。

-- 评分加载中

kvcached

将操作系统风格的虚拟内存抽象带入 LLM 系统，提供弹性按需的 KV 缓存分配，从而提升 GPU 在动态负载下的利用率。

-- 评分加载中

LMCache

面向 LLM 服务的高性能 KV 缓存层，旨在降低首次响应时间并提升吞吐量，特别适用于长上下文场景和多轮对话。

-- 评分加载中

Modular Platform

面向生产的开放式 AI 平台，包含 MAX 推理服务器与 Mojo 库，用于加速模型部署与跨硬件运行。

-- 评分加载中

NVIDIA Cloud Functions

NVIDIA Cloud Functions（NVCF）是面向 GPU 加速推理和流式工作负载的 serverless 平台，支撑 build.nvidia.com。

-- 评分加载中

oMLX

面向 Apple Silicon 的 LLM 推理服务器，支持连续批处理和 SSD 缓存，可直接从 macOS 菜单栏管理。

-- 评分加载中

Roboflow Inference

Roboflow Inference 是一个面向计算机视觉的推理与工作流平台，支持本地与云端部署、视频流工作流与丰富的模型集成。

-- 评分加载中

TensorRT-LLM

NVIDIA 开源大模型推理优化工具箱，专为 GPU 高效推理和企业级部署设计。

-- 评分加载中

Triton Inference Server

Triton Inference Server：NVIDIA 高性能推理服务器，支持多种模型格式和多样化部署方式。

-- 评分加载中

vLLM

面向大模型的高吞吐、内存高效推理与服务引擎。

-- 评分加载中

高性能推理内核与执行引擎。

Amplifier

微软推出的开发与部署辅助工具，专注于 AI 项目的性能分析、模型部署和流水线支持。

-- 评分加载中

Candle

Hugging Face 的 Candle：一个以 Rust 为核心、面向高性能与无 Python 运行时的轻量级机器学习框架。

-- 评分加载中

Chitu

一个面向生产的大模型推理框架，提供高性能、多算力适配与可伸缩部署能力。

-- 评分加载中

Coral NPU

Google Coral 提供的面向边缘设备的能效型机器学习加速器核心。

-- 评分加载中

DeepGEMM

实现干净且高效的 FP8 GEMM（矩阵乘加）内核，提供细粒度缩放以支持更高效的低精度矩阵计算。

-- 评分加载中

exo

exo：在家中用日常设备组成 AI 集群，支持跨设备分布式推理与 ChatGPT 兼容 API。

-- 评分加载中

Flash Attention

高性能且节省内存的精确注意力实现，专为大规模 Transformer 的训练与推理场景优化。

-- 评分加载中

Flash Linear Attention (fla)

基于 Triton 的 PyTorch 库，提供高效线性注意力内核与模型组件。

-- 评分加载中

FlashInfer

FlashInfer 是一个面向 LLM 推理与服务的高性能内核库，提供高效的 attention 与采样内核以提升 GPU 推理吞吐与延迟表现。

-- 评分加载中

Genesis

通用物理仿真与生成式数据平台，面向机器人与具身智能的开源物理引擎。

-- 评分加载中

gpt-oss

gpt-oss 是 OpenAI 发布的开源权重系列模型，面向高推理能力与可定制化的开发场景。

-- 评分加载中

KAI Scheduler

一个 Kubernetes 原生的大规模 AI 工作负载调度器，为容器化 AI 训练与推理工作流提供高效的资源编排与优化能力。

-- 评分加载中

KTransformers

面向 LLM 推理优化的灵活框架，提供内核注入、前缀缓存与多种 GPU/CPU 加速策略。

-- 评分加载中

KubeAI

用于在 Kubernetes 上部署和扩展模型的推理操作器，支持 LLM、嵌入与语音转写等场景。

-- 评分加载中

KubeRay

KubeRay 是 Ray 官方的开源 Kubernetes operator，用于简化在 Kubernetes 上部署与管理 Ray 应用。

-- 评分加载中

LiteRT

面向边缘设备的高性能、可扩展轻量级深度学习推理运行时。

-- 评分加载中

llama.cpp

llama.cpp 是一个用 C/C++ 实现的轻量级 LLM 推理库，旨在在不同硬件上实现高效推理。

-- 评分加载中

llm-d

用于在 Kubernetes 上进行高性能分布式推理的开源栈，提供调度、分发与性能优化路径。

-- 评分加载中

Machine Learning Systems (MLSysBook)

一本面向真实世界 AI 系统工程的开源教材，覆盖从边缘设备到云端部署的系统设计与实践。

-- 评分加载中

Mini-SGLang

一个轻量而高性能的大语言模型推理框架，兼顾工程化与可读性。

-- 评分加载中

mistral.rs

mistral.rs 是一个用 Rust 实现的轻量级、高性能的 Mistral 模型推理库，适合在资源受限环境中运行小到中等规模模型。

-- 评分加载中

MLX LM

在 Apple Silicon 上运行与微调 LLM 的 Python 工具包，支持模型量化、分布式推理与 Hugging Face 集成。

-- 评分加载中

Mooncake

Mooncake 是一个以 KVCache 为中心的分布式 LLM 服务架构，提供高性能的 Transfer Engine 与分布式 KVCache 存储。

-- 评分加载中

NCCL

针对多 GPU 环境的高性能集合通信库，优化 PCIe、NVLink、NVSwitch 与 RDMA 网络下的带宽与延迟。

-- 评分加载中

Ollama

本地大语言模型运行工具，让用户能够在本地环境中轻松运行和管理各种开源 LLM 模型。

-- 评分加载中

ONNX

ONNX 是一个开放的模型交换格式与生态，旨在提高机器学习模型在框架、工具与硬件之间的互操作性。

-- 评分加载中

ONNX Runtime

ONNX Runtime 是一个跨平台的高性能机器学习推理与训练加速器，支持从 PyTorch、TensorFlow 等导出的模型在多种硬件上高效运行。

-- 评分加载中

OpenVINO

OpenVINO：Intel 提供的推理优化工具套件，专注于在 Intel 硬件上加速深度学习模型的推理。

-- 评分加载中

Outlines

面向结构化生成的库，简化从 LLM 直接生成并验证 JSON/Pydantic 结构化输出的流程。

-- 评分加载中

RamaLama

RamaLama 是一个通过 OCI 容器简化本地与生产环境 AI 模型部署与推理的开源工具。

-- 评分加载中

SGLang

高性能开源大模型推理与服务框架，支持多模态、极致并发与灵活前端编程。

-- 评分加载中

Spice.ai

一个面向时序数据与应用集成的开源加速引擎，提供 SQL 查询、全文检索与 LLM 推理能力。

-- 评分加载中

tinygrad

tinygrad 是一个极简的深度学习库，旨在以最小的代码量演示深度学习的核心原理，适合教学与轻量实验使用。

-- 评分加载中

Triton

Triton 是一个面向高性能深度学习算子与编译器开发的语言与工具链，旨在简化 GPU 算子开发并提升性能。

-- 评分加载中

vLLM Production Stack

一个为 vLLM 提供 Kubernetes 原生集群部署与性能优化的参考系统。

-- 评分加载中

XGrammar

高效、灵活且可移植的结构化生成引擎，提供对 JSON/自定义 CFG 的约束解码以保证输出结构正确。

-- 评分加载中

Xinference (Xorbits Inference)

面向模型部署的推理与服务框架，支持多后端、分布式和 OpenAI 兼容接口，便于在云端或本地快速部署模型。

-- 评分加载中

代码执行沙箱、代理执行环境和隔离运行时。

Agent Executor (AX)

Google 开源的分布式智能体运行时，协调智能体循环、管理执行日志，提供原生恢复和续域能力，支持可靠的智能体部署。

-- 评分加载中

Agent Sandbox

一个由 Kubernetes SIGs 发起的智能体沙箱项目，旨在提供可扩展、安全的智能体执行与编排平台原型。

-- 评分加载中

AIO Sandbox

面向 AI 智能体的一体化沙箱环境，组合浏览器、Shell、文件系统、MCP 与 VSCode 服务，便于开发与测试。

-- 评分加载中

BoxLite

一个用于嵌入、沙箱运行与交付智能体的轻量化运行时与容器化工具集。

-- 评分加载中

CubeSandbox

基于 RustVMM 和 KVM 构建的高性能硬件隔离沙箱服务，兼容 E2B SDK，冷启动低于 60ms，专为 AI 智能体设计。

-- 评分加载中

Daytona

用于安全执行 AI 生成代码的弹性基础设施，提供隔离沙箱、并发执行与持久化沙箱能力。

-- 评分加载中

E2B

用于 AI 应用和智能体的安全开源云运行时环境。

-- 评分加载中

Flox

一个以 Nix 为核心、可复现且可分享的开发环境与包管理工具。

-- 评分加载中

LiteBox

一个面向安全的 library OS，支持内核与用户态受限执行，用于将宿主接口最小化并降低攻击面。

-- 评分加载中

Monty

一个用 Rust 实现的轻量、安全的 Python 解释器，专为在智能体中安全执行 LLM 生成的代码设计。

-- 评分加载中

OM1

OpenMind 的模块化 AI 运行时，面向多模态代理与机器人应用，支持传感器、LIDAR、相机与动作执行

-- 评分加载中

OpenSandbox

通用的 AI 场景沙箱平台，提供多语言 SDK、统一协议与可扩展运行时。

-- 评分加载中

OpenShell

NVIDIA OpenShell 是面向自主 AI 智能体的安全、私密运行时环境，通过声明式 YAML 策略提供沙箱隔离执行，保护用户数据、凭证与基础设施免受未授权访问。

-- 评分加载中

Sandbox Runtime

一个轻量级的沙箱工具，用于在操作系统层面对任意进程实施文件系统与网络访问限制。

-- 评分加载中

GPU 算子优化、并行与吞吐优化。

CUTLASS

CUDA Templates for Linear Algebra Subroutines（CUTLASS），NVIDIA 提供的高性能矩阵运算模板库。

-- 评分加载中

FlashMLA

高效的多头潜在注意力（Multi-head Latent Attention）内核，旨在为大规模 Transformer 推理与训练提供更快、更节省内存的注意力实现。

-- 评分加载中

TileLang

TileLang 是一个面向高性能 AI 工作负载的领域特定语言，用于简化 GPU/CPU/加速器核的开发。

-- 评分加载中

Transformer Engine

NVIDIA 的 Transformer Engine，提供针对 Transformer 的高性能内核与混合精度支持。

-- 评分加载中

XLA

XLA（Accelerated Linear Algebra）是一个用于机器学习模型编译的高性能编译器，能够为 CPU、GPU 与专用加速器生成高效执行代码。

-- 评分加载中

端侧设备和本地环境推理。

Cactus

面向手机的能效推理引擎与数值计算框架，优化 ARM CPU 执行以在移动设备上高效运行大模型。

-- 评分加载中

ggml

ggml 是一个面向机器学习的轻量级张量库，适配多种硬件与量化方案。

-- 评分加载中

Transformers.js

Transformers.js：在浏览器与 Node 环境中运行 Hugging Face Transformers 的 JavaScript 实现，支持多模态任务与预编译 WASM/ONNX 加速。

-- 评分加载中

WebLLM

高性能的浏览器端 LLM 推理引擎，利用 WebGPU 在浏览器内实现硬件加速和隐私保护。

-- 评分加载中

模型路由、代理、成本与策略治理。

agentgateway

面向 agent 的高性能代理数据平面，为 agent-to-agent 与 agent-to-tool 提供安全、可观测与治理能力。

-- 评分加载中

AI Gateway (Portkey)

Portkey 的 AI Gateway 是一个高性能、企业级的 LLM 路由与治理平台，支持多种模型提供方与丰富的守护规则。

-- 评分加载中

ArchGW

ArchGW 是一个面向 agent 的模型原生代理服务器，提供路由、护栏、工具调用与端到端可观测能力。

-- 评分加载中

Claude Code Router

智能代码路由工具，优化 Claude AI 在代码开发中的请求分发和响应处理，提升开发效率。

-- 评分加载中

ClawRouter

ClawRouter 是一个专为 AI 智能体设计的 LLM 路由器，支持智能路由、成本优化和微支付，由 BlockRunAI 为 OpenClaw 打造。

-- 评分加载中

CloudBase AI ToolKit

CloudBase AI ToolKit 提供开箱即用的 AI IDE、前端与后端示例和部署流水线，帮助开发者快速生成、部署并托管全栈 AI 应用。

-- 评分加载中

Envoy AI Gateway

基于 Envoy Proxy 的 AI API 网关，为 AI 服务提供高性能的路由、负载均衡和安全管理。

-- 评分加载中

Gateway API Inference Extension

将 Gateway API 与外部处理扩展结合，构建 Kubernetes 原生的推理网关以优化生成式 AI 推理部署。

-- 评分加载中

Higress

基于 Istio 和 Envoy 的云原生 API 网关，支持 Wasm 插件和 AI Gateway 功能，包括 MCP 托管与多模型集成。

-- 评分加载中

LiteLLM

LiteLLM 是一个轻量级的 LLM 支持与代理框架，提供统一的 OpenAI 格式代理、路由、限流与可插拔的模型提供商支持，适合用于构建 LLM Gateway。

-- 评分加载中

llms.py

轻量的多提供商 LLM 客户端，提供兼容 OpenAI 的服务器 API 与可选的聊天 UI。

-- 评分加载中

Plano

Plano 是一个开源 AI 网关与策略运行时，用于在生产环境中对 LLM/API 流量进行路由、安全治理与可观测性管理。

-- 评分加载中

Superagent

为应用、模型与工具之间提供运行时保护与受控代理，检测提示注入并验证工具调用。

-- 评分加载中

vLLM Semantic Router

智能的 Mixture-of-Models 路由器，用于提高大模型推理的效率和准确性。

-- 评分加载中