AI AIBrix
AIBrix 是一个面向大规模 LLM 推理的云原生基础设施框架,提供高可扩展性与成本效率的推理组件。
模型推理服务化、执行运行时、加速和访问路由能力。
推理服务框架和生产部署方案。
AI AIBrix 是一个面向大规模 LLM 推理的云原生基础设施框架,提供高可扩展性与成本效率的推理组件。
BE BentoML:用于将机器学习模型打包、容器化并在生产环境中高效部署与服务化的开源框架。
BE 面向大规模 AI 工作负载的开源无服务器推理引擎,支持快速容器启动与 GPU 支持。
DY 面向数据中心级分布式推理的开源框架,优化多 GPU / 多节点场景下的大模型推理与调度,支持多种引擎(vLLM、SGLang、TensorRT-LLM)。
GO 一个开源的可持久计算平台,使构建和部署高可靠分布式系统更容易。
GP 面向 GPU 集群管理与训练与推理编排的开源平台,聚焦资源利用率与运维可观测性。
HA HAMi 是一款面向异构 AI 计算的虚拟化中间件,提供统一的资源抽象、调度与管理能力,便于在多种加速器与集群环境中部署 AI 工作负载。
KA Kaito 是一个面向 Kubernetes 的 AI 工具链 Operator,自动化大模型推理与调优工作流并支持 RAG 引擎与节点自动扩容。
KS KServe:Kubernetes 原生的标准化模型推理与生成式 AI 服务平台,支持高可扩展性、自动伸缩与多框架的生产部署。
KV 将操作系统风格的虚拟内存抽象带入 LLM 系统,提供弹性按需的 KV 缓存分配,从而提升 GPU 在动态负载下的利用率。
LM 面向 LLM 服务的高性能 KV 缓存层,旨在降低首次响应时间并提升吞吐量,特别适用于长上下文场景和多轮对话。
MO 面向生产的开放式 AI 平台,包含 MAX 推理服务器与 Mojo 库,用于加速模型部署与跨硬件运行。
NV NVIDIA Cloud Functions(NVCF)是面向 GPU 加速推理和流式工作负载的 serverless 平台,支撑 build.nvidia.com。
OM 面向 Apple Silicon 的 LLM 推理服务器,支持连续批处理和 SSD 缓存,可直接从 macOS 菜单栏管理。
RO Roboflow Inference 是一个面向计算机视觉的推理与工作流平台,支持本地与云端部署、视频流工作流与丰富的模型集成。
TE NVIDIA 开源大模型推理优化工具箱,专为 GPU 高效推理和企业级部署设计。
TR Triton Inference Server:NVIDIA 高性能推理服务器,支持多种模型格式和多样化部署方式。
VL 面向大模型的高吞吐、内存高效推理与服务引擎。
高性能推理内核与执行引擎。
AM 微软推出的开发与部署辅助工具,专注于 AI 项目的性能分析、模型部署和流水线支持。
CA Hugging Face 的 Candle:一个以 Rust 为核心、面向高性能与无 Python 运行时的轻量级机器学习框架。
CH 一个面向生产的大模型推理框架,提供高性能、多算力适配与可伸缩部署能力。
CO Google Coral 提供的面向边缘设备的能效型机器学习加速器核心。
DE 实现干净且高效的 FP8 GEMM(矩阵乘加)内核,提供细粒度缩放以支持更高效的低精度矩阵计算。
EX exo:在家中用日常设备组成 AI 集群,支持跨设备分布式推理与 ChatGPT 兼容 API。
FL 高性能且节省内存的精确注意力实现,专为大规模 Transformer 的训练与推理场景优化。
FL 基于 Triton 的 PyTorch 库,提供高效线性注意力内核与模型组件。
FL FlashInfer 是一个面向 LLM 推理与服务的高性能内核库,提供高效的 attention 与采样内核以提升 GPU 推理吞吐与延迟表现。
GE 通用物理仿真与生成式数据平台,面向机器人与具身智能的开源物理引擎。
GP gpt-oss 是 OpenAI 发布的开源权重系列模型,面向高推理能力与可定制化的开发场景。
KA 一个 Kubernetes 原生的大规模 AI 工作负载调度器,为容器化 AI 训练与推理工作流提供高效的资源编排与优化能力。
KT 面向 LLM 推理优化的灵活框架,提供内核注入、前缀缓存与多种 GPU/CPU 加速策略。
KU 用于在 Kubernetes 上部署和扩展模型的推理操作器,支持 LLM、嵌入与语音转写等场景。
KU KubeRay 是 Ray 官方的开源 Kubernetes operator,用于简化在 Kubernetes 上部署与管理 Ray 应用。
LI 面向边缘设备的高性能、可扩展轻量级深度学习推理运行时。
LL llama.cpp 是一个用 C/C++ 实现的轻量级 LLM 推理库,旨在在不同硬件上实现高效推理。
LL 用于在 Kubernetes 上进行高性能分布式推理的开源栈,提供调度、分发与性能优化路径。
MA 一本面向真实世界 AI 系统工程的开源教材,覆盖从边缘设备到云端部署的系统设计与实践。
MI 一个轻量而高性能的大语言模型推理框架,兼顾工程化与可读性。
MI mistral.rs 是一个用 Rust 实现的轻量级、高性能的 Mistral 模型推理库,适合在资源受限环境中运行小到中等规模模型。
ML 在 Apple Silicon 上运行与微调 LLM 的 Python 工具包,支持模型量化、分布式推理与 Hugging Face 集成。
MO Mooncake 是一个以 KVCache 为中心的分布式 LLM 服务架构,提供高性能的 Transfer Engine 与分布式 KVCache 存储。
NC 针对多 GPU 环境的高性能集合通信库,优化 PCIe、NVLink、NVSwitch 与 RDMA 网络下的带宽与延迟。
OL 本地大语言模型运行工具,让用户能够在本地环境中轻松运行和管理各种开源 LLM 模型。
ON ONNX 是一个开放的模型交换格式与生态,旨在提高机器学习模型在框架、工具与硬件之间的互操作性。
ON ONNX Runtime 是一个跨平台的高性能机器学习推理与训练加速器,支持从 PyTorch、TensorFlow 等导出的模型在多种硬件上高效运行。
OP OpenVINO:Intel 提供的推理优化工具套件,专注于在 Intel 硬件上加速深度学习模型的推理。
OU 面向结构化生成的库,简化从 LLM 直接生成并验证 JSON/Pydantic 结构化输出的流程。
RA RamaLama 是一个通过 OCI 容器简化本地与生产环境 AI 模型部署与推理的开源工具。
SG 高性能开源大模型推理与服务框架,支持多模态、极致并发与灵活前端编程。
SP 一个面向时序数据与应用集成的开源加速引擎,提供 SQL 查询、全文检索与 LLM 推理能力。
TI tinygrad 是一个极简的深度学习库,旨在以最小的代码量演示深度学习的核心原理,适合教学与轻量实验使用。
TR Triton 是一个面向高性能深度学习算子与编译器开发的语言与工具链,旨在简化 GPU 算子开发并提升性能。
VL 一个为 vLLM 提供 Kubernetes 原生集群部署与性能优化的参考系统。
XG 高效、灵活且可移植的结构化生成引擎,提供对 JSON/自定义 CFG 的约束解码以保证输出结构正确。
XI 面向模型部署的推理与服务框架,支持多后端、分布式和 OpenAI 兼容接口,便于在云端或本地快速部署模型。
代码执行沙箱、代理执行环境和隔离运行时。
AG Google 开源的分布式智能体运行时,协调智能体循环、管理执行日志,提供原生恢复和续域能力,支持可靠的智能体部署。
AG 一个由 Kubernetes SIGs 发起的智能体沙箱项目,旨在提供可扩展、安全的智能体执行与编排平台原型。
AI 面向 AI 智能体的一体化沙箱环境,组合浏览器、Shell、文件系统、MCP 与 VSCode 服务,便于开发与测试。
BO 一个用于嵌入、沙箱运行与交付智能体的轻量化运行时与容器化工具集。
CU 基于 RustVMM 和 KVM 构建的高性能硬件隔离沙箱服务,兼容 E2B SDK,冷启动低于 60ms,专为 AI 智能体设计。
DA 用于安全执行 AI 生成代码的弹性基础设施,提供隔离沙箱、并发执行与持久化沙箱能力。
E2 用于 AI 应用和智能体的安全开源云运行时环境。
FL 一个以 Nix 为核心、可复现且可分享的开发环境与包管理工具。
LI 一个面向安全的 library OS,支持内核与用户态受限执行,用于将宿主接口最小化并降低攻击面。
MO 一个用 Rust 实现的轻量、安全的 Python 解释器,专为在智能体中安全执行 LLM 生成的代码设计。
OM OpenMind 的模块化 AI 运行时,面向多模态代理与机器人应用,支持传感器、LIDAR、相机与动作执行
OP 通用的 AI 场景沙箱平台,提供多语言 SDK、统一协议与可扩展运行时。
OP NVIDIA OpenShell 是面向自主 AI 智能体的安全、私密运行时环境,通过声明式 YAML 策略提供沙箱隔离执行,保护用户数据、凭证与基础设施免受未授权访问。
SA 一个轻量级的沙箱工具,用于在操作系统层面对任意进程实施文件系统与网络访问限制。
GPU 算子优化、并行与吞吐优化。
CU CUDA Templates for Linear Algebra Subroutines(CUTLASS),NVIDIA 提供的高性能矩阵运算模板库。
FL 高效的多头潜在注意力(Multi-head Latent Attention)内核,旨在为大规模 Transformer 推理与训练提供更快、更节省内存的注意力实现。
TI TileLang 是一个面向高性能 AI 工作负载的领域特定语言,用于简化 GPU/CPU/加速器核的开发。
TR NVIDIA 的 Transformer Engine,提供针对 Transformer 的高性能内核与混合精度支持。
XL XLA(Accelerated Linear Algebra)是一个用于机器学习模型编译的高性能编译器,能够为 CPU、GPU 与专用加速器生成高效执行代码。
端侧设备和本地环境推理。
CA 面向手机的能效推理引擎与数值计算框架,优化 ARM CPU 执行以在移动设备上高效运行大模型。
GG ggml 是一个面向机器学习的轻量级张量库,适配多种硬件与量化方案。
TR Transformers.js:在浏览器与 Node 环境中运行 Hugging Face Transformers 的 JavaScript 实现,支持多模态任务与预编译 WASM/ONNX 加速。
WE 高性能的浏览器端 LLM 推理引擎,利用 WebGPU 在浏览器内实现硬件加速和隐私保护。
模型路由、代理、成本与策略治理。
AG 面向 agent 的高性能代理数据平面,为 agent-to-agent 与 agent-to-tool 提供安全、可观测与治理能力。
AI Portkey 的 AI Gateway 是一个高性能、企业级的 LLM 路由与治理平台,支持多种模型提供方与丰富的守护规则。
AR ArchGW 是一个面向 agent 的模型原生代理服务器,提供路由、护栏、工具调用与端到端可观测能力。
CL 智能代码路由工具,优化 Claude AI 在代码开发中的请求分发和响应处理,提升开发效率。
CL ClawRouter 是一个专为 AI 智能体设计的 LLM 路由器,支持智能路由、成本优化和微支付,由 BlockRunAI 为 OpenClaw 打造。
CL CloudBase AI ToolKit 提供开箱即用的 AI IDE、前端与后端示例和部署流水线,帮助开发者快速生成、部署并托管全栈 AI 应用。
EN 基于 Envoy Proxy 的 AI API 网关,为 AI 服务提供高性能的路由、负载均衡和安全管理。
GA 将 Gateway API 与外部处理扩展结合,构建 Kubernetes 原生的推理网关以优化生成式 AI 推理部署。
HI 基于 Istio 和 Envoy 的云原生 API 网关,支持 Wasm 插件和 AI Gateway 功能,包括 MCP 托管与多模型集成。
LI LiteLLM 是一个轻量级的 LLM 支持与代理框架,提供统一的 OpenAI 格式代理、路由、限流与可插拔的模型提供商支持,适合用于构建 LLM Gateway。
LL 轻量的多提供商 LLM 客户端,提供兼容 OpenAI 的服务器 API 与可选的聊天 UI。
PL Plano 是一个开源 AI 网关与策略运行时,用于在生产环境中对 LLM/API 流量进行路由、安全治理与可观测性管理。
SU 为应用、模型与工具之间提供运行时保护与受控代理,检测提示注入并验证工具调用。
VL 智能的 Mixture-of-Models 路由器,用于提高大模型推理的效率和准确性。
没有项目匹配当前筛选条件。