BE BentoML
BentoML:用于将机器学习模型打包、容器化并在生产环境中高效部署与服务化的开源框架。
模型推理服务化、执行运行时、加速和访问路由能力。
推理服务框架和生产部署方案。
BE BentoML:用于将机器学习模型打包、容器化并在生产环境中高效部署与服务化的开源框架。
BE 面向大规模 AI 工作负载的开源无服务器推理引擎,支持快速容器启动与 GPU 支持。
GO 一个开源的可持久计算平台,使构建和部署高可靠分布式系统更容易。
HA HAMi 是一款面向异构 AI 计算的虚拟化中间件,提供统一的资源抽象、调度与管理能力,便于在多种加速器与集群环境中部署 AI 工作负载。
KS KServe:Kubernetes 原生的标准化模型推理与生成式 AI 服务平台,支持高可扩展性、自动伸缩与多框架的生产部署。
KV 将操作系统风格的虚拟内存抽象带入 LLM 系统,提供弹性按需的 KV 缓存分配,从而提升 GPU 在动态负载下的利用率。
MO 统一 API、后台作业、事件流和 AI 智能体的后端框架,类似 React 用于服务器端逻辑,支持多种编程语言和实时可视化。
OM 面向 Apple Silicon 的 LLM 推理服务器,支持连续批处理和 SSD 缓存,可直接从 macOS 菜单栏管理。
TR Triton Inference Server:NVIDIA 高性能推理服务器,支持多种模型格式和多样化部署方式。
高性能推理内核与执行引擎。
AM 微软推出的开发与部署辅助工具,专注于 AI 项目的性能分析、模型部署和流水线支持。
AP 一个用于大规模数据处理的统一分析引擎,支持批处理、流处理和机器学习。
CH 一个面向生产的大模型推理框架,提供高性能、多算力适配与可伸缩部署能力。
CO 一个面向工程复合场景的开源插件,提供与 Claude Code 集成的复合工程能力。
CO Google Coral 提供的面向边缘设备的能效型机器学习加速器核心。
DE 实现干净且高效的 FP8 GEMM(矩阵乘加)内核,提供细粒度缩放以支持更高效的低精度矩阵计算。
DE 一个高性能的深度学习训练与推理优化库,可显著加速大规模模型的训练与推理并降低成本。
EX exo:在家中用日常设备组成 AI 集群,支持跨设备分布式推理与 ChatGPT 兼容 API。
FL 基于 Triton 的 PyTorch 库,提供高效线性注意力内核与模型组件。
FL FlashInfer 是一个面向 LLM 推理与服务的高性能内核库,提供高效的 attention 与采样内核以提升 GPU 推理吞吐与延迟表现。
GE 通用物理仿真与生成式数据平台,面向机器人与具身智能的开源物理引擎。
GG ggml 是一个面向机器学习的轻量级张量库,适配多种硬件与量化方案。
GP gpt-oss 是 OpenAI 发布的开源权重系列模型,面向高推理能力与可定制化的开发场景。
KA 一个 Kubernetes 原生的大规模 AI 工作负载调度器,为容器化 AI 训练与推理工作流提供高效的资源编排与优化能力。
KT 面向 LLM 推理优化的灵活框架,提供内核注入、前缀缓存与多种 GPU/CPU 加速策略。
KU 用于在 Kubernetes 上部署和扩展模型的推理操作器,支持 LLM、嵌入与语音转写等场景。
KU KubeRay 是 Ray 官方的开源 Kubernetes operator,用于简化在 Kubernetes 上部署与管理 Ray 应用。
LI 面向边缘设备的高性能、可扩展轻量级深度学习推理运行时。
LL 用于在 Kubernetes 上进行高性能分布式推理的开源栈,提供调度、分发与性能优化路径。
MA 一本面向真实世界 AI 系统工程的开源教材,覆盖从边缘设备到云端部署的系统设计与实践。
MI 一个轻量而高性能的大语言模型推理框架,兼顾工程化与可读性。
MI mistral.rs 是一个用 Rust 实现的轻量级、高性能的 Mistral 模型推理库,适合在资源受限环境中运行小到中等规模模型。
MO Mooncake 是一个以 KVCache 为中心的分布式 LLM 服务架构,提供高性能的 Transfer Engine 与分布式 KVCache 存储。
NC 针对多 GPU 环境的高性能集合通信库,优化 PCIe、NVLink、NVSwitch 与 RDMA 网络下的带宽与延迟。
NE 基于 NVIDIA Warp 的 GPU 加速物理仿真引擎,面向机器人与仿真研究。
NV NVIDIA GPU Operator 在 Kubernetes 中自动部署、配置并管理 GPU 相关组件与驱动。
ON ONNX 是一个开放的模型交换格式与生态,旨在提高机器学习模型在框架、工具与硬件之间的互操作性。
ON ONNX Runtime 是一个跨平台的高性能机器学习推理与训练加速器,支持从 PyTorch、TensorFlow 等导出的模型在多种硬件上高效运行。
OP OpenVINO:Intel 提供的推理优化工具套件,专注于在 Intel 硬件上加速深度学习模型的推理。
RA RamaLama 是一个通过 OCI 容器简化本地与生产环境 AI 模型部署与推理的开源工具。
SP 一个面向时序数据与应用集成的开源加速引擎,提供 SQL 查询、全文检索与 LLM 推理能力。
TI tinygrad 是一个极简的深度学习库,旨在以最小的代码量演示深度学习的核心原理,适合教学与轻量实验使用。
TR Triton 是一个面向高性能深度学习算子与编译器开发的语言与工具链,旨在简化 GPU 算子开发并提升性能。
VL 一个为 vLLM 提供 Kubernetes 原生集群部署与性能优化的参考系统。
XG 高效、灵活且可移植的结构化生成引擎,提供对 JSON/自定义 CFG 的约束解码以保证输出结构正确。
XI 面向模型部署的推理与服务框架,支持多后端、分布式和 OpenAI 兼容接口,便于在云端或本地快速部署模型。
代码执行沙箱、代理执行环境和隔离运行时。
AG 一个由 Kubernetes SIGs 发起的智能体沙箱项目,旨在提供可扩展、安全的智能体执行与编排平台原型。
BO 一个用于嵌入、沙箱运行与交付智能体的轻量化运行时与容器化工具集。
E2 用于 AI 应用和智能体的安全开源云运行时环境。
FL 一个以 Nix 为核心、可复现且可分享的开发环境与包管理工具。
OM OpenMind 的模块化 AI 运行时,面向多模态代理与机器人应用,支持传感器、LIDAR、相机与动作执行
OP 通用的 AI 场景沙箱平台,提供多语言 SDK、统一协议与可扩展运行时。
SA 一个轻量级的沙箱工具,用于在操作系统层面对任意进程实施文件系统与网络访问限制。
GPU 算子优化、并行与吞吐优化。
端侧设备和本地环境推理。
TR Transformers.js:在浏览器与 Node 环境中运行 Hugging Face Transformers 的 JavaScript 实现,支持多模态任务与预编译 WASM/ONNX 加速。
模型路由、代理、成本与策略治理。
AG 面向 agent 的高性能代理数据平面,为 agent-to-agent 与 agent-to-tool 提供安全、可观测与治理能力。
AI Portkey 的 AI Gateway 是一个高性能、企业级的 LLM 路由与治理平台,支持多种模型提供方与丰富的守护规则。
AR ArchGW 是一个面向 agent 的模型原生代理服务器,提供路由、护栏、工具调用与端到端可观测能力。
CL 智能代码路由工具,优化 Claude AI 在代码开发中的请求分发和响应处理,提升开发效率。
CL ClawRouter 是一个专为 AI 智能体设计的 LLM 路由器,支持智能路由、成本优化和微支付,由 BlockRunAI 为 OpenClaw 打造。
CL CloudBase AI ToolKit 提供开箱即用的 AI IDE、前端与后端示例和部署流水线,帮助开发者快速生成、部署并托管全栈 AI 应用。
CS 一个开源的 LLM 资产与生命周期管理平台,支持 SaaS 与本地部署并兼容 Python SDK。
EN 基于 Envoy Proxy 的 AI API 网关,为 AI 服务提供高性能的路由、负载均衡和安全管理。
GA 将 Gateway API 与外部处理扩展结合,构建 Kubernetes 原生的推理网关以优化生成式 AI 推理部署。
HI 基于 Istio 和 Envoy 的云原生 API 网关,支持 Wasm 插件和 AI Gateway 功能,包括 MCP 托管与多模型集成。
LI LiteLLM 是一个轻量级的 LLM 支持与代理框架,提供统一的 OpenAI 格式代理、路由、限流与可插拔的模型提供商支持,适合用于构建 LLM Gateway。
LL 轻量的多提供商 LLM 客户端,提供兼容 OpenAI 的服务器 API 与可选的聊天 UI。
LO LocalAGI 是一个可自托管的智能体平台,强调隐私、本地运行与丰富的连接器生态。
OB 开源的 MCP 网关与 AI 平台,支持自托管或云端部署,提供聊天、管理与审计功能。
PL Plano 是一个开源 AI 网关与策略运行时,用于在生产环境中对 LLM/API 流量进行路由、安全治理与可观测性管理。
TO 一套用于部署与治理 MCP 服务器的企业级平台,提供注册中心、运行时、网关与门户组件。
VL 智能的 Mixture-of-Models 路由器,用于提高大模型推理的效率和准确性。
没有项目匹配当前筛选条件。