知识与上下文工程

覆盖检索增强、上下文状态、索引构建、知识组织与数据接入能力。

91 项目 6 子类 47 标签

已跟踪不可访问已归档不活跃

记忆层、上下文压缩、长期状态与会话管理。

Acontext

面向自学习智能体的上下文数据平台，用于存储、观测与沉淀经验。

-- 评分加载中

Agentic Context Engine

Agentic Context Engine（ACE）是一个用于让智能体从经验中学习的上下文工程框架与实现。

-- 评分加载中

AgentMemory

AI 编程智能体的持久化记忆层，基于真实场景基准测试，支持跨会话上下文保持。

-- 评分加载中

Basic Memory

一种以本地 Markdown 为中心的记忆系统，允许 LLM 通过模型上下文协议（MCP）读写你的知识库。

-- 评分加载中

Claude Mem

一个为 Claude Code 提供的插件，自动捕获编码会话的上下文、用 AI 压缩并在未来会话中注入相关记忆。

-- 评分加载中

Letta

用于构建具备高级记忆与自我改进能力的有状态代理平台，支持本地与云端部署。

-- 评分加载中

LocalRecall

LocalRecall 提供本地化的记忆层与知识库管理，便于与智能体集成的 RAG 功能。

-- 评分加载中

Mem0

Mem0 是面向 AI Agent 的可扩展记忆层，旨在为对话与代理提供长期、个性化且高效的记忆存储与检索能力。

-- 评分加载中

Memanto

面向 AI Agent 的开源记忆层，提供 7 层记忆架构，支持长期记忆、语义记忆和 RAG 集成。

-- 评分加载中

MemOS

MemOS 是一个为大语言模型（LLM）提供长期记忆能力的开源 Memory OS，旨在提升模型的上下文感知与长期一致性。

-- 评分加载中

memU

memU 是开源的 AI 伴侣记忆框架，专注高准确率、快速检索与低成本，适配多种 AI 伴侣场景。

-- 评分加载中

OpenHuman

OpenHuman 是一款开源的个人 AI 超级智能助手，注重隐私保护，界面简洁且功能强大，支持 118+ 第三方服务集成、本地记忆树、Obsidian 知识库及原生语音交互。

-- 评分加载中

OpenMemory — Explainable Long-term Memory Engine

一个可自托管的多扇区语义记忆引擎，提供高召回、低成本且可解释的长期记忆能力。

-- 评分加载中

Supermemory

一个高性能、可扩展的记忆引擎与应用，提供面向 AI 时代的 Memory API，用于存储、检索与对话交互。

-- 评分加载中

TencentDB Agent Memory

腾讯推出的 AI 智能体本地长期记忆系统，通过四层渐进式管线实现全本地化记忆，零外部 API 依赖。

-- 评分加载中

向量存储、相似检索与 ANN 引擎。

Deep Lake

面向 AI 的数据库，提供对向量、图像、视频与文本的数据存储、检索、版本管理与流式加载功能。

-- 评分加载中

Faiss

高性能的向量相似性搜索与聚类库，适用于大规模向量检索与加速近邻搜索。

-- 评分加载中

Infinity

一个 AI 原生数据库，提供稠密/稀疏向量、张量、全文与结构化数据的高速混合检索能力。

-- 评分加载中

Milvus

Milvus 是一个高性能向量数据库，专为大规模非结构化数据处理而设计。

-- 评分加载中

pgvector

pgvector 是一个为 PostgreSQL 提供向量相似度检索能力的开源扩展，便于在数据库中存储与检索向量并支持近似/精确检索策略。

-- 评分加载中

Qdrant

Qdrant 是一款面向生产环境的向量搜索引擎与向量数据库，提供高性能相似度检索、量化支持、持久化以及多语言客户端，适用于语义搜索、推荐与检索增强生成等场景。

-- 评分加载中

SeekDB

一个 AI 原生搜索数据库，在单一引擎中统一向量、文本与结构化数据以支持混合检索与数据库内 AI 工作流。

-- 评分加载中

sqlite-vector

将嵌入向量存储与向量检索能力集成到 SQLite，提供跨平台的轻量向量数据库扩展。

-- 评分加载中

分块、召回、重排与索引构建。

Airweave

Airweave 是一个让代理可以检索任何应用数据的工具，支持将应用、生产力工具、数据库与文档存储的内容构建成可语义搜索的知识库。

-- 评分加载中

ART (Agent Reinforcement Trainer)

OpenPipe 出品的开源强化学习训练框架，用于对基于 LLM 的代理进行强化学习训练与微调。

-- 评分加载中

BISHENG

一个面向企业场景的开源 LLM DevOps 平台，提供工作流、RAG、模型管理与观测等功能。

-- 评分加载中

Chroma

Chroma 是开源的嵌入式向量数据库，专为 AI 应用设计，支持高效检索与存储，助力构建智能搜索与 RAG 系统。

-- 评分加载中

CocoIndex

一个面向 AI 的高性能数据处理与索引框架，支持增量处理与语义索引。

-- 评分加载中

DB-GPT

DB-GPT 是一个面向数据原生应用的框架，集成 RAG、Text2SQL、多模型路由等能力，旨在简化基于数据库的智能应用开发。

-- 评分加载中

DocsGPT

一个开源的企业级文档智能体平台，结合 RAG 与多模型支持以提供带来源引用的文档问答。

-- 评分加载中

Embedding Atlas

为大型嵌入提供交互式可视化的工具，支持可视化、交叉过滤和搜索嵌入及元数据。

-- 评分加载中

FastGPT

基于大语言模型的可视化 AI 应用构建平台，通过简单的拖拽操作连接各种数据源并嵌入自己的业务逻辑。

-- 评分加载中

FinGPT

开源的金融大语言模型项目，提供金融领域定制的数据管道、指令微调与 RAG 工具链。

-- 评分加载中

Firecrawl

一个面向 AI 的 Web 数据 API，将整个网站转换为干净的 markdown 或结构化数据，方便用于 RAG 与知识库构建。

-- 评分加载中

Generative AI on Google Cloud

Google Cloud 的 Generative AI 示例与笔记，展示如何在 Vertex AI 与 Gemini 上构建和部署生成式 AI 工作流。

-- 评分加载中

GraphRAG

GraphRAG 是微软研究提出的用于将知识图谱与 RAG 技术结合的开源工具集，旨在从文本中抽取结构化信息并支持复杂时序查询。

-- 评分加载中

Haystack

Haystack 是一个面向文档检索增强生成（RAG）与搜索应用的开源框架，方便将检索、索引与大模型组合成生产级查询与问答系统。

-- 评分加载中

Khoj

可自托管的"第二大脑"平台，用于将网页与文档转为可检索知识库并支持构建自定义智能体与自动化。

-- 评分加载中

LanceDB

对开发者友好的嵌入式多模态 AI 检索引擎。搜索更多，管理更少。

-- 评分加载中

LangChain

用于构建以 LLM 为核心的应用框架，支持丰富的集成与可扩展组件。

-- 评分加载中

LangChain4j

一个开源的 Java 库，提供统一 API 用于在企业级 Java 应用中集成大语言模型与向量数据库。

-- 评分加载中

LEANN

LEANN 是创新的向量数据库与个人 AI 平台，可将你的笔记本变为强大的 RAG 系统，支持本地语义检索数百万文档，存储节省 97%，无精度损失。

-- 评分加载中

LightRAG

LightRAG 是一个专注于简单高效的检索增强生成（RAG）工具包，支持文档索引、图谱抽取与服务化部署。

-- 评分加载中

LlamaFarm

LlamaFarm 提供在本地或远程快速部署 AI 模型、代理、向量数据库与 RAG 管道的开源平台。

-- 评分加载中

LlamaIndex

LlamaIndex 是一个面向 LLM 应用的数据框架，便于将私有数据接入并增强模型的检索和生成能力。

-- 评分加载中

LocalGPT

一个本地化的私有文档智能平台，支持混合检索与多模型推理，所有数据保存在本地。

-- 评分加载中

Marker

快速准确地将 PDF 转换为 Markdown、JSON、块和 HTML 的工具。

-- 评分加载中

Memori

一个基于 SQL 的开源记忆引擎，帮助大语言模型在会话间持久化与检索上下文。

-- 评分加载中

Memvid

将海量文本分块编码进视频文件，实现毫秒级语义检索与离线优先的知识存储。

-- 评分加载中

mgrep

一个面向 CLI 的语义检索工具，支持代码、文档与多媒体的自然语言搜索与实时索引。

-- 评分加载中

MineContext

MineContext 是一款主动式上下文感知 AI 工具，结合 Context-Engineering 与 ChatGPT Pulse，用于提升对话和检索场景的上下文连贯性与检索效率。

-- 评分加载中

OpenViking

OpenViking 是为 AI 智能体设计的开源上下文数据库，通过文件系统范式统一管理记忆、资源与技能，提升检索可观察性与分层加载效率。

-- 评分加载中

PageIndex

PageIndex 是 Vectify AI 开源的基于推理的文档索引系统，适用于长文档的高精度检索与分析。

-- 评分加载中

PandaWiki

PandaWiki 是一个基于大模型驱动的开源知识库系统，帮助快速搭建面向文档、FAQ 与博客的智能知识中心。

-- 评分加载中

Pathway LLM App

一组面向生产的可部署 RAG 与 AI 管道模板，支持实时数据同步与大规模文档索引。

-- 评分加载中

Perplexica

Perplexica 是一个开源的 AI 驱动搜索引擎，定位为 Perplexity AI 的开源替代方案。

-- 评分加载中

RAG-Anything

多模态文档处理与检索增强生成（RAG）系统，支持文本、图片、表格、公式等多种内容的统一解析与智能检索。

-- 评分加载中

RAGFlow

基于深度文档理解的开源 RAG 引擎，支持复杂文档解析和知识问答。

-- 评分加载中

SearXNG

一个自由的互联网元搜索引擎，聚合多个搜索服务和数据库，保护用户隐私且不开启用户画像。

-- 评分加载中

SemTools

面向命令行的语义搜索与文档解析工具，方便在本地或流水线中进行嵌入检索与解析处理。

-- 评分加载中

text-embeddings-inference

Hugging Face 的 text-embeddings-inference 提供开箱即用的文本向量化推理服务，便于构建相似度检索和语义搜索应用。

-- 评分加载中

Tongyi DeepResearch

面向长时信息检索与 agentic 任务的开放式大规模研究代理模型与工具集。

-- 评分加载中

UltraRAG

一个基于 MCP 的低代码检索增强生成（RAG）开发框架，强调可视化编排与可复现的评估流程。

-- 评分加载中

Unstructured

用于将复杂文档无缝转换为结构化数据的开源 ETL 解决方案，适配语言模型的数据处理场景。

-- 评分加载中

Vanna

Vanna 是一个开源的 RAG 框架，支持将自然语言问题转为 SQL 并在本地数据库上执行，适合面向数据的检索增强生成场景。

-- 评分加载中

Vespa

Vespa 是一个用于 AI 与大数据在线推理与检索的分布式引擎，支持向量搜索、近实时索引与复杂查询。

-- 评分加载中

Weaviate

Weaviate 是开源云原生向量数据库，支持对象与向量存储，结合语义检索与结构化过滤，适用于大规模 AI 应用。

-- 评分加载中

WeKnora

WeKnora 是腾讯开源的文档理解与检索框架，基于大语言模型（LLM）和 RAG 技术，支持多格式文档解析、知识图谱构建与智能问答，适用于企业知识管理、科研文献分析等场景。

-- 评分加载中

Wren AI

开源的 GenBI 代理，可将自然语言查询转换为精准 SQL、图表与 AI 洞察。

-- 评分加载中

OCR、解析、结构化提取与文档理解。

Docling

面向通用文档理解与转换的开源框架，支持 PDF、DOCX、图片、音频等多种格式的解析与结构化输出。

-- 评分加载中

LangExtract

一个基于 LLM 的文档结构化抽取库，擅长从非结构化文本中提取并可视化结构化信息。

-- 评分加载中

MinerU

MinerU 是一个高精度的 PDF 文档解析工具，能将复杂 PDF 转换为机器可读的 Markdown 和 JSON 格式，支持公式、表格、图片提取和多语言 OCR。

-- 评分加载中

pdfly

基于命令行的 PDF 元数据提取与处理工具，适用于批量自动化文档处理任务。

-- 评分加载中

pdfplumber

基于 pdfminer.six 的开源 Python 库，提供详细的 PDF 对象访问、表格抽取与可视化调试功能。

-- 评分加载中

PyMuPDF

一个高性能的 Python 库，用于 PDF 及其他文档的数据提取、分析、转换和操作。

-- 评分加载中

spaCy

高性能、面向生产的开源自然语言处理库，提供预训练流水线、训练系统与丰富的语言组件。

-- 评分加载中

Stirling PDF

一个开源的本地托管 PDF 编辑与处理平台，支持丰富的 PDF 操作与自定义流水线。

-- 评分加载中

Tesseract OCR

Tesseract 是一款功能强大的开源光学字符识别（OCR）引擎，支持 100 多种语言，广泛应用于文本提取和文档数字化。

-- 评分加载中

图谱建模、实体关系和图检索。

CodeGraph

为 AI 编码智能体提供预索引代码知识图谱的工具，支持 Claude Code、Codex、Cursor 和 OpenCode，100% 本地运行。

-- 评分加载中

DeepTutor

一个面向个性化学习的多智能体教学系统，集成检索增强生成、知识图谱与交互式可视化。

-- 评分加载中

Understand Anything

将任意代码转换为可探索、搜索和问答的交互式知识图谱，原生支持 Claude Code、Codex、Cursor、Copilot 和 Gemini CLI。

-- 评分加载中

外部系统接入、同步与数据管道。

Airbyte

开源数据移动平台，用于 ELT 管道和 AI 智能体数据接入，支持从 API、数据库和文件迁移数据到数据仓库、数据湖和 AI 应用。

-- 评分加载中

Crawl4AI

一个面向大模型应用的开源网页爬虫与抓取器，输出清洁的 Markdown 与结构化数据，支持浏览器控制、Docker 部署与 LLM 驱动的抽取。

-- 评分加载中

Data Prep Kit

Data Prep Kit 用于为 LLM 应用加速非结构化数据的清洗、转换与增强。

-- 评分加载中

DataTrove

DataTrove 提供可扩展、平台无关的数据处理管道，用于大规模文本数据的清洗、去重与转换。

-- 评分加载中

Gravitino

高性能、地理分布式并支持联邦的元数据湖，用于管理数据与 AI 资产的统一元数据访问与治理。

-- 评分加载中

MindsDB

AI 查询引擎 - 构建能在大规模联合数据上回答问题的 AI 平台 - 你唯一需要的 MCP 服务器。

-- 评分加载中

OpenMetadata

统一的元数据平台，用于数据发现、数据治理与可观测性，支持丰富的连接器与协作功能。

-- 评分加载中

pandas

pandas 是用于结构化数据处理与分析的开源 Python 库，是 ML 和 AI 数据预处理工作流的核心依赖。

-- 评分加载中

Pixeltable

一个面向多模态 AI 工作负载的声明式数据基础设施，简化数据存储、索引与推理流程。

-- 评分加载中

Unity Catalog

面向数据与 AI 的开放多模态目录，提供统一的治理、元数据管理与访问控制。

-- 评分加载中