DeepSeek v3搭建本地pdf知识库

近日国内DeepSeek V3大模型表现优异，且价格非常的便宜。结合Langchain做了本地知识库的问答。

使用的是Api的方式，并非本地搭建部署大模型。

项目是一个AI驱动的知识库助手，旨在帮助用户从PDF文档中获取信息并进行对话。下面是整体实现的一个架构图。

graph TD
    A[开始] --> B[文档处理]
    
    B --> B1[文档加载<br>LangChain Loader]
    B --> B2[文本分块<br>TextSplitter]
    
    B1 --> C[Embedding处理]
    B2 --> C
    
    C --> C1[选择Embedding模型<br>HuggingFace]
    C --> C2[批量向量化处理]
    
    C1 --> D[向量数据库]
    C2 --> D
    
    D --> D1[数据库选择<br>Chroma]
    D --> D2[向量索引与存储]
    
    D1 --> E[问答实现]
    D2 --> E
    
    E --> E1[向量相似度检索]
    E1 --> E2[获取相关文档]
    E2 --> E3[LLM答案生成]
    
    classDef process fill:#f9f,stroke:#333,stroke-width:2px;
    classDef database fill:#bfb,stroke:#333,stroke-width:2px;
    classDef endpoint fill:#fbb,stroke:#333,stroke-width:2px;
    
    class B,C process;
    class D database;
    class A endpoint;