备忘,LangChain建立本地知识库的几个要点

news/2024/6/18 22:00:56 标签: elasticsearch, 本地知识库, 大模型, langchain

本地知识库可以解决本地资源与AI结合的问题,为下一步应用管理已有资产奠定基础。 本地知识库的建立可参考LangChain结合通义千问的自建知识库 (二)、(三)、(四)
本文主要记录两个方面的问题
1 搭建过程中遇到的坑
2 向量是数据库改成ES7

1 搭建过程中遇到的坑
1) 安装bce-embedding-base_v1模型
需要用git clone到本地,但由于模型比较大,需要先安装git lfs管理大型的文件,再克隆
sudo apt-get install git-lfs

安装成功后,再进入预备安装模型的目录下,执行clone
git clone https://www.modelscope.cn/maidalun/bce-embedding-base_v1.git

  1. nltk corpora语料库缺失
    报错样例如下:
    在这里插入图片描述
    缺少 两个库 punkt和 averaged_perceptron_tagger
    解决的方式是离线下载,参考NLTK:离线安装punkt

2 向量是数据库改成ES7
原博中使用Chroma,但我已经装了ES7,所以改用ES7作为向量数据库
原博中两部分代码,导入本地知识库和应用本地知识库,修改如下

导入本地知识库

import time
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import UnstructuredFileLoader
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import ElasticVectorSearch

time_list = []
t = time.time()

# loader = UnstructuredFileLoader("/home/cfets/AI/textwarefare/test.txt")
loader = UnstructuredFileLoader("/home/cfets/AI/textwarefare/cmtest.txt")
data = loader.load()

# 文本切分去。
text_splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=0)
split_docs = text_splitter.split_documents(data)
print(split_docs)

model_name = r"/home/cfets/AI/model/bce-embedding-base_v1"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}

embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs)

# 初始化加载器 构建本地知识向量库
# db = Chroma.from_documents(split_docs, embeddings, persist_directory="./chroma/bu_test_bec")

# 使用ES
db = ElasticVectorSearch.from_documents(
    split_docs,
    embeddings,
    elasticsearch_url="http://localhost:9200",
    index_name="elastic-ai-test",
)

# 持久化
#  db.persist()
print(db.client.info())

# 打印时间##
time_list.append(time.time() - t)
print(time.time() - t)

应用本地知识库

import dashscope
from dashscope import Generation
from dashscope.api_entities.dashscope_response import Role
from http import HTTPStatus
from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores import ElasticVectorSearch
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings

dashscope.api_key = XXXXXX


def conversation_mutual():
    messages = []

    # 引入模型
    model_name = r"/home/cfets/AI/model/bce-embedding-base_v1"
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': False}

    embeddings = HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )

    # 使用chroma本地库
    # db = Chroma(persist_directory="./chroma/bu_cmtest_bec", embedding_function=embeddings)

    # 使用elastic search
    my_index = "es_akshare-api"
    db = ElasticVectorSearch(
        embedding=embeddings,
        elasticsearch_url="http://localhost:9200",
        index_name=my_index,
    )


    while True:
        message = input('user:')

        # 引入本地库
        similarDocs = db.similarity_search(message, k=5)
        summary_prompt = "".join([doc.page_content for doc in similarDocs])
        print(summary_prompt)
        send_message = f"下面的信息({summary_prompt})是否有这个问题({message})有关" \
                       f",如果你觉得无关请告诉我无法根据提供的上下文回答'{message}'这个问题,简要回答即可" \
                       f",否则请根据{summary_prompt}对{message}的问题进行回答"

        messages.append({'role': Role.USER, 'content': message})
        messages.append({'role': Role.USER, 'content': send_message})  # 按本地库回复

        whole_message = ''
        # 切换到通义模型
        responses = Generation.call(Generation.Models.qwen_plus, messages=messages, result_format='message', stream=True,
                                    incremental_output=True)
        print('system:', end='')
        for response in responses:
            if response.status_code == HTTPStatus.OK:
                whole_message += response.output.choices[0]['message']['content']
                print(response.output.choices[0]['message']['content'], end='')
            else:
                print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (
                    response.request_id, response.status_code,
                    response.code, response.message
                ))

    print()
    messages.append({'role': 'assistant', 'content': whole_message})
    print('\n')


if __name__ == '__main__':
    conversation_mutual()

使用效果

导入本地知识库
在这里插入图片描述

执行本地库效果
在这里插入图片描述


http://www.niftyadmin.cn/n/5476540.html

相关文章

OpenCV 4.9基本绘图

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV使用通用内部函数对代码进行矢量化 下一篇:使用OpenCV4.9的随机生成器和文本 ​目标 在本教程中,您将学习如何: 使用 OpenCV 函数 line() 画一…

vue watch监听的多种使用

简述:vue 的watch的监听使用的几种写法。常用第4中写法。 一、$route监听路由跳转 前提:当需要前端监听路由跳转的时候,一般写在App.vue入口 //App.vue //vue2、uniapp写法 watch: {$route(to, from) {if (hasPermission(to.path)) {this…

SpringBoot及其特性

0.前言 Spring 框架提供了很多现成的功能。那么什么是 Spring Boot?使用 Spring 框架,我们可以避免编写基础框架并快速开发应用程序。为了让 Spring 框架提供基础框架,我们需要向 Spring 框架描述有关我们的应用程序及其组件的信息。 不只是…

JavaScript之作用域链详解

在JavaScript中,作用域链是一个重要的概念,它决定了变量和函数的可访问性。作用域链是由变量对象的列表组成,这些变量对象按照它们被创建的顺序排列。本文将详细介绍JavaScript作用域链,包括什么是作用域链、作用域链的创建过程、…

文旅元宇宙|“元宇宙+”全面赋能智慧文旅场景建设

元宇宙作为下一代互联网入口,正在潜移默化的改变着人生的生活方式,不断催生新业态,带给人们前所未有的体验。元宇宙概念的崛起,正以其独特的魅力,引领着一场全新的智慧文旅革命。元宇宙,这个融合了虚拟现实…

LinkedHashMap 集合源码分析

LinkedHashMap 集合源码分析 文章目录 LinkedHashMap 集合源码分析一、字段分析二、内部类分析三、构造方法分析四、内部方法分析五、总结 LinkedHashMap 是 HashMap 的子类,在 HashMap 的基础上维护了双向链表,保证了有序性。默认是不排序的&#xff0c…

如何恢复被.locked勒索病毒加密的服务器和数据库?

.locked勒索病毒有什么特点? .locked勒索病毒的特点主要包括以下几个方面: 文件加密:.locked勒索病毒会对受感染设备上的所有文件进行加密,包括图片、文档、视频和其他各种类型的重要文件。一旦文件被加密,文件的扩展…

每天学习python30分钟(第三天)

一.面向对象 了解oop for i in range(1,5):for j in range(1,5):for k in range(1,5):if((i!j) and (i!k) and (j!k)):print(i,j,k) 二.类 基础的类使用 class CuteCat: #通过calss创建可爱猫猫类def __init__(self,cat_name,cat_age,cat_color): #定义属性s…