要偏向于更为全面的文献数据。
生命周期评价的本质是用来评估产品或服务从生产到消费再到废弃的整个过程对环境和社会的影响,它考虑了资源使用、能源消耗、排放物的产生等方面。
那么为了提高最后基于电力lca这个领域搭建的专业模型的准确度,对文献进行精细筛选,选取同时包括流程图,数据,各单元过程投入产出详细数据,数据时间地点落去方法,技术细节的文献,作为最终的数据。
将精细筛选后的论文数据,结合unstructed库进行数据处理。
进行信息精细化拆解与清洗,使以pdf形式存储的文献数据通过分割,分区,变成便于嵌入模型的结构化数据。
对文字进行筛选与清理,图像的内容进行识别,存储图像的解释信息,表格转化为htl格式。
最后统一变成标题加内容的格式。
在这里我列举了简单的数据处理流程。
先是对数据进行分割。
随后是对文本进行拆分,识别内容是否为文本,如果是,就填进text_ist。
将表格转化为htl格式,将图片变为图片解释信息。
第二部分是知识库的构建。
向量知识库,能将各类数据(如文本、图像、音频等)转化为向量形式进行存储。
数据之间的相似性和关联性得以量化,不像平时你存储你的,我存储我的,向量数据库给予了一个统一的标准。
也正是因为统一了格式,利用相似度对比,检索更加高效。
构建知识库的流程先是提取分割文本进行向量化的操作。
向量化的本质是将离散的符号信息,如词或句子,映射到连续的向量空间中,以便计算机能够处理。
向量化将高维数据转化为低维数据,保留了数据的关键特征又降低了数据的复杂度。
选择pipee存储向量数据,它支持查询,插入,删除等一些列操作。
选择eaviate作为向量搜索引擎,可以通过主题的分类检索,进行语义搜索、问答提取等等功能。
第三部分是chatbot的构建。
先前已经构建好了针对电力lca领域的专业大模型,但是缺少检验模型的手段,即缺少模型优化环节,本项目设置通过chatbot模式,通过与用户进行问答的形式,检验模型是否能调用电力行业lca领域向量数据库回答该领域专业性问题和时效性问题的有效性。
chatbot是模拟人类对话的一种形式,就我们平时能使到的chatgpt就是以chatbot的形式来呈现的,而chatbot在这里的功能实现主要是为了体现检索功能,大致可分为知识库检索功能和在线搜索。
那么就产生了三种检索模式。
仅基于大语言模型,连接知识库搜索,和在线搜索。
前端部分我采用streait来完成,ui设计如图所示。
这边是功能按钮,中间是对话框。
先前有讲到了,我们来检测针对专业领域的大模型的标准就是检测是否有能力回答专业领域的问题,并针对结果进行优化。
这里我向chatbot提出同一个问题。
请关闭浏览器阅读模式后查看本章节,否则将出现无法翻页或章节内容丢失等现象。
自从江影帝搬了家,离奇的事情就发生了。他总是会莫名其妙的在别的地方醒过来。第一次是在隔壁小区的垃圾箱旁边,身着花裤衩的江然一脸茫然的看着对他拍照的路人,以为自己是在做梦。直到早起的买菜大妈捏了捏他...
周欢穿越了。周欢只有一个小目标。好好活着,如果有可能,顺便成个神。如果运气再好一点的话,找个老婆,一起成个神。所以,现在最重要的一件事,为了安全,最好苟在史莱克ps单女主,张乐萱...
吴一楠无意间看到老婆在自家楼下跟市委秘书激情拥吻,继而得知自己的副科长职位是市委秘书帮的忙,愤而跟老婆离婚,随之被撤职换岗,人生处于低谷之中。现场会上,吴一楠对刘依然产生好感,对她勇敢反抗和揭露领导...
意外重生,叶倾再次遭遇末世,只是这一次她回到了末世前夕。重生之后,叶倾茫然了,拥有四年的末世经历和经验,她能做什么一步步的走在所有人的前面,成为最终的大boss不,她只想一直活下去,活到丧尸灭绝的那...
穿成三次高考落榜的文盲爱豆,参加学霸云集的国风旅游综艺,全网都在等温希出丑!谁知温希绑定了抽卡系统,上可召唤文人附身挥斥方遒,下可打卡名胜古迹触发祥瑞。农田干旱,她提词昨夜雨疏风骤触发天降甘霖,拯救水稻千万亩。景区濒临破产,她一句飞流直下三千尺带火庐山,引得数万网友打卡,扭转乾坤。华夏武学落寞,她诗剑双绝附身,一首侠客行复兴国术,事了拂衣去,深藏身与名。温希到过的每一个地方都火了。盘活旅游经济,引领国风复兴,扬我华夏文化!每到一处,温希就多了一座城的粉丝。网友纷纷献上膝盖当初群嘲文盲温希上节目当小丑,现在小丑竟是我自己!...
公元189年,大量的白光突然从天而降,无数来自另外一个世界的人降临到这个游戏世界。让这个和三国一样,但是武将可以一刀断河山,谋士可以千里取人性命,呼风唤雨,驱雷掣电的高武世界增添了不少色彩。王侯将相宁有种乎?ltpgt...