如何基于亚马逊云科技LLM相关工具打造知识库

电子产品技术与应用 2023-11-23 2264

描述

背景

本篇将为大家阐述亚马逊云科技大语言模型下沉到具体行业进行场景以及实施案例的介绍，是亚马逊云科技官方《基于智能搜索和大模型打造企业下一代知识库》系列的第四篇博客。感兴趣的小伙伴可以进入官网深入了解其核心组件、快速部署指南以及LangChain集成及其在电商的应用场景。

通用场景：基于企业内部知识库例如IT/HR信息的问答

制造行业：装备维保知识库问答和售后客服

金融行业：智能客服和智能报告生成

教育行业：面向学生和面向学校的智能问答机器人

医疗行业：医疗论文论文信息检索

方案架构图如下：

通用场景：基于企业内部知识库例如IT/HR信息的问答

在该场景下，企业可利用IT手册，员工手册，销售手册等构建企业知识库。使用人员为所有的内部员工，帮助员工提升信息获取的效率，从而提升工作效率。

提问与员工手册相关的问题，搜索引擎会首先获得相关的预料，然后使用LLM对预料进行信息抽取，过滤和总结，然后直接给出问题答案。

例1：查询年假时间

例2：查询上下班时间

制造行业

行业场景

制造行业中相对来说是一个传统的行业，因为历史积累，拥有众多的原始文档，但是由于大部分企业处于数字化转型的初期，无法有效利用这些文档。因此，其主要诉求为建立一个企业级的知识库平台，利用散落各处的文档提升企业运行效率。例如随着制造业的发展，企业对装备的维护和保养变得更加重视。装备维保知识库问答系统可以提供实时的维护指导，帮助操作员和维修人员解决各种故障和技术问题。售后客服对于提供优质的客户支持至关重要。装备的故障和技术问题可能会对客户的生产线造成重大影响，因此快速响应和解决问题是必要的。

客户选择此方案出于三个考虑：

制造行业中，许多文档描述都是比较专业的知识，所有的描述都需要严谨，因此大语言模型的幻觉问题会导致内容输出不可信，反而出现更多不可控的风险；

所有的回答必须精确到具体出处，避免大语言模型生成内容出现偏差；

存在大量敏感数据，包括维保记录，机械设计图纸等，使用第三方API调用的大语言模型有可能存在数据泄漏，造成违规和安全隐患。

典型的使用场景为装备维保知识库问答和售后客服。

行业场景实践

装备维保知识库问答和售后客服

在该场景下，企业可利用历史维保记录，例如故障现象、故障原因、维修手册、用户手册等构建企业知识库。使用人员为一线维保工程师或者售后客服，结合检索和大语言模型，可以直接针对用户的故障现象，给出具体的原因分析。

例1：装备维保场景——提问某零件生锈的原因（中文场景）

例2：产品售后场景-提问某指示灯状态意义（英文场景）

金融行业

行业场景

金融行业分为银行、保险、资本市场以及支付多个子垂直行业，基于智能搜索和大模型的知识库，银行可以快速准确地回答客户的各类问题，提供个性化的金融产品推荐和投资建议；保险机构可以赋能用户快速找到适合自己需求的保险产品，并了解保险条款和理赔流程；资本市场成员可以借助其帮助投资者快速获取和理解市场动态、公司财务数据和分析报告等信息；支付机构则建立智能客服系统，帮助用户快速解决支付相关的问题。

客户选择此方案出于三个考虑：

金融行业中所有的描述都需要严谨，数据需要精确，因此大语言模型的幻觉问题会导致内容输出不可信，严重则损坏企业形象以及客户流失；

金融机构（如银行、保险）会提供相关的咨询服务，所涉及到的回复必须精确到具体出处，尤其法律法规相关内容需要和法规文件完全一致；

金融数据存在大量敏感数据，包括交易、企业营收、内部资产以及个人信息，使用公开的大语言模型有可能在不经意间泄漏相关数据，造成违规和安全隐患。

典型的使用场景为智能客服与智能报告生成。

行业场景实践

智能客服

智能客服在金融行业中具有广泛的应用和场景，包括：

产品和服务咨询：帮助客户查询和了解金融机构提供的各类产品和服务。通过自然语言处理和机器学习技术，智能客服可以回答关于金融产品特性、利率、费用等方面的问题，为客户提供个性化的产品咨询。

交易指导和操作支持：智能客服可以指导客户进行各类金融交易操作，如转账、存款、理财产品购买等。客户可以通过与智能客服进行交互，获取操作步骤和操作指导，提高交易的便捷性和准确性。

投诉和问题解决：智能客服可以处理客户的投诉和问题，并提供相应的解决方案。通过对客户问题的分析和分类，智能客服可以快速回答常见问题，同时也可以转接给人工客服处理更复杂的问题，提高问题解决的效率和客户满意度。

例 1：金融产品的咨询

通过提问（如下例）关于金融产品营收数据的分析，搜索引擎会搜索获得相关语料，并作为大语言模型的输入，进行汇总和总结。

例2：金融专业知识的咨询

对于某些金融知识（如GDR，存托凭证等）存在专业性强、不易理解的特点，传统客服无法快速理解、整理并得出相关的结论来回应该类型的客户咨询，造成用户体验差。同时对于专业知识的回应，需要准确且严谨的材料中获得，因此参考资料的出处也是本场景重要的指标。使用智能搜索和大模型方案可以有效提高内容总结的效果，同时列举出清晰的数据出处，精确到文档的句和段。

智能报告生成

金融行业中尤其是资本市场，无论是券商还是二级市场机构分析员，均需要对大量的数据和报告进行阅读和分析，同时需要对外输出各类型的报告，如行研、个股分析、市场分析和展望、投资建议分析等。他们会遇到以下痛点：

时间压力：分析员通常需要在短时间内完成大量的报告撰写工作，以满足客户和市场对即时信息的需求。这给他们带来了时间上的压力，可能导致报告的质量和深度受到影响。

数据整理和处理：撰写报告需要分析员从各种来源收集、整理和处理大量的市场数据、财务数据和新闻资讯等信息。手动处理和整理这些数据可能耗费大量时间和精力，并且容易出现错误。

分析和解释复杂数据：分析员需要深入理解和解释复杂的金融数据、财务指标和市场趋势。这需要投入大量的研究和分析工作，以便提供准确、全面的分析和评估。

信息获取和更新：分析员需要不断跟踪和获取最新的市场信息、行业动态和公司公告等。信息的获取和更新可能比较困难和耗时，尤其是当信息来源庞杂且分散时。

语言表达和报告风格：撰写高质量的报告需要良好的语言表达能力和清晰的报告风格。然而，分析员可能面临语言表达的挑战，以及如何将复杂的金融概念和数据以简洁明了的方式传达给读者。

通过使用智能搜索和大模型方案，可以在资讯整理理解以及基础报告生成两个方面减轻上述问题带来的成本。

以下例子以大宗商品中的原油为例子，需要写一篇“关于原油上涨带来的风险“的报告：

通过提交相关的任务指引，包括（但不仅限于）：1）任务描述；2）文章规定的格式、标题和段落；3）文章规定的分段内容和主旨。智能搜索引擎会先进行从已经加载的数据中获得相关内容，并将内容传递到大语言模型，并要求大语言模型按照指引进行内容生成和输出。输出的报告可以作为基础内容提供给报告撰写和分析团队进行二次加工，从而提高生成效率。

教育行业

行业场景

针对教育领域和智能教育产品的行业场景，可以从以下两个角度来说明，包括学校/老师角度、学生/家长角度。

学校/老师：本方案为基础来提供创新的在线教育工具，例如AI Class Bot，助力学校和培训机构快速建立在线学习课程，帮助学校提高教学质量和效率，也能够节省教学资源和成本，减轻老师课程设计和辅导的负担，拓展教学内容和形式，增强教学创新和竞争力。

学生/家长：以本方案为基础来构建智能辅导系统，根据每个学生的水平和进度，生成适合他们的学习内容和方法，自适应地生成不同难度和类型的问题和解析，做到实现因材施教和自适应教育。同时还可以构建学校与家长之间的智能问答系统，可以帮助家长了解孩子的学习情况和需求，提供更多的学习支持和指导。

在教育行业中，客户选择此方案出于三个考虑：

通过本方案可以快速、方便的将课程内容导入到知识库，利用大语言模型形成课程问答机器人。结合数字人技术还可以提供多轮对话的功能，让教育过程增加更多的趣味性。

通过本方案利用AI/ML技术实现的用户正向反馈功能，可以帮助每个学生实时反馈搜索结果的权重，从而优化自己的知识库模型，以便实现自适应学习的目标。

通过本方案可以把学校已知的资料以及散落在互联网的资料统一汇集到知识库，包括各种非结构化和半结构化数据，让家长更加快捷的查找所要的信息。

典型场景为面向学生的问答机器人和面向学校的问答机器人。

行业场景实践

例1：学生场景的问答机器人（AI Class Bot）-英文单词学习的AI客服机器人

针对英文单词学习领域，将现有英文单词学习过程中的相关FAQ知识库导入现有方案中，该知识库文件中包含了众多在英文单词学习过程中的客户问题以及处理办法，通过本方案的知识库上传功能，将数据导入到知识库系统中。

本例中，我们希望客服机器人的答案一定是要基于知识库的范围内进行作答，如果不在知识库的范围，要回答“根据已知知识无法回答该问题”，也就是说我们要避免大语言模型的幻觉问题。基于这个要求，普通的大预言模型在回答用户问题时可以有一定的创新性，也就是模型可以设置temperature值，以控制大语言模型的创新性。但是就算设置非常低的值，也不能保证大语言模型不自己创新的回答用户问题。

本方案针对该需求增加了置信度（evidence）的判断，对于大语言模型给出的答案与用户的问题、知识库的搜索结果都做了相似度计算，低于某个值就返回用户“无法回答该问题”。如下图所示：

有一些问题在知识库的范畴内，问答机器人就可以回答，如下图：

例2：学校场景的问答机器人（AI School Bot）–报考志愿问答机器人

面临中考、高考的考生家长相对比较焦虑，他们需要掌握更多的学校信息以便和自己孩子的学习情况做比较，选择更加适合自身的学校和未来的报考专业。以下是一个询问中学信息的问答场景，我们仅仅导入了几个国际学校的数据到知识库，希望问答机器人在知识库的范畴内回答问题，同时需要给出答案的置信度。如下图所示：

当问询某个国际学校的课程信息时，问答机器人将做如下回答：

医疗行业

行业场景

医疗行业有大量文档，其中既包括敏感资料如药物临床研究数据，患者健康数据，药研实验数据，也包括大量的公开数据集如基因数据，医学论文等。然而，作为一个历史悠久等行业，很多医院与企业仍然处于数字化转型的初期，存在数据量大，格式不统一，阅读理解难等问题。医疗健康领域数字化转型，降低医学数据的使用门槛一直是该领域的重要方向。具体来看：

药物研发：通过整合药物设计的公开论文与内部文档为药企提供药物设计的知识库，通过关键词快速了解药理活性，作用位点，毒理，适用病理等信息，帮助企业提高研发迭代速度、提升研发效率、降低研发成本和提升项目整体成功率。

就医知识库：整合FAQ咨询数据、药品说明书、患者病历、医学指南、医学书籍、医学论文、专业网站、专家录入数据等数据源，构建“疾病-症状-药品-诊断-人群”的私有知识库以及基于知识库的医药大健康智能专家虚拟助理。

典型场景是医疗论文信息检索。

行业场景实践

医疗论文信息检索

本次场景演示中，我们从亚马逊云科技的公开数据集中选取大家非常最常使用的NCBI数据集，并选择2023年度的一个子数据集作为样本数据，供测试。

为了方便测试，我们清洗一部分血液病相关的论文作为测试数据集，使用一些常见的血液病问题进行提问，平台将会从相应的数据集中进行召回，并根据prompt来生成相应的内容。考虑到医疗相关的论文都为英文，我们本次测试中，都使用的是擅长英文的开源大模型进行测试。

由于论文数据多样、还会有历史等不同信息等，所以在实际使用中，有可能需要通过不同的关键词、句来召回最适合您使用场景的结果。

而对于知识库没有的数据，平台将会召回“Not found answer” 或者“I don’t know”。这是确保在医疗、生命科学场景，对于不确认的信息，规避无效数据的回复。

由于论文数据的庞大，新旧数据的冲突等各种原因，在实际使用过程，我们建议用户您根据自己的实际情况、使用场景的需求，对于论文、内部科研数据、任何您需要使用的数据做一次提前的清理，比如，最保留最新数据等。这样保证数据在召回时候更符合您的需求。

总结

在日常使用大语言模型的过程中，两个比较突出的问题是不能被忽视的。它们分别是：

幻觉问题（Hallucination）

数据泄露（Data Leakage）

幻觉问题是自然语言处理领域中的基础问题之一，指文本生成模型的生成结果中含有与输入事实上冲突的内容，即结果可能出现虚构和捏造事实的情况。数据泄露问题是指用户在使用市面上大语言模型过程中，会主动或不经意间传入的可能涉及到商业机密、个人隐私、企业管理等敏感数据，造成数据泄露的问题。本方案的架构设计能够有效解决上述两个问题。

综上所述，基于智能搜索和大语言模型结合方案为不同行业场景构建GAI应用，达到：

制造行业：通过构建智能企业知识库，有效整合制造业中的各类资料，并应用AI技术，将其快速转化为可信、准确的知识资源，提供给内部员工，从而极大地提升他们获取专业信息的效率。

金融行业：精准的命中金融行业中多种过去只能依靠人工处理的场景，使用AI/ML的技术为金融客户降本增效，并助力客户主动挖掘更多业务场景，在保证数据安全可控的前提下加速AI/ML对业务创新的效率；

教育行业：通过GAI技术，我们可以根据每个学生的水平和进度，生成适合他们的学习内容和方法，自适应地生成不同难度和类型的问题和解析，做到实现因材施教和自适应教育。

医疗行业：通过生成式AI技术，我们可以让更多生命科学的工作者，可以从海量的知识信息中，更容易获取、提取所需要的临床、科研等信息，更好的为我们每个人的身体健康保驾护航。

审核编辑黄宇

打开APP阅读更多精彩内容