大模型应用开发系列6——生成式搜索

  生成式搜索是生成式AI和搜索引擎的结合,也是大模型LLM应用炙手可热的一个方向。生成式搜索公司Perplexity刚成立一年,月访问用户高达5000万,得到英伟达、亚马逊等公司创始人的投资,公司估值5亿美元,被认为是谷歌搜索引擎的挑战者。市场分析公司 Gartner 近日发布报告,随着生成式AI的兴起,用户将越来越多地通过生成式搜索来寻找答案,预估传统搜索引擎2026年搜索量将下降25%。

  在这篇文章中,我们将介绍:什么是生成式搜索;它是如何工作的;以及生成式搜索的开发。

  什么是生成式搜索

  传统的搜索引擎是关键词和链接的单向匹配,而生成式搜索引擎,或者叫做回答引擎,在生成式AI与传统搜索引擎的基础上开发,兼具大模型的生成与推理能力,又囊括传统搜索引擎中内容的广度和时效性,它从各种筛选过的来源进行总结,提供准确、直接的答案,同时提供来源参考。

  以Perplexity为例,搜索“如何看待马斯克起诉OpenAI”,其搜索结果中包括以下几个部分:

  “Sources” :列出答案所引用的来源,支持点击链接,这一例子中,Perplexity共引用了5个不同的来源。

  “Answer”:通过整合内容得出的结构化答案,文字包含引用源,比如这个例子中,完整解释了马斯克诉讼OpenAI的始末,以及OpenAI对马斯克的最新官方回应。

  “Related”:回答完成后,Perplexity还会紧跟着提供几个可能感兴趣的相关问题,可以直接点击追问,也可以继续文字提交。

  Perplexity具有以下特点:

  (1)显示文本引用来源:每次生成的回答中会有 3-5 个链接,来佐证其生成内容的准确性,且来源可以控制,如果不喜欢华盛顿邮报的内容,就可以将其从 source 中删除,重新生成。

  (2)生成内容简洁且可靠:在与多问题引擎对比的时候,Perplexity 是最能用有限的字数准确回答问题的产品。

  (3)理解问题并拆解、主动反问的能力:AI能够根据问题理解,并且深入问题的细节反问得到更多信息,再去进行搜索。这里是灵活使用 GPT-4 的规划和理解能力,通过 prompt engineering 去引导其提问和反问,使生成的内容质量更高,可控性更强。

  (4)多轮对话:在同一次搜索中可以不断追问,得到更接近自己想要的内容,在产品形态上兼具了 Chat 和 Search 的优点。

  (5)基本没有幻觉现象Hallucination:如果搜索结果中没有符合问题答案,则会给出无法回答的答案,不编造内容。

 

  生成式搜索是如何工作的

  Perplexity的工作原理是“搜索引擎检索—高效召回相关内容—大模型推理—生成具备索引定位的回答”。

  (1)用户输入查询时,Perplexity会对查询进行理解重构,然后将需求发送到Google/Bing搜索引擎,返回与用户 query 有关的网页内容。

  (2)将内容向量化进行细粒度的处理和组织,目标有二,其一是方便排序时能理解和定位到网页中与用户问题最相关的内容,其二是可以将 api 返回的内容存储以用作之后复用。

  (3)将用户提问与检索结果,合成Prompt(提示)提交给大模型,要求它阅读所有链接,并从每个链接中提取出相关段落整合内容,形成精准全面的答案。

  (4)根据LLM结果,生成答案,并在其中对引用内容进行标注。

  (图片来源: 中金点睛)

  在此技术路径下,Perplexity将传统搜索引擎的知识广度与大模型的推理、生成能力相结合,为用户提供精简可溯源的答案,优化了用户的搜索体验。Perplexity在技术上的创新在于:

  (1)搜索算法的改进。当大模型被引入后,它对搜索技术的重塑贯穿每一个环节。例如,在召回环节,大模型能够模仿人类的识别判断能力,更有效地召回结果;在排序环节,大模型可以考虑更多语言细节,提升排序性能。Perplexity在召回和排序环节都对算法侧进行了创新,保证内容的有用性及引用的精确程度。

  (2)自研推理堆栈,大幅提升响应速度。基于自定义的简化推理堆栈,即pplx-api,进一步提升响应速度。公司使用英伟达的TensorRT-LLM对大模型推理进行精心设计和优化,在与其他API的对比中,pplx-api的总延迟降低了65%,初始响应延迟降低了77%,处理token的速度较TGI领先47%-85%。

 

  生成式搜索的开发

  生成式搜索的开发,涉及多个技术模块,在大模型与搜索引擎技术的基础之上,开发时会包括以下3个重要技术模块:

  (1)检索增强生成(Retrieval Augmented Generation)技术,是利用搜索引擎,对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。通过从更多数据源添加背景信息,以及通过训练来补充 LLM 的原始知识库,检索增强生成能够提高搜索体验的相关性。这能够改善大型语言模型的输出,但又无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。

  (2)搜索扩展与重排序技术,是利用大模型,对搜索引擎的召回率和准确率进行优化,提高搜索结果与用户请求的相关度。搜索扩展,是利用预训练大模型的知识,优化搜索召回率。对用户请求进行规范、扩展,扩展为搜索引擎友好的搜索请求。对多轮对话的请求,补充完善其上下文;对复杂请求,拆分为多个子搜索串;对模糊请求,细化扩展请求条件。重排序,是利用语义Embedding技术,优化搜索准确率。计算搜索结果与用户请求的语义相似度,确保输出最相关的搜索结果。

  (3)智能Agent技术,是让生成式搜索,融入自身工作流,解决复杂问题的技术。OpenAI科学家将AI Agent定义为,以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。比如,在会议日程安排中,可以在会议日历中自动补齐我们需要了解的关于会议、参会人员或其他相关事项的所有信息,对于用户来说相当有价值。

 

  生成式搜索的优势

  生成式搜索,实现了大模型和搜索引擎的优势互补,相较于传统搜索引擎,生成式搜索主要在以下几个方面进行了优化:理解用户问题的能力、总结搜索结果的能力、保留搜索结果索引的能力,以及扩展用户问题的能力。这些优化旨在降低用户使用门槛,节省用户在不同网页上搜索和浏览的时间,确保搜索结果的可靠性,同时为用户提供深入挖掘问题的能力。

  生成式搜索的优势:

  (1)让搜索引擎从搜索工具演进为智能助理。有了大模型的加持,搜索引擎可以帮助我们做更多事,它至少可以涵盖如下4种类型:

  搜索引擎(Search Engine):帮助我找到事实/到达某处,以事实为中心或者定向的(帮助你导航到 X 网站);

  意见引擎(Opinion Engine):输出意见观点,由伦理团队认为你应该相信的内容(可能通过蓝色链接或 LLM 输出);

  答案引擎(Answer Engine):生成答案,基于事实,对你的查询进行综合(基于事实);

  建议引擎(Advice Engine):针对接下来我应该做什么,提供建议?

  (2)减少生成式AI的幻觉现象。生成式AI无法做到实时更新,且受限于训练数据,可能无法覆盖相对小众、缺乏通用性的长尾知识。同时,生成式AI对生成内容的可控性较差,存在“幻觉”问题,用户也难以对答案进行直接验证。这些问题,有了生成式搜索,都可以迎刃而解。

 

  微分认知的生成式搜索产品

  微分认知公司已经推出基于生成式搜索的证券信息分析产品,AI研报分析师,为分析师、个人投资者提供实时的上市公司研究报告相关的数据和分析决策能力。

  AI研报分析师,基于LLM大模型与智能Agent技术,提供研报的语义搜索、图片搜索、表格搜索等多种搜索功能,支持统计分析、对比分析等数据分析功能,采用类ChatGPT的自然语言互动方式,从海量证券信息中,直接获取数据或洞察结果,把分析师和投资者从每天大量的重复性工作中解放出来,AI帮您读研报,投研分析更智能。

  欢迎券商、私募基金、公募基金、个人用户试用(产品链接:https://aiyanbao.weifenai.com)

 

  参考资料:

  中金 | AI十年展望(十四):从Perplexity看AI+搜索的破局之道

  https://mp.weixin.qq.com/s/3qRaJ-o9H6U4QcRZcrGyKQ

  估值超5亿美元,体验碾压Bard、Bing,AI搜索引擎Perplexity的想象力在哪里?

  https://mp.weixin.qq.com/s/DAGz5okbk1RQskHtCpTfnA

  AI+搜索|关于搜索的想象,和目前估值最高的生成式搜索引擎 Perplexity

  https://mp.weixin.qq.com/s/0zUQFixXQ9vwWTCIR_b1iA

 

首页标题    原创    大模型应用开发系列6——生成式搜索