最近有两件事,让 搜索引擎 重回聚光灯下。

百度发布“文心百中” ,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。


(资料图片仅供参考)

几乎同一时间, OpenAI最新发布聊天机器人 ChatGPT ,网友发现用它来寻找问题的答案虽然有时会出错,但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。

搜索引擎这个经典技术,就要迎来一轮变革了吗?

想当年,搜索引擎是PC互联网时代的流量入口,绝对的王者。

进入移动互联网时代后,虽然不再是最受关注的焦点,但搜索也仍旧是 高频刚需 ,逐渐融入人们的日常生活。

当人们重新把目光看向搜索引擎,也会注意到它这些年并没有停止进化。

搜索变了

过去一提到搜索,肯定离不开 关键词 。前几届世界杯时,人们更习惯于搜“世界杯 直播地址”,关键词之间用空格隔开。

就好像把所有网页当成一个大文档,用类似Ctrl+F的方式去 对关键词做匹配 。

随着手机、移动互联网的普及,人们的需求也在变化,现在更倾向于提出一个问题,并期待搜索引擎能 直接给出回答 。

如搜索“世界杯直播在哪看?”,更口语化也更复杂,甚至一些时候就是语音转换出来的。

搜索引擎也在适应这种变化,给出的结果不再是单纯的页面排序。

针对一些问题,会给出对内容深入理解后的 答案抽取 。

有时会给出更直观、更容易跟着操作的 视频内容 。

甚至在理解需求的基础上出现配套的 服务跳转 。

这些变化看起来并不复杂,背后却要有很多技术做支撑。

在这里要重点讲一下百度今年亮相的两项新技术, “知一” 和 “千流” 。

先看跨模态大模型知一,AI技术在搜索场景落地的代表。

简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。

打破了资源形态的界限,就更容易理解用户的搜索需求。

从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。

据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。

这就要提到 新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。

千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引。

如何理解栅格化?

在过去,搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。

如今,在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。

百度工程师透露,这样节省下的计算量也没有闲着,而是对内容进行精耕细作,用不同的算法从多维度提高索引的质量。

还有一个额外好处,在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。

知一和千流配合起来,整个系统还会根据模型最新学习到的知识,进行实时动态调整,确保最优检索效果。最大程度避免无效计算,最终把满足需求的结果高效呈现给用户。

这些新技术,在实际业务中是否起到了效果呢?

答案或许可以从数据中找。

反馈驱动创新

9月份举办的万象·百度移动生态大会,百度指出,过去一年,百度搜索规模 逆势增长17% 。

最新的百度第三季度财报也显示,移动端搜索查询次数同比实现两位数的增长。

百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰指出,其中的关键是 “反馈驱动创新” 。

一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。

另一方面则来自智能推荐。2022年第三季度百度App信息流内容分发量同比增长23%,其中的用户点赞、评论、分享也都是用户最直接的反馈。

用户的高频需求,驱动着AI技术变革。新技术又能激发新用户需求表达,两者构成 “双轮驱动” ,持续推动搜索进化。

比如虚拟人技术加持下,可以实现交互式对话,单纯的搜索之外又有了聊天、陪伴需求。

正如百度研究院在年初的十大科技趋势中所预测的,AIGC(AI Generated Content,人工智能生成内容)在今年大放异彩。

未来AIGC继续与搜索深度结合,还将带来“搜索即生成”甚至“搜索即创造”。

不会再有“抱歉,没有找到相关的网页,请检查您的输入是否正确”,而是用户点下搜索按钮的一瞬间,本不存在的内容由AI即时创造出来。

百度CEO李彦宏前段时间也说过:

随着技术的突破,AI作画、AI视频、甚至AI构建一个虚拟世界可能都会像手机拍照一样简单。

而一切技术的突破和创新,都离不开人才。

推荐内容