wwsearch企业微信检索引擎-电子发烧友网

`wwsearch`简介

wwsearch是企业微信后台自研的全文检索引擎。它为海量用户下的全文快速检索而设计，底层支持可插拔的lsm tree存储引擎。目前覆盖企业微信所有在线检索场景：企业员工通讯录、审批、日报、周报、汇报、企业素材检索，也包括企业邮箱的全文邮件检索。最大业务场景有300+亿条记录，索引词项万亿+，存储容量几十TB，支撑实时在线用户检索。

功能介绍

实时数据修改：数据写入即实时可查。对外提供插入、更新、删除、覆盖写等接口，可适应更新频繁场景，也适应于少改或不改场景。
支持灵活Query：支持词的等值、前缀、模糊匹配。多个Query通过And 、Or进行组合，满足不同场景的检索需求。Query还可以按指定field进行检索。
后置过滤：支持对检索索引后的结果进行二次过滤，支持等值、数值范围、数组元素查找、字符串模糊等过滤特性。适用于如无法建立高区分度索引的字段过滤、带有业务特定场景的过滤。
灵活排序：支持按多个field的属性值组合排序，类似order by语义。
检索功能可扩展：场景需要时，可以扩展各类聚合函数（sum/avg…）,也可以支持场景文本打分。

实现剖析

全文检索引擎wwsearch实现剖析

接口说明

具体使用例子参考example/example.cpp。这里简单对接口字段进行说明。

Index

主要涉及6个接口，分别是：

AddDocuments：仅当文档id不存在时添加；
UpdateDocuments：仅当文档id存在时更新；更新时会保留旧文档存在的未更新field内容；
AddOrUpdateDocuments：若文档id不存在则添加，若存在则更新；
ReplaceDocuments：仅当文档id存在时替换；
DeleteDocuments：仅当文档id存在时删除；
AddDocumentsWithoutRead：文档id不存在则添加，存在则覆盖；

下面以用户常用的AddOrUpdateDocuments为例说明用法。

// wwsearch/index_writer.h
bool AddOrUpdateDocuments(const TableID &table,
                          std::vector &documents,
                          std::string *store_buffer = nullptr,
                          SearchTracer *tracer = nullptr);

// wwsearch/document.h
class DocumentUpdater {
    ...
  Document new_document_;
    ...
};

class Document {
    ... 
  std::vector fields_;
  DocumentID document_id_;
    ...
};

// wwsearch/index_field.h
class IndexField {
    ...
  FieldID field_id_;
  IndexFieldFlag field_flag_;
  kIndexFieldType field_type_;
  uint64_t numeric_value_;
  std::string string_value_;
    ...
}

用户使用涉及主要字段说明:

TableID : bussiness_type(uint8_t) + partition_set(uint64_t)组成，分表；
DocumentID : uint64_t，文档id，文档的唯一标识；
IndexField ：文档列的信息，包括列属性和值。
- field_id_，field的ID
- field_flag_，索引标记
  - kTokenizeFieldFlag，是否分词
  - kStoreFieldFlag，是否存储原始数据
  - kDocValueFieldFlag，是否存储列值属性
  - kSuffixBuildFlag，是否后缀展开
  - kInvertIndexFieldFlag，是否建立倒排索引
- field_type_，值类型
  - kUint32IndexField
  - kUint64IndexField
  - kStringIndexField
- numeric_value_/ string_value_，字段原始值

Query

主要涉及接口：

// wwsearch/searcher.h
SearchStatus DoQuery(const TableID &table, Query &query, size_t top,
                     std::vector *filter,
                     std::vector *sorter,
                     std::list &docs,
                     uint32_t min_match_filter_num = 0)

用户使用涉及主要字段说明：

TableID : bussiness_type(uint8_t) + partition_set(uint64_t)组成，分表；
Query ：构建查询的字段信息，可支持AndQuery和OrQuery的嵌套格式，支持PrefixQuery前缀查询；参考
Filter ：过滤器，支持数字/字符串/数组/多字符串条件过滤；
SortCondition ：对查询得到的文档输出做排序，支持指定field做排序，目前只支持指定数字的field排序；
min_match_filter_num设置最小匹配的filter数，只要匹配的filter大于此数的文档才能输出。

构建方法

依赖模块说明

依赖模块为：

# wwsearch/deps/
protobuf-2.4.1
snappy-1.0.4
rocksdb-v5.16.6
tokenizer-mmseg

仓库中已提前编译生成依赖库，您也可以根据编译环境重新编译依赖的第三方模块。

构建方法：

需要使用支持c++ 11的编译环境构建

mkdir build
cd build
cmake  ..
make -j32
cp ../deps/tokenizer/etc/wwsearch_* .

编译完成将可以看到：

wwsearch_ut : 单元测试；
wwsearch_example : 简单示例，包括index和query。

接下来可以愉快使用啦，enjoy it!

贡献代码

提交pull request贡献代码前，请参考 Contributing.md 。 wwsearch基于c++11开发，遵循Google C++ Style Guide代码风格，提交代码前需要使用附带的.clang-format格式化代码；

反馈问题

使用中遇到问题，可以有以下途径反馈：

直接在[issues]提问；

开源协议

wwsearch 开源协议为 Apache License Version 2.0 ，详细的 License 请参考 LICENSE.TXT

wwsearch企业微信检索引擎

软件简介

wwsearch简介

功能介绍

实现剖析

接口说明

Index

Query

构建方法

依赖模块说明

构建方法：

贡献代码

反馈问题

开源协议

2023年IPO上市“芯”动态

NCE2305 NCE P通道增强模式电源 MOSFET民信微

FPGA加速视觉搜索引擎解决方案

Bean Searcher条件检索引擎

基于耦合字典学习与图像正则化的跨模态检索

基于注意力机制的跨域服装检索方法综述

基于POI分布的空间索引结构TDG

基于最优排序的局部敏感哈希索引方案

基于FPGA的智能视频检索系统设计方案

多服务器模式下的属性基多关键字排序检索方案

基于MapReduce的时间序列索引及数据查询

云服务器中同态加密关键词检索方案分析

基于曼哈顿哈希等的三段式图像检索方法

基于蜕变测试的用户搜索引擎性能分析

智能信息检索模型

结合注意力机制的跨域服装检索方法

基于运算符信息的数学表达式检索技术

基于双峰高斯分布的深度哈希检索算法

搜索结果多样化及其算法综述

基于Unity3D游戏引擎的神经反馈治疗系统

基于食物图片的食谱检索技术

可解决数据异构性问题的跨模态检索方法

结合时间和空间数据的移动对象数据索引PM-tree

采用多目标蚁群优化算法的主题爬虫方法

一种数据流内存索引及存储方法

支持检索关键词语义扩展的可排序密文检索方案详细资料说明

如何使用深度卷积神经网络改进服装图像分类检索算法

LabVIEW的术语快速索引详细说明

实现支持检索关键词语义扩展的可排序密文检索的方案详细说明

如何设计与实现结构化数据存储检索系统

迈富时GEO服务：技术驱动AI搜索时代的企业增长新引擎

国科微荣获“信创十佳企业”

Meta开发新搜索引擎，减少对谷歌和必应的依赖

OpenAI注册新域名，准备推出结合AI技术的搜索引擎挑战谷歌

OpenAI或将推出ChatGPT搜索引擎

生成式AI恐使搜索引擎衰退，预计2026年搜索量将下滑25%

谷歌搜索引擎优化的各个方面和步骤

索引的底层实现详解

Neeva宣布关闭其搜索引擎

NAS下搭建linux命令搜索引擎教程

ChatGPT能否取代Google、百度等传统搜索引擎

ChatGPT爆红，百度、搜狗、360等搜索引擎尴尬吗？

2022微信公开课小程序AR应用大公开！

传腾讯和字节跳动内容有望向其他搜索引擎开放

谷歌威胁将整个澳大利亚撤出其搜索引擎

微信bug后企业微信又崩溃 腾讯致歉：已经修复

企业微信崩溃已紧急修复

腾讯官方回应企业微信崩溃：已紧急修复

企业微信与微信互通能力升级：客户群人数升至 500 人，支持发放客户群红包

苹果自研的搜索引擎干的过谷歌吗？

苹果正在加快研发自己的搜索引擎,以取代谷歌

中国搜索引擎市场规模已突破千亿元，百度引领国内发展

苹果正在开发iPhone的搜索引擎技术,挑战谷歌的垄断地位

谷歌每年向苹果支付80-120亿美元,使谷歌成为其设备的默认搜索引擎

靠搜索引擎发家的谷歌，或被美国盯上采取法律行动

中国搜索引擎增速放缓，移动搜索成为搜索企业未来新的增长点

2020上半年国内搜索引擎数据出炉，百度斩获双第一

Verizon推出新型搜索引擎OneSearch，以保障用户信息安全

微信小程序到底是什么？为什么需要微信小程序？

大数据是如何优化企业搜索引擎

下载排行榜

矩形科技 CANopen 远程IO模块产品手册

OC5721欧创芯开关降压型LED恒流驱动器

灵动 ATE 自动测试系统用户使用说明

高性能非隔离交直流转换芯片 PC9403A数据手册

复旦微 FMQL100TAI 智能开发套件手册 AI 实时图像处理开发板资料

`wwsearch`简介

微信bug后企业微信又崩溃腾讯致歉：已经修复