常见的四大全文搜索引擎
思韵闪耀
2023-11-13
0

全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。


常见的搜索引擎有很多,比如Lucene、Sphinx、XunSearch、还有大名鼎鼎的Elasticsearch,我们可以根据项目需求,来选择合适的搜索引擎来优化我们的项目,下面来说说这几个搜索引擎的区别。


1.Sphinx

一款基于Python语言开发的支持SQL的全文搜索引擎,在github 上 start达到5k,提供MySQL数据库插件,可以很方便的监听数据库变动,方便数据库集成,也支持API调用,对接搜索引擎相对来说比较灵活,不会局限在开发语言上。

需要中文分词的话可以安装Coreseek插件,支持短语搜索,自动生成文档摘要等。默认支持分布式搜索。


2.XunSearch

采用C/C++开发,最大特色是:快,搜索响应快,开发上手快。支持海量数据,单库最多支持40亿条数据,在 5 亿网页大约 1.5TB 的数据中,非缓存情况下检索时间不超过 1 秒,中文分词是自主研发的 scws分词应用,搜索效果符合国人习惯。可能是官方比较青睐PHP的关系, 自带PHP插件,支持包括字段检索、结果高亮、字段排序、布尔语法、区间检索、聚合搜索、相关搜索、权重微调、拼音搜索、搜索建议等等专业搜索引擎具备的功能。


3.MeiliSearch

基于高性能编程语言RUST开发的RESTful API搜索服务,目前github上面star数量为31.1K,欢迎程度可想而知,为所有希望为最终用户提供快速且相关的搜索体验的人提供现成的解决方案。它安装方便,使用简单,特别适合中小型企业或者个人项目中使用,在某些场景下用来替代Elasticsearch 将是个不错的选择,由于其对接方式为API,可以很容易的进行对接,还可以基于此打造管理搜索引擎的操作平台,进行可视化管理。


4.Elasticsearch

支持海量数据的分布式搜索和分析引擎,支持集群,是当前主流的企业级搜索引擎,可以与Logstash 和 Kibana 结合使用堪称三剑客, 互联网大型项目中都有他们的身影,因为定位原因, 上手难度高,开发者需要熟悉很多理念才能使用,同时由于其资源占用多,中小型项目亲和度比较低,很少在中小型项目中见到。


【版权声明】
本站部分内容来源于互联网,本站不拥有所有权,不承担相关法律责任。如果发现本站有侵权的内容,欢迎发送邮件至masing@13sy.com 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

相关内容

全文检索:sphinx、e...
Sphinx 是一款基于SQL的高性能全文检索引擎快速创建索引:3...
2023-11-13
常见的四大全文搜索引擎
全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容...
2023-11-13

热门资讯

SIOCADDRT: Netw... SIOCADDRT: Network is unreachable SIOCADDRT: 网络不可达...
centos7下创建新用户和组 linux下添加,删除,修改,查看用户和用户组 1 .增加一个test组 groupadd test...
linux通过sed 修改文件... 13sy.txt里面内容如下 A; B; C; write by luohao199621; 1.要...
关于cannot remove... 关于cannot remove directory: Directory not empty的解决办...
mount: unknown ... mount: unknown filesystem type LVM2_member解决方案 系统启...
OpenMediaVault安... OpenMediaVault 是一个基于Debian的专用 Linux 发行版,用于构建网络连接存储...
centos7 双网卡双网关的... 最近公司需要在一台服务器上同时使用内网和外网,并且都需要跨网段访问,因此需要双网关,但是一台机子上只...
ethtool 命令详解 1 概述 ethtool 是用于查询及设置网卡参数的命令。 2 命令详解 2.1 命令格式 (1) ...
CentOS7单网卡设置双IP... linux系统CentOS7单网卡设置双IP的方法,centos7.5、7.6、7.7设置双IP教程...
Linux进程状态D,S,Z的... Linux进程状态top,ps中看到进程状态D,S,Z的含义 在top和ps命令中有一列显示进程状态...