当前位置:首页 > 服务端 > solr安装和基本应用

solr安装和基本应用

2022年09月17日 21:01:38服务端6

原地址:

http://blog.csdn.net/crazylzxlzx/article/details/62411875

http://www.jianshu.com/p/3d64412f8c40

在comcat上搭建solr6.2:

solr6.4安装部署到tomcat教程 
一、 环境

solr 下载地址 http://archive.apache.org/dist/lucene/solr/6.2.0/

jdk 1.8

tomcat8

二、 安装solr到tomcat

1 解压solr ,把 solr-6.2.0\solr-6.1.0\server\solr-webapp下的 webapp 文件夹拷贝到tomcat 的webapps下,重命名为solr,也可以是其他名字;

( 注意,此处有的教程错误的将solr-webapp文件夹进行拷贝,这会导致solr启动不了)

2 拷贝solr-6.2.0\server\lib\ext 下的jar包到 tomcat\webapps\ 下solr 项目的WEB-INF\lib下;拷贝solr-6.2.0\dist 下solr-dataimporthandler jar 包,solr-dataimporthandler-extras-6.2.0.jar 包 到 tomcat\webapps\ 下solr 项目的WEB-INF\lib下

3 拷贝solr-6.2.0\server 下的solr文件夹到E盘或其它非中文目录下,重命名为solrhome;

4 修改tomcat\webapps\ solr(solr的项目名)\WEB-INF\web.xml, 找到如下代码,去掉注释,/put/your/solr/home/here 改为你自己的solrhome的路径, 如:E:/solr-home

   <env-entry-name>solr/home</env-entry-name>

   <env-entry-value>/put/your/solr/home/here</env-entry-value>

   <env-entry-type>Java.lang.String</env-entry-type>

</env-entry>

5 拷贝solr-6.2.0\server\resources下的log4j.properties到tomcat\webapps\solr\WEB-INF\classes,如果WEB-INF下没有classes文件那么就创建一个classes文件夹。

6、启动tomcat, 输入http://localhost:8080/solr/index.html 看到如下界面:

如果报403错误 有个节点,这个配置表示拒绝所有对这个资源的访问。原来如此,把这段代码注释掉:

在web.xml最底层 倒数第一个

添加core

进入到solrhome文件夹,建立一个文件夹,用于存放你的core,例如我的cores

1 进入到server\solr\configsets\sample_techproducts_configs 文件夹,将此文件夹下的conf 目录拷贝到刚刚建立的core的文件夹下,即我的cores文件夹下

2 在浏览器中输入http://localhost:8080/solr/index.html,进入solr管理页面,点击左侧的add core,在name 和instanceDir下都输入cores(在步骤1中取得名称) ,点击add core即可 
-此时在输入http://localhost:8080/solr/index.html, 在左侧即可看见刚刚建立的core

然后在进入到\cores目录,此时会发现多了一个data文件夹和一个properties文件,如图: 
​​​​​​​

data目录,用于存储索引文件,core.properties文件用于存放core的配置信息

到此solr的搭建,以及第一个core的就到此结束了

非常重要: 
按转载的博主的文章部署solr会报某个jar找不到(metrics),所以我在solr安装目录下的server\lib下将metrics开头的jar全部放到部署应用的lib下,再重启tomcat搞定.


基本使用;

Solr 6.2 搭建搜索引擎应用实践

一、前言

在开发网站/App项目的时候,通常需要搭建搜索服务。比如,新闻类应用需要检索标题/内容,社区类应用需要检索用户/帖子。

对于简单的需求,可以使用数据库的 LIKE 模糊搜索,示例:

SELECT * FROM news WHERE title LIKE '%法拉利跑车%'

可以查询到所有标题含有 "法拉利跑车" 关键词的新闻,但是这种方式有明显的弊端:

1、模糊查询性能极低,当数据量庞大的时候,往往会使数据库服务中断;

2、无法查询相关的数据,只能严格在标题中匹配关键词。

因此,需要搭建专门提供搜索功能的服务,具备分词、全文检索等高级功能。 Solr 就是这样一款搜索引擎,可以让你快速搭建适用于自己业务的搜索服务。

二、安装

到官网 http://lucene.apache.org/solr/ 下载安装包,解压并进入 Solr 目录:

wget 'http://apache.website-solution.net/lucene/solr/6.2.0/solr-6.2.0.tgz'

tar xvf solr-6.2.0.tgz

cd solr-6.2.0

目录结构如下:


Solr 6.2 目录结构

启动 Solr 服务之前,确认已经安装 Java 1.8 :


查看 Java 版本

启动 Solr 服务:

./bin/solr start -m 1g

Solr 将默认监听 8983 端口,其中 -m 1g 指定分配给 JVM 的内存为 1 G。

在浏览器中访问 Solr 管理后台:

http://127.0.0.1:8983/solr/#/


Solr 管理后台

创建 Solr 应用:

./bin/solr create -c my_news

可以在 solr-6.2.0/server/solr 目录下生成 my_news 文件夹,结构如下:


my_news 目录结构

同时,可以在管理后台看到 my_news:


管理后台

三、创建索引

我们将从 MySQL 数据库中导入数据到 Solr 并建立索引。

首先,需要了解 Solr 中的两个概念: 字段(field) 和 字段类型(fieldType),配置示例如下:


schema.xml 示例

field 指定一个字段的名称、是否索引/存储和字段类型。

fieldType 指定一个字段类型的名称以及在查询/索引的时候可能用到的分词插件。

将 solr-6.2.0\server\solr\my_news\conf 目录下默认的配置文件 managed-schema 重命名为 schema.xml 并加入新的 fieldType:


分词类型

在 my_news 目录下创建 lib 目录,将用到的分词插件 ik-analyzer-solr5-5.x.jar 加到 lib 目录,结构如下:


my_news 目录结构

在 Solr 安装目录下重启服务:

./bin/solr restart

可以在管理后台看到新加的类型:


text_ik 类型

接下来创建和我们数据库字段对应的 field:title 和 content,类型选为 text_ik:


新建字段 title

将要导入数据的 MySQL 数据库表结构:


编辑 conf/solrconfig.xml 文件,加入类库和数据库配置:


类库

dataimport config

同时新建数据库连接配置文件 conf/db-mysql-config.xml ,内容如下:


数据库配置文件

将数据库连接组件 mysql-connector-java-5.1.39-bin.jar 放到 lib 目录下,重启 Solr,访问管理后台,执行全量导入数据: 


全量导入数据

创建定时更新脚本:


定时更新脚本

加入到定时任务,每5分钟增量更新一次索引:


定时任务

在 Solr 管理后台测试搜索结果:


分词搜索结果

至此,基本的搜索引擎搭建完毕,外部应用只需通过 http 协议提供查询参数,就可以获取搜索结果。

四、搜索干预

通常需要对搜索结果进行人工干预,比如编辑推荐、竞价排名或者屏蔽搜索结果。Solr 已经内置了 QueryElevationComponent 插件,可以从配置文件中获取搜索关键词对应的干预列表,并将干预结果排在搜索结果的前面。

在 solrconfig.xml 文件中,可以看到:


干预其请求配置

定义了搜索组件 elevator,应用在 /elevate 的搜索请求中,干预结果的配置文件在 solrconfig.xml 同目录下的 elevate.xml 中,干预配置示例:


重启 Solr ,当搜索 "关键词" 的时候,id 为 1和 4 的文档将出现在前面,同时 id = 3 的文档被排除在结果之外,可以看到,没有干预的时候,搜索结果为:


无干预结果

当有搜索干预的时候:


干预结果

通过配置文件干预搜索结果,虽然简单,但是每次更新都要重启 Solr 才能生效,稍显麻烦,我们可以仿照 QueryElevationComponent 类,开发自己的干预组件,例如:从 Redis 中读取干预配置。

五、中文分词

中文的搜索质量,和分词的效果息息相关,可以在 Solr 管理后台测试分词:


分词结果测试

上例可以看到,使用 IKAnalyzer 分词插件,对 “北京科技大学” 分词的测试结果。当用户搜索 “北京”、“科技大学”、“科技大”、“科技”、“大学” 这些关键词的时候,都会搜索到文本内容含 “北京科技大学” 的文档。

常用的中文分词插件有 IKAnalyzer、mmseg4j和 Solr 自带的 smartcn 等,分词效果各有优劣,具体选择哪个,可以根据自己的业务场景,分别测试效果再选择。

分词插件一般都有自己的默认词库和扩展词库,默认词库包含了绝大多数常用的中文词语。如果默认词库无法满足你的需求,比如某些专业领域的词汇,可以在扩展词库中手动添加,这样分词插件就能识别新词语了。


分词插件扩展词库配置示例

分词插件还可以指定停止词库,将某些无意义的词汇剔出分词结果,比如:“的”、“哼” 等,例如:


去除无意义的词


六、总结

以上介绍了 Solr 最常用的一些功能,Solr 本身还有很多其他丰富的功能,比如分布式部署。

希望对你有所帮助。

七、附录


1、参考资料:

https://wiki.apache.org/solr/

http://lucene.apache.org/solr/quickstart.html

https://cwiki.apache.org/confluence/display/solr/Apache+Solr+Reference+Guide


2、上述 Demo 中用到的所有配置文件、Jar 包:

https://github.com/Ceelog/OpenSchool/blob/master/my_news.zip







作者:jack__ming
来源链接:https://blog.csdn.net/jack__ming/article/details/72615162

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/42899.html

分享给朋友:

“solr安装和基本应用” 的相关文章

超基础的Android studio的安装教程

超基础的Android studio的安装教程

Android Studio安装: 下载并安装 Android Studio。 启动 Android Studio,并通过“Android Studio 设置向导”。安装最新的 SDK Platform-Tools 和 Android SDK...

Git的安装教程(完成clone一个项目到本地)

Git的安装教程(完成clone一个项目到本地)

官网下载安装包地址:点击进入 https://git-scm.com/download/win 但是官网下载比较慢,我们这里选择国内阿里镜像点击进入 https://npm.taobao.org/mirro...

RabbitMQ安装教程

RabbitMQ安装教程

前言    之前安装的时候参考了一篇博客,成功的安装上了,但是没有记录自己安装过程,又在一个虚拟机上重新安装了一遍,记录自己的安装过程,方便自己以后参考。 步骤   Rabbitmq是用erlang语言写的,所以我们需要安装Erla...

~~Python解释器安装教程及环境变量配置~~

~~Python解释器安装教程及环境变量配置~~

进击のpython ***** Python解释器安装教程以及环境变量配置 对于一个程序员来说,能够自己配置python解释器是最基础的技能 那么问题来了,现在市面上有两种Python版本 Python 2.x 和 Python 3.x...

IDEA 2020 激活

IDEA 2020 激活 下载 jetbrains-agent.jar 文件 将下载的文件 bin 目录下的三个文件拷贝到 IDEA 安装的后的 bin 目录下,替换文件 编辑 idea.exe.vmoptions 和 idea64.exe.vmopti...

docker安装及删除Redis

docker安装及删除Redis

redis的安装方式有很多,本文讲述的是在docker中如何安装redis及删除redis的容器和镜像。 通过docker安装redis前,首先要确保虚拟机或服务器上已经安装了docker。 1、执行以下指令确定系统上是否已经安装了docker,本机显示已安装:...

Pycharm断点调试入门

Pycharm断点调试入门

断点调试是在开发过程中常用的功能,能清楚看到代码运行的过程,有利于代码问题跟踪。对我这个小白开发来说,还有一个作用是快速熟悉代码,拿到别人写的代码,有时看不太懂或看的很吃力,光这样看很无感,但是通过断点调试,可以很清楚的看到代码是怎么走的,每一步的参数的值...

2018   idea激活方式

2018 idea激活方式

idea 2018激活方式 作者:文强强 来源链接:https://blog.csdn.net/zcw4237256/article/details/79813214...

Docker安装指定版本

今天新增一个Docker服务器,Docker安装顺利,启动hello-world测试的时候却出现了问题; $ docker run hello-world Unable to find image 'hello-world:latest' locally latest: P...

手把手的教你安装PyCharm --Pycharm安装详细教程(一)(非常详细,非常实用)

手把手的教你安装PyCharm --Pycharm安装详细教程(一)(非常详细,非常实用)

简介 Jetbrains家族和Pycharm版本划分: pycharm是Jetbrains家族中的一个明星产品,Jetbrains开发了许多好用的编辑器,包括Java编辑器(IntelliJ IDEA)、JavaScript编辑器(WebStorm)、PHP编辑器(PHPS...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。