ElasticSearch 全文检索介绍说明_Php

ElasticSearch 全文检索介绍说明

发布时间：2018-02-22

ElasticSearch 英 [ɪ'læstɪk]

adj. 灵活的；有弹性的；可变的
n. 橡皮圈；有松紧的东西

全文数据的检索这个简称 ES

两种检索方式：

顺序扫描法慢

索引扫描法

全文检索的基本思路，即将非结构化数据中的一部分信息提取出来，重新组织，使变得有一定的结构，然后对此有一定结构的数据进行检索，从而达到搜索相对较快的目的。

全文检索的过程

1、索引的创建

2、索引的搜索

索引保存了什么？也就是文档的ID

例如 hadoop 保存了 35 77 100 那么这三个数字就是文档的ID 这些都是倒序表

索引只会创建一次，比顺序扫描法快的多

创建索引的步骤：

1、找到要提取关键字的文章

2、将文章传递给分词组件 Tokenizer

将文档分成一个一个的单词、去除标点符号、去除停词

3、交给语言处理组件 LinuisticProcessor

4、将得到的词（Term）传给索引组件（Indexer）

利用得到的词Term创建一个字典

对字典按字母顺序进行排序

合并相同过的词（Term）成为文档倒排(Posting List)链表

以上是索引创建的步骤。

那么看看搜索索引是怎么工作的：

第一步：用户输入查询搜索语句

第二步：对查询语句进行词法分析，语法分析及语言处理

第三步：搜索索引，得到符合文档

全文检索引擎是目前广泛应用主流搜索引擎。

全文检索的主要开源的产品

lucene sphinx xapian nutch Elasticsearch

Elasticsearch是一个基于apache Lucene开源搜索引擎，无论在开源还是专有领域，lucene可以被认为是迄今为止最先进、性能最好功能最全的搜索引擎库。

ES 对lucene 进行了包装。

Es 是使用java开发并使用 Lucene作为核心实现所有引擎和所搜的

优势：

所有功能集成在一个服务里，可以通过 RESTful API 、各种语言的客户端甚至命令行与之交互，

免费下载、使用和修改

配置灵活

安装：

官网：

http://www.elastic.co

好的，看看ES的安装：

http://www.elastic.co/cn/downloads/elasticsearch

elasticsearch 的安装是有版本内核要求的，因此并不是随便安装最新等等

我们通过上面下载

yum install -y elasticsearch-2.4.1.rpm 这样的命令进行安装

配置：

然后进行简单的配置

vim /etc/elasticsearch/elasticsearch.yml 进行配置

cluster.name:yii2-search

node.name:master-1

具体其他配置可以访问官网：

path.data:/path/to/data 数据的存储路径

path.logs:/path/to/logs 日志存储路径

network

network.host:192.168.199.112

http.port:9200

保存退出

启动：

怎么启动：

service elasticsearch start

然后就可以通过浏览器进行访问了，这是返回 json 的一个数据。

安装插件：

下面我们安装一些插件：

ik 支持中文分词 elasticsearch-analysis-ik

通过github 进行clone 克隆下来

有版本，对应elastic

git clone https://asdfasdfasdfasdfadsf

然后进入lk 目录

git checkout tags/v1.10.1

然后通过 mvn package 进行安装

安装好以后，在当前目录 target/releases/下面出现 elasticsearch-analysis-ik-1.10.1.zip 的包

如果你的elasticsearch是通过yum安装的，那么就把这个分词包放在

cp elasticsearch-analysis-ik-1.10.1.zip /usr/share/elasticsearch/plugins/ 下面

进入 /usr/share/elasticsearch/plugins/ 解压 elasticsearch-analysis-ik-1.10.1.zip

unzip elasticsearch-analysis-ik-1.10.1.zip

mkdir ik

mv ./* ik

也可以将 elasticsearch-analysis-ik-1.10.1.zip 解压到的ik下

上面的解压完毕后从新启动一下，就加载 ik组件了。

分词工具：

analyze分词器 standard 和ik的区别

standard 标准分词

ik 中文分词

那么在命令终端中使用 curl 'http://192.168.199.112:9200' 是可以返回到一个json数据的，

证明 elasticsearch是正常运行的。

我们去分析一下分词组件

curl -XPOST "http://192.168.199.112:9200/_analyze?analyzer=standard" -d '这是一个商品的标题'

curl -XPOST "http://192.168.199.112:9200/_analyze?analyzer=standard&pertty" -d '这是一个商品的标题'

curl -XPOST "http://192.168.199.112:9200/_analyze?analyzer=ik&pertty" -d '这是一个商品的标题'

curl -XPOST "http://192.168.199.112:9200/_analyze?analyzer=ik_smart&pertty" -d '这是一个商品的标题'

都是词组

ik 默认使用的是最大的分词个数 ik_max_word 和写 ik 是一样的。

默认就是 ik_max_word

ik 要比 standard 强大的多

创建索引

curl -xPUT "http://192.168.199.112:9200/"

vim createIndex.json

{
    "settings":{
        "refresh_interval":"5s",
        "number_of_shards":1,
        "number_of_peplicas":0 
    },
    "mappings":{
    
        "_default_":{
            "_all":{
                "enabled":true //所有字段都生效
            }
        },
        "products":{
        
            "dynamic":false,  //出现新的字段  关闭了
            "properties":{
                "productid":{
                    "type":"long"
                 },
                 "title":{
                     type:"string", //此title的类型是string
                     "index":"analyzed",//创建索引  俺呢来自的
                     "analyzer":"ik"
                  },
                  "descr":{
                      "type":"string",
                      "index":"analyzed",
                      "analyzer":"ik"
                  }            
            }
        }
        
        
    }

}

截图11.jpg