Как добавить словарь в цепочку обработки слов в конфигурации полнотекстового поиска PostgreSQL

25.12.2021

PostgreSQL

Комментариев нет

Смотрим конфигурацию для полнотекстового поиска, например, на английском:

laradrom=# \dF+ english
Text search configuration "pg_catalog.english"
Parser: "pg_catalog.default"
      Token      | Dictionaries 
-----------------+--------------
 asciihword      | english_stem
 asciiword       | english_stem
 email           | simple
 file            | simple
 float           | simple
 host            | simple
 hword           | english_stem
 hword_asciipart | english_stem
 hword_numpart   | simple
 hword_part      | english_stem
 int             | simple
 numhword        | simple
 numword         | simple
 sfloat          | simple
 uint            | simple
 url             | simple
 url_path        | simple
 version         | simple
 word            | english_stem

laradrom=# \dF+ english

Text search configuration "pg_catalog.english"

Parser: "pg_catalog.default"

Token | Dictionaries

-----------------+--------------

asciihword | english_stem

asciiword | english_stem

email | simple

file | simple

float | simple

host | simple

hword | english_stem

hword_asciipart | english_stem

hword_numpart | simple

hword_part | english_stem

int | simple

numhword | simple

numword | simple

sfloat | simple

uint | simple

url | simple

url_path | simple

version | simple

word | english_stem

Видим, в последней строчке, что слова обрабатываются словарем english_stem.

А нам, допустим, нужно убирать диакритические знаки (умляуты) из слов.

Для этого укажем перед english_stem словарь unaccent.

ALTER TEXT SEARCH CONFIGURATION english
ALTER MAPPING FOR word WITH unaccent, english_stem;

1 2	ALTER TEXT SEARCH CONFIGURATION english ALTER MAPPING FOR word WITH unaccent, english_stem;

получится:

laradrom=# \dF+ english
Text search configuration "pg_catalog.english"
Parser: "pg_catalog.default"
      Token      | Dictionaries 
-----------------+--------------
 asciihword      | english_stem
 asciiword       | english_stem
 email           | simple
 file            | simple
 float           | simple
 host            | simple
 hword           | english_stem
 hword_asciipart | english_stem
 hword_numpart   | simple
 hword_part      | english_stem
 int             | simple
 numhword        | simple
 numword         | simple
 sfloat          | simple
 uint            | simple
 url             | simple
 url_path        | simple
 version         | simple
 word            | unaccent, english_stem