Точный поиск с YaCy

Я считаю, что эта тема имеет особое значение.
Большие поисковые системы, такие как Гугл и Яндекс, которые показывают не то, что нужно пользователю, а то, что нужно им, сейчас практически утратили способность к точному поиску.
YaCy такую способность пока имеет, и уже одно это делает ее востребованной, несмотря на тучу недоработок.

Я исследовал на своем узле точный поиск фразы в кавычках, играясь с параметрами ранжирования (RankingSolr_p.html). Выяснилось, что величины параметров имеют лишь академическое значение. На практике абсолютно нерелевантные удаленные узлы могут ответить раньше, и попадают в топ результатов независимо от того, какие величины имеют параметры ранжирования. Единственное, что можно сделать - это совсем отключить поиск по тому или другому полю.
В итоге, из всех полей остались только две галочки: “весь видимый текст” и титул (заголовок окна):
text_t=1.0, title=0.3 .

Почему именно эти? С точки зрения пользователя, всё, что ему не показывает браузер, имеет нулевую ценность. Заголовок можно видеть, но он имеет только наводящее значение, поэтому его ценность ниже.
А что же теги метаданных?- отвечу прямо, что хотя они изначально были созданы для уточняющего описания документа, но на сегодня они по большей части наполнены одним рекламным мусором и в поиске играют весьма вредную роль, выводя пользователю ненужные ему документы.

Заголовки в тексте (h1 - h6) имеют различную значимость с точки зрения автора документа, хотевшего что-либо подчеркнуть или выделить, но с точки зрения пользователя ценность найденной информации не зависит от того, крупными буквами она написана или мелкими. Поэтому ранжирование по заголовкам большого смысла не имеет.

Есть еще параметр поиска по надписям на картинках. Это в принципе полезная вещь, но оказалось, что на этот параметр не распространяется действие кавычек искомой фразы, так что включение этого поля сразу вызвало появление в результатах поиска документов, не содержащих запрошенного. Что ж делать;- этой галочкой пришлось пожертвовать.

С оставшимися двумя параметрами точный поиск в кавычках стал в целом прилично работать, но замечено, что особенно при первом поиске в результатах всё же каким-то образом появляются сайты, не содержащие запрошенной фразы, но их не много, и при повторном поиске они могли исчезать. У меня это была Википедия, агентство Медуза и почему-то Московская Патриархия.
Причем, что любопытно, при запуске пересортировки результатов на странице результатов поиска, нерелевантная Википедия вставала в верхнюю позицию (вместо нижней).

Хотелось бы выяснить, почему это так происходит и пресечь ее самоуправство.

now I can read it.

1 Like

Unfortunately, as further practice has shown, the above still does not provide an exact search.
For example, an exact search for a phrase in quotation marks is specified. The results are littered with a huge number of sites that match only one of the words and therefore have nothing in common with the meaning of the request.

PLEASE tell me how and what exactly needs to be configured so that only the results containing the entire search phrase are present in the results, and not its individual words.

Have you tried eg “smokingwheels” “backup”?

The words you suggest provide relevant results.

But look at my search:


There is NOT A SINGLE link on the first page of results that contains the requested phrase.

This is a very bad result! Customization is absolutely necessary.