Какую функцию выполняют поисковые системы в интернет-магазинах?

Понятие и сущность поисковых систем

В век информационных технологий в жизни людей большую роль играет Интернет, а любые действия в сети невозможно провести без поисковых систем, позволяющих быстро находить и просматривать интересующие веб-страницы.

На сегодняшний день в научной литературе существует довольно большое количество определений понятия «поисковая система». Рассмотрим некоторые из них.

Таким образом, проанализировав все вышеприведенные определения, можно сделать вывод, что поисковые системы выступают основным инструментом решения важнейших задач информационного обеспечения разнообразных видов деятельности человечества.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например, веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Более удобная используемая схема поиска запрашиваемого контента состоит из следующих этапов:

  • фиксация информационной потребности на естественном языке;
  • выбор специализированных поисковых сервисов и служб сети и точная формулировка информационного запроса на конкретных информационно-поисковых языках (ИПЯ);
  • выполнение и инициализация созданных запросов;
  • предварительная выборка и обработка полученных списков ссылок на определенные ресурсы содержащие поисковый контент;
  • обращение по адресам web-сервисов за искомыми данными; предварительный анализ найденного содержимого;
  • сохранение релевантных документов для последующего изучения;
  • извлечение документов и ссылок для расширения поискового запроса;
  • изучение и обработка всего ранее сохраненных документов; 

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов или вследствие человеческого фактора.

Современные поисковые системы собирают не только текстовую информацию, которая может быть подвергнута ими прямой индексации для осуществления последующего поиска, по ключевым словам, но и информацию о различных мультимедийных данных путем анализа контекста, в котором встречаются эти данные.

Кроме того, поисковые системы собирают информацию технического характера, как о сайтах, так и о пользовательских компьютерах, с которых происходит обращение за выдачей поисковой информации, так и вообще, информацию о любом компьютере, подключенном к сети Интернет.

Все поисковые системы объединяет то, что они расположены на специально-выделенных мощных серверах и привязаны к эффективным каналам связи.

Основными показателями поисковых систем для WWW являются пространственный масштаб и специализация. По пространственному масштабу поисковые системы можно разделить на:

  • локальные,
  • глобальные,
  • региональные,

Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

Региональные поисковые системы описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете.

Глобальные поисковые системы в отличие от локальных стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. Их можно разделить на:

  • Уникальные поисковые системы: Yandex, Google, Rambler.
  • Мета-системы Metabot.ru, Nigma.

Задача поисковых систем – определение наиболее релевантных сайтов по поисковым запросам пользователей. Однако, исходя из реалий функционирования электронной коммерции, справедливо заключить что, решая эту задачу, поисковые системы также определяют конкурентоспособность Интернет-бизнеса. Значит роль, которую играют поисковые системы в электронной торговле, огромна.

Политическая роль поисковых систем возрастает с каждым годом. Эти системы позволяют:

Характеристики и устройство поисковых систем

Основными характеристиками поисковых систем являются:

  • полнота,
  • точность,
  • актуальность,
  • скорость поиска,

Устройство поисковой системы

Каждая крупная поисковая система имеет свою собственную архитектуру, но для всех них можно выделить общие компоненты.

2) Робот-индексатор отвечает за сохранение документов, найденных пауком. Перед отправкой запроса на сервер для получения документа робот-индексатор запрашивает содержимое файла robots. txt, если таковой существует в корневой директории веб-сайта. Robots. txt — файл ограничения доступа роботам к содержимому веб-сайта. Существует стандарт исключений для роботов, использование которого добровольно, но большинство современных поисковых систем ему следуют. В случае, если документ разрешен для скачивания, роботиндексатор составляет обратный (инвертированный) файл и сохраняет его в базе данных. Инвертированный файл в самом простом случае представляет собой структуру, состоящую из двух частей:

По этой структуре в дальнейшем и происходит поиск при запросе пользователя к поисковой системе, а сама структура называется ее индексом. Аналогичной структурой обладает «быстрая» база, документы для которой индексирует «быстроробот». В нее, как правило, попадают документы новостных сайтов, блогов, а также документы многих ежедневно пополняемых веб-сайтов. Стоит отметить, что документы, сохраненные роботом-индексатором в основной базе, не сразу участвуют в результатах поиска, в отличие от документов в быстрой базе, которые могут появляться в результатах поиска сразу после индексации «быстророботом». Обновление поисковой базы происходит 1-2 раза в неделю.

Обход документов веб-сайта пауком не гарантирует, что робот-индексатор сохранит документ в поисковом индексе. Если веб-сайт содержит множество неуникальной информации, содержит вирусы, всплывающие рекламные окна (pop-up и т. ) или использует в своих документах различные виды спама для обмана поисковой системы, такие документы могут никогда не попасть в поисковый индекс, но робот-индексатор будет периодически посещать их для проверки устранения нарушений.

После того, как наиболее схожие документы были отобраны, их необходимо упорядочить по релевантности (выполнить ранжирование). За этот процесс отвечает формула ранжирования, которую обычно и называют алгоритмом поисковой системы. Формула ранжирования содержит множество факторов, которые влияют на релевантность документа запросу; для разных поисковых систем эти множества различны.

Формулы ранжирования учитывают множество факторов при определении релевантности документа запросу пользователя. В первых версиях Яндекс и Google факторы ранжирования можно было разделить на две группы:

Для улучшения результатов поиска также используется подход «Pseudo-relevance feedback». Суть подхода заключается в том, что поиск проводится в два этапа. На первом этапе используется простой метод, описанный выше. После этого документы, найденные на первых позициях, объявляются релевантными, и ищутся «похожие». Можно использовать любую меру похожести, но в данном случае используется 2 разные меры, которые можно реализовать с достаточной для реальных применений производительностью.

Со временем веб-мастера стали проставлять множество ссылок для манипулирования результатами поиска, появились биржи по покупке и продаже ссылок, которые существуют до сих пор. Ссылочное ранжирование усложнялось, модифицировалось, но до сих пор остается одним из главных факторов ранжирования в поисковых системах. В последние 2-3 года добавились запросные факторы — геозависимость, то есть для хорошего ответа, поисковой системе необходимо учитывать регион, из которого был задан запрос.

Выводы к 1 главе:

Поисковые системы являются сложнейшими и громадными механизмами, представляющие собой инструмент для нахождения любой необходимой информации. Работа с помощью поисковых систем позволяет многим пользователям глобальной сети осуществлять быстрый поиск нужной информации в кратчайшие сроки.

Поисковая система – это программно-аппаратный комплекс, который осуществляет поиск в сети Интернет, реагирует на запрос пользователя, задаваемый в виде поискового запроса и выдает упорядоченный по релевантности список информационных источников.

  • Паук;
  • Робот-индексатор;
  • Модуль поиска.

Анализ поисковых систем на российском IT-рынке

В условиях тотальной информатизации общества использование поисковых систем в экономике, социальной сфере и межличностном коммуникативном общении стало повседневной практикой. Сформировался конкурентный IT-рынок, на котором созданы разнообразные поисковые системы, отличающиеся географией, сервисом и масштабом охвата пользовательской аудитории. Были выбраны 10 поисковых систем, существующих на международном IT-рынке, была составлена краткая характеристика каждой поисковой системы.

Читать также:  Как использовать электронную коммерцию и что это такое

Рисунок 1. Рейтинг поисковых систем Рунета в 2017 году

Третье и четвертые места занимают поисковые системы Mail и Rambler, набирающие популярность у населения стран Содружества Независимых Государств и, кроме того, у населения Германии (3%).

Анализ характеристик современных поисковых систем

Назначим весовые коэффициент — параметры, которые отражают в сравнении с другими критериями относительную важность, значимость, «вес» данных критериев. Сумма всех весов должна быть равной 1, поэтому для точности поиска весовому коэффициенту даем значение, равное 0. 8, для полноты поиска – 0. Оформим результаты, они представлены в таблице 1.

Таблица 1. Весовые коэффициенты

Критерий
Весовой коэффициент

Точность поиска
0,8

Полнота поиска
0,2

Сформулируем тринадцать запросов на разные темы и выполним каждый запрос в каждой из пяти исследуемых поисковых системах. Из полученных списков результатов выберем следующую информацию:

Общее количество найденных документов (Д).

Количество релевантных документов различной ценности (РД).

Количество релевантных документов оценивается при просмотре текста первых 10 найденных документов. Также определяется ценность найденной информации (степень удовлетворения найденном документом информационных потребностей). Ценность информации оценивается по 3-х бальной шкале: 2 балла — информация имеет ценность, 1 балл – информация имеет частичную ценность, 0 баллов – информация не имеет ценности. Результаты выполнения запросов сведем в таблицу 2.

Таблица 2. Результаты выполнения запросов

№т емы
Bing

Google
Mail. ru

Rambler
Yandex

Д

РД
Д
РД
Д
РД
Д
РД
Д
РД

2
1
0
2
1
0
2
1
0
2
1
0
2
1
0

1

1810000
9
1
0
3180000
10
0
0
7000000
5
2
3
41 000000
9
1
0
40000000
9
1
0

2
116000
8
2
0
711000
10
0
0
2000000
8
1
1
943000
10
0
0
942000
9
1
0

3
420000
7
2
1
2330000
8
2
0
1000000
9
1
0
3 000000
8
0
2
2000000
9
0
1

4
62 000
8
2
0
964000
10
0
0
1000000
8
1
1
3 000000
9
1
0
2000000
9
0
1

5
2340000
8
1
1
2380000
8
0
2
7000000
7
1
2
20 000000
9
0
1
17000000
9
0
1

6
103000
7
0
3
1020000
10
0
0
1000000
9
0
1
3 000000
10
0
0
2000000
10
0
0

7
746000
9
0
1
5430000
9
0
1
13000000
10
0
0
3 000000
9
0
1
1000000
9
0
1

8
19 900
7
2
1
214000
10
0
0
18000
9
1
0
9 000
8
0
2
9 000
10
0
0

9
42 400
9
1
0
140000
9
0
1
766000
7
1
2
431000
9
0
1
430000
10
0
0

10
999000
10
0
0
4190000
9
0
1
9000000
9
1
0
6 000000
10
0
0
4000000
10
0
0

11
1940000
10
0
0
683000000
9
1
0
9000000
10
0
0
7 000000
10
0
0
6000000
9
0
1

12
73 700
9
1
0
812000
8
1
1
863000
9
0
1
834000
9
1
0
869000
10
0
0

13
115000
10
0
0
301000
10
0
0
3 000000
9
0
1
2 000000
10
0
0
2 000000
10
0
0

Таблица 3. Результаты сравнительного анализа поисковых систем

Критерий
Bing
Google
Mail. ru
Rambler
Yandex

Полнота поиска (Д)
675923,1
1719615,385
4203615,4
6939769,2
6019230,8

Место(полнота поиска)
6
5
4
1
3

Среднее количество пертинентных документов (РД2)
8,5
9,23
8,38
9,23
9,46

Среднее количество частичнопертинентных документов (РД1)
0,92
0,31
0,69
0,23
0,15

Среднее количество непертинентных документов (РД0)
0,53
0,46
0,92
0,53
0,38

Коэффициент точности поиска (Р)
0,94
0,953
0,904
0,945
0,961

Место (точность поиска)
5
3
6
4
1

Коэффициент поискового шума (S)
0,056
0,046
0,095
0,054
0,038

Рейтинг (R)
2,8
4,6
2,4
4,4
5,8

Для нахождения лучшей поисковой системы для начала вычислим средние арифметические значения показателей для каждой поисковой системы Д, РД(0), РД(1) и РД(2).

Далее необходимо определить место каждой поисковой системы по критерию «Полнота поиска». Для его определения места будем использовать среднее количество найденных документов Д. Наилучшей считается та система, которая нашла больше документов. Ей присваивается первое место, самой худшей – место N (где N – это количество всех исследуемых систем). Коэффициент точности поиска P для каждой поисковой системы определим по формуле:

где a – число релевантных документов, которые выдала поисковая система в ответ на запрос, a = 0. 5 * РД (1) + РД (2); b — число документов, которые полностью не имеют ценность, b = РД (0).

Далее необходимо определить место каждой поисковой системы по критерию «Точность поиска». Лучшей будет считаться система, которая имеет большее значение коэффициента точности поиска P. Ей присваивается первое место, самой худшей – место N (где N – это количество исследуемых систем).

Следующим шагом будет вычисление коэффициента поискового шума S по формуле:

В заключении необходимо вычислить по следующей формуле рейтинг каждой исследуемой системы R:

где i — номер критерия оценки поисковой системы, m – это количество критериев оценки, wi — весовой коэффициент для критерия оценки i, qi – это место ПС по критерию оценки i. N – общее количество исследуемых систем.

Таким образом, по результатам расчетов самый лучший рейтинг получился у поисковой системы Yandex.

Выводы по 2 Главе:

Были выбраны 10 поисковых систем, по каждой системе была составлена краткая характеристика.

Был приведен рейтинг поисковых систем по России за 2017 год. Самой популярной поисковой системой стала Яндекс.

Была проанализирована пятерка систем, а именно поисковые системы Yandex, Google, Mail. ru Bing, и Rambler, произведено их сравнение и, была выбрана лучшая по полноте и точности поиска, такой стала поисковая система Яндекс. Результат работы поможет пользователям сети выбрать быструю и надежную поисковую систему, выполняющую запросы с наибольшей точностью и за максимально короткие промежутки времени.

2 Критерии качества работы поисковых систем в сети Интернет

Качество выполненного поиска зависит от того, насколько найденный документ релевантен поисковому запросу пользователя. Такая оценка производится, в том числе, на основе методов ран­жирования документов.

Выделяют такие внестраничные критерии релевантности документов, как, например:

  • ссылочное ранжирование: PageRank– это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank– это метод вы­числения веса страницы путем подсчета важности ссылок на нее.
  • тип запроса:
  • навигационный, информационный, общий, геозависимый и др.
  • индекс цитирования;
  • описание сайтов в каталогах;
  • релевантность запросу сайта в целом; и т.д.

Все они имеют высокую значимость для релевантности по значительной доле запросов в по­иске по Интернету. Релевантность текста страницы для таких запросов также имеет значение, одна­ко при этом бывает достаточно ее грубой оценки, тонкие различия практически не влияют на реле­вантность результатов по подобным запросам. В то же время, не менее значительна и доля запро­сов, для которых внестраничная информация практически отсутствует и решающим оказывается страничное ранжирование. Таким образом, можно говорить, что хотя релевантность результатов в поиске по Интернету определяется не только качеством алгоритмов страничного ранжирования, их влияние на качество поиска достаточно велико. Конечно, здесь надо иметь в виду, что релевант­ность результатов поиска в Интернете зависит не только от качества ранжирования, но и от других факторов. Объем и частота обновления базы, отслеживание нечетких дубликатов, фильтрация спама — все это также оказывает значительное влияние на качество поиска.

Выделяют следующие критерии выбора поискового механизма:

  • скорость индексирования и переиндексации,
  • поддерживаемые API(ApplicationProgrammingInterface, интерфейс программирования, интерфейс создания приложений),
  • поддерживаемые протоколы,
  • размер базы и скорость поиска,
  • поддерживаемые типы документов,
  • работа с разными языками и стемминг,
  • поддержка дополнительных типов полей в документах,
  • платформа и язык,
  • возможность расширения встроенных механизмов ранжирования и сортировки.

Основные принципы определения релевантности:

  • Количество ключевых слов запроса в тексте документа.
  • Тэги, в которых эти слова располагаются.
  • Местоположение искомых слов в документе.
  • Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
  • Время – как долго страница находится в базе поискового сервера.
Читать также:  Электронная коммерция и увеличение продаж AR, искусственный интеллект и база знаний

Индекс цитируемости – как много ссылок на данную страницу ведет с других страниц, заре­гистрированных в базе поисковика.

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. Различают критерии смыслового и формального соответствия между поиско­вым предписанием и выдаваемым документом.

Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведет к снижению другого. Следует учитывать ситуацию, при которой список выданных поис­ковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчете коэффициентов учитывается только один документ.

Значимой мерой релевантности в реальных поисковых системах является степень удовлетво­ренности пользователя полученными результатами. Естественно, этот критерий не поддается точ­ному формальному определению, в отличие от критериев, используемых в экспериментах по ин­формационному поиску. Вопрос о степени применимости традиционных формальных критериев к реальному поиску в Интернете остается малоисследованным. Например, такие значимые в экспе­риментальных исследованиях критерии как Precision, Recall, Average Precision ориентированы на ситуацию, когда пользователя интересуют все релевантные документы, и он просматривает всю по­исковую выдачу. В реальном же поиске по Интернету подобная модель поведения пользователя яв­ляется всего лишь одной из многих и встречается не столь уж часто. Возможно, в будущем будут разработаны системы оценки релевантности, учитывающие вероятную модель поведения пользова­теля для оцениваемого запроса и выбирающие адекватный критерий ранжирования, хотя и это бу­дет лишь частичным решением проблемы.

С другой стороны, бесспорно наличие корреляции между формальными критериями и качест­вом поиска с точки зрения пользователя.

В настоящее время различают несколько общих моделей информационного поиска:

  • Булева модель, когда документы при поиске делятся на две группы – либо соответствую­щие, либо несоответствующие запросу, при этом никакие их оценки не вычисляются. В первона­чальном варианте модели этого типа не поддерживали ранжирование документа (отсутствовал ме­тод определения степени соответствия документа запросу – оценок релевантности документа за­просу), выдавалось все множество документов, соответствующих запросу, без какого-либо ранжи­рования.
  • Модель векторного пространства – документ и запрос представляется в качестве вектора и ищется скалярное произведение векторов, которое позволяет оценить близость документа и терми­на.
  • Вероятностная модель, где вычисляется вероятность того, что документ релевантен, т.е. соответствует запросу с использованием полного вероятностного подхода. Существует множество методов вычисление вероятности.
  • Модель обратной связи по релевантности и расширения запроса — позволяет при поиске учитывать ответы пользователя. Классический вариант подразумевает несколько итераций поиска, при каждом следующем шаге алгоритм улучшает результаты поиска.
  • Языковые модели информационного поиска — рассматривают задачу поиска со стороны до­кумента. Если данный документ может породить запрос, то этот документ релевантен.

3 Особенности реализации поисковых технологий

Система StackSearch осуществляет поиск с учетом:

  • морфологии нескольких естественных языков;
  • атрибутовполнотекстовых документов (при необходимости с логическим объединением);
  • эвристического алгоритма определения жизненного цикла документа, для мониторинга из­менений в индексируемых документах с целью исключения при сборе информации документов, ко­торые не были изменены;
  • взаимодействия с другими поисковыми системами.

Stack Search состоит из различных модулей:

  • Краулер — модуль сбора документов для индексирования из различных источников;
  • Индексатор — модуль формирования поискового индекса по сформированной ранее коллекции документов;
  • Поисковой сервер — сложная программа (программный комплекс), осуществляющая реализацию поисковых запросов с применением поискового индекса;
  • Клиентские средства — программные библиотеки и утилиты, реализованные на раз­личных языках программирования для взаимодействия с сервером поиска.

Поиск в Google. Google состоит из следующих модулей:

  • Модуль загрузки — обрабатывает URL-адреса из собственной базы данных URL, очи­щает соответствующий документ от нетекстовой информации и помещает его в базу дан­ных html-документов;
  • Модуль обработки документа — обнаруживает в имеющихся html-документах ссылки и добавляет их в соответствующее хранилище, а составляющие документы слова поме­щает в хранилище слов, обработанные модулем документы далее размещаются в индексе;
  • Модуль обработки ссылок — при получении ссылки на не проиндексированный доку­мент добавляет URL в соответствующее хранилище.
  • Модуль вычисления веса документа относительно запроса пользователя.

Таким образом, можно выделить следующие хранилища информации:

а) URL – содержит адреса страниц для индексирования;

б) HTML – хранит тексты документов, из которых удалены скрипты, картинки и пр

в) слов – хранит номера слов и сами слова для последующего обращения по номеру;

г) индексное – различные индексы, которые указывают, в каком документе находится данное слово, и наоборот, из каких слов состоит документ;

д) ссылок – хранит ссылки из обработанного документа;

е) ссылок на сайт – хранит данные о перекрестных ссылках с сайтов.

Поисковая система Яндекс. Реализует распределенную поисковую технологию, на всех уров­нях поисковой системы производится распараллеливание нагрузки.

При обращении пользователя к системе его запрос перенаправляется на поисковой веб-сервер, который в настоящий момент менее загружен.

Далее производится обработка на уровне поисковой системы, на котором располагаются базы параллельного поиска (реализуется деление большой базы документов).

Современные реализации предполагают создание полнотекстового индекса, содержащего все слова с указанием мест их встречаемости. Таким образом, поиск заданных слова осуществляется в этом индексе, после чего доступен список документов, в которых он встречается. Кроме того доку­менты индексируются после исключения их дубликатов (либо по всем терминам, либо по основ­ным, определенным некоторым специфическим для различных систем способом, ключевым сло­вам). Большинство существующих программных реализаций информационно-поисковых систем позволяют ограничивать поиск по дате публикации, источнику информации, автору, учитывать морфологическую изменчивость ключевых слов и область поиска, если имеется возможность ука­зать таковую. Область поиска также ограничивается посредством тематического рубрикатора. Для уточнения запросов в программах применяют словари синонимов, а также предлагаются слова, час­то встречающиеся в сочетании с ключевыми словами.

В настоящее время большое распространение получили метапоисковые системы, которые в результате поиска выдают данные с десятка поисковых систем, при этом объем информации может быть весьма значительным. Чтобы пользователь не потерял в полученном массиве необходимую ему информацию, результирующие данные представляются в виде общего списка, где в первых элементах расположены данные, наиболее релевантные запросу. Альтернативным решением яви­лись тематические поисковые системы на веб-сайтах – узконаправленные порталы. Кроме того не­которые системы позволяют экспортировать результирующий список для использования в других программных продуктах. Как правило, такой список содержит ссылки на документы, удовлетво­ряющие запросу, а также похожие документы. Сортировка в списке может осуществляться по реле­вантности, дате и т. При просмотре полнотекстового документа в нем осуществляется указание на найденные ключевые слова, например, путем подсветки. Существуют поисковые системы, в которых реализована и возможность сохранения, модификации самих пользовательских запросов, а ре­зультаты полнотекстового поиска, полученные в различных информационно-поисковых системах, могут быть индивидуализированы путем отнесения к определенному пользователю, который и осуществил запрос. Такая персонификация позволяет экспортировать запрос и, соответственно, результаты, проводить дальнейший мониторинг с оповещением пользователя об изменении результа­тов запросов.

Предлагаются различные варианты моделей полнотекстового поиска, сравнительная характеристика которых будет рассмотрена в следующей главе курсовой работы.

1 Достоинства и недостатки поисковых систем

Для облегчения поиска и ориентирования в постоянно растущем объёме информации создаются различные поисковые средства. В распоряжении пользователей интернета достаточно много поисковых систем, которые по охвату индексируемых сайтов можно разделить на две группы:

  • глобальные, осуществляющие поиск по всем сайтам сети (например Google, Bing, Yandex и т.д.);
  • локальные, встроенные в один или несколько родственных сайтов, которые ведут поиск только по ним.
Читать также:  Интернет-реклама и электронная коммерция, аннотация

Стоит отметить, что почти в се глобальные поисковые системы могут использоваться и в качестве локальных, однако относить их к этой группе неправомерно, поскольку поиск по отдельному сайту для них является уточнением запроса.

Все эти системы обладают определёнными достоинствами, в числе которых простота и удобство использования, что позволяет неподготовленному пользователю сразу приступить к поиску информации; ранжирование или сортировка результатов поиска от наиболее релевантных к менее релевантным; отображение заголовка страницы и небольшого экстракта (обычно 2–3 строки) рядом со ссылкой на сайт, что позволяет составить первое впечатление о релевантности сайта или выданного результата.

Вместе с тем все эти системы обладают общими недостатками:

  • коммерциализованность: большинство этих систем коммерческие, основная их цель – приносить прибыль, поэтому они часто и не всегда к месту размещают рекламу, а также «продвигают» сайт, т.е. искусственно повышают его релевантность;
  • сортировка только по релевантности: не учитывается дата создания страницы, поэтому очень часто на первых страницах результатов поиска идут ссылки на релевантные, но устаревшие материалы;
  • избыток релевантных ссылок, число которых иногда доходит до нескольких миллионов;
  • отсутствие уточнения запроса по интересующим областям;
  • иногда отсутствуют релевантные ссылки.

Каждая поисковая система старается улучшить результаты поиска и избавиться от перечисленных выше недостатков или хотя бы минимизировать их. Одни системы пытаются совершенствовать алгоритмы поиска, другие – предлагают пользователю уточнить поисковый запрос.

Многие поисковые системы реализовали функцию «подсказок», которая при наборе текста в поисковом поле выдаёт небольшой список наиболее часто встречающихся запросов. Большинство глобальных поисковиков предлагают уточнить запрос по типу информации, например: Yandex – выбрать из небольшого списка (Поиск, Картинки, Видео, Карты, Маркет, Новости, Музыка, Диск, Перевод, Почта, Словари, Всё), что именно ищет пользователь.

Некоторые поисковики обеспечили пользователям возможность задать временные рамки запроса. Например, Google предлагает либо выбрать из списка период создания страниц, либо задать собственный временной интервал. Также некоторые поисковые системы для уточнения поиска предлагают воспользоваться специальными операторами и пунктуацией.

«*» (звёздочка) служит для замены любого слова в запросе;

«-» (дефис) – для исключения слова из запроса;

«”текст”« (текст в кавычках) – для поиска полной фразы, заключённой в кавычки;

«OR» (оператор «ИЛИ») – для поиска одного из слов , разделённых этим оператором, и т.

Эта поисковая система имеет также небольшую систему уточнения запросов: уточнение времени публикации; выбор сортировки результатов поиска (по релевантности или по дате); возможность включить в результаты поиска либо исключить из них патенты, показывать либо скрывать цитаты.

Однако Академия Google обладает такими серьёзными недостатками, как недостаточность данных об охвате базы данных; неизвестная частота обновления; отсутствие опубликованного списка научных журналов, представленных в базе данных.

Одна из лучших систем уточнения запросов создана для поисковой системы сайта Web of Science, представляющего собой реферативную базу данных публикаций в научных журналах (компания Thomson Reuters). В боковой панели слева расположены все доступные типы уточнения поиска, например: базы данных; направления исследования; авторы; годы публикаций; языки; страны/территории и т. В каждом из этих типов есть небольшой список наиболее часто встречающихся вариантов во всех документах основного запроса. Например, на запрос «folksonomy» и для типа уточнения «Годы публикаций» предлагается следующий список: 2016, 2017, 2015, 2014, 2018.

Это означает, что наибольшее количество публикаций по основному запросу «folksonomy» пришлось на 2016 г.

Система также предлагает воспользоваться операторами поиска (например: «AND» для поиска записей, содержащих все условия) и символами усечения (например: «?» (знак вопроса) для замены одного символа).

При всех достоинствах эта поисковая система обладает одним существенным недостатком, особенно для русскоязычных пользователей. Несмотря на то, что сайт русифицирован, запрос в основной базе данных – Web of Science Core Collection – вводится только латинскими символами, а значит, возникают сложности с транслитерацией. Зачастую автор транслитерирует свою фамилию и имя по-разному в разных публикациях, поэтому сотрудники компании Thomson Reuters предлагают пользоваться символами усечения, однако это не уменьшает количество результатов, а наоборот увеличивает.

Необходимо обратить внимание и на то, что основной вид поиска всех упомянутых нами поисковых систем – вербальный, т. базируется на естественном языке. Поэтому релевантная информация, опубликованная на одном языке, при поиске по ключевым словам на другом языке не попадает в результаты поиска. Это один из главных недостатков вербального поиска.

Компания Thomson Reuters попыталась обойти это ограничение и приняла решение вести основную БД Web of Science Core Collection на английском языке. Несомненно, английский является языком международного общения, однако не все люди хорошо владеют им, поэтому предпочитают искать информацию на родном языке.

Какую функцию выполняют поисковые системы в интернет-магазинах?

Опираясь на данные статистики, в рамках курсовой работы рассматриваемыми системами будут Google, Yandex, Bing, Mail. ru и Rambler.

Google — На сегодняшний день, система Google является общепризнанным лидером среди поисковых систем мира. Появление системы произошло в 1996 году, а корпорации Google — двумя годами позже. Google — это не только поиск, но и еще более 50 сервисов, включая самый популярный браузер Google Chrome. По мнению многих специалистов, Google Chrome самый быстрый браузер в мире, на сегодняшний день. Что касается оценки пользователей, то претензий к скорости работы не было выявлено, браузер открывает страницы практически мгновенно.

Yandex — Крупнейшая поисковая система. Появление системы произошло 23 сентября 1997 года. В последние годы Яндекс активно выходит на международный уровень. Сейчас он имеет версии сервиса в Беларуси, Украине, Казахстане и Турции. В последнее время Yandex активно продвигает свой собственный браузер.

Bing — Поисковик компании Microsoft, который быстро набирает популярность. Появление Bing произошло 1 июня 2009 года. На 2016-й год ее можно назвать быстроразвивающейся поисковой системой с достаточной долей рынка, и это позволяет назвать её конкурентом Google.

Mail. ru — Поисковая система, появление которой произошло 16 октября 2006 года. Сейчас ей принадлежат такие сервисы, как «Одноклассники» — социальная сеть для нахождения новых и старых знакомых, виртуального общения, обмена информацией между пользователями, которые смогут разделить общие интересы и увлечения, «Мой мир» — сеть, для поиска новых знакомых, друзей, одноклассников, обмена сообщениями, размещения фото и видео, поиска групп по интересам и Афиша, Агент, «Вопросы и ответы», Майл Деньги —около 40 крупнейших сервисов в Рунете, среди которых и сам поиск. Mail. ru занимает третью строчку после Google и Яндекс среди популярных поисковиков в России.

Rambler – Поисковая система, существовавшая с 1996 по 2011 года. На сегодняшний день это крупнейший российский интернет-портал. Поиск по Rambler осуществляется силами движка Яндекса, объективных причин падения его популярности нет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *