Понятие и сущность поисковых систем
В век информационных технологий в жизни людей большую роль играет Интернет, а любые действия в сети невозможно провести без поисковых систем, позволяющих быстро находить и просматривать интересующие веб-страницы.
На сегодняшний день в научной литературе существует довольно большое количество определений понятия «поисковая система». Рассмотрим некоторые из них.
Таким образом, проанализировав все вышеприведенные определения, можно сделать вывод, что поисковые системы выступают основным инструментом решения важнейших задач информационного обеспечения разнообразных видов деятельности человечества.
Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например, веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.
Более удобная используемая схема поиска запрашиваемого контента состоит из следующих этапов:
- фиксация информационной потребности на естественном языке;
- выбор специализированных поисковых сервисов и служб сети и точная формулировка информационного запроса на конкретных информационно-поисковых языках (ИПЯ);
- выполнение и инициализация созданных запросов;
- предварительная выборка и обработка полученных списков ссылок на определенные ресурсы содержащие поисковый контент;
- обращение по адресам web-сервисов за искомыми данными; предварительный анализ найденного содержимого;
- сохранение релевантных документов для последующего изучения;
- извлечение документов и ссылок для расширения поискового запроса;
- изучение и обработка всего ранее сохраненных документов;
Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов или вследствие человеческого фактора.
Современные поисковые системы собирают не только текстовую информацию, которая может быть подвергнута ими прямой индексации для осуществления последующего поиска, по ключевым словам, но и информацию о различных мультимедийных данных путем анализа контекста, в котором встречаются эти данные.
Кроме того, поисковые системы собирают информацию технического характера, как о сайтах, так и о пользовательских компьютерах, с которых происходит обращение за выдачей поисковой информации, так и вообще, информацию о любом компьютере, подключенном к сети Интернет.
Все поисковые системы объединяет то, что они расположены на специально-выделенных мощных серверах и привязаны к эффективным каналам связи.
Основными показателями поисковых систем для WWW являются пространственный масштаб и специализация. По пространственному масштабу поисковые системы можно разделить на:
- локальные,
- глобальные,
- региональные,
Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.
Региональные поисковые системы описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете.
Глобальные поисковые системы в отличие от локальных стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. Их можно разделить на:
- Уникальные поисковые системы: Yandex, Google, Rambler.
- Мета-системы Metabot.ru, Nigma.
Задача поисковых систем – определение наиболее релевантных сайтов по поисковым запросам пользователей. Однако, исходя из реалий функционирования электронной коммерции, справедливо заключить что, решая эту задачу, поисковые системы также определяют конкурентоспособность Интернет-бизнеса. Значит роль, которую играют поисковые системы в электронной торговле, огромна.
Политическая роль поисковых систем возрастает с каждым годом. Эти системы позволяют:
Характеристики и устройство поисковых систем
Основными характеристиками поисковых систем являются:
- полнота,
- точность,
- актуальность,
- скорость поиска,
Устройство поисковой системы
Каждая крупная поисковая система имеет свою собственную архитектуру, но для всех них можно выделить общие компоненты.
2) Робот-индексатор отвечает за сохранение документов, найденных пауком. Перед отправкой запроса на сервер для получения документа робот-индексатор запрашивает содержимое файла robots. txt, если таковой существует в корневой директории веб-сайта. Robots. txt — файл ограничения доступа роботам к содержимому веб-сайта. Существует стандарт исключений для роботов, использование которого добровольно, но большинство современных поисковых систем ему следуют. В случае, если документ разрешен для скачивания, роботиндексатор составляет обратный (инвертированный) файл и сохраняет его в базе данных. Инвертированный файл в самом простом случае представляет собой структуру, состоящую из двух частей:
По этой структуре в дальнейшем и происходит поиск при запросе пользователя к поисковой системе, а сама структура называется ее индексом. Аналогичной структурой обладает «быстрая» база, документы для которой индексирует «быстроробот». В нее, как правило, попадают документы новостных сайтов, блогов, а также документы многих ежедневно пополняемых веб-сайтов. Стоит отметить, что документы, сохраненные роботом-индексатором в основной базе, не сразу участвуют в результатах поиска, в отличие от документов в быстрой базе, которые могут появляться в результатах поиска сразу после индексации «быстророботом». Обновление поисковой базы происходит 1-2 раза в неделю.
Обход документов веб-сайта пауком не гарантирует, что робот-индексатор сохранит документ в поисковом индексе. Если веб-сайт содержит множество неуникальной информации, содержит вирусы, всплывающие рекламные окна (pop-up и т. ) или использует в своих документах различные виды спама для обмана поисковой системы, такие документы могут никогда не попасть в поисковый индекс, но робот-индексатор будет периодически посещать их для проверки устранения нарушений.
После того, как наиболее схожие документы были отобраны, их необходимо упорядочить по релевантности (выполнить ранжирование). За этот процесс отвечает формула ранжирования, которую обычно и называют алгоритмом поисковой системы. Формула ранжирования содержит множество факторов, которые влияют на релевантность документа запросу; для разных поисковых систем эти множества различны.
Формулы ранжирования учитывают множество факторов при определении релевантности документа запросу пользователя. В первых версиях Яндекс и Google факторы ранжирования можно было разделить на две группы:
Для улучшения результатов поиска также используется подход «Pseudo-relevance feedback». Суть подхода заключается в том, что поиск проводится в два этапа. На первом этапе используется простой метод, описанный выше. После этого документы, найденные на первых позициях, объявляются релевантными, и ищутся «похожие». Можно использовать любую меру похожести, но в данном случае используется 2 разные меры, которые можно реализовать с достаточной для реальных применений производительностью.
Со временем веб-мастера стали проставлять множество ссылок для манипулирования результатами поиска, появились биржи по покупке и продаже ссылок, которые существуют до сих пор. Ссылочное ранжирование усложнялось, модифицировалось, но до сих пор остается одним из главных факторов ранжирования в поисковых системах. В последние 2-3 года добавились запросные факторы — геозависимость, то есть для хорошего ответа, поисковой системе необходимо учитывать регион, из которого был задан запрос.
Выводы к 1 главе:
Поисковые системы являются сложнейшими и громадными механизмами, представляющие собой инструмент для нахождения любой необходимой информации. Работа с помощью поисковых систем позволяет многим пользователям глобальной сети осуществлять быстрый поиск нужной информации в кратчайшие сроки.
Поисковая система – это программно-аппаратный комплекс, который осуществляет поиск в сети Интернет, реагирует на запрос пользователя, задаваемый в виде поискового запроса и выдает упорядоченный по релевантности список информационных источников.
- Паук;
- Робот-индексатор;
- Модуль поиска.
Анализ поисковых систем на российском IT-рынке
В условиях тотальной информатизации общества использование поисковых систем в экономике, социальной сфере и межличностном коммуникативном общении стало повседневной практикой. Сформировался конкурентный IT-рынок, на котором созданы разнообразные поисковые системы, отличающиеся географией, сервисом и масштабом охвата пользовательской аудитории. Были выбраны 10 поисковых систем, существующих на международном IT-рынке, была составлена краткая характеристика каждой поисковой системы.
Рисунок 1. Рейтинг поисковых систем Рунета в 2017 году
Третье и четвертые места занимают поисковые системы Mail и Rambler, набирающие популярность у населения стран Содружества Независимых Государств и, кроме того, у населения Германии (3%).
Анализ характеристик современных поисковых систем
Назначим весовые коэффициент — параметры, которые отражают в сравнении с другими критериями относительную важность, значимость, «вес» данных критериев. Сумма всех весов должна быть равной 1, поэтому для точности поиска весовому коэффициенту даем значение, равное 0. 8, для полноты поиска – 0. Оформим результаты, они представлены в таблице 1.
Таблица 1. Весовые коэффициенты
Критерий
Весовой коэффициент
Точность поиска
0,8
Полнота поиска
0,2
Сформулируем тринадцать запросов на разные темы и выполним каждый запрос в каждой из пяти исследуемых поисковых системах. Из полученных списков результатов выберем следующую информацию:
Общее количество найденных документов (Д).
Количество релевантных документов различной ценности (РД).
Количество релевантных документов оценивается при просмотре текста первых 10 найденных документов. Также определяется ценность найденной информации (степень удовлетворения найденном документом информационных потребностей). Ценность информации оценивается по 3-х бальной шкале: 2 балла — информация имеет ценность, 1 балл – информация имеет частичную ценность, 0 баллов – информация не имеет ценности. Результаты выполнения запросов сведем в таблицу 2.
Таблица 2. Результаты выполнения запросов
№т емы
Bing
Google
Mail. ru
Rambler
Yandex
Д
РД
Д
РД
Д
РД
Д
РД
Д
РД
2
1
0
2
1
0
2
1
0
2
1
0
2
1
0
1
1810000
9
1
0
3180000
10
0
0
7000000
5
2
3
41 000000
9
1
0
40000000
9
1
0
2
116000
8
2
0
711000
10
0
0
2000000
8
1
1
943000
10
0
0
942000
9
1
0
3
420000
7
2
1
2330000
8
2
0
1000000
9
1
0
3 000000
8
0
2
2000000
9
0
1
4
62 000
8
2
0
964000
10
0
0
1000000
8
1
1
3 000000
9
1
0
2000000
9
0
1
5
2340000
8
1
1
2380000
8
0
2
7000000
7
1
2
20 000000
9
0
1
17000000
9
0
1
6
103000
7
0
3
1020000
10
0
0
1000000
9
0
1
3 000000
10
0
0
2000000
10
0
0
7
746000
9
0
1
5430000
9
0
1
13000000
10
0
0
3 000000
9
0
1
1000000
9
0
1
8
19 900
7
2
1
214000
10
0
0
18000
9
1
0
9 000
8
0
2
9 000
10
0
0
9
42 400
9
1
0
140000
9
0
1
766000
7
1
2
431000
9
0
1
430000
10
0
0
10
999000
10
0
0
4190000
9
0
1
9000000
9
1
0
6 000000
10
0
0
4000000
10
0
0
11
1940000
10
0
0
683000000
9
1
0
9000000
10
0
0
7 000000
10
0
0
6000000
9
0
1
12
73 700
9
1
0
812000
8
1
1
863000
9
0
1
834000
9
1
0
869000
10
0
0
13
115000
10
0
0
301000
10
0
0
3 000000
9
0
1
2 000000
10
0
0
2 000000
10
0
0
Таблица 3. Результаты сравнительного анализа поисковых систем
Критерий
Bing
Google
Mail. ru
Rambler
Yandex
Полнота поиска (Д)
675923,1
1719615,385
4203615,4
6939769,2
6019230,8
Место(полнота поиска)
6
5
4
1
3
Среднее количество пертинентных документов (РД2)
8,5
9,23
8,38
9,23
9,46
Среднее количество частичнопертинентных документов (РД1)
0,92
0,31
0,69
0,23
0,15
Среднее количество непертинентных документов (РД0)
0,53
0,46
0,92
0,53
0,38
Коэффициент точности поиска (Р)
0,94
0,953
0,904
0,945
0,961
Место (точность поиска)
5
3
6
4
1
Коэффициент поискового шума (S)
0,056
0,046
0,095
0,054
0,038
Рейтинг (R)
2,8
4,6
2,4
4,4
5,8
Для нахождения лучшей поисковой системы для начала вычислим средние арифметические значения показателей для каждой поисковой системы Д, РД(0), РД(1) и РД(2).
Далее необходимо определить место каждой поисковой системы по критерию «Полнота поиска». Для его определения места будем использовать среднее количество найденных документов Д. Наилучшей считается та система, которая нашла больше документов. Ей присваивается первое место, самой худшей – место N (где N – это количество всех исследуемых систем). Коэффициент точности поиска P для каждой поисковой системы определим по формуле:
где a – число релевантных документов, которые выдала поисковая система в ответ на запрос, a = 0. 5 * РД (1) + РД (2); b — число документов, которые полностью не имеют ценность, b = РД (0).
Далее необходимо определить место каждой поисковой системы по критерию «Точность поиска». Лучшей будет считаться система, которая имеет большее значение коэффициента точности поиска P. Ей присваивается первое место, самой худшей – место N (где N – это количество исследуемых систем).
Следующим шагом будет вычисление коэффициента поискового шума S по формуле:
В заключении необходимо вычислить по следующей формуле рейтинг каждой исследуемой системы R:
где i — номер критерия оценки поисковой системы, m – это количество критериев оценки, wi — весовой коэффициент для критерия оценки i, qi – это место ПС по критерию оценки i. N – общее количество исследуемых систем.
Таким образом, по результатам расчетов самый лучший рейтинг получился у поисковой системы Yandex.
Выводы по 2 Главе:
Были выбраны 10 поисковых систем, по каждой системе была составлена краткая характеристика.
Был приведен рейтинг поисковых систем по России за 2017 год. Самой популярной поисковой системой стала Яндекс.
Была проанализирована пятерка систем, а именно поисковые системы Yandex, Google, Mail. ru Bing, и Rambler, произведено их сравнение и, была выбрана лучшая по полноте и точности поиска, такой стала поисковая система Яндекс. Результат работы поможет пользователям сети выбрать быструю и надежную поисковую систему, выполняющую запросы с наибольшей точностью и за максимально короткие промежутки времени.
2 Критерии качества работы поисковых систем в сети Интернет
Качество выполненного поиска зависит от того, насколько найденный документ релевантен поисковому запросу пользователя. Такая оценка производится, в том числе, на основе методов ранжирования документов.
Выделяют такие внестраничные критерии релевантности документов, как, например:
- ссылочное ранжирование: PageRank– это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank– это метод вычисления веса страницы путем подсчета важности ссылок на нее.
- тип запроса:
- навигационный, информационный, общий, геозависимый и др.
- индекс цитирования;
- описание сайтов в каталогах;
- релевантность запросу сайта в целом; и т.д.
Все они имеют высокую значимость для релевантности по значительной доле запросов в поиске по Интернету. Релевантность текста страницы для таких запросов также имеет значение, однако при этом бывает достаточно ее грубой оценки, тонкие различия практически не влияют на релевантность результатов по подобным запросам. В то же время, не менее значительна и доля запросов, для которых внестраничная информация практически отсутствует и решающим оказывается страничное ранжирование. Таким образом, можно говорить, что хотя релевантность результатов в поиске по Интернету определяется не только качеством алгоритмов страничного ранжирования, их влияние на качество поиска достаточно велико. Конечно, здесь надо иметь в виду, что релевантность результатов поиска в Интернете зависит не только от качества ранжирования, но и от других факторов. Объем и частота обновления базы, отслеживание нечетких дубликатов, фильтрация спама — все это также оказывает значительное влияние на качество поиска.
Выделяют следующие критерии выбора поискового механизма:
- скорость индексирования и переиндексации,
- поддерживаемые API(ApplicationProgrammingInterface, интерфейс программирования, интерфейс создания приложений),
- поддерживаемые протоколы,
- размер базы и скорость поиска,
- поддерживаемые типы документов,
- работа с разными языками и стемминг,
- поддержка дополнительных типов полей в документах,
- платформа и язык,
- возможность расширения встроенных механизмов ранжирования и сортировки.
Основные принципы определения релевантности:
- Количество ключевых слов запроса в тексте документа.
- Тэги, в которых эти слова располагаются.
- Местоположение искомых слов в документе.
- Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
- Время – как долго страница находится в базе поискового сервера.
Индекс цитируемости – как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.
Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведет к снижению другого. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчете коэффициентов учитывается только один документ.
Значимой мерой релевантности в реальных поисковых системах является степень удовлетворенности пользователя полученными результатами. Естественно, этот критерий не поддается точному формальному определению, в отличие от критериев, используемых в экспериментах по информационному поиску. Вопрос о степени применимости традиционных формальных критериев к реальному поиску в Интернете остается малоисследованным. Например, такие значимые в экспериментальных исследованиях критерии как Precision, Recall, Average Precision ориентированы на ситуацию, когда пользователя интересуют все релевантные документы, и он просматривает всю поисковую выдачу. В реальном же поиске по Интернету подобная модель поведения пользователя является всего лишь одной из многих и встречается не столь уж часто. Возможно, в будущем будут разработаны системы оценки релевантности, учитывающие вероятную модель поведения пользователя для оцениваемого запроса и выбирающие адекватный критерий ранжирования, хотя и это будет лишь частичным решением проблемы.
С другой стороны, бесспорно наличие корреляции между формальными критериями и качеством поиска с точки зрения пользователя.
В настоящее время различают несколько общих моделей информационного поиска:
- Булева модель, когда документы при поиске делятся на две группы – либо соответствующие, либо несоответствующие запросу, при этом никакие их оценки не вычисляются. В первоначальном варианте модели этого типа не поддерживали ранжирование документа (отсутствовал метод определения степени соответствия документа запросу – оценок релевантности документа запросу), выдавалось все множество документов, соответствующих запросу, без какого-либо ранжирования.
- Модель векторного пространства – документ и запрос представляется в качестве вектора и ищется скалярное произведение векторов, которое позволяет оценить близость документа и термина.
- Вероятностная модель, где вычисляется вероятность того, что документ релевантен, т.е. соответствует запросу с использованием полного вероятностного подхода. Существует множество методов вычисление вероятности.
- Модель обратной связи по релевантности и расширения запроса — позволяет при поиске учитывать ответы пользователя. Классический вариант подразумевает несколько итераций поиска, при каждом следующем шаге алгоритм улучшает результаты поиска.
- Языковые модели информационного поиска — рассматривают задачу поиска со стороны документа. Если данный документ может породить запрос, то этот документ релевантен.
3 Особенности реализации поисковых технологий
Система StackSearch осуществляет поиск с учетом:
- морфологии нескольких естественных языков;
- атрибутовполнотекстовых документов (при необходимости с логическим объединением);
- эвристического алгоритма определения жизненного цикла документа, для мониторинга изменений в индексируемых документах с целью исключения при сборе информации документов, которые не были изменены;
- взаимодействия с другими поисковыми системами.
Stack Search состоит из различных модулей:
- Краулер — модуль сбора документов для индексирования из различных источников;
- Индексатор — модуль формирования поискового индекса по сформированной ранее коллекции документов;
- Поисковой сервер — сложная программа (программный комплекс), осуществляющая реализацию поисковых запросов с применением поискового индекса;
- Клиентские средства — программные библиотеки и утилиты, реализованные на различных языках программирования для взаимодействия с сервером поиска.
Поиск в Google. Google состоит из следующих модулей:
- Модуль загрузки — обрабатывает URL-адреса из собственной базы данных URL, очищает соответствующий документ от нетекстовой информации и помещает его в базу данных html-документов;
- Модуль обработки документа — обнаруживает в имеющихся html-документах ссылки и добавляет их в соответствующее хранилище, а составляющие документы слова помещает в хранилище слов, обработанные модулем документы далее размещаются в индексе;
- Модуль обработки ссылок — при получении ссылки на не проиндексированный документ добавляет URL в соответствующее хранилище.
- Модуль вычисления веса документа относительно запроса пользователя.
Таким образом, можно выделить следующие хранилища информации:
а) URL – содержит адреса страниц для индексирования;
б) HTML – хранит тексты документов, из которых удалены скрипты, картинки и пр
в) слов – хранит номера слов и сами слова для последующего обращения по номеру;
г) индексное – различные индексы, которые указывают, в каком документе находится данное слово, и наоборот, из каких слов состоит документ;
д) ссылок – хранит ссылки из обработанного документа;
е) ссылок на сайт – хранит данные о перекрестных ссылках с сайтов.
Поисковая система Яндекс. Реализует распределенную поисковую технологию, на всех уровнях поисковой системы производится распараллеливание нагрузки.
При обращении пользователя к системе его запрос перенаправляется на поисковой веб-сервер, который в настоящий момент менее загружен.
Далее производится обработка на уровне поисковой системы, на котором располагаются базы параллельного поиска (реализуется деление большой базы документов).
Современные реализации предполагают создание полнотекстового индекса, содержащего все слова с указанием мест их встречаемости. Таким образом, поиск заданных слова осуществляется в этом индексе, после чего доступен список документов, в которых он встречается. Кроме того документы индексируются после исключения их дубликатов (либо по всем терминам, либо по основным, определенным некоторым специфическим для различных систем способом, ключевым словам). Большинство существующих программных реализаций информационно-поисковых систем позволяют ограничивать поиск по дате публикации, источнику информации, автору, учитывать морфологическую изменчивость ключевых слов и область поиска, если имеется возможность указать таковую. Область поиска также ограничивается посредством тематического рубрикатора. Для уточнения запросов в программах применяют словари синонимов, а также предлагаются слова, часто встречающиеся в сочетании с ключевыми словами.
В настоящее время большое распространение получили метапоисковые системы, которые в результате поиска выдают данные с десятка поисковых систем, при этом объем информации может быть весьма значительным. Чтобы пользователь не потерял в полученном массиве необходимую ему информацию, результирующие данные представляются в виде общего списка, где в первых элементах расположены данные, наиболее релевантные запросу. Альтернативным решением явились тематические поисковые системы на веб-сайтах – узконаправленные порталы. Кроме того некоторые системы позволяют экспортировать результирующий список для использования в других программных продуктах. Как правило, такой список содержит ссылки на документы, удовлетворяющие запросу, а также похожие документы. Сортировка в списке может осуществляться по релевантности, дате и т. При просмотре полнотекстового документа в нем осуществляется указание на найденные ключевые слова, например, путем подсветки. Существуют поисковые системы, в которых реализована и возможность сохранения, модификации самих пользовательских запросов, а результаты полнотекстового поиска, полученные в различных информационно-поисковых системах, могут быть индивидуализированы путем отнесения к определенному пользователю, который и осуществил запрос. Такая персонификация позволяет экспортировать запрос и, соответственно, результаты, проводить дальнейший мониторинг с оповещением пользователя об изменении результатов запросов.
Предлагаются различные варианты моделей полнотекстового поиска, сравнительная характеристика которых будет рассмотрена в следующей главе курсовой работы.
1 Достоинства и недостатки поисковых систем
Для облегчения поиска и ориентирования в постоянно растущем объёме информации создаются различные поисковые средства. В распоряжении пользователей интернета достаточно много поисковых систем, которые по охвату индексируемых сайтов можно разделить на две группы:
- глобальные, осуществляющие поиск по всем сайтам сети (например Google, Bing, Yandex и т.д.);
- локальные, встроенные в один или несколько родственных сайтов, которые ведут поиск только по ним.
Стоит отметить, что почти в се глобальные поисковые системы могут использоваться и в качестве локальных, однако относить их к этой группе неправомерно, поскольку поиск по отдельному сайту для них является уточнением запроса.
Все эти системы обладают определёнными достоинствами, в числе которых простота и удобство использования, что позволяет неподготовленному пользователю сразу приступить к поиску информации; ранжирование или сортировка результатов поиска от наиболее релевантных к менее релевантным; отображение заголовка страницы и небольшого экстракта (обычно 2–3 строки) рядом со ссылкой на сайт, что позволяет составить первое впечатление о релевантности сайта или выданного результата.
Вместе с тем все эти системы обладают общими недостатками:
- коммерциализованность: большинство этих систем коммерческие, основная их цель – приносить прибыль, поэтому они часто и не всегда к месту размещают рекламу, а также «продвигают» сайт, т.е. искусственно повышают его релевантность;
- сортировка только по релевантности: не учитывается дата создания страницы, поэтому очень часто на первых страницах результатов поиска идут ссылки на релевантные, но устаревшие материалы;
- избыток релевантных ссылок, число которых иногда доходит до нескольких миллионов;
- отсутствие уточнения запроса по интересующим областям;
- иногда отсутствуют релевантные ссылки.
Каждая поисковая система старается улучшить результаты поиска и избавиться от перечисленных выше недостатков или хотя бы минимизировать их. Одни системы пытаются совершенствовать алгоритмы поиска, другие – предлагают пользователю уточнить поисковый запрос.
Многие поисковые системы реализовали функцию «подсказок», которая при наборе текста в поисковом поле выдаёт небольшой список наиболее часто встречающихся запросов. Большинство глобальных поисковиков предлагают уточнить запрос по типу информации, например: Yandex – выбрать из небольшого списка (Поиск, Картинки, Видео, Карты, Маркет, Новости, Музыка, Диск, Перевод, Почта, Словари, Всё), что именно ищет пользователь.
Некоторые поисковики обеспечили пользователям возможность задать временные рамки запроса. Например, Google предлагает либо выбрать из списка период создания страниц, либо задать собственный временной интервал. Также некоторые поисковые системы для уточнения поиска предлагают воспользоваться специальными операторами и пунктуацией.
«*» (звёздочка) служит для замены любого слова в запросе;
«-» (дефис) – для исключения слова из запроса;
«”текст”« (текст в кавычках) – для поиска полной фразы, заключённой в кавычки;
«OR» (оператор «ИЛИ») – для поиска одного из слов , разделённых этим оператором, и т.
Эта поисковая система имеет также небольшую систему уточнения запросов: уточнение времени публикации; выбор сортировки результатов поиска (по релевантности или по дате); возможность включить в результаты поиска либо исключить из них патенты, показывать либо скрывать цитаты.
Однако Академия Google обладает такими серьёзными недостатками, как недостаточность данных об охвате базы данных; неизвестная частота обновления; отсутствие опубликованного списка научных журналов, представленных в базе данных.
Одна из лучших систем уточнения запросов создана для поисковой системы сайта Web of Science, представляющего собой реферативную базу данных публикаций в научных журналах (компания Thomson Reuters). В боковой панели слева расположены все доступные типы уточнения поиска, например: базы данных; направления исследования; авторы; годы публикаций; языки; страны/территории и т. В каждом из этих типов есть небольшой список наиболее часто встречающихся вариантов во всех документах основного запроса. Например, на запрос «folksonomy» и для типа уточнения «Годы публикаций» предлагается следующий список: 2016, 2017, 2015, 2014, 2018.
Это означает, что наибольшее количество публикаций по основному запросу «folksonomy» пришлось на 2016 г.
Система также предлагает воспользоваться операторами поиска (например: «AND» для поиска записей, содержащих все условия) и символами усечения (например: «?» (знак вопроса) для замены одного символа).
При всех достоинствах эта поисковая система обладает одним существенным недостатком, особенно для русскоязычных пользователей. Несмотря на то, что сайт русифицирован, запрос в основной базе данных – Web of Science Core Collection – вводится только латинскими символами, а значит, возникают сложности с транслитерацией. Зачастую автор транслитерирует свою фамилию и имя по-разному в разных публикациях, поэтому сотрудники компании Thomson Reuters предлагают пользоваться символами усечения, однако это не уменьшает количество результатов, а наоборот увеличивает.
Необходимо обратить внимание и на то, что основной вид поиска всех упомянутых нами поисковых систем – вербальный, т. базируется на естественном языке. Поэтому релевантная информация, опубликованная на одном языке, при поиске по ключевым словам на другом языке не попадает в результаты поиска. Это один из главных недостатков вербального поиска.
Компания Thomson Reuters попыталась обойти это ограничение и приняла решение вести основную БД Web of Science Core Collection на английском языке. Несомненно, английский является языком международного общения, однако не все люди хорошо владеют им, поэтому предпочитают искать информацию на родном языке.
Опираясь на данные статистики, в рамках курсовой работы рассматриваемыми системами будут Google, Yandex, Bing, Mail. ru и Rambler.
Google — На сегодняшний день, система Google является общепризнанным лидером среди поисковых систем мира. Появление системы произошло в 1996 году, а корпорации Google — двумя годами позже. Google — это не только поиск, но и еще более 50 сервисов, включая самый популярный браузер Google Chrome. По мнению многих специалистов, Google Chrome самый быстрый браузер в мире, на сегодняшний день. Что касается оценки пользователей, то претензий к скорости работы не было выявлено, браузер открывает страницы практически мгновенно.
Yandex — Крупнейшая поисковая система. Появление системы произошло 23 сентября 1997 года. В последние годы Яндекс активно выходит на международный уровень. Сейчас он имеет версии сервиса в Беларуси, Украине, Казахстане и Турции. В последнее время Yandex активно продвигает свой собственный браузер.
Bing — Поисковик компании Microsoft, который быстро набирает популярность. Появление Bing произошло 1 июня 2009 года. На 2016-й год ее можно назвать быстроразвивающейся поисковой системой с достаточной долей рынка, и это позволяет назвать её конкурентом Google.
Mail. ru — Поисковая система, появление которой произошло 16 октября 2006 года. Сейчас ей принадлежат такие сервисы, как «Одноклассники» — социальная сеть для нахождения новых и старых знакомых, виртуального общения, обмена информацией между пользователями, которые смогут разделить общие интересы и увлечения, «Мой мир» — сеть, для поиска новых знакомых, друзей, одноклассников, обмена сообщениями, размещения фото и видео, поиска групп по интересам и Афиша, Агент, «Вопросы и ответы», Майл Деньги —около 40 крупнейших сервисов в Рунете, среди которых и сам поиск. Mail. ru занимает третью строчку после Google и Яндекс среди популярных поисковиков в России.
Rambler – Поисковая система, существовавшая с 1996 по 2011 года. На сегодняшний день это крупнейший российский интернет-портал. Поиск по Rambler осуществляется силами движка Яндекса, объективных причин падения его популярности нет.