<<
>>

Поисковые машины

- это системы, состоящие из трех частей. Первая, Spider (Bot или Robot) - программа, которая посещает Web- страницы и полностью или частично считывает (индексирует) их со-держимое.
Вторая - индекс поисковой системы, представляющий собой массив данных, в котором хранятся копии всех посещенных страниц. Третья часть - это программа, которая в соответствии с введенными запросами просматривает индекс в поисках нужной информации и выдает найденные документы, обычно в порядке убывания релевантности. Следует отметить, что толкования понятия «реле-вантность» (степень соответствия запросу) существенно разнятся в зависимости от используемой поисковой системы. В частности, оди-наковый запрос в системах www.aport.ru,www.yandex.ru и www.altavista.ru даст разные результаты.

Таблица 1.4

Поисковые характеристики основных русскоязычных серверов Web-адрес Область поиска Диапазон поиска aport.ru весь WWW Слова с учетом морфо-логии au.ru каталог русского Интернета по категориям или анно-тациям сайтов km.ru каталог русского Интернета по категориям или анно-тациям сайтов rambler.ru весь WWW, конференция Relcom Слова без учета морфо-логии Даже в одной системе результаты поиска могут заметно отличаться спустя некоторое время - после очередного обновления индекса [24].

В поисковые каталоги, например list.ru, содержащий около 10 тысяч источников, информация, в отличие от поисковых машин, добавляется только по инициативе редактора. Последний обычно пишет и краткую аннотацию к сайту, занесенному в каталог. Крупнейшие

международные каталоги, подобные www.yahoo.com, содержат на по-рядок больше записей. Какой бы многоступенчатой ни была иерархия разделов в каталоге, она в большинстве случаев снабжена "интуитив-но-понятным" интерфейсом. Двигаясь по такому мощному рубрика-тору-интерфейсу, можно почти с 90%-й вероятностью обнаружить сайт по искомой теме.

Кроме того, в любом солидном каталоге есть система поиска, аналогичная применяемой на поисковых машинах.

Таблица 1.5

Поисковые характеристики основных англоязычных серверов Web-адрес Общая характеристика Особенности AltaVista.com Значительные быстродействие и информационная насыщенность Недостаточная релевантность, обусловленная тем, что контекст не учитывается Exite.com Наличие обзорных узлов и пу-теводителей Небольшой индекс, удачное ранжирование Hotbot.com Значительное быстродействие Небольшой индекс, сложный язык запросов, корректная работа с русскоязычными источниками Infoseek.com Поисковая машина с каталогом Неудобный интерфейс, на-страиваемая "страница поль-зователя" Lycos.com Индексация документов только по ключевым словам Информационная насыщен-ность Yahoo.com Наибольшая информационная насыщенность Рубрикатор, продолжительное сохранение ссылок на удаленные ресурсы Можно отметить тенденцию, что в последнее время поисковые машины и каталоги все чаще кооперируются. Так, машина Yandex.ru может искать как в собственном индексе, так и в каталоге List.ru.

При организации тематического поиска информации, например, по новым типам оросительной техники, важным является вопрос выбора типа поисковой системы. В общем случае каталог нужен, когда разыскиваются сайты определенной тематики (сельское хозяйство,

оросительная техника), а поисковая машина - когда нужна совершенно определенная информация. Серьезным преимуществом поисковых машин является огромный объем их индексов - в то время как даже очень большие каталоги содержат в лучшем случае сотни тысяч записей. Например, известная www.altavista.com индексирует более 100 миллионов страниц, причем индекс пополняется и обновляется доста-точно часто.

Поисковые машины обычно учитывают все слова на странице, даже не относящиеся к ее теме. Для определения релевантности слов анализируется частота их употребления. Существуют машины, создатели которых пытаются потеснить каталоги в их рыночной нише, используя сложные эвристические методы для определения темы стра-ницы по ключевым словам.

Если же вас интересует не определенная информация, а тема (или если вы не в состоянии сформулировать точный запрос из-за недостатка данных), то целесообразно использовать поисковый каталог.

Причем в том случае, если тема достаточно узка, имеет смысл искать в каталоге не сайты нужной направленности, а частные наборы ссылок (Linklist) например, в разделе «Классификаторы» или «Каталоги». Вне всякого сомнения, создатели Web-ресурсов еще долго будут обгонять индексаторов, а индексаторы изо всех сил будут стремиться сократить этот разрыв. Поэтому поисковые системы - самые посещаемые сайты.

Глубина и диапазон тематического поиска определяются структурой формируемого запроса для поисковой системы (search engines). Базовая схема их использования состоит в том, что пользователь вводит одно или несколько ключевых слов (Key words), которые достаточно отражают содержание объекта поиска, а система просматривает

свой каталог Wеb-страниц, содержащий сотни гигабайт. При этом почти все системы так или иначе предпринимают попытки интеллектуального анализа содержимого страниц для улучшения качества поиска.

Для сужения диапазона поиска можно использовать операнды булевой алгебры, при этом следует активизировать опцию обязательного присутствия всех ключевых слов в извлекаемом документе. Например, при работе в среде AltaVista используется режим Advanced Query, а между ключевыми словами вставляют AND (OR, NOT). Если же не нужны документы, в которых не содержится хотя бы одно из ключевых слов, выбирают симовол включения впереди каждого слова или их сочетания (+Agricultural+Transaction). Кроме того, предусмотрена возможность исключения нежелаемого слова с помощью логического оператора NOT (+Transaction NOT Agricultural).

Таким образом, при организации и проведении предметно- тематического поиска в глобальной сети Internet существенное значение имеет правильный выбор типа поисковой системы: поисковой машины или каталога. Для оптимизации результатов поиска с целью повышения степени релевантности необходимо составление адекватного поискового выражения с использованием операндов булевой алгебры.

<< | >>
Источник: З.Н. Козенко, А.Ф. Рогачёв, А.Л. Нахшунов, И.А. Карапузов. Поддержка принятия управленческих решений: инструментально-информационное обеспечение З.Н. Козенко, А.Ф. Рогачёв, А.Л. Нахшунов, И.А. Карапузов; Под. ред. А.Ф. Рогачёва . — Волгоград: Изд-во Волгоградского государственного университета,2001. — 124 с.. 2001

Еще по теме Поисковые машины: