В чем различие ипс от каталога
Информационно-поисковая система – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска больших массивов структурированной информации.
Еще одно определение:
ИПС (информационно-поисковая система — это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.
Классификация ИПС:
1. Документографические. В документографических ИПС все хранимые документы индексируются специальным образом, т. е. каждому документу присваивается индивидуальный код, составляющий поисковый образ. Поиск идет не по самим документам, а по их поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама книга.
2. Фактографические. В фактографичеких ИПС хранятся не документы, а факты, относящиеся к какой-либо предметной области. Поиск осуществляется по образцу факта.
Основные определения ИПС
Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность. Релевантность — это соответствие результатов поиска сформулированному запросу.
Тезаурус — полный систематизированный набор терминов, слов, данных, семантических понятий в какой-либо области знаний с указанием на их практическое применение.
Основными целями разработки традиционных ИПТ являются следующие:
•обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
•обеспечение последовательного использования единиц индексирования;
•описание отношений между терминами;
•использование как поискового средства при поиске документов.
Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное — по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.
В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.
Каталог — поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.
Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.
Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.
Адреса популярных каталогов:
Зарубежные каталоги:
Yahoo — www.yahoo.com
Magellan — www.mckinley.com
Российские каталоги:
@Rus — www.aport.ru
Weblist — www.weblist.ru
Улитка — www.ulitka.ru
Поисковая машина — поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.
Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.
Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.
В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).
Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Однако, автоматизация определение похожести — весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.
Адреса наиболее популярных поисковых машин за рубежом и в России.
Зарубежные поисковые машины:
Google — www.google.com
Altavista — www.altavista.com
Excite — www.excite.com
HotBot — www.hotbot.com
Nothern Light — www.northernlight.com
Go (Infoseek) — www.go.com (infoseek.com)
Fast — www.alltheweb.com
Российские поисковые машины:
Яndex — www.yandex.ru (или www.ya.ru)
Рэмблер — www.rambler.ru
Апорт — www.aport.ru
Метапоисковая система. Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) — системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.
Билеты к экз / 5. Поиск в Интернет. Каталоги. Информационно-поисковые системы. Механизмы поиска в Интернет
5. Поиск в Интернет. Каталоги. Информационно-поисковые системы. Механизмы поиска в Интернет. ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность. Релевантность – это соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное – по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. Кроме того, ИПС также могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д. Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределенных источников информации. Следовательно, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набора URL источников информации. Затем проводится процедура индексирования. Индексирование – описание источников информации и построение специальной базы данных ( индекса ) для эффективного поиска. В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае процедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек. В ИПС второго типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру. Следовательно, следующей задачей для ИПС второго типа является разработка роботаиндексировщика. Для поиска в системах данного типа пользователю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.
Не последнее значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения. Для обращения к поисковому серверу пользователь использует стандартную программуклиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с интерфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом системы (системой формирования запросов и просмотра результатов поиска). Информационно-поисковые системы Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю. Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ. Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии. Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС. Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются: ∙ Заголовки (Title). ∙ Заглавия. ∙ Аннотация (Description). ∙ Списки ключевых слов (KeyWords). ∙ Гипертекстовые ссылки. ∙ Полные тексты документов. Кстати, поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полнотекстовыми. Для того, чтобы описать файл в ресурсе FTP используется URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова). Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Здесь следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют «Грамматический словарь русского языка», составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается. Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС.
Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW: ∙ поисковые системы, ∙ метапоисковые системы и программы ускоренного поиска. Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС. Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Рассмотрим особенности систем-каталогов. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник. Среди самых популярных зарубежных каталогов можно упомянуть: Yahoo ( www.yahoo.com ), Magellan (www.mckinley.com), Российские каталоги: @Rus ( www.atrus.ru ); Weblist ( www.weblist.ru ); Созвездие интернет (www.stars.ru). Поисковая система – система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых систем является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Зарубежные поисковые машины (системы): Google — www.google.com (примерно 38% охвата русскоязычных запросов) Altavistawww.altavista.com Excite www.excite.com HotBot — www.hotbot.com Nothern Lightwww.northernlight.com Go (Infoseek) www.go.com (infoseek.com) Fast www.alltheweb.com Российские поисковые машины: Яndex — www.yandex.ru (или www.ya.ru ) (48% охвата русскоязычных запросов) Рэмблер — www.rambler.ru Апортwww.aport.ru Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками. 6 Принципы работы метапоисковых систем. Механизмы поиска в интернет. Язык запросов. При работе метапоисковой системы из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя.
Простейшие метапоисковые системы реализуют стандартный подход, представленный на рис. 1. В таких системах анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, чем существенно понизить качество самого поиска. Рис.1 Стандартная метапоисковая система При разработке следующего поколения метапоисковых систем были учтены недостатки, присущие стандартным метапоисковым системам. Были созданы системы с возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно (рис. 2) Рис. 2. Следующее поколение метапоисковых систем Кроме этого, такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов. Как пример систем, имеющих подобную организацию, можно назвать Profusion , Ixquick , SavvySearch , MetaPing . Примером метапоисковой системы является Nigma (Нигма. РФ) — российская интеллектуальная метапоисковая система. Программа ускоренного поиска – это программа с возможностями метапоисковой системы, устанавливаемая на локальном компьютере. Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем. Механизмы поиска
Обобщенная технология поиска состоит из следующих этапов: ∙ Пользователь формулирует запрос ∙ Система проводит поиск документов (или их поисковых образов) ∙ Пользователь получает результат (сведения о документах) ∙ Пользователь совершенствует или реформирует запрос ∙ Организация нового поиска. Как правило, поисковые машины поддерживают два режима: режим простого поиска и режим расширенного поиска. Рассмотрим обобщенные возможности. Формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение определенных слов. Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слишком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка. Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса. Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установкой соответствующих флажков или выбором параметров из списка. Ниже в качестве примера приведены сведения из раздела помощь поисковой системы Yandex: окно расширенного поиска, язык запросов, искать в найденном. Искать в найденном Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант — включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске. Памятка по использованию языка запросов
| Пример | Значение |
| «К нам на утренний рассол» | Слова идут подряд в точной форме |
| «Прибыл * посол» | Пропущено слово в цитате |
| полгорбушки & мосол | Слова в пределах одного предложения |
| снаряжайся && добудь | Слова в пределах одного документа |
| глухаря | куропатку | кого-нибудь | Поиск любого из слов |
| не смогешь | Неранжирующее «и»: выражение после оператора не влияет на |
| позицию документа в выдаче | |
| я должон /2 казнить | Расстояние в пределах двух слов в любую сторону (то есть |
| между заданными словами может встречаться одно слово) | |
| государственное дело && /3 улавливаешь | Расстояние в 3 предложения в любую сторону |
| нить | |
| нешто я ~~ пойму | Исключение слова пойму из поиска |
| при моем /+2 уму | Расстояние в пределах двух слов в прямом порядке |
| чай ~ лаптем | Поиск предложения, где слово чай встречается без слова лапте |
| щи /(-1 +2) хлебаю | Расстояние от одного слова в обратном порядке до двух слов в |
| прямом | |
| !Соображаю !что !чему | Слова в точной форме с заданным регистром |
| получается && (+на | !мне) | Скобки формируют группы в сложных запросах |
| !!политика | Словарная форма слова |
| title:(в стране) | Поиск по заголовкам документов |
| url:ptici.narod.ru/ptici/kuropatka.htm | Поиск по URL |
| беспременно inurl:vojne | Поиск с учетом фрагмента URL |
| host:lib.ru | Поиск по хосту |
| rhost:ru.lib.* | Поиск по хосту в обратной записи |
| site:http://www.lib.ru/PXESY/FILATOW | Поиск по всем поддоменам и страницам заданного сайта |
| mime:pdf | Поиск по одному типу файлов |
| lang:en | Поиск с ограничением по языку |
| domain:ru | Поиск с ограничением по домену |
| date:200712* | Поиск с ограничением по дате |
| государственное дело && /3 улавливаешь | Расстояние в 3 предложения в любую сторону |
| нить | |
| нешто я ~~ пойму | Исключение слова пойму из поиска |
Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети страницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область поиска внутри указанного домена. В качестве дополнительных специальных операторов можно выделить: ∙ Операторы поиска документов с определенным графическим файлом; ∙ Операторы ограничения по дате искомых страниц; ∙ Операторы близости между словами; ∙ Операторы учета словоформы; ∙ Операторы сортировки результатов (по релевантности, свежести, старости). Следует заметить, что, к великому сожалению, на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем. Попытки разработать стандарт на синтаксис поддерживаемых операторов предпринимаются, поэтому есть надежда на то, что разработчики поисковых систем позаботятся об удобстве пользователей. На данном этапе развития средств поиска, пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами составления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка Помощь (Help), по которой вы перейдете к справочной информации. Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах.
Рассмотрим способы представления результатов поиска в поисковых машинах. Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на странице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголовок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа. В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов). Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.
68. Информационно-поисковые системы и каталоги. Поиск информации.
ИПС (информационно-поисковая система) — это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность. Релевантность — это соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное — по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.
Каталог — поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.
Способы поиска информации в web
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета.
Существуют три основных способа поиска информации в Интернет:
1. Указание адреса страницы.
2. Передвижение по гиперссылкам.
3. Обращение к поисковой системе (поисковому серверу).
Способ 1: Указание адреса страницы
Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ.
Не стоит забывать возможность поиска по открытой в окне браузера web-странице (Правка-Найти на этой странице…).
Способ 2: Передвижение по гиперссылкам
Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу.
Способ 3: Обращение к поисковой системе
Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы к другой, но если учесть, что в мире созданы многие миллионы web-страниц, то найти на них нужную информацию таким способом вряд ли удастся.
На помощь приходят специальные поисковые системы (их еще называют поисковыми машинами). Адреса поисковых серверов хорошо известны всем, кто работает в Интернете. В настоящее время в русскоязычной части Интернет популярны следующие поисковые серверы: Яндекс (yandex.ru), Google (google.ru) и Rambler (rambler.ru
Поисковая система
Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете.
Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.
По принципу действия поисковые системы делятся на два типа: поисковые каталоги и поисковые индексы.
Поисковые каталоги
Поисковые каталоги служат для тематического поиска.
Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то узкую тему, нетрудно найти список web-страниц, ей посвященных.
Катало́г ресурсов в Интернете или каталог интернет-ресурсов или просто интернет-каталог — структурированный набор ссылок на сайты с кратким их описанием.
Каталог в котором ссылки на сайты внутри категорий сортируются по популярности сайтов называется рейтинг (или топ).
Поисковые индексы
Поисковые индексы работают как алфавитные указатели. Клиент задает слово или группу слов, характеризующих его область поиска, — и получает список ссылок на web-страницы, содержащие указанные термины.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, разработанный Мэтью Грэйем из Массачусетского технологического института в 1993.
Как работает поисковой индекс?
Поисковые индексы автоматически, при помощи специальных программ (веб-пауков), сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу данных.
Поисковый робот ( «веб-паук») — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы.
В ответ на запрос, где найти нужную информацию, поисковый сервер возвращает список гиперссылок, ведущих web-страницам, на которых нужная информация имеется или упоминается. Обширность списка может быть любой, в зависимости от содержания запроса.
Яндекс — российская система поиска в Сети. Сайт компании, Yandex.ru, был открыт 23 сентября 1997 года. Головной офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе и Киеве. Количество сотрудников превышает 700 человек.
Слово «Яндекс» (состоящее из буквы «Я» и части слова index; обыгран тот факт, что русское местоимение «Я» соответствует английскому «I») придумал Илья Сегалович, один из основателей Яндекса, в настоящий момент занимающий должность технического директора компании.
Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.
По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов.
Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам.
Лидер поисковых машин Интернета, Google занимает более 70 % мирового рынка. Cейчас регистрирует ежедневно около 50 млн поисковых запросов и индексирует более 8 млрд веб-страниц. Google может находить информацию на 115 языках.
По одной из версий, Google — искажённое написание английского слова googol. «Googol (гугол)» – это математический термин, обозначающий единицу со 100 нулями. Этот термин был придуман Милтоном Сироттой, племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена «Математика и воображение» (Mathematics and the Imagination). Использование этого термина компанией Google отражает задачу организовать огромные объемы информации в Интернете.
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.
Rambler Media Group — интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный портал.
Rambler создан в 1996 году.
Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова.
Информационно — поисковые системы
Существующие в настоящие время средства информационного поиска могут рассматриваться как связь индивидуальных или коллективных потребителей (пользователей) информации . Средства поиска — это контакт конкретного потребителя с поставщиками информации, объединяемых общностью информации по отношению к поставленному вопросу (рис. 2).
Рис. 2 Схема взаимодействия средства информационного поиска с потребителями и поставщиками информации
На схеме поставщик информации вырабатывает информацию, которая аккумулируется (накапливается) средством информационного поиска. Потребитель информации формулирует запрос и после поиска в массиве получает от средства поиска необходимые сведения. Поставщики информации могут быть разобщены территориально и ведомственно, а средство поиска представляет способ преодоления этой разобщенности.
Средства информационного поиска решают проблемы отыскания конкретных сведений среди множества документов (информационных ресурсов). В их работе с документальной информацией можно выделить два основных этапа:
1-й этап — сбор и хранение информации;
2-й этап — поиск и выдача информационных ресурсов потребителям.
Процесс движения информации в Интернете происходит по замкнутому кругу, состоящему из потребителей информации, поставщиков информации и средств информационного поиска. Поставщиками и потребителями информации могут быть как отдельные лица, так и целые организации. Источником информации является деятельность и общественная практика отдельных лиц и коллективов, в результате которых формируются документальные данные и сообщения.
Службы поиска (средства, предназначенные для поиска информации) Интернета разделяются на каталоги (directories), поисковые системы (search engines) и метапоисковые системы (metasearch engines).
2. Информационно-поисковые каталоги
Каталоги
Каталог — это система, обеспечивающая классификацию информации. Его отличительная особенность — наличие иерархии (схемы упорядочения) ресурсов, в которой каждый из них (ресурсов)
относится к одному или более разделам. Каталоги (например, Yahoo!
www.yahoo.corn) и List.ru (http://list.ru)) работают не с индексами, а с описаниями ресурсов Интернета. Они наполняются Web-мастерами (людьми, создающими информационные ресурсы) или специальными редакторами, которые просматривают информационные ресурсы Сети. В ответ на запрос пользователя каталоги выполняют поиск по этим тесаниям. Каталоги автоматически не обнаруживают изменения информационных ресурсов Сети. Однако результаты поиска в них могут
казаться более осмысленными, так как информационные ресурсы налогах подготовлены людьми.
Рассмотрим структуру типовой схемы каталога (рис. 3):
Рис. 3. Типовая схема каталога
Клиент — это программа просмотра конкретного информационного
ресурса. Наиболее популярными программами просмотра Интернет-
документов являются Microsoft Internet Explorer и Netscape Navigator. В
свою очередь, все эти информационные ресурсы являются объектами
Пользовательский интерфейс — это группа Web-страниц (форм) средства поиска, при помощи которых пользователь взаимодействует с данным средством.
Поисковая машина — компонент системы, основное назначение которого — поиск известных данной системе документов, соответствующих сформулированному запросу во внутреннем массиве данных системы, и формирование ответа (результата проведенного поиска) пользователю в виде набора ссылок на найденные документы.
Технический персонал — люди, в обязанности которых входит формирование перечня информационных ресурсов каталога, их описаний и иерархии этих ресурсов.
Запросы пользователя — массив данных системы, служащий для временного хранения сформулированных запросов пользователя.
Иерархия информационных ресурсов и их описания – внутренний массив данных каталога, в котором содержатся сведения об информационных ресурсах сети Интернет (адреса URLи краткое описание ресурсов). Данный массив организован таким образом, что каждый информационный ресурс соответствует какой-либо теме, а перечень тем упорядочен по признаку подчинения.
Информационные ресурсы — ресурсы, просмотр которых обеспечивается программами просмотра, такими как Microsoft Internet Explorer, Netscape Navigator и др., т.е. это Интернет-документы.
При решении стандартной поисковой задачи (при поиске общедоступной информации) именно каталог, а не поисковая система оказывается наиболее лучшей точкой отсчета для начала поиска.
Типичным примером использования каталога является необходимость нахождения в сети Интернет группы информационных ресурсов на определенную недостаточно узкую тематику, например сайтов, предоставляющих контактную информацию организаций Москвы или сайтов электронных СМИ.
ИПС — Информационно-поисковые системы
Другая, принципиально отличная от каталога, служба поиска информации — информационно-поисковая система (ИПС). ИПС — это система, обеспечивающая накопление и поиск информации
ИПС, решая задачи сбора, хранения, обработки и выдачи информации, выполняют следующие операции:
- поиск документов;
- анализ содержимого документов;
- построение поисковых образов документов (извлечение из
- документов информации, используемой системой как знания
- о документе);
- хранение поисковых образов документов (сведений о
- документах);
- анализ запросов пользователей (потребителей информации);
- поиск релевантных (соответствующих) запросу документов;
- выдача ссылок на документы потребителям.
Это представляет возможным составить общую схему ИПС. Примером может служить типовая схема ИПС (рис. 4).
Рис. 4. Типовая схема информационно-поисковой системы
Индекс базы данных — это основной массив данных ИПС. Он служит для хранения сведений обо всех известных системе Интернет-документах. Данные сведения необходимы для того, чтобы поисковая система сумела найти документы на запрос пользователя.
Робот-индексировщик (crawler, spiderили паук) — программный модуль поисковой системы, служащий для поиска (отбора) информационных ресурсов в Сети и их индексирования (индексировать информацию означает приписать каждому документу ключевые слова, отражающие содержание документа и управляющие поиском, приводя к тем документам, слова которых оказываются более сходными со словами сделанного запроса), т.е. поддержания базы данных индекса в актуальном (по отношению к Интернету) состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов. Просмотр документов Интернета данным модулем системы делается регулярно. Для крупных систем период просмотра документов, как правило, составляет 1-2 недели.
Общий алгоритм функционирования ИПС (принцип работы; со сюит в следующем. Робот-индексировщик автоматических просматривает (переходя от одного ресурса к другому, используя ссылки, расположенные на нем) различные информационные ресурсы Интернета (Интернет-документы). Создает индекс базы данных, помещая туда информацию о ресурсах Сети. При этом он также периодически возвращается к информационным ресурсам и проверяет их на наличие изменений. Когда пользователь делает поисковой системе; запрос, ее программное обеспечение (поисковая машина) просматривает созданный индекс базы данных в поиске ресурсов с заданными ключевыми словами и ранжирует (упорядочивает) эти ресурсы по степени близости к предмету поиска.
Относительно алгоритма функционирования ИПС следует сделать ряд замечаний. В каждой конкретной поисковой системе хранятся (сведения не о всех документах Интернета, а только о тех документах которые известны данной системе (для различных систем процент проиндексированных документов различен, но, как правило, не превышает 30%). В поисковых системах хранятся не сами документы, а только сведения о них, достаточные для их нахождения пользователем и, как следствие этого, поисковая система в результатах поиска может и не выдавать некоторые соответствующие запросу документы. В результате поиска (отклике на запрос) системой сортируются документы по степени соответствия сделанному пользователем запросу с точки зрения алгоритма поисковой системы, а не с точки зрения их фактического соответствия запросу. Данная особенность систем значительно экономит время, затрачиваемое на поиск требуемой информации, особенно когда комбинация слов запроса встречается в нескольких тысячах или миллионах документов, однако нередки и случаи, когда наиболее соответствующие запросу документы не являются первыми в выданном списке. В данном случае следует соблюдать компромисс между количеством просматриваемых документов и общим числом найденных документов (как правило, требуемая информация содержится в первых нескольких десятках найденных документов), но наиболее типичным действием является уточнение запроса с помощью средств уточнения запроса, предоставляемых данной системой (т.е. обычно при помощи языка запросов и (или) средств расширенного интерфейса формулировки запросов). К формированию более детального запроса также следует обратиться, если в результатах поиска много информационного шума (т.е. не соответствующей запросу информации), что, как правило, свидетельствует о неудачно подобранных терминах запроса (например, они подвержены полисемии (т.е. имеют несколько значений)). В промежутках между работой робота-индексировщика системы документы изменяются пользователями, но эти изменения часто учитываются поисковой системой не мгновенно, а спустя некоторый промежуток времени, определяемый периодом индексирования Интернета, поэтому некоторая информация может быть в системе потенциально недоступной в конкретный момент времени.
Поисковые системы следует применять, если требуется найти информацию по специфичным вопросам или для обеспечения полноты охвата ресурсов.
Примером применения при поиске информационно-поисковых систем могут являться требования найти сайт конкретной организации или дать ответ на вопрос «Причины введения единого экзамена в средних школах?».
К наиболее известным поисковым системам относятся такие службы, как Google (http://www.qooqle.com) и Яндех (http://www.yandex.ru).
Метапоисиовые системы
Отличия в стратегии и широте охвата материала различных поисковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе используют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы — это надстройки над поисковыми системами и электронным каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя самостоятельно формируют запросы для нескольких внешних средств