Корпоративные сети
Но в связи с тем, что темагические каталоги заполняются вручную, нет гарантий относительно их полноты. Кроме того, ручные процессы классификации информации требуют существенных затрат человеческого труда, что может себе позволить не каждая организация. В Internet большой поп. лярностью пользуются такие международные тематические каталоги, как Yahoo (http://www.yahoo.com) и Infoseek (http://www.infoseek.com). Наиболее популярными в Internet русскоязычными поисковыми системами, включающими тематические каталоги, являются системы Ау (http://www.au.ru) и Rambler (http://www.rambler.ru). 1.2.4.4. Поисковые системы, основанные на построении индексов. Недостатки, присущие службам тематических каталогов, устраняются в информационно-поисковых системах, основанных на построении индексов. В этих поисковых системах вместо подсистемы классификации применяется подсистема индексирования (см. рис. 1.22), а база данных организована в виде списков, ставящих в соответствие ключевым словам указатели на относящиеся к ним описания файлов. Данные указатели, обеспечивающие быстрый поиск сведений по запросам пользователей и программ, называют индексами. После сканирования файлов в сети и формирования их поисковых образов систематизация полученных сведений выполняется автоматически путем их индексирования. При индексировании составляется список, в котором каждому ключевому слову ставится в соответствие указатель (индекс) на список поисковых образов файлов, к которым это ключевое слово имеет отношение. Отсутствие индексирования привело бы к слишком длительному поиску образов (описаний) документов по заданным ключевым словам. Структура и состав индексированных списков различных систем могут отличаться друг от друга и зависят от многих факторов: размера массива поисковых образов, информационно-поискового языка, размещения различных компонентов системы и т. п. Рассмотрим структуру индексированного списка на примере системы, для которой можно реализовывать не только примитивный булевый, но и контекстный, а также взвешенный поиск Web-страниц, и ряд других возможностей. Индексированный список такой системы должен включать таблицу идентификаторов Web-страниц (page-ID), таблицу ключевых слов (Keyword-ID), таблицу модификации Web-страниц, таблицу заголовков, таблицу гипертекстовых связей, инвертированного (IL) и прямого списков (FL). Page-ID отображает идентификаторы Web-страниц в их адрес (URL), Keyword-ID — каждое ключевое слово в уникальный идентификатор этого слова, таблица заголовков — идентификатор Web-страницы в ее заголовок, таблица гипертекстовых ссылок — идентификатор Web-страницы в гипертекстовую ссылку на эту страницу.
|