Корпоративные сети
Инвертированный список ставит в соответствие каждому ключевому слову документа список пар — идентификатор Web-страницы, позиция слова в странице. Прямой список — это массив поисковых образов Web-страниц. Все эти файлы, так или иначе, используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле — это объединение и/или пересечение списков идентификаторов Web-страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками, возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным — хэширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса \"на ходу\" с помощью таблицы модификации страниц. Суть подобного решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса — его перезагрузка. Эффективность поиска в каждой конкретной поисковой системе определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является \"секретом фирмы\" и ее гордостью. Так как сканирование файлов в сети и индексирование полученной при сканировании информации выполняются автоматически, то информационно-поисковые системы, основанные на построении индексов, функционируют в полностью автоматическом режиме, что делает их доступными для компьютерных сетей любых организаций. Основным способом поиска информации для пользователя поисковой системы, базируемой на построении индексов, является поиск по ключевым словам, который намного мощнее аналогичного способа поиска по отношению к системам, основанным на построении каталогов.
|