Корпоративные сети
Именно последняя модель стала наиболее популярной. Процесс формирования поисковых образов файлов осуществляется включением в поисковый образ каждого файла относящихся к нему ключевых слов. Эту процедуру часто называют индексированием, что не совсем правильно, так как под индексированием понимается составление инвертированного списка, в котором каждому термину ставится в соответствие указатель (индекс) на список поисковых образов файлов, к которым этот термин имеет отношение. Для сканирования файлов в сети и формирования их поисковых образов используются специальные сканирующие программы, которые часто называют роботами. Программа-робот запускается на компьютере, подключенном к сети, и автоматически скачивает для анализа файлы с сетевых узлов. Разработка таких сканирующих программ является довольно нетривиальной задачей. Ведь файловое содержимое компьютеров сети представлено в виде различных, никак не согласованных друг с другом форматов данных: различные типы электронных документов, текст в разных кодировках (ASCII, ANSI, UNICODE), графика, аудио-, видеоинформация, программы. Робот должен уметь извлекать информацию об этих файлах и формировать их поисковые образы приписыванием соответствующих ключевых слов. Источниками информации об анализируемых документах являются заголовки, аннотации, списки ключевых слов, гипертекстовые ссылки и полные тексты документов. Для формирования поисковых образов файлов с нетекстовой информацией используются главным образом ссылки на эту информацию (URL), а также сообщения пользователей и администраторов, располагаемые в специализированных файлах. Описание новостей Usenet и почтовых списков реализуется на основе полей Subject и Keywords. Следует иметь в виду, что при сканировании файлов не все термины из анализируемых источников информации попадают в поисковые образы. Приписывание поискового образа файлу или документу выполняется на основе словаря, из которого выбираются помещаемые в поисковый образ ключевые слова. Различают системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагает ведение некоторой лексической базы данных, добавление терминов в которую производится администратором системы.
|