Именно последняя модель стала наиболее популярной.
Процесс формирования поисковых образов файлов осуществляется включением в поисковый образ каждого файла относящихся к нему ключевых слов. Эту процедуру часто называют индексированием, что не совсем правильно, так как под индексированием понимается составление инвертированного списка, в котором каждому термину ставится в соответствие указатель (индекс) на список поисковых образов файлов, к которым этот термин имеет отношение.
Для сканирования файлов в сети и формирования их поисковых образов используются специальные сканирующие программы, которые часто называют роботами. Программа-робот запускается на компьютере, подключенном к сети, и автоматически скачивает для анализа файлы с сетевых узлов. Разработка таких сканирующих программ является довольно нетривиальной задачей. Ведь файловое содержимое компьютеров сети представлено в виде различных, никак не согласованных друг с другом форматов данных: различные типы электронных документов, текст в разных кодировках (ASCII, ANSI, UNICODE), графика, аудио-, видеоинформация, программы. Робот должен уметь извлекать информацию об этих файлах и формировать их поисковые образы приписыванием соответствующих ключевых слов.
Источниками информации об анализируемых документах являются заголовки, аннотации, списки ключевых слов, гипертекстовые ссылки и полные тексты документов. Для формирования поисковых образов файлов с нетекстовой информацией используются главным образом ссылки на эту информацию (URL), а также сообщения пользователей и администраторов, располагаемые в специализированных файлах. Описание новостей Usenet и почтовых списков реализуется на основе полей Subject и Keywords.
Следует иметь в виду, что при сканировании файлов не все термины из анализируемых источников информации попадают в поисковые образы. Приписывание поискового образа файлу или документу выполняется на основе словаря, из которого выбираются помещаемые в поисковый образ ключевые слова. Различают системы с контролируемым словарем и системы со свободным словарем.
Контролируемый словарь предполагает ведение некоторой лексической базы данных, добавление терминов в которую производится администратором системы.

<< Назад 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 Вперед >>

Создание сайтов Екатеринбург Шаблоны сайтов Поиск товаров - справочник цен, каталог магазинов, прайс-листы Бесплатные шаблоны дизайна компьютерных сайтов