Как настроить смартфоны и ПК. Информационный портал
  • Главная
  • Советы
  • Информационно-поисковые системы и их классификация. Информационно - поисковые системы (ИПС)

Информационно-поисковые системы и их классификация. Информационно - поисковые системы (ИПС)

Тема 2. Информационно-поисковые и информационно-справочные системы

Содержание

2.4. Упражнение

2.5. Контрольные вопросы.

Ключевые слова

Классификационный индекс. Поисковое предписание. Поисковый образ документа. Поисковый образ запроса. Система метаданных. Сетевой доступ. Произвольный запрос. Работа по сценарию. Электронная библиотека. Машиночитаемый каталог.

2.1. Информационно-поисковые системы

Принципы формирования типовой информационной структуры:

Однократный ввод и многократное использование информации;

Полнота удовлетворения информационных потребностей основных групп пользователей;

Оперативное пополнение ресурсов обязательными документами;

Комфортный доступ к ресурсам в off - и on - line режимах;

Выполнение как конкретных узко тематических, так и широких по тематике запросов.

Запросы, которые формируют пользователи информационных систем, реализуются следующими способами:

Сообщения, являющиеся ответом на запрос, хранятся в явном виде в базе данных, и процесс получения ответа представляет собой выделение подмножества знаний из файлов базы данных, удовлетворяющих запросу;

Ответ не существует в явном виде в базе данных и формируется в процессе логического вывода на основании имеющихся данных.

Теория информационного поиска начиналась с исследования особенностей документальных информационно-поисковых систем (ИПС). Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы.

Массив элементов информации, в котором производится информационный поиск, называется поисковым массивом. Существующие виды информационного обслуживания представлены в таблице:

Признак классификации

Вид обслуживания

По источнику инициативы

Принудительное;

По запросам потребителей

По типам документов

По направленности или адресности

Информационные издания (много адресов);

Избирательное распределение информации (один адрес)

По периодичности или срочности

Текущее оповещение;

Ретроспективный поиск

По способу доведения документов до потребителя

Непосредственная передача документов или их копий потребителям;

Двухступенчатое обслуживание (вначале информационное издание, а затем – копии заинтересовавших потребителя документов

По назначению, цели

Ознакомление;

Для практического использования

Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. Очевидно, что прочитать каждый документ библиотеки, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались методы поиска.

Каждому документу, вводимому в поисковый массив, ставится в соответствии поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических ИС). В виде такой же краткой характеристики – поискового предписания или поискового образа запроса (ПОЗ) должны быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием.

Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия. Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.

Процедура выражения основного смыслового содержания документа и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным «сличением» (сравнением на соответствие) их поисковых образов с запросами на языке индексов.

Информационный поиск реализуется при помощи информационно-поисковой системы , которая в абстрактном виде должна состоять из информационно-поискового языка, правил перехода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации.

Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Концептуальная схема информационно-поисковой системы представлена на рисунке:

Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов.

Поисковые системы подразделяются на каталоги и указатели; они различаются технологией подготовки справочного материала: каталоги составляют люди, а указатели формируются автоматически. Самый крупный каталог Интернет – Yahoo ! (www . yahoo . com ); он содержит более миллион ресурсов и поддерживается 150 редакторами. Ведущий каталог России – List . Ru (www . list . ru ): 100 тысяч ссылок, классифицированных по 18 каталогам.

Язык поисковых слов служит для координатного индексирования документов и запросов посредством дескрипторов и ключевых слов. В его основе лежит алфавитный перечень лексических единиц, или словарь ключевых слов. Именно язык ключевых слов открыл возможность для автоматизации информационного поиска. Он позволяет достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются и обновляются, поскольку в алфавитный перечень можно включать любую лексическую единицу, необходимую для индексирования.

Информационно-поисковые каталоги является традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специально кода (индекса), соответствующего по содержанию классу (классам) каталога, и создании на этой основе специального индексного указателя.

Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) библиотеки.

На основе системы метаданных строятся основные технологические процессы ЭБ:

Навигация в информационном пространстве;

Поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей;

Ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие);

Управление правами доступа к цифровым объектам, включая защиту авторских прав, организации платы за доступ и т.п.

Типы метаданных:

Описательные – библиографическая информация или другие сведения о содержании (семантике) цифровых объектов.

Структурные – сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов;

Административные – права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные.

Общим типом метаданных является идентификатор , задача которого – однозначное представление цифрового объекта для внешнего лица и различных приложений.

Системы метаданных определяют класс задач, которые реализуются в ЭБ и решающим образом влияют на интероперабельность (совместимость) коллекций, имеющихся в библиотеке. Тем самым принятие тех или иных принципов в отношении метаданных фактически определяет стоимость проектов по созданию ЭБ и эффективность затрат на эти проекты.

Известны следующие системы метаданных:

MARC – машиночитаемый каталог. CSDGM – стандарт цифровых геопространственных данных. GILS – глобальная (правительственная) служба поиска информации. EAD – кодировка архивных описаний, используемая для стандартизации и классификации уникальных архивов материалов, прежде всего рукописей. TEI – инициатива по кодированию текстов. Формат Государственного регистра баз и банков данных – содержит систему метаданных для баз данных и других электронных наборов данных.

Международная группа под руководством Stuart Weber & OCLC (штаб-квартира в Дублине, штат Огайо, США) разработала систему метаданных «Дублинское ядро».

Набор метаданных Дублинского ядра составляют 15 элементов:

Заголовок ( Title ) – название, присвоенное ресурсу создателем или издателем.

Автор ( Creator ) – человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; в случае визуальных ресурсов – исполнители, фотографы, иллюстраторы).

Предмет ( Subject ) – тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. приветствуется использование контролируемых словарей и формальных схем классификации.

Описание ( Description ) – текстовое описание содержания ресурса, включая реферат в случае документов или описания содержания в случае визуального ресурса.

Издатель ( Publisher ) – организация, ответственная за состояние ресурса в его представленной форме: издательский дом, университетский департамент, корпорация.

Участник создания материала ( Contributor ) – человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс; чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов: редактор, переводчик, иллюстратор.

Дата ( Date ) – дата, указывающая на создание или появление ресурса (в доступном виде).

Тип ( Type ) – категория ресурса: домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь.

Формат ( Format ) – формат представления данных ресурса (обычно указывается тип программного обеспечении и, возможно, тип компьютера, которые могут быть необходимы для отображения ресурса и работы с ним).

Идентификатор ( Identifier ) – набор букв или цифр, который обычно используется для уникальной идентификации ресурса.

Источник ( Source ) – информация об источнике, из которого получен представленный ресурс.

Язык ( Language ) – язык, на котором изложено интеллектуальное содержание ресурса.

Связь ( Relation ) – идентификатор первичного ресурса и его связь с представленным ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описание ресурса, которые необходимо показать. Например, издание книги и глава книги.

Охват ( Coverage ) – характеристика местонахождения и временной продолжительности ресурса.

Права ( Rights ) – утверждение об авторских правах и управление ими (идентификатор, связанный с такими утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс).

2.2. Информационно-справочные системы. Библиотеки. Архивы

Доступ к данным осуществляется в соответствии с их структу­рой, заданной описанием данных, и представляет собой процедуру обхода вершин дерева данных. В процессе обхода в текущей вершине можно производить определенные действия с данными: читать и изме­нять данные, создавать новые вершины, удалять текущие вершины вместе с их поддеревьями и т.д. При этом все выполняемые в про­цессе обхода дерева данных движения представляют собой либо переходы, согласованные с иерархией дерева, либо прямые переходы по ссылкам. Совокупность таких переходов называется траекторией в де­реве данных или в базе данных.

В соответствии с траекторией дерева данных выполнение запро­са логически разбивается на части, относящиеся к обработке групп данных раз­личными процедурами. Последовательность доступа к данным по траектории дерева данных определяет последовательность выполнения процедур обработки, а наличие данных – сам факт выпол­нения процедур (фактически доступ к данным управляет выполнением процедур). Таким образом, запрос представляет собой сложную смесь считывания данных из базы и выполнения процедур.

Диалоговый интерфейс обеспечивает и различные формы взаимодействия:

Работа по сценарию;

Работа с произвольными запросами;

Работа по созданию сценария.

Работа по сценарию . Это – основной режим работы прикладных конеч­ных пользователей. Взаимодействие происходит на языке, состоящем из меню, команд и бланков, подлежащих заполнению и выдаваемых по заданному сценарию. Сценарий отражает профессиональные интересы пользователей и создается в понятных ему терминах. В состав сце­нария включаются средства подсказки и обучения. Пользователю не нужно знать структуру данных и изучать специальный язык манипули­рования данными. Сценарий создается администратором и оперативно­му изменению не подлежит.

Работа с произвольными запросами . Это – режим работы пользовате­лей-профессионалов в сфере обработки данных. Такая форма взаимо­действия доступна подготовленным пользователям, знающим структуру информационной базы и язык манипулирования данными. Пользователь может работать со схемой базы данных (определять, удалять, изме­нять отношения) в пределах предоставленных ему полномочий. Для манипулирования данными используется язык реляционного интерфей­са. Диалог состоит из запросов на языке реляционного интерфейса, команд управления и редактирования и ответов на них, передаваемых через диалоговый интерфейс.

Работа по созданию сценария . Это – режим работы администратора. Сценарий работы прикладных конечных пользователей создается адми­нистратором совместно с прикладными пользователями. Формирование сценария ведется в диалоговом режиме. В процессе работы админист­ратор имеет возможность проверить созданный им сценарий и опера­тивно откорректировать его. Администратор создает систему меню и связанных с меню запросов, а также описывает экранные формы в со­ответствии с требованиями конечных пользователей.

Диалог прикладного конечного пользователя задается иерархи­ческой системой меню, содержащих описание последовательности ра­боты в терминах определенной предметной области. Для формули­рования запросов пользователям предоставляется специализированный полноэкранный редактор. Стратегия диалога основана на концепции контекстной помощи, чередующейся с запросами. Фрагмент, состоящий из ключевого слова и свя­занного с ним текстового поля, становится самостоятельным объек­том. Укрупнение объектов редактирования позволяет ускорить обра­ботку запросов, а диалоговые средства работы с шаблонами снижают возможность случайного внесения ошибок в текст запросов.

Электронные библиотеки

Основными базовыми определениями являются:

Библиографическая БД – документальная база данных, запись в которой содержится только библиографическое описание.

Библиотечная система – совокупность взаимодействующих библиотек, объединенных на определенных договорных условиях в целях более полного удовлетворения запросов пользователей и эффективного использования библиотечных ресурсов.

Библиографирование – процесс подготовки библиографической информацию.

Библиографическая запись – совокупность библиографических сведений о документе, приведенных по определенным правилам, устанавливающим порядок следования областей и элементов, и предназначенных для идентификации общей характеристике документа.

Библиотечный каталог – совокупность расположенных по определенным правилам библиографических записей на документы, раскрывающая состав и содержание фонда библиотеки или информационного центра.

Индексирование – выражение содержания документа или смысла информационного запроса на ИПЯ.

Классификационный индекс – поисковый образ, построенный средствами классификационного ИПЯ.

Поисковое предписание – текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска.

Осознание необходимости и преимуществ стандартизации в библиотечной среде пришло с началом использования машиночитаемых библиографических записей и обмена ими.

С этим периодом связано начало разработки отечественной системы стандартов по информатике, библиотечному издательскому делу – СИБИД (конец 70-х – начало 80-х годов). ГОСТы на библиографическое описание устанавливали общие принципы и правила составления описания для различных видов документов: набор элементов библиографического описания, последовательность их расположения, наполнение и способ представления каждого элемента, применение условных разделительных знаков.

Стандарты на библиографические описания появились как результат пересмотра национальных правил каталогизации в связи с созданием в 1977 году «Международного стандарта библиографического описания» (ISBD ). Как известно, ISBD превратилось в международный стандарт ISO , который требовал пересмотра национальных правил в странах-членах ISO и создания соответствующих национальных стандартов.

Свойс­тва автоматизированной библиотечной системы:

Устранение значительной части примитивной или чисто канце­лярской работы;

Устранение ошибок, попадающих в систему;

Постоянство информации внутри системы;

Быстрота ответов на запросы.

Одной из важных функций библиотечных автоматизированных сис­тем является выдача ответов на запросы пользователей. В процессе формирования запроса пользователем должна быть идентифицирована та часть информационной базы, которая имеет отношение к выдаче справки, а также установлено предписание, задающее критерии отбора данных, и процедура извлечения нужных сведений из базы данных. Процедура поиска включает информацию, идентифицирующую часть базы данных, предикат, определяющий критерий отбора данных, и оператор извлечения.

Электронная библиотека – распределенная информационная система, позволяющая надежно сохранять и эффективно использовать разнородные коллекции электронных документов (текст, графика, аудио, видео) через глобальные сети передачи данных в удобном для конечного пользователя виде. Базовой единицей электронной библиотеки является электронный архив модульной структуры.

Электронная библиотека предназначена для выполнения следующих функций:

Автоматизированная регистрация поступающих материалов;

Перенос твердых копий на магнитные носители;

Индексирование поступающих материалов;

Библиографическое описание поступающих материалов;

Реферирование и аннотирование поступающих материалов;

Формирование ссылочных каталогов на внешние (сетевые) источники;

Автоматизированный поиск информации (индексирование информационных запросов);

Оборудование АРМ абонентов и их эксплуатация;

Связь с внешними источниками информации (сетевой сервис);

Вспомогательные работы: копирование документов на бумагу, магнитные носители, микроленту, фотобумагу, микрофиши;

Издание реферативных журналов и бюллетеней информации;

Организация справочной службы и служб сопровождения.

Средства, разрабатываемые для автоматизированных библиотечных систем по охвату поддерживаемых библиотечных процессов и услуг, классифицируют следующим образом:

Автоматизированные информационно-библиотечные системы (АИБС);

Автоматизированные рабочие места (АРМ), которые разрабатываются либо как программные модули библиотечной системы, либо как самостоятельные информационные системы;

Электронные справочные системы (включая полнотекстовые);

Автономные автоматизированные системы поддержки и эксплуатации информационных баз данных различного назначения.

Работа пользователя в электронной библиотеке осуществляется в режиме диалога с использованием иерархической системы меню. Предусмотрена возможность модификации имеющихся и создание новых меню в соответствии с конкретными потребностями пользователя.

Электронные архивы

При разработке управленческих документов часто возникает необходимость обращения к архивным документам, а при последующем хранении – процедура сдачи документов в Государственный архив и формирования собственных архивов.

Под архивным фондом понимается совокупность документов, отражающих материальную и духовную жизнь ее народов, имеющих историческое, научное, социальное, экономическое, политическое или культурное значение и являющихся неотъемлемой частью историко-культурного наследия народов РФ.

Под архивным документом понимается документ, сохраняемый или подлежащий сохранению в силу его значимости для общества, а равно имеющий ценность для собственника.

Под архивом понимается совокупность архивных документов, а также архивное учреждение или структурное подразделение учреждения, организации или предприятия, осуществляющее прием и хранение архивных документов в интересах пользователей.

Под тайным архивом понимается архив, о котором не заявлено публично.

Под архивным делом понимается деятельность по организации хранения, учета и использования архивных документов.

Электронный архив – универсальная система управления документами, основным назначением которой является централизованное хранение документов и их версий, обеспечение доступа сотрудников к документам для просмотра или редактирования, и быстрый поиск информации. Компоненты электронного архива представлены на рисунке:


Использование архива позволяет упорядочить хранение документов и организовать работу с ними, сократив при этом накладные расходы, связанные с доступом к документам.

В электронном архиве можно хранить документы любых типов – офисные документы, тексты, изображения, аудио и видео файлы, документы систем проектирования, архивы, приложения и т.д. Как показывает опыт, архивы чаще всего используют для управления внутренней, организационно-распорядительной документацией и договорами. В электронном архиве документы хранятся в папках-рубрикаторах, структуру которых можно организовать, например, в соответствии с иерархией отделов предприятия, назначая каждому разделу ответственного администратора. Основным преимуществом подобного архива является наличие достаточных возможностей при доступной цене. В сочетании с широкими возможностями масштабирования это позволяет эффективно использовать его как на малых, так и на крупных предприятиях.

Функции электронного архива:

Хранение документов. С помощью архива можно сформировать централизованное хранилище документов и обеспечить управляемый доступ сотрудников к документам, как по локальной сети, так и через Интернет. Документы хранятся в гибко настраиваемой структуре папок-рубрикаторов.

Создание документов. Документы в архиве можно создавать на основе заранее сформированных шаблонов, или путем переноса каталогов и файлов с локального или сетевого диска в нужные папки. Поддерживается ввод документов со сканера, в том числе и потоковый, с возможностью автоматического распознавания (OCR версия). Служба распознавания работает на сервере архива в фоновом режиме.

Учет документов На каждый документ в архиве ведется учетно-регистрационная карточка, набор реквизитов которой соответствует ГОСТ Р 6.30-2003 и требованиям ГСДОУ. Состав и расположение реквизитов карточки являются жестко настроенными и не могут быть изменены.

Взаимодействие пользователей. В архиве пользователи могут обмениваться сообщениями, присоединяя к ним ссылки на документы системы. Предусмотрена отправка документов по электронной почте. С целью упорядочивания работ с документами предусмотрена возможность выдачи поручений и контроля их исполнения.

Работа с документами. Для просмотра и редактирования документов архив использует соответствующие приложения. Ряд распространенных форматов документов, например, тексты, изображения, RTF -документы, HTML -документы и документы Microsoft Office , можно просматривать непосредственно, не переключаясь в другое приложение.

Регистрация корреспонденции. В архив можно вести учет и регистрацию входящей и исходящей корреспонденции. При этом осуществляется автоматическая генерация сквозных регистрационных номеров.

Коллективный доступ. Архив обеспечивает коллективный доступ сотрудников к документам, как для просмотра, так и для редактирования. Конфликты при одновременном редактировании документов исключаются благодаря механизму блокировки документов.

Сетевой доступ. Входящие в комплект поставки компоненты позволяют организовать доступ к документов с помощью обычных web -браузеров. Это позволяет, например, подключить к системе клиентов или сотрудников, работающих вне офиса.

Поиск. Архив позволяет искать документы не только по реквизитам учетной карточки, но и по тексту, с учетом морфологии русского языка, т.е. находить любые формы слов, указанных в поисковом выражении.

Права доступа. Каждому объекту архива (документу или папке) можно назначить набор прав доступа. Поддерживаются группы пользователей и наследование прав. Права ранжируются на девять критериев: просмотр, открытие, редактирование, управление версиями, перемещение, право подписи, право изменения, создание и удаление. Все действия пользователей, связанные с изменениями объектов архива или доступом к ним, протоколируются и могут просматриваться администратором системы.

Интеграция с внешними приложениями. В состав архива входят механизмы интеграции системы с внешними приложениями, позволяющие:

Включать в существующий архив дополнительные функции;

Разрабатывать автоматизированные системы пакетной обработки;

Создавать узкоспециализированные приложения для работы с документами;

Разрабатывать Интернет-решения для доступа к документным базам данных.

2.3. Организационно-административная система вуза

Система предназначена для решения следующих функций:

1. Рациональное использование вычислительной техники.

2. Усиление интеллектуальных возможностей субъектов педагогичес­кого управления и научно-исследовательской деятельности.

3. Совершенствование контроля над качеством учебно-воспитательного процесса.

4. Дозировка загрузки преподавателей и учащихся.

5. Оптимизация расписания занятий при наилучшем использовании по­мещений и оборудования с учетом педагогических и медицинских требова­ний.

6. Создание сетевых графиков прохождения предметов и дисциплин.

7. Накопление, систематизация и оперативное представление необхо­димых сведений о результатах учебно-воспитательной деятельности.

8. Распределение затрат с учетом повышения эффективности учебного процесса.

9. Принятие оптимальных научно-обоснованных решений.

Компоненты системы:

1. Компьютерные классы общего профиля (информатика, программирование, самостоятельная работа).

2. Компьютерные классы специализированного профиля/лаборатория (начальная школа, мультимедиа, моделирование).

3. Административный комплекс (архивы, финансы, справочная служба).

4. Демонстрационный комплекс (учебное телевидение, аудио- и видеосредства, слайды).

5. Издательский комплекс (набор, сканирование, редактирование, тиражирование).

6. Библиотечный комплекс.

7. Коммуникационный комплекс.

Структура автоматизированной системы «Высшее учебное заведение» представлена на рисунке:


В качестве примера приведем функции базовой подсистемы Учебная часть, предназначенной для организа­ции учебного процесса:

Организация работы с учебными планами по всем специальностям;

Организация работы с тематическим планом;

Планирование объемов учебной работы кафедрам;

Распределение фонда почасовой оплаты по кафедрам;

Организация работы приемной комиссии;

Контроль выполнения учебных поручений кафедрами.

При работе с учебным планом выделены следующие функциональные операции: Просмотр плана, Формирование выписки, Просмотр выписки (вы­писку можно формировать по факультету, по предмету, по курсу).

Доступная информация хранится в базах:

Учебный план, Темати­ческий план, Объемы учебной работы, Карты заданий.

По каждой базе возможна реализация следующих информационных операций:

Просмотр запи­сей, Редактирование базы в целом, Добавление записей, Удаление записей, Модификация записей.

2.4. Упражнение

Ознакомиться с возможностями информационно-поисковых систем.

1. Использование тематических поисковых каталогов

Поисковые каталоги осуществляют поиск нужной информации путем использования многоуровневых списков, в которых возможная тематика поиска разбита на различные рубрики. Выбрав интересующую его рубрику, пользователь переходит на следующий, более подробный уровень, который представляет собой список подчиненных рубрик, и так далее. Конечным результатом поиска является один или список нескольких серверов, содержащих искомую информацию.

Использование англоязычного поискового каталога Yahoo!

Запустите Internet Explorer, если он еще не запущен. В поле Адрес введите http://www.yahoo.com и нажмите клавишу Enter . В появившейся странице поискового каталога выберите рубрику-ссылку Recreation&Sport и перейдите на следующий уровень. Аналогично, последовательно выбирая рубрики-ссылки Magazines, Bodybuilding, Master Trainer, войдите на сервер, содержащий выбранную информацию, и просмотрите ее.

Использование русскоязычного поискового каталога «Желтые страницы Интернет»

В поле Адрес введите http://www.piter-press.ru и нажмите клавишу Enter . Последовательно выбирая рубрики-ссылки Регионы и города, Санкт-Петербург, Живая камера на Мойке Вы увидите на выбранном сервере живые кадры одного из уголков нашего города.

Использование русскоязычного поискового каталога «АУ!»

В поле Адрес введите http://www.au.ru и нажмите клавишу Enter . Последовательно выберите рубрики-ссылки Семья-дом-досуг, Развлекательные серверы, Городской кот. Вы увидите страницу с указанной тематикой.

Использование русскоязычного поискового каталога «Созвездие Интернета»

В поле Адрес введите http://www.stars.ru и нажмите клавишу Enter . Выберите, например, рубрику-ссылку Отдых и развлечения и далее найдите ту развлекательную информацию, которая Вам по душе.

Использование поисковых систем

Поисковые системы (машины поиска) осуществляют автоматический поиск информации по ключевым словам или по группе ключевых слов, образующих с помощью специальных средств некоторый сложный запрос. Результатом такого поиска является список всех найденных в Интернете страниц, содержащих указанные ключевые слова в сочетании, определяемом условиями запроса. Далее можно просмотреть любую из найденных страниц в этом списке. В данном разделе рассматриваются возможности простого поиска: по одному или нескольким ключевым словам без использования специальных средств построения запросов.

Наиболее известны следующие поисковые системы:

AltaVista – http://www.altavista.digital.com

Я ndex – http://www.yandex.ru

Рэмблер – http://www.rambler.ru

Поиск по одному слову, заданному маленькими буквами

Результат поиска – все найденные страницы, содержащие заданное слово, записанное любыми буквами).

Введите в поле Адрес http://www.altavista.digital.com и нажмите клавишу Enter. После открытия начальной страницы этой поисковой системы введите в поле поискового запроса ключевое слово для поиска, например, Москва и нажмите кнопку начала поиска. Отметьте количество найденных страниц и просмотрите несколько из них.

Введите в поле Адрес окна Internet Explorer адрес системы http://www.yandex.ru и нажмите клавишу Enter . После открытия начальной страницы этой поисковой системы введите в поле поискового запроса ключевое слово для поиска Москва и нажмите кнопку начала поиска. Отметьте количество найденных страниц и просмотрите несколько из них. Повторите эти же операции для системы http://www.rambler.ru

Поиск по одному слову, заданному с большой буквы

Результат поиска – все страницы, содержащие заданное слово, записанное с большой буквы (для некоторых поисковых систем могут быть и другие результаты).

Повторите поиск во всех трех системах, задав ключевое слово для поиска Москва Адрес . Сравните результаты поиска с предыдущим пунктом.

Поиск по нескольким словам

Результат поиска – все найденные страницы, содержащие хотя бы одно из заданных слов (для некоторых поисковых систем могут быть и другие результаты).

Продажа автомобилей . При выборе поисковой системы используйте раскрывающийся список для поля Адрес

Поиск по нескольким словам, заключенным в кавычки

Результат поиска – все страницы, содержащие заданное словосочетание как единое целое.

Осуществите поиск во всех трех системах, задав сочетание слов для поиска – Продажа автомобилей . При выборе поисковой системы используйте раскрывающийся список для поля Адрес . Проанализируйте результаты поиска.

Использование поисковых систем: расширенные возможности

В поисковых системах существуют средства, позволяющие формировать сложные поисковые запросы. Полный набор этих средств может существенно отличаться от системы к системе. Однако можно выделить несколько операций для построения запросов, которые можно использовать в большинстве поисковых систем. Эти операции применяются к ключевым словам для задания сложных условий отбора при поиске.
Операция AND или & означает, что в искомых страницах должны присутствовать оба ключевых слова, например, выражение процессор AND сканер требует найти страницы, в которых присутствуют оба слова: процессор и сканер.

Операция OR или | означает, что в искомых страницах должно присутствовать хотя бы одно из ключевых слов, например, выражение процессор OR сканер требует найти страницы, в которых присутствуют или слово процессор, или слово сканер, или оба этих слова.

Операция NOT , или!, или ~ означает, что в искомых страницах должно отсутствовать ключевое слово, к которому она применена. Например, выражение NOT сканер требует найти страницы, в которых отсутствует слово сканер.

Группировка, обозначаемая скобками, означает, что операция применяется не к одному слову, а ко всему выражению, стоящему в скобках. Например, выражение (процессор AND сканер) OR (дисковод AND разъем) требует найти страницы, в которых вместе присутствуют слова процессор и сканер , или вместе присутствуют слова дисковод и разъем, или все эти четыре слова.

Применение рассмотренных операций часто требует предварительной установки режима (или перехода в режим) расширенного поиска (Advanced Search).

2.5. Контрольные вопросы

1. На каких принципах формируются типовые информационные структуры?

2. Что понимается под информационным поиском ?

3. Дайте определение информационно-поисковому языку.

4. Назовите типы метаданных, используемых в системе «Дублинское ядро».

5. Какие формы взаимодействия обеспечивает диалоговый интерфейс?

6. Охарактеризуйте свойс­тва автоматизированной библиотечной системы.

7. Какие функции выполняет электронная библиотека?

Приложение

Использованы материалы Академии управления, С.-Петербург (автор – Тишкин А.И.).

Существующие в настоящие время средства информационного поиска могут рассматриваться как связь индивидуальных или коллективных потребителей (пользователей) информации. Средства поиска - это контакт конкретного потребителя с поставщиками инфор­мации, объединяемых общностью информации по отношению к поставленному вопросу (рис. 2).

Рис. 2 Схема взаимодействия средства информационного поиска с потребителями и поставщиками информации

На схеме поставщик информации вырабатывает информацию, которая аккумулируется (накапливается) средством информационного поиска. Потребитель информации формулирует запрос и после поиска в массиве получает от средства поиска необходимые сведения. Поставщики информации могут быть разобщены территориально и ведомственно, а средство поиска представляет способ преодоления этой разобщенности.

Средства информационного поиска решают проблемы отыскания конкретных сведений среди множества документов (информационных ресурсов). В их работе с документальной информацией можно выделить два основных этапа:

1-й этап - сбор и хранение информации;

2-й этап - поиск и выдача информационных ресурсов потребите­лям.

Процесс движения информации в Интернете происходит по замк­нутому кругу, состоящему из потребителей информации, поставщиков информации и средств информационного поиска. Поставщиками и потребителями информации могут быть как отдельные лица, так и целые организации. Источником информации является деятельность и общественная практика отдельных лиц и коллективов, в результате которых формируются документальные данные и сообщения.

Службы поиска (средства, предназначенные для поиска информа­ции) Интернета разделяются на каталоги (directories), поисковые системы (search engines) и метапоисковые системы (metasearch engines).

2. Информационно0поисковые каталоги

Каталоги

Каталог - это система, обеспечивающая классификацию информации . Его отличительная особенность - наличие иерархии (схемы упорядочения) ресурсов, в которой каждый из них (ресурсов)
относится к одному или более разделам. Каталоги (например, Yahoo!

www.yahoo.corn) и List.ru (http://list.ru )) работают не с индексами, а с описаниями ресурсов Интернета. Они наполняются Web-мастерами (людьми, создающими информационные ресурсы) или специальными редакторами, которые просматривают информационные ресурсы Сети. В ответ на запрос пользователя каталоги выполняют поиск по этим тесаниям. Каталоги автоматически не обнаруживают изменения ин­формационных ресурсов Сети. Однако результаты поиска в них могут

казаться более осмысленными, так как информационные ресурсы налогах подготовлены людьми.

Рассмотрим структуру типовой схемы каталога (рис. 3):

Рис. 3. Типовая схема каталога

Клиент - это программа просмотра конкретного информационного

ресурса. Наиболее популярными программами просмотра Интернет-

документов являются Microsoft Internet Explorer и Netscape Navigator. В

свою очередь, все эти информационные ресурсы являются объектами

поиска.

Пользовательский интерфейс - это группа Web-страниц (форм) средства поиска, при помощи которых пользователь взаимодействует с данным средством.

Поисковая машина - компонент системы, основное назначение ко­торого - поиск известных данной системе документов, соответствующих сформулированному запросу во внутреннем массиве данных системы, и формирование ответа (результата проведенного поиска) пользователю в виде набора ссылок на найденные документы.

Технический персонал - люди, в обязанности которых входит формирование перечня информационных ресурсов каталога, их описа­ний и иерархии этих ресурсов.

Запросы пользователя - массив данных системы, служащий для временного хранения сформулированных запросов пользователя.

Иерархия информационных ресурсов и их описания – внутренний массив данных каталога, в котором содержатся сведения об информационных ресурсах сети Интернет (адреса URL и краткое описание ресурсов). Данный массив организован таким образом, что каждый информационный ресурс соответствует какой-либо теме, а перечень тем упорядочен по признаку подчинения.

Информационные ресурсы - ресурсы, просмотр которых обеспе­чивается программами просмотра, такими как Microsoft Internet Explorer, Netscape Navigator и др., т.е. это Интернет-документы.

При решении стандартной поисковой задачи (при поиске обще­доступной информации) именно каталог, а не поисковая система оказывается наиболее лучшей точкой отсчета для начала поиска.

Типичным примером использования каталога является необходи­мость нахождения в сети Интернет группы информационных ресурсов на определенную недостаточно узкую тематику, например сайтов, предоставляющих контактную информацию организаций Москвы или сайтов электронных СМИ.

ИПС

Информационно-поисковые системы

Другая, принципиально отличная от каталога, служба поиска ин­формации - информационно-поисковая система (ИПС). ИПС - это система, обеспечивающая накопление и поиск информации

ИПС, решая задачи сбора, хранения, обработки и выдачи информации, выполняют следующие операции:

  • поиск документов;
  • анализ содержимого документов;
  • построение поисковых образов документов (извлечение из
    документов информации, используемой системой как знания
    о документе);
  • хранение поисковых образов документов (сведений о
    документах);
  • анализ запросов пользователей (потребителей информации);
  • поиск релевантных (соответствующих) запросу документов;
  • выдача ссылок на документы потребителям.

Это представляет возможным составить общую схему ИПС. Примером может служить типовая схема ИПС (рис. 4).

Рис. 4. Типовая схема информационно-поисковой системы

Индекс базы данных - это основной массив данных ИПС. Он служит для хранения сведений обо всех известных системе Интернет-документах. Данные сведения необходимы для того, чтобы поисковая система сумела найти документы на запрос пользователя.

Робот-индексировщик (crawler, spider или паук) - программный модуль поисковой системы, служащий для поиска (отбора) информаци­онных ресурсов в Сети и их индексирования (индексировать информацию означает приписать каждому документу ключевые слова, отражающие содержание документа и управляющие поиском, приводя к тем документам, слова которых оказываются более сходными со словами сделанного запроса), т.е. поддержания базы данных индекса в актуальном (по отношению к Интернету) состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов. Просмотр документов Интернета данным модулем системы делается регулярно. Для крупных систем период просмотра документов, как правило, составляет 1-2 недели.

Общий алгоритм функционирования ИПС (принцип работы; со сюит в следующем. Робот-индексировщик автоматических просматривает (переходя от одного ресурса к другому, используя ссыл­ки, расположенные на нем) различные информационные ресурсы Интернета (Интернет-документы). Создает индекс базы данных, помещая туда информацию о ресурсах Сети. При этом он также периодически возвращается к информационным ресурсам и проверяет их на наличие изменений. Когда пользователь делает поисковой систе­ме; запрос, ее программное обеспечение (поисковая машина) просматривает созданный индекс базы данных в поиске ресурсов с заданными ключевыми словами и ранжирует (упорядочивает) эти ресур­сы по степени близости к предмету поиска.

Относительно алгоритма функционирования ИПС следует сделать ряд замечаний. В каждой конкретной поисковой системе хранятся (сведения не о всех документах Интернета, а только о тех документах которые известны данной системе (для различных систем процент проиндексированных документов различен, но, как правило, не превы­шает 30%). В поисковых системах хранятся не сами документы, а только сведения о них, достаточные для их нахождения пользователем и, как следствие этого, поисковая система в результатах поиска может и не выдавать некоторые соответствующие запросу документы. В результате поиска (отклике на запрос) системой сортируются документы по степени соответствия сделанному пользователем запросу с точки зрения алго­ритма поисковой системы, а не с точки зрения их фактического соответствия запросу. Данная особенность систем значительно эконо­мит время, затрачиваемое на поиск требуемой информации, особенно когда комбинация слов запроса встречается в нескольких тысячах или миллионах документов, однако нередки и случаи, когда наиболее соответствующие запросу документы не являются первыми в выданном списке. В данном случае следует соблюдать компромисс между количе­ством просматриваемых документов и общим числом найденных документов (как правило, требуемая информация содержится в первых нескольких десятках найденных документов), но наиболее типичным действием является уточнение запроса с помощью средств уточнения запроса, предоставляемых данной системой (т.е. обычно при помощи языка запросов и (или) средств расширенного интерфейса формулиров­ки запросов). К формированию более детального запроса также следует обратиться, если в результатах поиска много информационного шума (т.е. не соответствующей запросу информации), что, как правило, свиде­тельствует о неудачно подобранных терминах запроса (например, они подвержены полисемии (т.е. имеют несколько значений)). В промежут­ках между работой робота-индексировщика системы документы изменяются пользователями, но эти изменения часто учитываются поисковой системой не мгновенно, а спустя некоторый промежуток времени, определяемый периодом индексирования Интернета, поэтому некоторая информация может быть в системе потенциально недоступ­ной в конкретный момент времени.

Поисковые системы следует применять, если требуется найти информацию по специфичным вопросам или для обеспечения полноты охвата ресурсов.

Примером применения при поиске информационно-поисковых сис­тем могут являться требования найти сайт конкретной организации или дать ответ на вопрос «Причины введения единого экзамена в средних школах?».

К наиболее известным поисковым системам относятся такие служ­бы, как Google (http://www.qooqle.com ) и Яндех (http://www.yandex.ru).

Метапоисиовые системы

Отличия в стратегии и широте охвата материала различных поис­ковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе исполь­зуют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы - это надстройки над поисковыми системами и электронным каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя само­стоятельно формируют запросы для нескольких внешних средств

Рис. 5. Типовая схема метапоисковой системы

поиска, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким средствам поиска. Иначе, такая система ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собст­венному алгоритму.

Метапоисковые системы позволяют сократить время, за­траченное на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска.

Наиболее значимые метапоисковые системы - MetaCrawler (http://www.metacrawler.com ) и MetaBot.ru (http://metabot.ru ). Их главное достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например в MetaBot.ru, фактически одновременно обращается к другим поисковым системам. Этим гарантируется «объективность» и «полнота» полученных ре­зультатов, однако, учитывая различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Метапоисковые системы наиболее эффективны на начальных чпапах поиска информации. Они помогают локализовать средства юиска, в которых присутствуют сведения об искомой пользователем информации.

Дополнительные средства и способы поиска

Существуют и дополнительные способы поиска в Интернете, кото­рые используют возможности, предоставляемые некоторыми другими службами Сети, ее персоналом, а также ее пользователями, которые способствуют поиску информации. К таким службам можно отнести телеконференции (форумы) (способ взаимодействия пользователей в Интернете, посредством которого один из пользователей оставляет сообщения на информационном ресурсе сети (сайте), а другие пользо­ватели могут читать в любое удобное для них время), электронные объявлений (строятся по принципу телеконференций), чаты (от (игл. chat - болтать) (способ взаимодействия пользователей в Интерне-ie, посредством которого происходит общение пользователей в режиме реального времени), серверы, ведущие поиск информации через элек­тронную почту (один из возможных способов обращения к средствам информационного поиска) и др. Данные способы являются дополни­тельными, поскольку они:

  • не предназначены для массового использования;
  • не являются универсальными (накапливают адреса в недос­таточном объеме или по узким направлениям);
  • не являются стандартными или обязательными для того, кто
    их предоставляет (т.е. нет гарантии получения ответа на
    запрос).

Информационно-поисковая система – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска больших массивов структурированной информации.

Каждая ИПС предназначена для решения определенного класса задач, для которых характерен свой набор объектов и их признаков. ИПС бывают двух типов:

1. Документографические. В документографических ИПС все хранимые документы индексируются специальным образом, т. е. каждому документу присваивается индивидуальный код, составляющий поисковый образ. Поиск идет не по самим документам, а по их поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама книга.

2. Фактографические. В фактографичеких ИПС хранятся не документы, а факты, относящиеся к какой-либо предметной области. Поиск осуществляется по образцу факта.

Каждая ИПС состоит из двух частей: базы данных (БД) и системы управления базами данных (СУБД).

База данных - это поименованная совокупность структурированных данных, относящихся к определенной предметной области.

Система управления базами данных - это комплекс программных и языковых средств, необходимых для создания баз данных, поддержания их в актуальном состоянии и организации поиска в них необходимой информации.

На настоящий момент существует множество различных СУБД. Наиболее широкую известность получили такие как Dbase, Clipper, FoxPro, Paradox, Microsoft Access.

ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете.

Терминологически "информационно-поисковая система" (англ. "information retrieval system", IRS) - представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных.

Информационно-поисковая система трактуется и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, а база данных - как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними.



Функционирование современных ИПС основано на двух предположениях:

1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

2) пользователь способен указать этот признак.

ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).

Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:

1) сравниваются не сами объекты, а описания - так называемые "поисковые образы";

2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.

Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.



Реализуемый метод построения ПОЗа должен обеспечивать эффективные способы построения запроса для достижения целей различного типа.

Механизмы поиска - совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.

Средства поиска, с одной стороны, - взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, - объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.

Поисковые технологии - унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов.

Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.

Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонент:

1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;

2) проведение поиска в одной или нескольких поисковых системах;

3) обзор полученных результатов (ссылок);

4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;

5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиям ИС можно разбить на 4 категории:

1. Тематические каталоги;

2. Специализированные каталоги (онлайновые справочники);

3. Поисковые машины (полнотекстовый поиск);

4. Средства метапоиска.

В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "AltaVista" более 56 млн. URL-адресов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).

Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ. Для формирования запросов используются специальные информационно-поисковые языки.

ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их "релевантности", то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких "по смыслу" к запросу документов не решает проблемы получения информации при отсутствии релевантного документа. Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных.

ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.

Организация поиска

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:

Определение области знаний;

Выбор типа и источников данных;

Сбор материалов необходимых для наполнения информационной модели;

Отбор наиболее полезной информации;

Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);

Выбор алгоритма поиска закономерностей;

Поиск закономерностей, формальных правил и структурных связей в собранной информации;

Творческая интерпретация полученных результатов;

Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы "И", "ИЛИ", "НЕТ".

Технологии поиска информации

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию "профессионализма" - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал) "профессионализма".

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Адекватность образа действительному содержанию документа определяется качеством процесса свертки информации и уровнем знания субъектом средств отражения - концептуальной схемы предметной области и возможностей ИПЯ.

Поисковый образ документа - описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.

Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать какой и в каком виде источник информации интересует пользователя.

Методы обработки результатов поиска

По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы:

1. Структурно-форматные преобразования;

2. Структурно-семантические преобразования (информационно-аналитические, логико-семантические).

Реализация поиска

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др.

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

Оформление результатов

С точки зрения ИПС результат поиска в ней есть совокупность (подмножество) найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Такой список может быть тут же распечатан или послан на какой-либо адрес электронной почты, если такая возможность предоставляется ИПС и пользователь подключен к Интернету.

Графические и полнотекстовые ЭИР могут предлагаться пользователю только для просмотра, для копирования в различных форматах и масштабах, причём полностью или частично. Графические ИР обычно существуют в общепринятых форматах типа: JPG, GIFF, TIFF, BMP и др., а для текстовых материалов обычно используют текстовые форматы TXT, DOC и др., HTML и PDF - фактически графический формат, в котором могут сохраняться как текстовые, так и графические данные.

Полученные в результате поиска документы сохраняют.

Критерии оценки поиска

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.

Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчёте коэффициентов учитывается только один документ.

Оценка и обработка результатов поиска

Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако, для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации - ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определённого явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.

Развитие процесса поиска осуществляется путём модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.

Интерфейсные средства обработки результата и развития поиска используют два типа операционных объектов - отдельные документы или коллекции документов.

Интернет-поисковые системы

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.

Для проведения поиска в Интернете (в WWW) функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, то есть использовать соответствующие технологии.

"Технология поиска (англ. "Search Technology") означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалам этим критериям называют релевантностью, то есть соответствием ответа вопросу (запросу).

Поисковые системы характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе поисковых систем обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.

Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций. Первая функция реализуется программой-роботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. "Робот" - автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящим к одной из её гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну-две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Запущенный робот проходит огромные расстояния в среде Интернета (киберпространстве), ориентируясь на развитие веб-сети и изменяя в соответствии с этим свои маршруты. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать веб-страницы для оценки роста системы и др. Чаще всего роботы просматривают сервера самостоятельно, находя новые внешние ссылки в уже обследованных документах. Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц (не только полный текст, но и наличие иллюстраций, аудио и видео файлов, Java-приложений). Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ (сочетания ключевых слов). Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

"Роботы" имеют ряд разновидностей, одной из которых является "паук" (англ. "spider"). Он непрерывно "ползает по сети", переходя с одной веб-страницы к другой с целью сбора статистических данных о самой "паутине" (Web) и (или) формирования некоторой БД с индексами содержимого веб.

Автоматизированные агенты "спайдеры" регулярно сканируют веб-страницы и актуализируют БД адресов (гиперссылки), средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем.

В разных системах эта цель достигается различным образом. Одни посылают "агентов" на каждую попадающуюся веб-страницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные (обычно подсчитывается число имеющихся ссылок на них). Именно эти веб-страницы в различной степени индексируются (только заголовки веб-страниц и ссылки, включая автоматическое аннотирование документов или весь текст).

Все чаще применяются "интеллектуальные агенты" - небольшие программы, обладающие способностью самообучаться, и действовать самостоятельно от имени своего владельца. Имея связь с компьютером пользователя, они выступают в роли персональных помощников, выполняющих ряд задач с применением знаний о потребностях и интересах пользователя. Интеллектуальные роботы-агенты ведут самостоятельный поиск в сети по собственным уникальным алгоритмам. Некоторые из них не только просматривают ключевые слова, но и осуществляют в Интернете семантический анализ информации, выявляя степень ее смыслового соответствия поставленной задаче.

Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), "Lycos", "Yahoo", "Google", "OpenText", "Wais", "WebCrawler" и др. Их адреса в Интернете: www.altavista.com, www.yahoo.com, www.gogle.com, www.opentext.com,

К отечественным поисковым машинам относятся: Апорт ("Aport" АО Агама), Rambler (фирма Stack Ltd.), Яндех ("Yandex" фирма CompTek Int), "Русская машина поиска", "Новый русский поиск", и др. Их адреса в Интернете: www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно) и др.

2. Виды операций пользователя при взаимодействии с информационно-поисковой системой.

Язык пользователя - это те действия, которые пользователь производит в отношении системы путем использования возможностей клавиатуры, "мыши" и т.п. Наиболее прост язык пользователя в форме входных и выходных документов. Выведя на экран входную форму (документ), пользователь заполняет его необходимыми данными и вводит в компьютер. Система поддержки принятия решений производит необходимый анализ и выдает результаты в виде выходного документа установленной формы. Значительно возрастает популярность визуального интерфейса. С помощью манипулятора "мышь" пользователь выбирает представленные ему в форме картинок на экране объекты и команды, реализуя таким образом свои действия. Ожидается появление систем поддержки принятия решений, использующих речевой ввод информации.

Язык сообщений - это то, что пользователь видит на экране дисплея (символы, графика, цвет), данные, полученные на принтере, звуковые выходные сигналы и т.п.

Важный показатель эффективности используемого интерфейса - форма диалога между пользователем и системой. Распространены следующие формы диалога: запросно-ответный режим, командный режим, режим меню, режим заполнения пропусков в выражениях, предлагаемых компьютером. Каждая форма в зависимости от типа задачи, особенностей пользователя и принимаемых решений имеет свои достоинства и недостатки.

Знания пользователя - это то, что пользователь должен знать, работая с системой. К ним относятся не только план действий, находящийся в голове пользователя, но и учебники, инструкции, справочные данные, выдаваемые компьютером.

3. Основы поиска информации в информационно-поисковых системах.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

определение (уточнение) информационной потребности и формулировка информационного запроса;

определение совокупности возможных держателей информационных массивов (источников);

извлечение информации из выявленных информационных массивов;

ознакомление с полученной информацией и оценка результатов поиска.

[править]

Виды поиска

Полнотекстовый поиск - поиск по всему содержимому документа. Пример полнотекстового поиска - любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным - это поиск по неким атрибутам документа, поддерживаемым системой - название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам - диалог поиска в файловой системе (например, MS Windows).

Поиск изображений - поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

[править]

Методы поиска

[править]

Адресный поиск

Процесс поиска документов по чисто формальным признакам, указанным в запросе.

Для осуществления нужны следующие условия:

Наличие у документа точного адреса

Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

[править]

Семантический поиск

Процесс поиска документов по их содержанию.

Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов.

В этом принципиальное отличие каталогов и картотек.

Библиотека - собрание библиографических записей без указания адресов.

Документальный поиск

Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

Библиотечный, направленный на нахождение первичных документов.

Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Фактографический поиск

Процесс поиска фактов, соответствующих информационному запросу.

К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.

Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

4. Стратегии поиска информации в сети Интернет.

Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи.

Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.

Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы - методы поиска в:

1) одном пространстве (обычно, тематическом);

2) иерархически упорядоченном пространстве;

3) альтернативных пространствах;

4) динамическом (изменяющемся в процессе поиска) пространстве.

Некоторую специализирoванную информацию стоит поискать в специализированных каталогах, просматривая нужные вам тематические разделы. Увидев качественный, подходящий вам по тематике поиска сайт, не спешите брoсать его не просмотрев страницы ссылок. Обычно для серьезных сайтаx ссылки подобраны сколько, и весь возможно вы найдете что-то там.

База данных этой Поисковой Машины разделена для тематические разделы, один с которых (Health, Поисковая Машина Yahoo) в ответ для запрос представляет новoсть «меню» для выбора в виде более детальной рубрикации раздела Health, включающего Deseases and Conditions (болезни и состояния). Поскольку Yahoo. удерживает в процессе поиска иерархическую структуру разделов, всегда можно вернуться для пpедыдущий вышестоящий степень, если по некоторый причине вызванный нынешний раздел не оправдал ожиданий. Выбрав Diseases and Couditions, вы получаете новость «меню», с которого можно вызвать раздел Diabetes, если нажать букву D в алфавите страницы. Yahoo. Стартовая точка сбора информации в Интернете для начинающих.

Условно инструменты поиска подразделяются для поисковые средства справочного типа (directories

Санкт-Петербургский государственный университет

Филологический факультет

Кафедра математической лингвистики

В.П. Захаров

ИнформационнО-ПОИСКОВЫЕ
системы

Учебно-методическое пособие

Санкт-Петербург

Рецензенты:

докт. техн. наук В.Ш. Рубашкин (С.-Петерб. гос. ун-т)

канд. пед. наук О.А. Арбатская (С.-Петерб. гос. ун-т культ. и иск-в)

Печатается по постановлению
Редакционно-издательского совета
С.-Петербургского государственного университета

Захаров В.П.

З-38Информационно-поисковые системы: Учебно-метод. пособие. - СПб., 2005. - 48 с.

Предлагаемое пособие содержит описание основ документального информационного поиска, программу учебной дисциплины «Теория информационного поиска», которая изучается студентами 3-го курса отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета, и набор лабораторных (практических) работ по этой дисциплине. Отдельные лабораторные работы используются для обучения студентов других курсов и по другим дисциплинам. Пособие базируется на исследовательской и преподавательской деятельности автора.

Для студентов и аспирантов, специализирующихся в области прикладной лингвистики, информационных систем и автоматизированных систем обработки текста.

ã В.П. Захаров, 2005

ã Санкт-Петербургский
государственный
университет, 2005

1. Введение в теорию и практику
информационного поиска

1.1. Основные понятия информационного поиска

Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поиско-выми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический - и, соответственно, два типа ИПС - документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.

В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ-ствует смысловому содержанию информационного запроса, называется релевантным , а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа-нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу (функциональные подсистемы) и по типу средств (обеспечивающие подсистемы).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем , или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное обеспечение - это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение - это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение - это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение - это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение - это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение - это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

ИПС также делят на составные части (подсистемы) по функциональному признаку, когда каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов поиска, выдача документов и др. Такие части получили название функциональных подсистем .

Важные понятия в информационном поиске - документ и запрос. Документ определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.

Запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов , который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.

Третья часть информационного обеспечения - так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы.

Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов - аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

При сопоставлении документов и запросов требуется определить релевантность документа по отношению к запросу и принять решение о выдаче или невыдаче документа на данный запрос. Правила, на основе которых формально определяется степень релевантности документа и запроса, т.е. соответствие ПОД и ПОЗ, называются критерием смыслового соответствия (КСС), или критерием выдачи .

Математические модели и формулы вычисления коэффициента релевантности могут быть самые разные. На практике повсеместное распространение получили ИПС с логическим критерием выдачи , когда ПП строятся с использованием логических (булевых) операторов конъюнкции (&), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова ПП играют роль булевых переменных, принимающих значение 1 («истина»), если данное слово содержится в документе, и 0 («ложь»), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение «истина», и нерелевантным, если результат вычисления логической формулы дает «ложь».

Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС «Апорт» оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +).

Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов ПП), как правило, проводится по специальным индексным (инвертированным) файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. Эти простота и понятность логического КСС и явились причиной его широкой распространенности.

Проблема оценки эффективности поиска является комплексной проблемой, включающей как теоретическую, так и практическую сторону. Главные из функциональных (технических) показателей ИПС, базирующихся на релевантности, - это полнота и точность, которые основываются на разделении документов на релевантные и нерелевантные, а также на выданные и невыданные.

Полнотой поиска (П) (англ. Recall - R) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве.

Точность поиска (Т) (англ. Precision - P) - это отношение количества выданных релевантных документов к общему числу документов в выдаче .

1.2. Информационный поиск в сети Интернет

Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет - это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм-мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:

1. ИПС вербального типа (поисковые системы – search engines)

2. Классификационные ИПС (каталоги – directories)

3. Электронные справочники («желтые» страницы и т.п.)

4. Специализированные ИПС по отдельным видам ресурсов

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в веб-пространстве на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций. Схемы классификации ресурсов в Интернете - это, как правило, древесные структуры, узлы которых названы словами естественного языка. Различные классификационные схемы отличаются друг от друга по объему и методологии их составления. Одним из недостатков универсальных иерархических классификаций является то, что они консервативны и отстают от развития науки, техники и жизни вообще. Главная проблема классификационных поисковых служб - это автоматизация классификации. До сих пор задача автоматической классификации удовлетворительного решения не нашла. Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми - индексаторами и модераторами данной системы. И поэтому объем базы данных систем классификационного типа сравнительно невелик по сравнению с информационной емкостью всего Интернета.

Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines). Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает. Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает за процесс ретрансляции запроса в другие системы. После обработки полученного запроса каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. При всей привлекательности метапоисковых систем следует помнить и об их минусах и недостатках. Прежде всего, отсутствие единого стандарта языка запросов не позволяет метасистемам добиваться от поисковых систем, выполняющих запросы метапоисковых систем, такого же результата, какого может добиться опытный пользователь при работе с каждой машиной в отдельности.

Основным средством поиска информации в сети сегодня следует считать глобальные ИПС вербального типа (search engines), индексирующие (по крайней мере, претендующие на это) все Интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Полнота поисковой базы и оперативность индексирования веб-сайтов является главной проблемой всех ИПС в Интернете. Как правило, системы с бóльшим объемом базы дают в результате поиска и большее количество документов. Большая, как лингвистическая, так и программная проблема - многоязычие информационного пространства Интернета и многообразие форматов представления данных. Тем не менее, основные глобальные системы с этими проблемами справляются.

Именно вербальным ИПС и уделено основное внимание в практической части пособия. Прежде всего, моделируется уровень пользователя, выражающийся в языках запросов и в запросно-ответных интерфейсах. Производится сравнительный анализ языков запросов различных ИПС сети Интернет.

Особенность современных систем - полнотекстовый поиск. Многие вербальные ИПС сети Интернет вычисляют релевантность документов запросам путем сопоставления элементов запроса с полными текстами документов, размещенных в сети. Что касается информационно-поискового языка, то, как правило, в качестве поисковых элементов выступают обычные слова естественных языков. Запросы формулируются через специальный интерфейс, реализуемый в виде экранных форм в программах-броузерах.

Полезно представлять, как эти системы устроены. В составе любой поисковой системы можно выделить три основные части.

Робот - подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.

Поисковая база данных - так называемый индекс - специальным образом организованная база (англ. index database), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковая система - подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы - экранные формы программ-броузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.

Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. В основе индекса всегда лежит инвертированный файл. Инвертированная (инверсная) схема организации поискового массива основана на принципе обеспечения доступа к документам через их идентификаторы содержания (поисковые признаки: дескрипторы, ключевые слова, термины, другие признаки). Такую схему получают путем обработки последовательного массива документов с целью создания специальных вспомогательных инвертированных файлов - точек доступа.

Каждая запись такого вспомогательного массива идентифицирована соответствующим идентификатором содержания (дескриптор, ключевое слово, просто термин, имя автора, название организации и т.п.) и содержит имена (адреса хранения) всех документов, в поисковых образах которых он содержится. Для каждого идентификатора содержания (поискового элемента данных) в инвертированном массиве вместе с адресом (номером, именем) документа может храниться (и обычно хранится) дополнительная информация, как-то: имя поля, номер предложения, в составе которых данный элемент встретился в данном документе, номер слова в предложении и т.д. Фиксация положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Нахождение необходимых документов через инвертированный файл осуществляется не сплошным просмотром всего массива, а просмотром лишь тех идентификаторов содержания в инвертированном файле, которые заданы в поисковом предписании, т.е. число операций сравнения слов при поиске пропорционально числу терминов поискового предписания. Такой способ работы систем снижает время на поиск и позволяет обслуживать потребителей информации в реальном масштабе времени.

Поиск в индексе - это операции над списками идентификаторов поисковых элементов в соответствии с моделью поиска и критерием соответствия. Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список кратких описаний документов, снабженных гипертекстовыми ссылками и другими характеристиками, возвращается пользователю в его клиентскую программу-броузер. Щелчок мышью по названию документа в его кратком описании (по гиперссылке) запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

    индексирование полных текстов возможно большего числа сайтов;

    «грамотная» работа со словоформами - способность ИПС отождествлять разные словоформы одной и той же лексемы, по-другому, порождать каноническую форму - лемму, и возможность выделять среди множества словоформ конкретную форму;

    Автореферат диссертации

    Примеры употребления и другие сведения Документальная информационно -поисковая система информационно -поисковая система , предназначенная для отыскания документов, содержащих...

  • Автоматизированные информационно-поисковые системы

    Учебное пособие

    Типа автоматизированных информационно -поисковых систем: документальные, фактографические и информационно -логические. Документальная автоматизированная информационно -поисковая система система , предназначенная для...

  • Дипломный проект тема « разработка информационного агента (робота) информационно-поисковой системы для сбора информации в сети интернет»

    Диплом

    ДИПЛОМНЫЙ ПРОЕКТ Тема: «Разработка информационного агента (робота) информационно -поисковой системы для сбора информации в...) В.К. Иванов, К.В. Иванов, Введение в информационно -поисковые системы . (/window_catalog/pdf2txt?p_id=28415) И. Некрестьянинов...

ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ

1. Информационно-поисковые системы (ИПС) и их виды

2. Составные части информационно-поисковых систем

3. Информационный поиск в сети Интернет

Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический - и, соответственно, два типа ИПС - документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.



Выделяют еще и третий тип систем, которые называют информационно-логическими . Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ­ствует смысловому содержанию информационного запроса, называется релевантным , а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа­нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Лучшие статьи по теме