Информационно-поисковые языки

Материал из ПИЭ.Wiki

Перейти к: навигация, поиск

Поисковое пространство строится на основе языков баз данных, называемых информационно-поисковыми языками(ИПЯ). Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующий в нем синонимии и омонимии (см. ниже) для реализации "однозначности" информационного поиска.Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

В ИПЯ можно выделить алфавит, лексику и грамматику.


Алфавит — совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка.

Лексика — совокупность всех использующихся в языке слов — лексических единиц.

Грамматика — правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. ИПЯ представляют собой формализованную семантическую систему, предназначенную для выражения содержания документа и запроса по их поиску. ИПЯ можно разделить на структурную и популяционную составляющую.

Структурная составляющая ИПЯ на основе индексирования реализуется индексными указателями в форме информационно-поисковых каталогов, тезаурусов и генеральных указателей. Информационные-поисковые каталоги являются традиционными технологиями информационного поиска в библиотеках, архивах и представляют собой классификационную систему по определенной предметной области. Смысловое содержание документа отображается классом каталога,а индексирование заключается в присвоении каждому документу специализированного кода(Метод, обеспечивающий возможность обращения к элементу массива с помощью указания массива и выражений, определяющих местоположение этого элемента в массиве).

Процесс индексирования включает:

1. Анализ содержания индексируемого материала и выбор из него т.н. номинативных лексических единиц, существенных для его понимания;

2. Формирование перечня ключевых слов, используемых при свободном индексировании ;

3. Нормализацию ключевых слов по форме и содержанию при помощи словаря используемого ИПЯ пред- или посткоординатного типа;

4. Избыточное индексирование (см. ниже);

5. Заполнение рабочего листа с введением в него грамматических средств.

Тезаурус представляет собой специальным образом организованную совокупность основных и лексических единиц, понятий предметной области и описание парадигматических отношений между ними. Парадигматические отношения выражаются семантическими элементами словаря, не зависящих от любого контекста(абстрагированность смысловых отношений) Генеральный указатель(контрданс) представляет собой перечисление всех слов, имеющихся в документах с указанием координатного местонахождения каждого слова. Так как поисковое пространство отображает полностью весть текст, то такие системы получили название полнотекстовые.

Структурная составляющая ИПЯ семантических информационных систем реализуется в виде смысловых оценок в поисках документов специальном навигационном интерфейсе(гипертекстовые технологии). Поисковая(манипуляционная)составляющая ИПЯ реализуется дескрипторными и сематическими языками запроса.

В дескрипторных языках документы и запросы представляются наборами некоторых лексических единиц(слов, словосочетаний, терминов)-дескрипторов, не имеющих между собой связей, то есть каждый документ или запрос представлен некоторым набором дескрипторов, то есть осуществляется через подбор документов с подходящим набором дескрипторов. В качестве дескрипторов выступают элементы словаря классовых терминов или элементы генерального указателя. Такие языки переменятся в полнотекстовых системах.

По области или по сфере применения информационно-поисковых языков можно выделить:


1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);

2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;

3. Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними.

Способ задания лексических единиц

Контролируемые — языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные классификации. (универсальная десятичная классификация, библиографическая классификация, классификация Дьюи). Язык предметных рубрик. На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги — ручной поиск. Дескрипторные ИПЯ, а также язык ключевых слов — автоматический поиск. Неконтролируемые — лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последне время.

Порядок записи лексических единиц

Некоординируемые языки — не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).

Координируемые ИПЯ — языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

Предкоординируемые — связи между лексическими единицами устанавливаются перед поиском.


Некоторые дополнительные термины, связанные с видами ИПЯ:

Естественный язык [natural language] - Неформализованный язык пользователя информационно-поисковой системы, являющийся средством человеческого общения;

Естественно-деловой язык-ограниченно нормализованный естественный язык, язык деловой прозы - Разновидность естественного языка, расширенная специальными терминами;

Профессионально-ориентированный язык - Естественно-деловой язык, ориентированный на определенную область науки или производственной деятельности человека;

Язык запросов [query language] - Язык общения пользователей с информационной системой, являющийся средством описания запросов на поиск и вывод данных;

Язык предметных заголовков - ИПЯ, основанный на использовании иерархических предметных рубрик с фиксированным числом уровней, в котором для обозначения рубрик или связанных с ними понятий не используются специальные классификационные индексы или коды;

Синтагматический язык[syntagmatic organization language] - Семейство ИПЯ, использующих связанные в предложения лексические единицы - синтагмы ;

Тематический информационно-поисковый язык, тематический ИПЯ - Язык ключевых слов без грамматики, основными лексическими единицами которого являются слова и словосочетания естественного языка; Язык с синтаксисом - ИПЯ, в котором лексические единицы, включая коды , могут соединяться в более сложные (составные) лексические единицы и фразы;

Язык фасетной структуры - ИПЯ с синтаксисом, основанным на использовании фасет ;

Фасета [facet] - Группа однородных терминов, связанных общностью какого-либо признака (характеристики, основания деления). Служит средством построения информационно-поисковых языков фасетной структуры ;

Фреймовый язык, язык представления фреймов [frame language] - Язык представления знаний, основанный на использовании фреймов.

Просмотры
Инструменты

Besucherzahler russian mail order brides
счетчик посещений
Rambler's Top100
Лингафонные кабинеты  Интерактивные доски  Интерактивная приставка Mimio Teach