Дескрипторные ИПЯ

Материал из ПИЭ.Wiki

Перейти к: навигация, поиск

Содержание

О методике создания правового информационно-поискового языка дескрипторного типа

Необходимость создания информационно-поисковой системы (ИПС) нормативно-правового материала не вызывает сомнений. Актуальность машинного поиска правовой информации особенно возросла в связи с развертыванием в нашей стране работ по созданию автоматизированных систем управления (АСУ), причем значительную часть информационного обеспечения составляет законодательный материал. Создание ИПС законодательства, помимо прочих преимуществ, о которых уже говорилось в советской юридической литературе, позволит сократить расходы на проектирование производственных, отраслевых и территориальных АСУ, а также создаст предпосылки, по крайней мере в области кодирования и машинной обработки правовой информации, для их последующей стыковки в единую общегосударственную систему.

Процесс поиска информации условно можно разбить на два этапа. Первый начинается с поступления запроса и заканчивается выдачей адреса документа, например номера статьи и названия акта, в котором она находится. Здесь решаются задачи Юридической семантики. Второй этап начинается с поступления адреса требуемого документа и закан­чивается его выдачей. Решаемые при этом задачи к семантике отношения не имеют и целиком относятся к сфере техники.

Как в специальной, так и в юридической литературе системы, обеспечивающие каждый этап раздельно, и системы, обеспечивающие оба этапа вместе, зачастую называются одинаково — информационно-поисковыми. Между тем один и тот же термин употребляется для обозначения разных систем.

Первый этап определяется методом, положенным в основу организации информационного поиска, или, иными словами, языком, в терминах которого осуществляется индексация документов; критерием соответствия найденного документа искомому и алгоритмом поиска адреса — программой реализации критерия соответствия. Это информационно-поисковая система в абстрактном виде, под которой понимается совокупность информационно-поискового языка (ИПЯ) с правилами перевода с естественного языка на ИПЯ и наоборот, а также критерия смыслового соответствия между поисковыми образами правовых актов и поисковыми предписаниями.

В настоящее время для целей информационного поиска используются четыре основных типа информационно-поискового языка: библиотечно-библиографических классификаций, алфавитно-предметной классификации, дескрипторные языки и смешанные языки, объединяющие положительные стороны классификационных и дескрипторных ИПЯ. Не­обходимость многоаспектного поиска правовых актов, т. е. поиска по любому, заранее не заданному сочетанию признаков, требует использования метода координатного индексирования и основанного на нем дескрипторного ИПЯ.

Но для того чтобы метод координатного индексирования был эффективен, нужно обеспечить единообразное индексирование одинаковых по содержанию документов и информационных запросов, т. е. необходимо устранить такие явления естественного языка, как синонимия, омонимия и полисемия. Осуществить это можно лишь путем установления контроля за употреблением слов и словосочетаний естественного языка, выступающих в качестве ключевых. Такой контроль обеспечивается составлением специального юридического словаря-справочника. Специфика его в том, что ключевые слова в нем сгруппированы в классы эквивалентности, т. е. группы, обозначающие близкие сто смыслу понятия. Из каждой такой группы выбирается одно слово или словосочетание (нормативное слово), которым я обозначается вся группа. Такое нормативное слово принято называть дескриптором, а словарь дескрипторов получил название тезауруса (от греческого thesaurus — сокровищница, кладовая, клад).

Структура тезауруса сочетает признаки классификационных схем и перечней предметных рубрик. Термины его должны располагаться в алфавитном порядке, отражая в то же время иерархические отношения между терминами посредством указания более широких — родовых и более узких — видовых, синонимичных или связанных по значению тер­минов.

Необходимость в таком словаре возникает вследствие наличия множества слов с неточно определенным объемом значения, что отрицательно сказывается на результатах индексирования и поиска. Правовой тезаурус должен быть единым в масштабах страны или по крайней мере союзной республики с тем, чтобы была возможность последующей стыковки разрабатываемых в настоящее время отраслевых ИПС в области права. Перед нормированным перечнем терминов не стоит задача стан­дартизации терминологии, он должен лишь устранить встречающиеся в практике терминологические расхождения применительно к разработке и функционированию информационно-поисковой системы.

Точность и определенность юридического языка, отсутствие (за достаточно редким исключением) расплывчатых, двусмысленных и многозначных терминов значительно облегчают задачу создания правового тезауруса. Последнее, однако, не означает, что в юридический информационно-поисковый язык нет необходимости вводить искусственные средства для отражения связей между понятиями.

Перед составителями тезауруса стоит сложная задача — произвести отбор терминов, сгруппировать их в классы и увязать между собой сложные иерархические деревья с тем, чтобы тезаурус обеспечивал удовлетворительную полноту и точность поиска.

Сбор терминов осуществляется путем детального свободного индексирования поискового массива (в машем случае нормативно-правовых актов, составляющих тот или иной институт права).

Для облегчения выделения дескрипторов массив в виде списка ключевых слов разбивается на тематические поля. В массиве по льготному пенсионному обеспечению выделены, например, следующие группы или семантические классы: 1) отрасль промышленности, 2) производство, 3) предприятие. 4) цех, 5) участок, 6) профессия, 7) выходные данные документов.

Дескрипторный язык состоит из нормативных ключевых слов, у которых искусственно, при помощи соответствующих ссылок и знаков устранены синонимия, омонимия, полисемия. Необходимость подобных искусственных преобразований вызвана тем, что вышеперечисленные особенности естественного языка, хотя и сокращенные, но не устраненные полностью в юридическом языке, не позволяют решить задачу одно­значного описания смыслового содержания документов, особенно в поисковых предписаниях.

Основа построения дескрипторных информационно-поисковых языков

В основе построения дескрипторных информационно-поясковых языков лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются:

♦ словарь лексических единиц;

♦ правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ:

♦ правила построения ИПЯ.

словари лексических единиц делятся на две группы:

♦ основные лексические словари, составляющие лексику ИМЯ;

♦ морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор - это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциативные связи дескрипторов.

Наиболее важными парадигматическими отношениями ИПТ являются:

♦ соподчинение;

♦ род-вид;

♦ часть—целое;

♦ причина-следствие;

♦ функциональное сходство.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.

Приведем ряд определений.

Словарная часть алфавитный список дескрипторов с их словарными статьями.

Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода. Иначе говоря, в системах на основе ПИТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения междудескрипторами, что, В конечном счете, обеспечивает более адекватный содержанию документа ПОД и повышает эффективность поиска документов.

Виды ИПЯ

К основным видам ИПЯ относятся: классификационный, предметизационный, дескрипторный.

Классификационный язык

Классификационный язык предназначен для индексирования документов и информационных запросов посредством понятий и кодов какой-либо классификационной системы (ББК, УДК, ГРНТИ, Классификаторов и др.).

В основе классификационных языков лежит систематическая классификация понятий, т.е. классификация, отражающая смысловые отношения между понятиями. Классификационные языки предназначены прежде всего для формализации логических связей слов естественного языка.

РГБ предлагает использовать в ЭК в качестве классификационного языка формализованную и модернизированную ББК в машиночитаемом виде с предметным входом в нее.

Выбор ББК в качестве ИПЯ ЭК, по мнению специалистов РГБ, обусловлен следующими факторами: ББК используется в традиционных каталогах большинства библиотек страны; в предметной классификации отсутствует достаточно развитая для ЭК система смысловых связей между делениями; использование ББК позволяет сохранить в ЭК все достоинства традиционных каталогов, вобравших в себя многолетний опыт библиотекарей и библиографов и привнести новые возможности поиска информации, которые предоставляет вычислительная техника.


А, по мнению канд. пед. наук, зав. отделом НБ РГТУ Л.И. Алешина, ГРНТИ больше приспособлен для автоматизированных технологий, чем ББК.

Все ИПЯ классификационного типа характеризуются рядом свойств, обусловливающих низкую эффективность и затрудняющих их использование в информационном поиске, особенно с применением технических средств. К таким свойствам относятся: предварительная координация (связь) слов и словосочетаний в рубрике, трудность обновления и дополнения, практическая невозможность полной и детальной разработки схемы классификации, трудоемкость использования при индексировании.

Все это привело к созданию языков вербального типа. Эти языки используют для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме. К языкам вербального типа относятся предметизационный и дескрипторный.

Предметизационный язык

Предметизационный язык предназначен для индексирования документов и информационных запросов посредством предметных рубрик. В основе предметизационного языка лежит алфавитный перечень предметных рубрик, представляющих собой краткую формулировку темы на естественном языке. Являясь искусственной системой, предметизационный язык должен быть построен стандартизовано, предельно единообразно. Это помогает читателю сэкономить время и силы.

Дескрипторный язык

Дескрипторный язык служит для координатного индексирования документов и запросов посредством дескрипторов и/или ключевых слов. В основе дескрипторных ИПЯ лежит алфавитный перечень лексических единиц.

Именно дескрипторные языки открыли возможность для автоматизации информационного поиска. Они позволяют достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются, обновляются, поскольку в алфавитный перечень можно включить любую лексическую единицу, необходимую для индексирования. Тем не менее дескрипторные языки предназначены для контролируемого индексирования, т.е. для контроля за используемой при индексировании терминологией.

Классификационные и дескрипторные языки отражают две противоположные тенденции во взаимоотношениях между науками и отраслями: дифференциацию наук и их интеграцию.

Нет исследований, обосновывающих ведение нескольких систем индексирования. Но, поскольку каждый из существующих ИПЯ обеспечивает выполнение определенных задач и имеет наряду с достоинствами и недостатки, в ЭК целесообразнее использовать несколько ИПЯ. По мнению специалиста РГБ Е.М. Зайцевой, использование в ЭК нескольких систем индексирования позволяет расширить возможности поиска, совместимости обмена.

--Кондратков Тимур 21:00, 30 мая 2010 (UTC)

Просмотры
Инструменты

Besucherzahler russian mail order brides
счетчик посещений
Rambler's Top100
Лингафонные кабинеты  Интерактивные доски  Интерактивная приставка Mimio Teach