Тезаурусы в задачах информационного поиска


Скачать 6.4 Mb.
Название Тезаурусы в задачах информационного поиска
страница 6/45
Тип Задача
rykovodstvo.ru > Руководство эксплуатация > Задача
1   2   3   4   5   6   7   8   9   ...   45

1.1.3. Аскрипторы


Некоторое понятие может быть выражено с помощью двух разных или большего количества терминов, один из которых выбирается в качестве основного термина – дескриптора. Дескриптор фактически рассматривается как представитель терминов, выражающих такое же или почти такое же понятие, то есть устанавливается отношение эквивалентности между терминами.

Отношение эквивалентности между терминами включает три подтипа:

  • собственно синонимы,

  • лексические варианты,

  • квазисинонимы.

Основными видами синонимов, включаемыми в тезаурусы, являются следующие:

  • термины различного происхождения,

  • общеупотребительные слова и научные термины,

  • общеупотребительные термины и жаргонные или диалектные выражения и др.

Лексические варианты отличаются от синонимов тем, что они представляют собой некоторую модификацию одного и того же выражения, например, различное написание, аббревиатуры, и т.п.

В качестве аскрипторов часто могут использовать квазисинонимы, то есть такие термины, значения которых, вообще говоря, различаются, но которые рассматриваются как эквиваленты для целей тезауруса, например, как квазисинонимы часто рассматриваются антонимы (ядерная опасность – ядерная безопасность).

Другим частым видов квазисинонимов является случай, когда в качестве дескриптора рассматривается некий обобщающий тип, а его подвиды описываются как аскрипторы к этому дескриптору.

Аскрипторы, не совпадающие по значению, вводятся по ГОСТу в следующих случаях: относительными синонимами (если случаи несовпадения значений несущественны для задач ИПТ):

СТОЛ = ДИЕТА = ПИТАНИЕ,

БЮРО = КОНТОРА = ФИРМА,

ВИНТ = БОЛТ.

Допускается установление эквивалентности также между единицами, различными по значению, но семантически связанными, в тех случаях, когда отождествление этих понятий полезно для функционирования информационной системы:

УСТОЙЧИВОСТЬ = НЕУСТОЙЧИВОСТЬ,

ТОРГОВЛЯ == ПРОДАЖА,

РЕКА = РУЧЕЙ,

МАСЛО = СМАЗКА.

Например, в тезаурусе LIV Исследовательской службы Конгресса США статья дескриптора Transplantation of organs, tissues ets. (ТРАНСПЛАНТАЦИЯ ОРГАНОВ, ТКАНЕЙ и др.) содержит такие аскрипторы как medical transplantation, organ transplantation, Skin grafting, Surgical tranplantation, Tissue transplantation, некоторые из которых соответствуют объемлющему понятию ТРАНПЛАНТАЦИИ, а некоторые представляют видовые понятия (Skin grafting) (LIV, 1994).

В этом же тезаурусе термин deflation (дефляция) включено в качестве аскриптора в тезаурусную статью дескриптора inflation (инфляция), поскольку разработчики считают, что это разные проявления одного и того же более общего понятия.

Как правило, авторы тезаурусов предпочитают вводить квазисинонимы для понятий, которые рассматриваются как периферийные по отношению к основной области разрабатываемого тезауруса.

1.2. Отношения в информационно-поисковых тезаурусах


ГОСТ 7.25 указывает, что основными типами отношений, обычно отражаемых в информационно-поисковых тезаурусах являются следующие:

  • род—вид,

  • часть — целое,

  • причина — следствие,

  • сырье — продукт,

  • административная иерархия,

  • процесс — объект,

  • функциональное сходство,

  • процесс — субъект,

  • свойство — носитель свойства,

  • антонимия.

Такие содержательные типы связей между дескрипторами, чаще всего, не отражаются в подробном перечне отношений тезауруса, а записываются с помощью небольшого набора отношений, которые обычно разделяются на два класса: иерархические и ассоциативные. Иерархические отношения обычно рассматриваются как несимметричные и транзитивные.

1.2.1. Иерархические отношения


Иерархические отношения в тезаурусе могут использоваться в трех логически различных и взаимно исключающих ситуациях, а именно для установления следующих отношений:

  • родовидовое отношение

  • отношение часть-целое

  • отношение пример-класс.

Американский стандарт на разработку тезаурусов (Z39.19) приводит общую рекомендацию для установления иерархических отношений:

каждый вышестоящий дескриптор должен относиться к тому же базисному семантическому типу, что и нижестоящий дескриптор, например, оба (нижестоящий и вышестоящий) дескрипторы могут обозначать предмет, действие, свойство и т.п.

Например, анатомия (дисциплина) и центральная нервная система относятся к разным типам понятий, поэтому они не могут быть соединены иерархическими отношениями.

Дескрипторы центральная нервная система и мозг относятся к органам живого организма и поэтому могут быть соединены иерархически.

Некоторые авторы обсуждают необходимость ограничения иерархических уровней в тезаурусе. Так, Герд А.С. (Герд, 2005), указывает, что практический опыт показывает, что иерархическая глубина тезауруса не должна превышать некоторого порога, иначе он будет громоздким и неудобным в эксплуатации. Авторы работы (Методика, 1973) также подчеркивают, что не рекомендуется использовать более 9 уровней иерархии.

Ограничение числа уровней иерархии достигается исключением слишком конкретных для данной предметной области дескрипторов. Считается, что для отражения таких конкретных дескрипторов индексатор может выбрать и более общий дескриптор.

Кроме того, учитывается еще и фактор субъективности: чем больше уровней иерархии в тезаурусе, тем больше вероятность, что для отражения одного и того же содержания индексаторы могут выбрать дескрипторы с разных уровней иерархии.

1.2.1.1. Отношение Выше-Ниже


Многие руководства и стандарты (Z39.19; Will, 2004) подчеркивают, что иерархические отношения в информационно-поисковых тезаурусах должны устанавливаться в тех случаях, когда отношения истинны независимо от контекста, - только в таких случаях дескрипторы информационно-поискового тезауруса могут быть организованы в иерархии. Эта рекомендация связана с тем, что обычно в информационном поиске очень трудно четко определить контекст употребления термина и понять, применимо ли в данном контексте то или иное отношение.

Так, в (Will 2004) указывается, что для мышей можно указать, что они грызуны, поскольку это внутренняя характеристика мышей. В то же время неправильно указывать, что мыши – вредители, поскольку имеются лабораторные мыши и домашние мыши, которые не являются вредителями.

Американский стандарт на информационно-поисковые тезаурусы (Z39.19) предлагает при описании родовидовых отношений использовать тест «все-некоторые». Например, все мыши являются грызунами, но некоторые мыши являются вредителями.

Шемакин Ю.И. (Шемакин, 1974) также подчеркивает, что одна из наиболее распространенных ошибок при построении классификационных схем заключается в том, что ассоциативная связь между понятиями, основанная на возможном применении или использовании кого-то одного свойства, принимается за родовидовую связь. Так, например, ошибкой является, если в тезаурусе понятие НИТРОГЛИЦЕРИН связано родовидовой связью с понятием ВЗРЫВЧАТЫЕ ВЕЩЕСТВА, хотя как химическое соединение оно находит применение и в других областях (например, в медицине). Родовая связь между понятиями в аналогичных ситуациях сохраняется лишь тогда, когда данный предмет (процесс) имеет только одно применение (например, ТРОТИЛ применяется только как взрывчатое вещество и поэтому может быть связан родовидовой связью только с БРИЗАНТНЫМИ ВЗРЫВЧАТЫМИ ВЕЩЕСТВАМИ).

1.2.1.2. Отношение Часть-Целое


Отношение Часть-Целое относится к иерархическим отношениям тезауруса. Это отношение используется в информационно-поисковых тезаурусах значительно реже, чем родовидовое отношение ВЫШЕ-НИЖЕ. В конкретных тезаурусах часто принимается решение описывать отношение ЧАСТЬ-ЦЕЛОЕ как обобщенное отношение ВЫШЕ-НИЖЕ (Мдивани, 2004), или как отношение АССОЦИАЦИИ (Методика, 1973) (см. раздел 1.2.2).

Американский стандарт z39.19 подчеркивает, что отношение ЧАСТЬ-ЦЕЛОЕ в тезаурусах должно устанавливаться в тех случаях, когда одно понятие включено в другое понятие независимо от контекста, тогда дескрипторы могут быть организованы в иерархии. Обычно приводится следующий список независимых от контекста отношений ЧАСТЬ-ЦЕЛОЕ, впрочем, список не считается исчерпывающим:

1) системы и органы тела:
нервная система
центральная нервная система
мозг


2) географические объекты:
Россия
Ростовская область
Ростов-на-Дону


3) дисциплины и сферы деятельности:
наука
биология
ботаника
зоология


4) иерархически организованные общественные, политические военные структуры:
батальон
рота
взвод


В тех случаях, когда имеется множественная принадлежность части к целому, то между такими терминами не должно устанавливаться иерархическое отношение. Между такими дескрипторами может быть установлено отношение ассоциации. Например, карбюраторы являются частями не только автомобилей. Поэтому дескрипторы карбюратор и автомобиль не должны быть связаны отношением ЧАСТЬ-ЦЕЛОЕ в тезаурусе.

Но даже так строго ограничиваемое установление отношений ЧАСТЬ-ЦЕЛОЕ может иметь проблемы. Так, в работе (Smith и др., 2004) указывается на проблемы в установлении отношений ЧАСТЬ-ЦЕЛОЕ в онтологии генов GO, которая, по сути, является информационно-поисковым тезаурусом.

Авторы указывают на три разных интерпретации отношения ЧАСТЬ_ЦЕЛОЕ в этом ресурсе:

  1. A является частью В означает, что A иногда является частью B в том смысле, что каждый пример A в некоторый момент своего существования становится частью В, понимаемой как часть-целое между конкретными сущностями, то есть в некоторые момент своего существования А является частью В, а в другие не является.

  2. A является частью В означает, что A может быть частью В в смысле независимого от времени отношения между классами: класс A является частью класса В, если существует класс С, являющийся подклассом В, для которого все примеры А являются частями C и все примеры С содержат в качестве частей примеры А.

  3. A является частью В означает, что словарь A включен в словарь В, например, онтология клеточных компонентов включается в онтологию генов.

1.2.1.3. Обобщенные отношения ВЫШЕ-НИЖЕ


Несмотря на то, что современный стандарт на разработку тезаурусов Z39.19 рекомендует описывать иерархические отношения так, чтобы семантические классы вышестоящего понятия и нижестоящего понятия совпадали, на практике разработчики тезаурусов часто использовали обобщенное отношение ВЫШЕ-НИЖЕ, нарушающее это требование. Например, в тезаурусе EUROVOC (EUROVOC, 2001) можно найти следующие примеры отношений ВЫШЕ-НИЖЕ, в которых вышестоящее понятие представляет собой сферу деятельности или процесс, а нижестоящее понятие имеет другой семантический тип.

Авиалинии
ВЫШЕ
воздушный транспорт

Автостоянки
ВЫШЕ коммунальное хозяйство

Земли под паром
ВЫШЕ агротехника

Административная ответственность
ВЫШЕ административное право

Объекты аквакультуры
ВЫШЕ аквакультура

Базы данных
ВЫШЕ обработка данных.

Также в тезаурусах в качестве обобщенного отношения ВЫШЕ-НИЖЕ может быть представлены отношения ЧАСТЬ-ЦЕЛОЕ, например, в тезаурусе AGROVOC находим следующие пример такого отношения:

МОЛОЧНЫЙ ЖИР
ВЫШЕ МОЛОКО.
1   2   3   4   5   6   7   8   9   ...   45

Похожие:

Тезаурусы в задачах информационного поиска icon Тезаурусы в задачах информационного поиска
Правила индексирования документов дескрипторами информационно-поискового тезауруса 39
Тезаурусы в задачах информационного поиска icon Тезисы представленные на
Внимание! Для поиска своей фамилии или ключевого слова в тексте нажмите Ctrl+F и введите искомое слово в окно поиска!!
Тезаурусы в задачах информационного поиска icon Инструкция по заполнению документов на регистрацию информационного ресурса
Настоящая инструкция определяет порядок заполнения и представления документов для регистрации информационного ресурса в Реестре государственных...
Тезаурусы в задачах информационного поиска icon Лекция №11
В этом разделе будет приведен обзор одних из первых систем поиска информации, насчитывающих к настоящему моменту времени многолетнюю...
Тезаурусы в задачах информационного поиска icon Конспект лекций по дисциплине «Информационные системы и технологии в науке и образовании»
Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная...
Тезаурусы в задачах информационного поиска icon Инструкция по сверке Планов финансово-хозяйственной деятельности
В параметрах поиска в строке Наименование учреждения вводим инн, либо название учреждения. Нажать кнопку Найти. Внизу экрана загрузится...
Тезаурусы в задачах информационного поиска icon Алгоритмы поиска. Линейный поиск. Двоичный поиск
Также, линейный поиск часто используется в виде линейных алгоритмов поиска максимума/минимума
Тезаурусы в задачах информационного поиска icon Рабочая инструкция по настройке представлений в hp sm
Удалены не используемые номера рисунков. Добавлено описание создания представления из Поиска и описание требований для удаления Представления....
Тезаурусы в задачах информационного поиска icon Задачах на 2014 год Итоги работы Отдела социальной защиты населения г. Рошаль
Отдела социальной защиты населения г. Рошаль Министерства социальной защиты населения Московской области и подведомственных учреждений...
Тезаурусы в задачах информационного поиска icon Общая характеристика информационного ресурса
Целью оказания услуг является формирование и сопровождение картографического информационного ресурса «Шельфовые проекты» (далее ир...
Тезаурусы в задачах информационного поиска icon Отчёт о результатах деятельности отдела загс администрации Лужского...
Во исполнение поручения главы администрации Лужского муниципального района Малащенко Олега Михайловича предоставляем отчет о результатах...
Тезаурусы в задачах информационного поиска icon Инструкция по поиску и спасанию в зоне авиационно-космического поиска...
Организация поисково-спасательного обеспечения полетов в Южной зоне авиационно-космического поиска и спасания (акпс)
Тезаурусы в задачах информационного поиска icon Универсальный телевизионный пульт дистанционного управления
«умного» поиска и сохранения канала, что избавляет вас от необходимости поиска и сохранения каналов вручную. Своевременная замена...
Тезаурусы в задачах информационного поиска icon Инструкция по работе с программным комплексом единого информационного ресурса
При входе в программный комплекс единого информационного ресурса (далее – пк еир) пользователю необходимо пройти авторизацию в меню,...
Тезаурусы в задачах информационного поиска icon Регламент информационного взаимодействия
Настоящий Регламент информационного взаимодействия (далее Регламент) разработан в целях реализации требований следующих документов:...
Тезаурусы в задачах информационного поиска icon Приказ от 3 июня 2014 г. N 148 об утверждении требований к подготовке...
Федеральных авиационных правил поиска и спасания в Российской Федерации, утвержденных постановлением Правительства Российской Федерации...

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск