первая колонка - имя категории;
вторая колонка - коэффициент корреляции (от -1 до +1);
-
третья колонка - график для визуального представления корреляционной силы связи между категориями. Красный цвет - положительная связь, синий - отрицательная, серый - связь незначимая.
Для того, чтобы получить связи конкретной категории с другими, достаточно выбрать ее в списке справа. Особенно интересными и информативными могут оказаться не связи между встроенными категориями, а между встроенными и сформированными пользователем категориями. Например, Вы можете создать категорию, представляющую известного политика, и оценить в некотором тексте ее связи с психологически нагруженными категориями. В этом случае Вы получите психологический портрет политика, каким его видит автор текста.
Если вы хотите сохранить связи категорий в файл для последующего использования, то нажмите кнопку <Протокол>. В появившемся окне вам необходимо указать имя файла. Если указано имя уже существующего файла, то данные добавляются в его конец. Для хранения протоколов по умолчанию используется специальная директория ...\VAAL\Protocol.
В ряде случаев возникает задача вторичной математической обработки связей категорий. Для сохранения и накопления связей вы можете воспользоваться кнопкой <База данных>. При нажатии на нее вам будет предложено сохранить связи в файле. Если указано имя уже существующего файла, то данные добавляются в его конец. Накопив в одном файле связи категорий, вы можете затем их подвергнуть либо факторному анализу с использованием модуля визуализации системы ВААЛ, либо более изощренным видам анализа с использованием таких известных систем как Statistica и SPSS. Файлы данных хранятся в специальной директории ...\VAAL\Data. Система сохраняет данные в файлах с расширением dcn. Вам не нужно беспокоиться о правильном расширении файла. Система сделает это за Вас.
Дополнительно Вы имеет возможность распечатать таблицу на принтере.
Визуализация
Если при анализе текста используется много категорий, то бывает трудно охватить и осмыслить существующие между ними связи. Существуют два выхода из этой ситуации. Первый - сохранить результаты в Базу данных и затем проанализировать их с помощью одного из статистических пакетов. Второй - произвести непосредственную визуализацию связей.
Идея визуализации заключается в следующем. Возьмем произвольную категорию и назовем ее (горизонтальной) осью X. Вычислив корреляционные связи этой категории со всеми остальными, мы получим некоторые координаты от -1 до +1 этих категорий на оси X. Возьмем теперь другую категорию и назовем ее (вертикальной) осью Y. Вычислим корреляционные связи второй категории со всеми остальными и получим их координаты на оси Y.
Итак, мы получили координаты всех категорий в некотором двухмерном пространстве. Осталось их отобразить. Именно это и делается на странице визуализации.
Справа вверху имеются две строки с именами категорий, обозначенные буквами X и Y. Это две условных координатных оси. Имена категорий в строках легко изменить, выбрав их из выпадающих вниз списков.
Ниже находится список пронумерованных категорий.
Слева на фоне темно-серого квадрата изображены цифры, обведенные окружностями. Каждая цифра соответствует номеру категории. Визуализация производится в двухмерном пространстве.
Пользователь имеет возможность указать системе на то, чтобы она отображала лишь некоторые категории. Для этого достаточно поставить галочку в квадратике слева от интересующей категории. Двойной щелчок мыши позволяет изменить отмеченность всех категорий на противоположную.
Дополнительно Вы имеет возможность распечатать пространственное отображение категорий на принтере.
Эмоционально-лексические оценки
Категории эмоционально-лексической оценки позволяют оценить эмоциональный фон текста. Эмоции включают непосредственное переживание значимости действующих на индивида явлений и ситуаций для осуществления его деятельности ("состояние"), прогноз результатов деятельности ("ожидания") и оценка личности, деятельности или результатов деятельности другими людьми ("оценка").
Эмоциональный контекст деятельности описывается людьми не только через использование соответствующих собственно эмоциональных (радость, радостный, грусть, грустный), но и "общеоценочных" (хорошо, плохо) слов. Также эмоциональный контекст задается номинализациями, используемыми для называния других участников ситуации. Строго говоря, использование эмоциональных слов для описания ситуации (события) является следствием проекции и антропофикации самой ситуации (т.е. рассматривание ситуации как субъекта самой себя, типичная фраза "… ситуация развивалась сама по себе"), предметов, природных явлений и т.д., так или иначе считающихся важным говорящим для описания ситуации. Соответственно, для выявления эмоционального фона ситуации необходим учет следующих групп слов:
общеоценочные слова (хорошо, плохо, тяжело и т.д.);
прилагательные и номинализации, используемые для описания и оценки человека, включая наиболее распространенные метафоры;
глаголы, описывающие эмоциональные реакции человека.
В отличии от других мотивационных категорий, отнесение конкретного слова к той или иной категории весьма затруднительно по многозначности большинства слов описания "эмоций". Кроме того, для описания эмоций больше подходит не "категоризационная" схема описания, а "континуальная", т.е. не отнесение слова к той или иной смысловой категории, а определение значения слова на определенной смысловой шкале (как правило, биполярной, но не обязательно симметричной). В качестве таких "смысловых шкал" нами использовались 15 факторов, выделенных А.Г.Шмелевым и В.И.Похилько (1982-1988, программа ТЕЗАЛ). При такой подходе каждое слово оценивается по всем пятнадцати шкалам, а "эмоциональный" профиль деятельности задается оценкой участников, их переживаниями, ожиданиями и т.д.
В качестве примеров в таблице представлены слова, имеющие максимальные, минимальные значения по шкале ("пример полюса"), и слова, которые по данной шкале имеют "нулевые значения" (т.е. этот критерий к ним не применим). Использование факторной модели избавило нас от введения многочисленных категорий (по данным А.Г.Шмелева, их может быть не менее 112) и проблем, связанных с известным сравнением "умных" и "красивых".
Смысловая шкала
|
Пример полюса (-)
|
Центр шкалы (0)
|
Пример полюса (+)
|
Доброжелательность
|
Злой, бесчеловечный
|
Говорун, конспиратор
|
Добрый, сердечный
|
Интеллект
|
Глупый, тупица
|
Отщепенец, филантроп
|
Думающий, просвещенный
|
Экстраверсия
|
Апатичный
|
Немилосердный, противный
|
Оживленный
|
Самоконтроль
|
Небрежный
|
Отчаянный, кровосос
|
Обязательный
|
Независимость
|
Слабый, тряпка
|
Жадина, циник
|
Сильный, боец
|
Агрессивность
|
Покладистый, спокойный
|
Безвольный, безгрешный
|
Невыдержанный
|
Практичность
|
Наивный
|
Бука, волокита
|
Опытный, практичный
|
Правдивость
|
Лгун
|
Бодрый, веселый
|
Незапятнанный, праведный
|
Доминантность
|
Соглашатель
|
Белоручка, бравый
|
Неуступчивый
|
Демонстративность
|
Непритязательный
|
Балбес, безграмотный
|
Избалованный, капризный
|
Деятельность
|
Волокитчик
|
Артистичный, бандит
|
Дельный, деловой
|
Скрытность
|
Раскрепощенный
|
Бесконфликтный, вор
|
Нелюдимый
|
Эгоизм
|
Непритязательный
|
Безудержный, ветренный
|
Гордец, самолюбивый
|
Утонченность
|
Наглый, невежливый
|
Безответственный, бродяга
|
Изысканный, музыкальный
|
Необычность
|
Типичный
|
Аккуратный, беспощадный
|
Необычный
|
При анализе по факторам эмоциональной оценки появляется возможность определить основные критерии и значения по ним, применяемые автором текста.
Эмоционально-лексические оценки вычисляются путем подсчета средних величин по каждой из шкал. Если полученная оценка положительна, то строка гистограмм ыимеет красный цвет, если отрицательна - синий. В нижней части окна приведены:
количество эмоционально-оценочных слов в тексте;
процент эмоционально-оценочных слов от всех слов анализируемого текста;
нормальный процент эмоционально-оценочных слов в русском языке/жанре.
Если вы хотите сохранить эмоционально-лексические оценки в файл для последующего использования, то нажмите кнопку <Протокол>. В появившемся окне вам необходимо указать имя файла. Если указано имя уже существующего файла, то данные добавляются в его конец. Для хранения протоколов по умолчанию используется специальная директория ...\VAAL\Protocol.
В ряде случаев возникает задача вторичной математической обработки эмоционально-лексических оценок. Для их сохранения и накопления Вы можете воспользоваться кнопкой <База данных>. При нажатии на нее вам будет предложено сохранить оценки в файле. Если указано имя уже существующего файла, то данные добавляются в его конец. Накопив в одном файле связи категорий, вы можете затем их подвергнуть либо факторному анализу с использованием модуля визуализации системы ВААЛ, либо более изощренным видам анализа с использованием таких известных систем как Statistica и SPSS. Файлы данных хранятся в специальной директории ...\VAAL\Data. Система сохраняет данные в файлах с расширением del. Вам не нужно беспокоиться о правильном расширении файла. Система сделает это за Вас.
Дополнительно Вы имеет возможность распечатать таблицу на принтере.
Ассоциативные связи
На странице приведена таблица слов, которые входят в анализируемый контекст.
Для каждого слова указаны следующие оценки:
n - частота слова в контексте;
n% = (n/длина контекста)*100;
N - частота слова во всем тексте;
N% = (N/длина всего текста)*100;
Z = (n-E)/(стандартное отклонение), где E - ожидаемое число появлений слова в а
ссоциативном контексте. Z - это традиционная оценка в контент-анализе, известная как z-score.
Список слов Вы можете упорядочить одним из четырех способов:
лексикографически;
по частоте n;
по частоте N;
по оценке Z..
Нажав на кнопку <Протокол>, Вы можете сохранить результаты анализа в текстовом файле протокола. Для этого достаточно всего лишь ввести имя нового протокола или выбрать уже существующий. В последнем случае данные будут дописаны в конец файла.
Также Вы можете распечатать таблицу на принтере.
Маркирование предложений
Иногда возникает необходимость найти в тексте и каким-либо образом выделить предложения, в которых встречаются слова некоторой категории. Это позволяет оценить контексты, в которых встречается данная категория. Система предлагает удобные средства для решения этой задачи. А именно, Вы можете:
выбрать целевую категорию, слова которой должны быть выделены в тексте;
указать, не менее скольки слов целевой категории должно встретиться в предложении для его выделения;
выбрать шрифт с подчеркиванием;
выбрать курсивный шрифт;
выбрать жирный шрифт;
изменить размер шрифта;
установить разрядку между буквами слова;
установить смещение слов относительно строки;
в
ыбрать цвет выделения.
Возможна любая комбинация из перечисленных опций.
Маркирование слов категорий
И
ногда возникает необходимость найти в тексте и каким-либо образом выделить слова некоторой категории. Система предлагает удобные средства для решения этой задачи. А именно, Вы можете:
выбрать целевую категорию, слова которой должны быть выделены в тексте;
выбрать шрифт с подчеркиванием;
выбрать курсивный шрифт;
выбрать жирный шрифт;
изменить размер шрифта;
установить разрядку между буквами слова;
установить смещение слов относительно строки;
выбрать цвет выделения.
Возможна любая комбинация из перечисленных опций.
Визуализация данных
Первая страница визуализации данных содержит:
- таблицу отображаемых данных;
- кнопки <Загрузить>, <Сохранить>, <Помощь> и <Выход>.
Прежде всего необходимо загрузить данные. Для этого нажмите на кнопку <Загрузить>. В открывшемся диалоговом окне выберите тип файла данных, которые Вас интересуют, и затем уже выберите нужный файл.
Операции с таблицей данных
1. Редактирование ячейки данных.
Для того, чтобы отредактировать ячейку данных, установите на ней фокус ввода (серая рамка) и щелкните мышью или нажмите на клавишу <Enter>. После этого введите с клавиатуры необходимые данные и опять нажмите на клавишу <Enter>. Обращаем внимание на то, что разделителем между целой и дробной частью является точка <.> . Редактирование просиходит лишь в таблице, но не в файле данных на диске. Чтобы сохранить изменения в файле, нажмите кнопку <Сохранить>.
2. Выделение столбца.
Выделены могут быть лишь те (кроме первого) столбцы, все ячейки которых содержат числовые данные. Для этого нажмите на клавишу <Ctrl> и, удерживая ее, щелкните мышью по первой (серой) ячейке столбца. Повторная операция приводит к снятию выделения данного столбца.
3. Выделение строки.
Выделена может быть любая (кроме первой) строка. Для этого нажмите на клавишу <Ctrl> и, удерживая ее, щелкните мышью по первой (серой) ячейке строки. Повторная операция приводит к снятию выделения данной строки.
4. Снятие выделения сразу со всех строк и столбцов.
В любом месте таблицы данных сделайте двойной щелчок мышью.
5. Удаление строк.
Выделите строки, которые должны быть удалены. Нажмите правую кнопку мыши. В появившемся меню выберите пункт <Удалить выделенные строки>. Строки удаляются лишь в таблице, но не в файле данных на диске. Чтобы сохранить изменения в файле, нажмите кнопку <Сохранить>.
Пользователь имеет возожность:
провести факторный анализ данных;
провести корреляционный анализ данных;
отобразить данные в виде различных диаграмм.
Для этого выделите те столбцы данных, которые должны участовать в анализе, и перейдите на одну из других страниц окна <Факторный анализ>, <Корреляционный анализ>, <Диаграммы>.
Факторный анализ
Т
ексты и слова оценивают сразу по многим параметрам, котррые трудно охватить одним взглядом, чтобы сказать насколько похожи или насколько отличаются друг от друга эити слова и тексты. Факторный анализ данных позволяет не только уменьшить размерность пространства признаков, но и выявить среди них наиболее информативные.
В системе ВААЛ производится сведение пространства признаков к трем наиболее информативным факторам. Это позволяет достаточно наглядно визуализировать результаты анализа в псевдо-трехмерном пространстве.
Справа в таблице находятся пронумерованные имена из первого столбца таблицы данных. Слева на фоне темно-серого квадрата нарисованы цифры, обведенные окружностями. Каждая цифра соответствует номеру имени. Визуализация производится в псевдо-трехмерном пространстве. Диаметр окружности вокруг цифры соответствует степени близости к Вам.
Кнопки слева внизу позволяют Вам производить вращение в пространстве. Это позволяет более интуитивно представить взаиморасположение имен в пространстве. Скорость вращения можно регулировать. Три левых крайних кнопки соответствуют трем фиксированным проекциям в двумерное пространство.
Вы имеете возможность распечатать результаты факторного анализа на принтере.
Факторизация производится методом центроидов. Более подробная информация о методе факторного анализа и его практическом применении содержится в специальной литературе.
Корреляционный анализ
Т
ак как слова и тексты оцениваются сразу по многим параметрам, то бывает трудно охватить и осмыслить существующие между ними связи. Существуют два выхода из этой ситуации. Первый - сохранить результаты в Базу данных и затем проанализировать их с помощью одного из статистических пакетов. Второй - произвести непосредственную визуализацию связей.
Идея визуализации заключается в следующем. Возьмем произвольную строку из таблицы данных и назовем ее (горизонтальной) осью X. Вычислив корреляционные связи этой строки со всеми остальными, мы получим некоторые координаты от -1 до +1 этих строк на оси X. Возьмем теперь другую строку и назовем ее (вертикальной) осью Y. Вычислим корреляционные связи второй строки со всеми остальными и получим их координаты на оси Y.
Итак, мы получили координаты всех строк в некотором двухмерном пространстве. Осталось их отобразить. Именно это и делается на странице визуализации.
Справа вверху имеются две строки с именами строк из первого столбца таблицы, обозначенные буквами X и Y. Это две условных координатных оси. Имена легко изменить, выбрав их из выпадающих вниз списков.
Ниже находится список пронумерованных имен из первого столбца таблицы.
Слева на фоне темно-серого квадрата изображены цифры, обведенные окружностями. Каждая цифра соответствует номеру имени. Визуализация производится в двухмерном пространстве.
Пользователь имеет возможность указать системе на то, чтобы она отображала лишь некоторые имена. Для этого достаточно поставить галочку в квадратике слева от интересующего имени. Двойной щелчок мыши позволяет изменить отмеченность всех имен на противоположную.
Дополнительно Вы имеет возможность распечатать пространственное отображение имен на принтере.
Диаграммы
Страница содержит:
список имен выделенных столбцов;
поле ввода степени аппроксимирующего полинома;
диаграмму;
кнопки <Параметры>, <Печать>, <Помощь> и <Выход>.
В
списке имен выделенных столбцов Вы можете выбрать тот, диаграмма которого Вас интересует.
Если анализируемые данные упорядочены во времени, то интерес представляет их аппроксимация полиномами различных степеней. Изменить степень полинома можно нажимая мышкой на стрелки вверх (увеличить) и вниз (уменьшить).
Параметры диаграммы и линии тренда всегда можно изменить, нажав на кнопку <Параметры>.
Дополнительно Вы имеете возможность распечатать диаграмму на принтере.
Параметры диаграмм
В данном окне Вы можете отдельно задать параметры как самой диаграммы, так и линии тренда. Для этого достаточно лишь установить требуемую комбинацию переключателей и нажать кнопку <Принять>.
Параметры печати
Вы имеете возможность выбрать следующие параметры печати:
шрифт;
размер шрифта;
стиль шрифта;
п
оля отступа на странице;
межстрочного интервал.
Изменение параметров отображается на панели образца.
Кнопки
<Помощь> - вызов контекстной справки
<Принять> - начало печати с выбранными параметрами
<Отказ> - отказ от печати
Темы
В каждом тексте присутствуют, как правило, от одной до нескольких тем. На определенном уровне абстракции каждая тема может быть представлена набором ключевых слов.
Система ВААЛ позволяет выделять ключевые слова анализируемого текста и ключевые слова представленных в тексте тем. На основе выделенных слов могут быть сформированы категории, которые позволят применить к тексту метод контекстного контент-анализа.
Параметры выделения тем
Окно задания параметров содержит:
список категорий исключений
список доступных частотных словарей
кнопки <Принять>, <Помощь> и <Отказ>
Категория исключений - это список слов, которые не включаются в анализ. В области автоматической обработки текстов такие слова еще иногда называют стоп-словами. Как правило к ним относят частицы, предлоги, союзы и другие служебные слова.
Если частотный словарь не указан, то ключевыми словами данного текста считаются первые 500 наиболее частотных слов текста с частотой не менее 4.
Если частотный словарь указан, то ключевыми словами данного текста считаются первые 500 наиболее частотных слов текста с частотой не менее 4, которая с вероятностью не менее 0.99 не случайно превосходит частоту этого же слова в выбранном словаре. Т.е. мы берем из частотного словаря норму встречаемости данного слова, подсчитываем для анализируемого текста ожидаемую частоту встречаемости данного слова и сравниваем ее с фактической частотой. Если фактическая частота превосходит 4, превосходит ожидаемую частоту и это отличие от ожидаемой частоты с вероятностью 0.99 не случайно, то данное слово заносится в список ключевых слов анализируемого текста.
Для правильного выбора параметров необходимо их понимание.
Ключевые слова
Страница содержит:
список ключевых слов анализируемого текста;
переключатель типа упорядочения ключевых слов;
мусорную корзину;
кнопки <Общая категория>, <Выделение тем>, <Помощь> и <�Выход>.
В списке ключевых слов последние три столбика содержат статистическиме характеристики ключевых слов. В столбике, обозначенном F, указана частота слова в частотном словаре. В столбике f - частота слова в тексте. В столбике Z указана оценка слова, вычисляемая по формуле Z = (f-E)/(стандартное отклонение), где E - ожидаемое число появлений слова в анализируемом тексте. Z - это традиционная оценка в контент-анализе, известная как z-score.
Список ключевых слов может быть упорядочен одним из семи способов. Для этого достаточно соответствующим образом установить переключатель.
Если по Вашему мнению некоторые слова попали в число ключевых неправильно, Вы можете их удалить перетащив мышью в мусорную корзину.
Ключевые слова репрезентируют весь текст в целом. Это особенно верно, если при выборе параметров выделения тем был указан подходящий частотный словарь. Нажав на кнопку <�Общая категория>, Вы можете сформировать простую категорию, состоящую из всех ключевых слов.
Чтобы выделить присутствующие в тексте темы, следует нажать на кнопку <Выделение тем>.
Темы в тексте
Страница содержит:
многострочное поле редактирования тем
поле диапазона контекста
поле значимости связи
кнопки <Пересчет тем>, <Категория 1>, <Категория n>, <Сохранить темы>, <Печать>, <Помощь> и <Выход>.
Поле редактирования тем содержит список всех обнаруженных тем. Темы отделены друг от друга пустой строкой. Каждая тема - это некоторый набор слов, состоящий из главного слова и сильно связанных с ним подчиненных слов. Главное слово в теме стоит на первом месте. Тема не может состоять менее чем из двух слов. При желании темы могут быть Вами отредактированы.
Поле диапазона контекста служит для указания того, как близко должны отстоять в тексте подчиненные слова темы от главного слова. Очевидно, что минимальным может быть расстояние в 1, а в качестве максимального принято расстояние 100. При этом под расстоянием понимается разница номеров позиций слова в тексте. Увеличение контекста в общем случае ведет к укрупнению тем и уменьшению их количества.
Поле значимости связи служит для указания критерия, с какой вероятностью можно утверждать, что связь между главным словом темы и подчиненными не является случайной. Принято, что минимальным может быть значение 0.9, а максимальным - 0.99999. Увеличение значимости связи в общем случае ведет к уменьшению размера тем и к уменьшению их количества.
Изменив диапазон контекста или значимость связи, Вы можете дать команду пересчитать темы для новых параметров. Для этого достаточно нажать на кнопку <Пересчет тем>.
На основании выделенных тем могут быть сформированы сложные категории. Возможны два варианта:
формирование сложной категории на основании отдельной темы;
формирование сложной категории на основании сразу всех тем.
В первом случае для этого требуется установить курсор на соответствующую тему и после этого нажать на кнопку <Категория 1>. В результате будет сформирована сложная категория формата:
d:U:<�главное_слово_темы>,<�подчиненное_слово_1>
. . .
d:U:<�главное_слово_темы>,<�подчиненное_слово_k>
Во втором случае для этого требуется просто нажать на кнопку <Категория n>. В результате будет сформирована сложная категория формата:
d:U:<�главное_слово_темы_1>,<�подчиненное_слово_1>
. . .
d:U:<�главное_слово_темы_1>,<�подчиненное_слово_k1>
. . .
. . .
. . .
d:U:<�главное_слово_темы_n>,<�подчиненное_слово_1>
. . .
d:U:<�главное_слово_темы_n>,<�подчиненное_слово_kn>
Также Вы имеете возможность сохранить темы в файл и распечатать их на принтере.
АВТОРЫ
В системе ВААЛ использованы научные результаты следующих авторов:
1. Белянин Валерий Павлович, доктор филологических наук, профессор МГУ, член международных научных организаций (МАПРЯЛ, ISAPL, AAASS).
E-mail: vbelyanin@usa.net
2. Дымшиц Михаил, генеральный директор консультационной фирмы "ДЫМШИЦ и ПАРТНЕРЫ"
E-mail: dmsh@online.ru
3. Шалак Владимир Иванович, кандидат философских наук, старший научный сотрудник Института философии РАН.
E-mail: shalack@mail.ru
Дополнительную информацию о системе ВААЛ Вы можете получить в Интернете на сайте http://www.vaal.ru/.
|