ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
на тему:
XML-формат синтаксической разметки в СКАТе
основная образовательная программа магистратуры по направлению подготовки
45.04.02 «Лингвистика»
Исполнитель:
Обучающийся 2 курса Образовательной программы
«Прикладная и экспериментальная лингвистика»
очной формы обучения
Горлов Никита Геннадьевич
Научный руководитель:
к.ф.н., доц. Алексеева Е.Л.
Рецензент:
рук. отд., ООО «ГРАНДКАПИТАЛ» Алексеев В.А.
Санкт-Петербург
2018
Содержание
Введение 3
Глава 1. Исследование опыта разработки синтаксически размеченных корпусов 6
1.1. Глубоко аннотированный корпус русских текстов 6
1.1.1. О корпусе 6
1.1.2. Синтаксическая разметка 7
1.1.3. Соответствие TEI 8
1.1.4. Использование и доступность 9
1.2. Narodowy Korpus Języka Polskiego 10
1.2.1. О корпусе 10
1.2.2. Синтаксическая разметка 11
1.2.3. Соответствие TEI 13
1.2.4. Использование и доступность 13
1.3. Корпуса Йоркского и пенсильванского университетов 14
1.3.1. О корпусах 14
1.3.2. Синтаксическая разметка 20
1.3.3. Соответствие TEI 21
1.3.4. Использование и доступность 21
1.4. Syntactic Reference Corpus of Medieval French 22
1.4.1. О корпусе 22
1.4.2. Синтаксическая разметка 22
1.4.3. Соответствие рекомендациям TEI 24
1.4.4. Использование и доступность 25
1.5. Выводы 25
Глава 2. Разработка синтаксической разметки для СКАТа 27
2.1. О предыдущем опыте разработки системы синтаксических отношений для СКАТа 27
2.2. Разработка новых синтаксических отношений 34
2.2.1. Подчинительные связи слов 35
2.2.2. Отношения внутри простого предложения 35
2.2.3. Отношения в сложных предложениях 36
2.2.4. Иные отношения 37
2.3. О представлении разметки в таблице 37
Глава 3. Разработка XML-формата синтаксической разметки для СКАТа 39
Глава 4. Программа для автоматической генерации XML-формата синтаксической разметки в СКАТе 53
Заключение 60
Библиография 62
Приложение 1: Пример синтаксической разметки корпуса 68
Приложение 2: Пример XML-формата синтаксической разметки корпуса 73
Приложение 3. Ссылка на скачивание программы для автоматической генерации XML-формата синтаксической разметки 106
Введение
Санкт-Петербургский агиографический корпус (СКАТ) – это проект кафедры математической лингвистики Филологического факультета СПбГУ, разрабатываемый с 2006 года. Цель проекта – перевод церковнославянских рукописей в электронный формат и последующее их издание. В настоящее время введено несколько десятков рукописей, охватывающих промежуток XVI-XVII вв., которые представляют собой жития русских святых и похвальные слова к ним. Для текстов корпуса разработан формат морфологической разметки, которая осуществляется силами студентов кафедры математической лингвистики. Несколько лет назад была поставлена задача создания формата синтаксической разметки для корпуса. С самого начала создания корпуса разработчики опирались на рекомендации консорциума Text Encoding Initiative.
Text Encoding Initiative (далее – TEI) является консорциумом по разработке и развитию единого стандарта представления текстов в электронном виде. Главным результатом деятельности этого консорциума является список рекомендаций (Guidelines), определяющий язык разметки для представления структурных, интерпретационных и концептуальных особенностей текстов, главным образом из области гуманитарных наук, общественных наук и лингвистики. Формализм TEI построен на базе SGML/XML [7, С. 55] (до четвёртой версии включительно; начиная с версии P5 – исключительно XML1).
Целью данной диссертации является разработка синтаксической разметки Санкт-Петербургского корпуса агиографических текстов и её XML-представления в соответствии с рекомендациями TEI, а также автоматизация формирования её XML-представления.
В задачи исследования входит:
исследование опытов разработки различных синтаксически размеченных корпусов, как исторических, так и охватывающих современные языки;
исследование предыдущего опыта разработки формата синтаксической разметки для СКАТа и разработка перечня новых синтаксических отношений для церковнославянского языка;
изучение рекомендаций TEI по синтаксической разметке текстов и разработка XML-формата синтаксической разметки для последующей полуавтоматической или ручной обработки житий;
разработка программы для автоматического внедрения синтаксической разметки в существующие XML-файлы рукописей.
Работа состоит из четырёх глав, заключения и приложений. В первой главе «Исследование опыта разработки синтаксически размеченных корпусов» рассматриваются десять синтаксически размеченных корпусов, их особенности, модели синтаксической разметки и соответствие её рекомендациям TEI. Во второй главе «Разработка синтаксической разметки для СКАТа» рассматривается предыдущий опыт создания модели синтаксической разметки для Санкт-Петербургского агиографического корпуса и разрабатывается новая система синтаксических отношений и соотвествующих им тэгов для ручной разметки корпуса. В третьей главе «Разработка XML-формата синтаксической разметки для СКАТа» рассматриваются возможности представления синтаксических структур в XML-формате в соответствии с рекомендациями TEI и разрабатывается подходящий способ XML-представления разработанной во второй главе системы синтаксических отношений. В четвёртой главе «Программа для автоматической генерации XML-формата синтаксической разметки в СКАТе» описывается разработанная в рамках данной диссертации программа для внедрения разработанной во второй главе синтаксической разметки в существующие XML-представления текстов житий СКАТа в соотвествии с разработанными в третьей главе правилами XML-формата этой разметки. В Заключении подводятся итоги работы. В Приложении 1 «Пример синтаксической разметки корпуса» приводится синтаксически размеченный фрагмент Жития Димитрия Прилуцкого размером в 151 строку. В Приложении 2 «Пример XML-формата синтаксической разметки корпуса» приводится XML-представление синтаксической разметки фрагмента из Приложения 1. В Приложении 3 «Ссылка на скачивание программы для автоматической генерации XML-формата синтаксической разметки» приводится ссылка, перейдя по которой, можно скачать программу, описанную в четвёртой главе, а также ряд сопетствующих материалов.
Актуальность выбранной темы дипломной работы тем, что на данный момент для Санкт-Петербургского агиографического корпуса до сих пор не была принята к эксплуатации система синтаксической разметки, применимая на практике (при ручной разметке), а также не был разработан исчерпывающий XML-формат такой разметки.
Новизна работы характеризуется тем что в её рамках была разработана новая система отношений для разрабатываемой разметки, новый способ XML-представления синтаксической разметки для СКАТа, а также программа, чьих основных функций ранее не встречалось в инструментарии для работы с данным корпусом.
В качестве материала данной диссертации используется текст жития Димитрия Прилуцкого.
|