Выпускная квалификационная работа


Скачать 1.37 Mb.
Название Выпускная квалификационная работа
страница 1/9
Тип Реферат
rykovodstvo.ru > Руководство эксплуатация > Реферат
  1   2   3   4   5   6   7   8   9
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
на тему:

XML-формат синтаксической разметки в СКАТе

основная образовательная программа магистратуры по направлению подготовки
45.04.02 «Лингвистика»

Исполнитель:

Обучающийся 2 курса Образовательной программы

«Прикладная и экспериментальная лингвистика»

очной формы обучения
Горлов Никита Геннадьевич

Научный руководитель:
к.ф.н., доц. Алексеева Е.Л.

Рецензент:
рук. отд., ООО «ГРАНДКАПИТАЛ» Алексеев В.А.

Санкт-Петербург

2018

Содержание


Введение 3

Глава 1. Исследование опыта разработки синтаксически размеченных корпусов 6

1.1. Глубоко аннотированный корпус русских текстов 6

1.1.1. О корпусе 6

1.1.2. Синтаксическая разметка 7

1.1.3. Соответствие TEI 8

1.1.4. Использование и доступность 9

1.2. Narodowy Korpus Języka Polskiego 10

1.2.1. О корпусе 10

1.2.2. Синтаксическая разметка 11

1.2.3. Соответствие TEI 13

1.2.4. Использование и доступность 13

1.3. Корпуса Йоркского и пенсильванского университетов 14

1.3.1. О корпусах 14

1.3.2. Синтаксическая разметка 20

1.3.3. Соответствие TEI 21

1.3.4. Использование и доступность 21

1.4. Syntactic Reference Corpus of Medieval French 22

1.4.1. О корпусе 22

1.4.2. Синтаксическая разметка 22

1.4.3. Соответствие рекомендациям TEI 24

1.4.4. Использование и доступность 25

1.5. Выводы 25

Глава 2. Разработка синтаксической разметки для СКАТа 27

2.1. О предыдущем опыте разработки системы синтаксических отношений для СКАТа 27

2.2. Разработка новых синтаксических отношений 34

2.2.1. Подчинительные связи слов 35

2.2.2. Отношения внутри простого предложения 35

2.2.3. Отношения в сложных предложениях 36

2.2.4. Иные отношения 37

2.3. О представлении разметки в таблице 37

Глава 3. Разработка XML-формата синтаксической разметки для СКАТа 39

Глава 4. Программа для автоматической генерации XML-формата синтаксической разметки в СКАТе 53

Заключение 60

Библиография 62

Приложение 1: Пример синтаксической разметки корпуса 68

Приложение 2: Пример XML-формата синтаксической разметки корпуса 73

Приложение 3. Ссылка на скачивание программы для автоматической генерации XML-формата синтаксической разметки 106





Введение


Санкт-Петербургский агиографический корпус (СКАТ) – это проект кафедры математической лингвистики Филологического факультета СПбГУ, разрабатываемый с 2006 года. Цель проекта – перевод церковнославянских рукописей в электронный формат и последующее их издание. В настоящее время введено несколько десятков рукописей, охватывающих промежуток XVI-XVII вв., которые представляют собой жития русских святых и похвальные слова к ним. Для текстов корпуса разработан формат морфологической разметки, которая осуществляется силами студентов кафедры математической лингвистики. Несколько лет назад была поставлена задача создания формата синтаксической разметки для корпуса. С самого начала создания корпуса разработчики опирались на рекомендации консорциума Text Encoding Initiative.

Text Encoding Initiative (далее – TEI) является консорциумом по разработке и развитию единого стандарта представления текстов в электронном виде. Главным результатом деятельности этого консорциума является список рекомендаций (Guidelines), определяющий язык разметки для представления структурных, интерпретационных и концептуальных особенностей текстов, главным образом из области гуманитарных наук, общественных наук и лингвистики. Формализм TEI построен на базе SGML/XML [7, С. 55] (до четвёртой версии включительно; начиная с версии P5 – исключительно XML1).

Целью данной диссертации является разработка синтаксической разметки Санкт-Петербургского корпуса агиографических текстов и её XML-представления в соответствии с рекомендациями TEI, а также автоматизация формирования её XML-представления.

В задачи исследования входит:

  • исследование опытов разработки различных синтаксически размеченных корпусов, как исторических, так и охватывающих современные языки;

  • исследование предыдущего опыта разработки формата синтаксической разметки для СКАТа и разработка перечня новых синтаксических отношений для церковнославянского языка;

  • изучение рекомендаций TEI по синтаксической разметке текстов и разработка XML-формата синтаксической разметки для последующей полуавтоматической или ручной обработки житий;

  • разработка программы для автоматического внедрения синтаксической разметки в существующие XML-файлы рукописей.

Работа состоит из четырёх глав, заключения и приложений. В первой главе «Исследование опыта разработки синтаксически размеченных корпусов» рассматриваются десять синтаксически размеченных корпусов, их особенности, модели синтаксической разметки и соответствие её рекомендациям TEI. Во второй главе «Разработка синтаксической разметки для СКАТа» рассматривается предыдущий опыт создания модели синтаксической разметки для Санкт-Петербургского агиографического корпуса и разрабатывается новая система синтаксических отношений и соотвествующих им тэгов для ручной разметки корпуса. В третьей главе «Разработка XML-формата синтаксической разметки для СКАТа» рассматриваются возможности представления синтаксических структур в XML-формате в соответствии с рекомендациями TEI и разрабатывается подходящий способ XML-представления разработанной во второй главе системы синтаксических отношений. В четвёртой главе «Программа для автоматической генерации XML-формата синтаксической разметки в СКАТе» описывается разработанная в рамках данной диссертации программа для внедрения разработанной во второй главе синтаксической разметки в существующие XML-представления текстов житий СКАТа в соотвествии с разработанными в третьей главе правилами XML-формата этой разметки. В Заключении подводятся итоги работы. В Приложении 1 «Пример синтаксической разметки корпуса» приводится синтаксически размеченный фрагмент Жития Димитрия Прилуцкого размером в 151 строку. В Приложении 2 «Пример XML-формата синтаксической разметки корпуса» приводится XML-представление синтаксической разметки фрагмента из Приложения 1. В Приложении 3 «Ссылка на скачивание программы для автоматической генерации XML-формата синтаксической разметки» приводится ссылка, перейдя по которой, можно скачать программу, описанную в четвёртой главе, а также ряд сопетствующих материалов.

Актуальность выбранной темы дипломной работы тем, что на данный момент для Санкт-Петербургского агиографического корпуса до сих пор не была принята к эксплуатации система синтаксической разметки, применимая на практике (при ручной разметке), а также не был разработан исчерпывающий XML-формат такой разметки.

Новизна работы характеризуется тем что в её рамках была разработана новая система отношений для разрабатываемой разметки, новый способ XML-представления синтаксической разметки для СКАТа, а также программа, чьих основных функций ранее не встречалось в инструментарии для работы с данным корпусом.

В качестве материала данной диссертации используется текст жития Димитрия Прилуцкого.
  1   2   3   4   5   6   7   8   9

Похожие:

Выпускная квалификационная работа icon Совершенствование системы управления запасами в компании «капиталстрой»...
Выпускная квалификационная работа студентки 4 курса бакалаврской программы, профиль – Логистика
Выпускная квалификационная работа icon Пояснительная записка выпускная квалификационная работа бакалавра

Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Объясняются ли инвестиции нефтяных компаний стремлением к повышению эффективности? 27
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Выпускная квалификационная работа
Федеральное государственное бюджетное образовательное учреждение высшего образования
Выпускная квалификационная работа icon Технологии в деятельности социальных организаций выпускная квалификационная...
Теоретические аспекты и правовые основы pr-деятельности в социальной работе 6
Выпускная квалификационная работа icon Выпускная квалификационная работа
На тему: «Разработка комплекса мероприятий по обеспечению информационной безопасности на предприятии»
Выпускная квалификационная работа icon Выпускная квалификационная работа магистра
Федеральное государственное бюджетное образовательное учреждение высшего образования

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск