Семантическая разметка корпуса языка + видео обзор

Лингвистическая разметка

Разметка. Средства разметки корпусов

Понятие разметки

Среди специальных программ для обработки естественного языка особое место занимают программы автоматической разметки. В рамках сегодняшней лекции постараемся определить, для чего же они нужны и как они функционируют.

Итак, для решения различных лингвистических задач недостаточно иметь массив текстов. Требуется также, чтобы тексты содержали в себе явным образом указанную разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так, на материале корпуса, подобного Брауновскому, можно легко выявить частотность слов – их регулярное употребление в определенных контекстах. Однако это будет частотность токенов (словоформ). Для определения частоты лексем каждому слову должна быть приписана ее лемма. Для подсчета частот в разрезе грамматических категорий они также должны быть соответствующим образом маркированы. Если осуществлять маркировку в большом корпусе вручную, это займет очень много времени, поэтому исследователи разработали способы автоматической разметки в корпусе.

Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов. Если для некоторых видов разметки, в частности, анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers).

В результате работы программ автоматического морфологиче­ского анализа (тэггеров) каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму и набор граммем (например, род, число, падеж, одушевленность/неодушевленность, переходность и т.д.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.д.).

Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии.

Один из простых способов заключается в том, чтобы компьютеризированный словарь, в котором указаны лексические категории для самых распространенных слов или для наибольшего количества слов, совместить с неразмеченным корпусом. Затем каждому слову в неразмеченном корпусе может быть автоматически присвоен тэг от соответствующего ему слова в снабженном пометами словаре. Таким образом, если словоформы information и distribution появились и в корпусе, и в словаре, тэг ‘noun’, который сопровождал эти словоформы в словаре, автоматически будет перенесен на них в корпусе. Подобно этому, такие формы как lexical и frequent будут помечены как прилагательные, поскольку они всегда являются членами этой категории, the и a будут помечены как артикли, identify и see – как глаголы и т.д. [42].

Этот процесс нахождения соответствующих форм в корпусе и в снабженном пометами словаре не может быть использован для определения категорий всех форм, потому что некоторые формы могут быть членами более чем одной категории. Эта проблема носит название «проблема морфологической неоднозначности (ambiguity)». Например, слова words, forms, can, use, present и process могут быть как существительными, так и глаголами.

Возьмем слово deal в качестве примера. Как словоформа, оно может быть как существительным, так и глаголом. Предположим, что корпус содержал фразу a good deal of trouble, и предположим, что автоматическое совмещение со словарем уже позволило пометить good как прилагательное. При выборе между тем, предшествует ли прилагательное существительному или глаголу, намного надежнее выбрать существительное, поскольку в английском языке прилагательные обычно предшествуют существительным и обычно не предшествуют глаголам. Так, deal в a good deal of trouble может быть помечено как существительное. Другими словами, поскольку good однозначно является прилагательным, оно будет помечено как adjective на начальном уровне снабжения пометами путем совмещения корпуса со словарем.

Если начинать разметку, размечая только слова, принадлежащие исключительно одной категории, а затем использовать эту информацию для того, чтобы прояснить неоднозначные случаи, многие сложные проблемы смогут быть решены. В обычной практике случается так, что слова снабжаются пометами сначала для всех частей речи, к которым они могут относиться, а затем категории примыкающих слов используются для определения категории слов, у которых есть несколько помет.

Поскольку в английском языке так много форм принадлежит более чем одной категории, точно разметить слова можно благодаря более сложным процедурам, чем автоматическое совмещение со словарем. Конечно, в контексте словоформа принадлежит только одной категории. Следовательно, достичь точной разметки английского корпуса можно путем анализа контекста или анализа более высокого уровня: синтаксического анализа для морфологической разметки, семантического – для синтаксической.

Снятие неодно­значности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автома­тические и ручные способы.

Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автома­тическое разрешение морфологической или синтаксической неоднозначности, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

Лингвистическая разметка

Итак, разметка заключается в приписывании текстам и их компонентам специальных тэгов: собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста, и внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика).

Среди лингвистических типов разметки выделяются:морфологическая, синтаксическая, семантическая, анафорическая, просодическая, дискурсная и др. Все они осуществляются в соответствии со следующими принципами:

1) описание (обоснование) схемы разметки;

2) общепринятая система лингвистических понятий;

3) известная для пользователя схема анализа;

4) мотивированность введения параметров;

5) теоретически нейтральная (традиционная) схема разметки;

Источник

Текст книги «Введение в корпусную лингвистику»

Семантическая разметка корпуса языка

Автор книги: Михаил Копотев

Жанр: Учебная литература, Детские книги

Текущая страница: 5 (всего у книги 11 страниц) [доступный отрывок для чтения: 4 страниц]

3. Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. С. 193–214.

4. Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985.

5. Копотев М. В. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог – 2006». М.: Издательство РГГУ, 2006. С. 280–284.

6. Ножов И. М. Морфологическая и синтаксическая обработка текста (модели и программы) сегментации русского предложения. Автореф. дисс… канд. филол. наук. М., 2003.

7. Толдова С.Ю. и др. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 11(18). М.: Изд-во РГГУ, 2012. C. 797–809.

Задания

1. На одной лингвистической олимпиаде утверждалось, что предложение Письма знакомой из Москвы не заменят фотографии его любимой и милой дочери Марии имеет более тысячи различных значений. Покажите несколько вариантов, нарисовав стрелки, показывающие синтаксические связи между словами.

2. На сегодняшний день существует несколько синтаксически размеченных корпусов русского языка, например:

● на сайте НКРЯ: ruscorpora.ru/search-syntax.html

● на сайте ХАНКО: www.ling.helsinki.fi/projects/hanco

Познакомьтесь с ними и предположите, в рамках каких синтаксических теорий они созданы.

3. Сравните синтаксические анализаторы на сайтах aot.ru/demo/graph.html и www.dictum.ru/ru/syntax/blog, предложив для разбора несколько одинаковых предложений. Попробуйте объяснить разницу в разборах и, если есть, ошибки.

4*. Проведите синтаксический анализ следующего предложения: И будильник так тикает в тишине, точно дом через десять минут взорвется. Пользуясь списком семантических отношений (aot.ru/docs/SemRels.htm), объясните все связи, найденные в этом предложении (другими словами, расшифруйте названия стрелок). Объясните, почему программа не может построить полное дерево для этого предложения.

Глава 9. Семантическая разметка

В любом языке лексем гораздо больше, чем морфологических классов или синтаксических типов, поэтому создать более-менее полное описание лексики оказывается гораздо сложнее, чем описать падежи или синтаксические связи. Кроме того, лексическая неоднозначность встречается чаще, чем морфологическая.

Подсчитано (Fellbaum и др. 1998), что носители языка, описывая значение слов, соглашаются друг с другом менее чем в 80 % случаев. Двадцать процентов остается неопределенным даже для носителей языка! Сравните с морфологией: несогласие в определении падежа у школьников возникает, только если они не очень хорошо подготовились к уроку.

Полного и непротиворечивого описания лексики языка, основанного на общепринятой теории, не существует. Поэтому корпусная лингвистика находится в незавидном положении, пытаясь использовать существующие частичные, противоречивые и авторские подходы. Под семантической разметкой обычно понимают приписывание лексемы к определенному семантическому классу. Хотя иногда встречаются и расширенные толкования, включающие разметку семантики словообразовательных морфем (префиксов, суффиксов и т. д.). Проблема, однако, заключается в том, что на сегодняшний день не существует не только общепринятой (как в морфологии), но даже хоть сколько-то законченной (как в синтаксисе) классификации, нацеленной на описание лексики и применимой к любому произвольно взятому речевому отрезку. Уместнее в этом смысле говорить не о полной реализации семантической разметки на корпусном материале, а о наличии ряда подходов, позволяющих более или менее полно реализовать описание лексических единиц. Семантическая разметка в современном корпусе является скорее полем проверки конкретной теории, чем полным теоретически нейтральным описанием семантических признаков.

В 1990-е годы в Японии был проведен эксперимент, в котором компьютер анализировал упрощенный текст одной басни и рисовал иллюстрации к нему. Текст звучал так: «Заяц бежал. Заяц оглянулся назад. Заяц сказал: “Черепаха никогда не сможет обогнать меня”. Заяц лег на траву и заснул». В мультфильме, нарисованном компьютером, заяц лежал на траве с повернутой назад головой. Машина упустила всем понятную информацию о том, что обычно спят в удобной позе.

Этот эксперимент показывает реальную сложность автоматической семантической обработки и то, какую роль играет невыраженная, не эксплицированная в тексте информация. Как ее извлекать и описывать – непонятно. Если говорить о русском языке, то в настоящее время существует несколько подходов к разметке русских текстов. Все они являются в большей или меньшей мере авторскими и экспериментальными.

Электронные словари

Толковые словари, конечно, не являются системами семантического анализа, поскольку представляют собой просто сравнительно полно организованный перечень единиц. Однако они создают основу для семантического анализа и являются одними из самых широко распространенных лингвистических продуктов.

Семантическая разметка корпуса языка

Словарь, вероятно, древнейший лингвистический продукт. Самый старый словарь, дошедший до наших дней, создан больше четырех тысяч назад в Аккаде (современная Сирия). Этот двуязычный шумеро-аккадский словарь не электронный и даже не бумажный, а каменный.

При попытках использовать словари для решения компьютерных задач довольно быстро выяснилось, что они плохо подходят для этого и не только потому, что представляют собой глиняную табличку или бумажную книгу. Оказалось, что, даже переведенные в электронную форму, они плохо систематизируют и организуют лексику: слова описываются не как единая система, а как набор отдельных единиц, специальные пометы используются непоследовательно, единого «метаязыка» для представления всех значений не существует.

В самом большом словаре русского языка (17-томный БАС) слово забывать толкуется как ‘переставать помнить’, а помнить – как ‘не забывать’. Получается, что забывать – это ‘переставать не забывать’. Логично, но неверно. В лингвистике и логике эта проблема получила названия порочный круг в толковании, что точно отражает суть проблемы.

Тем не менее, поскольку словари оказываются самыми объемными источниками лексического материала, их нередко используют для семантического аннотирования. Один из самых простых способов использования словаря – ссылка от каждой текстоформы корпуса к соответствующей словарной статье. Такая разметка позволяет искать, например, все слова, имеющие в толковании лексему мебель или помету устар. Еще одна возможность – перенос помет из словаря в корпус. По идее, любой словарь должен содержать в предисловии конечный список помет (разг., устар., диал. и т. д.) и их точное описание, что можно использовать для аннотирования корпуса. В словарной практике, однако, все не так однозначно.

При внимательном анализе (Беликов 2005) оказывается, что пометы расставлены бессистемно. В Большом толковом словаре (БТС) слово лубок в значении ‘твёрдая накладка в повязке на место костного перелома’ имеет помету мед., а у слова шина в том же значении такой пометы нет. Хуже того, корпусной анализ показывает, что лубок связан не с медицинской, а с ветеринарной терминологией.

Итак, главная проблема использования словаря как основы для семантического аннотирования корпуса состоит в том, что словарные толкования разнородны и противоречивы. Кроме этого, не решаются и более общие проблемы: выбор нужного значения у омонимов или многозначных слов, неполный учет значений.

Компьютерные тезаурусы

В 1980-е годы в США возник проект WordNet – электронная лексическая база данных, в которой лексемы и их лексические связи представлены формальным образом. Основной единицей в WordNet является не лексема, а синонимическая группа. Она называется синсет (англ. synset, synonym set) и в строго лингвистическом смысле состоит из квазисинонимов (слов с близким значением), которые связаны друг с другом отношениями антонимии, гиперонимии, гипонимии и т. д. Таким образом, база представляет собой не словарь, а тезаурус, отражающий более сложные отношения между лексическими единицами языка.

Тезáурус (от греч. θησαυρός – сокровище) в современной лингвистике – особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами (ru.wikipedia.org/wiki/Тезаурус).

На рисунке снизу приведен фрагмент тезауруса для русского языка: глагол чувствовать является гиперонимом для глаголов бояться, верить, волноваться, гордиться; глагол бояться связан каузативными отношениями с глаголом пугать, глагол дрожать связан синонимическими отношениями с глаголом трястись и т. д.

Семантическая разметка корпуса языка

Продолжением американского проекта стал европейский проект EuroWordNet, объединяющий лексические системы конкретных языков, в том числе и русского. На верхних уровнях иерархически организованной системы располагаются базовые лексические концепты единые для всех языков в этой системе. На нижних – лексические единицы, специфичные для конкретных языков.

Тезаурусы могут применяться в самых различных областях компьютерной лингвистики. Кроме простого использования их как словарей синонимов, антонимов и т. д., они используются для оптимизации поиска, измерения семантической схожести между словами путем подсчета ветвей до общего узла в иерархии, образуемой гиперонимическими и гипонимическими связями слов, и т. д. Среди прочего, и WordNet, и EuroWordNet могут быть использованы для семантического аннотирования корпуса.

Одним из самых популярных текстов в корпусной лингвистике стал роман Оруэлла «1984». Множество новых типов аннотаций было апробировано на этом тексте и его переводах. В частности, была сделана семантическая аннотация на основе WordNet. Любопытно, что в романе предлагается новый язык (новояз, англ. Newspeak), лексика которого «была сконструирована так, чтобы точно, а зачастую и весьма тонко выразить любое дозволенное значение, нужное члену партии, а кроме того, отсечь все остальные значения, равно как и возможности прийти к ним окольными путями» (Оруэлл «1984»). Удобный для семантической разметки, но, к счастью, так и не созданный в реальности язык.

Базы данных WordNet структурированы гораздо более формально, чем словари, и синсеты легко использовать в качестве семантической разметки корпуса. Однако и этот подход не лишен недостатков. Один из существенных получил название «проблема тенниса».

Слова теннисист и теннисистка тесно связаны в иерархии WordNet, поскольку оба обозначают человеческое существо, связанное со спортом, а именно с теннисом. Однако слова теннисист и ракетка оказываются связанными только через длинную цепочку отношений, поскольку слово теннисист входит в гиперонимическую группу человек, а ракетка – в группу инструмент. Домена теннис, который бы «накороть» связывал теннисиста и его ракетку, в WordNet не существует и его невозможно создать.

Еще одна проблема – большое количество синсетов, почти не отличимых друг от друга: например, в английской версии тезауруса можно найти четыре различных синсета, обозначающие сходство: sameness, similarity, likeness, resemblance, каждый следующий из которых является гипонимом для предыдущего и при этом является практически не отличимым от своего гиперонима.

Онтологии

Часто тезаурусы считаются разновидностью онтологий. Однако если тезаурусы представляют отношения между языковым единицами – лексемами, то принцип онтологии – это различение собственно явления и способов его называния. Говоря формально, онтология включает в себя понятия, являющиеся классами, отношениями, функциями и индивидами.

Отношения между реальными объектами и соответствующими словами могут совпадать: брат и сестра являются антонимами и в языке, и, случается, в реальном мире. Однако в рамках онтологии возможно задать отношения между объектами мира, даже если эти отношения не выражены лексемами: например, в русском языке нет специального слова для понятия «брат-и-сестра», но в рамках онтологии можно задать «ячейку» для этого класса объектов. В немецком языке такая эта ячейка будет заполнена конкретным словом – Geschwister.

Основными компонентами онтологий являются:

понятия (англ. concepts), или классы (англ. classes): «мужчина» и «женщина» входят в класс «человек», который входит в класс «млекопитающие» и т. д.;

атрибуты (англ. attributes): мужчина имеет атрибут «мужской пол», женщина, соответственно, «женский пол»;

отношения (англ. relations): «отец» и «мать» находятся в отношении «быть родителем для…»;

экземпляры (англ. instances), или индивиды (англ. individuals): конкретные представители класса, например, Петя, Алексей в следующем предложении.

Некий экземпляр Алексей имеет атрибут мужской пол и находится в отношении «быть родителем для Пети», что автоматически определяет Алексея в класс «отец» (даже если он этого не знает).

Традиционная область использования онтологий – автоматическое извлечение информации (англ. automatic information extraction / retrieval), например из новостных потоков или твиттер-сообщений. Специализированные онтологии широко используются для обработки тематической информации, такой как медицинские тексты или криминальные сводки.

Предположим, вы простудились. Представьте теперь, что ваш сосед оказался в той же ситуации. И другой сосед, и третий… Врачи узнают о возможной массовой эпидемии через несколько дней или даже недель. Специалисты по извлечению информации из социальных сетей – через пару минут при условии, что вы и ваш сосед напишите об этом Вконтакте.

Описание семантических ролей

Существуют проекты, нацеленные на полное семантическое описание любого текстового фрагмента. В основе описания лежат разные варианты падежной грамматики, или описания семантических ролей (англ. thematic role / deep case). Семантические роли, или глубинные падежи, – это введенный американским лингвистом Чарлзом Филлмором метод описания семантики предиката через указание на участников называемой предикатом ситуации: агенс (одушевленный инициатор и контролер действия), пациенс (участник, претерпевающий существенные изменения), бенефактив (участник, чьи интересы затронуты в процессе осуществления ситуации), экспериенцер (носитель чувств и восприятий) и т. д. Три самых известных проекта, основанных на этих идеях Ч. Филлмора, – это FrameNet, Propbank и VerbNet. При существенной разнице в подходах во всех из них центральным объектом аннотирования является глагол и семантические роли его синтаксического окружения.

Эти проекты не являются онтологиями в строгом смысле, однако формально близки к ним, поскольку представляют определенную структуру данных, которая в идеале содержит все возможные классы объектов, их атрибуты и отношения.

На русском языке активно развивается, впитывая достижения русской лингвистики, близкий проект семантической разметки корпуса. Исходные положения описания русской лексики были заложены в работах Е. В. Падучевой и ее коллег и реализованы в 90-е годы в виде лексической базы данных «Лексикограф». В 2000-е годы база данных была существенно расширена и позже стала основой для семантической разметки НКРЯ, которая включает на сегодняшний день почти 300 тегов для всех самостоятельных частей речи. Важно, что в НКРЯ этот подход реализован в виде нестрогой онтологии, совмещающей древовидный (англ. tree hierarchy) и фасеточный (англ. faceted hierarchy) принципы организации. Древовидный принцип значит, что разработчику корпуса нужно выбирать по принципу «или-или», потому что лексема может входить только в один класс. Например:

Глагол «бегать» имеет сему ‘движение’ и входит класс глаголов движения, для которых этот признак основной. Глагол ‘закрывать’, для которого эта сема не основная, не входит в этот класс. Лексема здание входит в класс «контейнеры», лексема дом входит в подкласс «здания» класса «контейнеры».

Фасеточный подход состоит в соблюдении принципа «и-и» (одна лексема может входить в несколько классов), что позволяет избежать описанной выше «проблемы тенниса»: одна и та же лексема может быть приписана к разным классам. Например, творог – это и класс «вещества и материалы», и класс «еда и напитки».

В заключение отмечу, что многие семантические классификации «дрейфуют» в сторону объединения с синтаксисом, поскольку становится ясно, что синтаксическое поведение слова связано с их семантикой. Соответственно, хорошо описав семантику, можно вывести из нее синтаксическое поведение и наоборот, описав синтаксические контексты, можно приблизиться к описанию значения слова. Что удобнее и технически целесообразнее формализовать при создании корпуса – вопрос сложный и открытый для новых поколений корпусных лингвистов. В сторону совмещения семантической и синтаксической разметки идут и создатели НКРЯ, и создатели англоязычного проекта FrameNet. Эта практическая работа сулит, по моему мнению, существенный потенциал для теоретической лингвистики.

Дополнительная литература

1. Fellbaum C. et al. Performance and confidence in a semantic annotation task // WordNet: An electronic lexical database. 1998. Р. 217–239.

2. Framenet: framenet.icsi.berkeley.edu/fndrupal, Unified Verb Index for PropBank, FrameNet, VerbNet: verbs.colorado.edu/verb-index

3. Kornilakis Η. et al. Annotating and Lemmatizing a Corpus for the Validation of Balkan Wordnets // Workshop on Balkan Language Resources and Tools. Thessaloniki, Greece, November 2003. Доступно по адресу: cgi.di.uoa.gr/

4. Miller G. A. et al. Introduction to wordnet: An on-line lexical database // International journal of lexicography. 1990. Vol. 3. № 4. P. 235–244.

5. Palmer M. et al. The Proposition Bank: An Annotated Corpus of Semantic Roles // Computational Linguistics. 2005. № 31 (1). P. 71–106.

6. Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютерный тезаурус русского языка типа WordNet. Доступно по адресу: project.phil.spbu.ru/RussNet/index_ru.shtml.

7. Кретов А. А. Анализ семантических помет в НКРЯ // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 240–257.

8. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

9. Ляшевская О. Н., Кузнецова Ю. Л. Русский Фреймнет: к задаче создания корпусного словаря конструкций // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27–31 мая 2009 г.). Вып. 8 (15) М.: Издательство РГГУ, 2009. С. 306–313. Доступно по адресу: www.dialog-21.ru/digests/dialog2009/materials/html/47.htm

10. Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шеманаева О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 215–239.

11. Рубашкин В. Ш. Онтологическая семантика. Знания. Онтология. СПб.: Физматлит, 2013.

Задания

1. Найдите в Википедии определения и приведите примеры следующих терминов: мероним, гипероним, холоним, гипоним.

2. Познакомьтесь со списком семантических помет НКРЯ: ruscorpora.ru/corpora-sem.html и выполните задания.

2а. Проверьте, как решена проблема тенниса для слов «ракетка», «теннисист», теннисистка» в НКРЯ. Скопируйте наборы семантических тегов для этих лексем (для этого достаточно нажать на выбранное слово в результатах запроса). Есть ли совпадающие семантические теги? Правильно ли приписаны эти теги? Все ли они являются лексическими в строгом смысле?

2б. Для данных ниже слов сначала самостоятельно подберите семантические признаки из списка семантических помет, а затем проверьте себя, найдя эти же слова в корпусе: молоток, лук, пожилой, арендовать, аренда. Ваша интуиция или пометы в корпусе оказались более точными и полными?

3*. Попробуйте доказать, что Википедия является или не является примером онтологии.

Глава 10. Разметка мультимодального корпуса

В русской культуре мужчины при встрече пожимают друг другу руки. Игнорирование этого жеста может оскорбить партнера. У представителя маори он вызовет недоумение: коренные жители Новой Зеландии считают, что надо почувствовать дух собеседника – в буквальном смысле, прикоснувшись носами и вдохнув изо рта в рот.

Язык, как видно из этого примера, не единственное средство коммуникации. Можно общаться жестами и позами, с помощью интонации и высоты тона. Акт устной коммуникации состоит из множества взаимосвязанных и отлично синхронизированных в человеческом сознании каналов, однако исследователи часто рассматривают их как независимые модусы коммуникации, которые могут быть выделены и описаны отдельно. Например, связь между употреблением глагольных форм и движениями глаз говорящего еще не до конца понятна, но при наличии соответствующего корпуса она может быть выявлена, и тогда эти параллельные, отдельно описанные каналы окажутся связанными в сеть, отражающую реальный процесс устной коммуникации.

Корпус, содержащий такую разметку устной речи, называется мультимодальным (англ. multimodal corpus), или мультимедийным (англ. multimedia corpus). Материалом такого корпуса служат самые разные видео– или аудиозаписи: семейный видеоархив, фрагменты фильмов или даже записи скрытой камерой. Его аннотирование радикально отличается от разметки письменных текстов, привязанных к символьным цепочкам, проще говоря – к буквам. Главное отличие заключается в том, что базовыми объектами мультимодального аннотирования являются единицы, во-первых, представленные не в виде букв, а во-вторых, не вложенные друг в друга (в том смысле как слово «вложено» в предложение). Например, жест «рукопожатие» из приведенного выше примера представлен в таком корпусе не словом, а действием; «обмен дыханием» и прикосновение носами не вложены друг в друга, а являются параллельными, взаимодополняющими единицами коммуникации. Аннотирование мультимодального корпуса – это не единая связанная разметка, а набор параллельных разметок – уровней аннотации, или слоев (англ. tier), маркирующих разные каналы коммуникации. В техническом смысле разные уровни обычно хранятся в разных файлах, с которыми специалисты в разных областях могут работать независимо. Объединение уровней называется мультимодальной разметкой, или сеткой (англ. grid). Основой для объединения этих разнородных (мультимодальных) единиц становится промежуток времени, в течение которого разворачивается акт коммуникации (сессия, англ. session). Сами единицы могут выступать поочередно, накладываться и «перебивать» друг друга, но все они расположены на одной шкале и выровнены с помощью секунд и даже миллисекунд.

Включите воображение и представьте, что приведенный ниже фрагмент Русского эмоционального корпуса (www.harpia.ru/rec) движется и звучит.

Семантическая разметка корпуса языка

Типы информации в мультимодальном корпусе

На разметку пятиминутного видеофрагмента может понадобиться целый час. Поэтому количество уровней аннотирования мультимодального корпуса напрямую зависит от наличия ресурсов. Простой перевод звукового потока в письменную форму (орфографическая транскрипция) является первым и необходимым уровнем такой разметк и. В минимальном случае корпус включает аудиофрагменты и транскрипты, но может включать и более подробную информацию. Сравните две разметки одного фрагмента из русского Корпуса рассказов о сновидениях (www.spokencorpora.ru). Вторая разметка содержит, кроме орфографической транскрипции, указания на длину пауз, движение тона и разные прочие «пыки» и «мыки»:

И когда || когда я приехала на нашу остановку,

∙∙∙(0.7) Иw мм(0.4) /когда-а || ∙∙(0.2) ’’(0.3) ∙∙(0.4) <ЧМОКАНЬЕ 0.2>∙∙(0.4) когда я приехала на нашу /остановку’,

[Заполненную паузу мм(0.4) произносит скрипучим голосом.]

Аннотация может также включать фонетическую транскрипцию и акустическое аннотирование, сделанное с помощью специальных программ. Одна из таких программ, PRAAT (www.fon.hum.uva.nl/praat), позволяет анализировать акустические характеристики звуков, интонацию, проводить формантный анализ и многое другое. Корпус, содержащий только фонетический уровень, часто называют корпусом звучащей речи, или звуковым корпусом (англ. speech corpus, spoken corpus). В зависимости от стоящих перед исследователем задач и наличия ресурсов аннотирование может быть более или менее глубоким и включать как экстралингвистическую, так и лингвистическую разметку, описанную в предыдущих главах.

Le CID, Corpus d’interactions dialogales, – один из самых богато аннотированных корпусов. Он содержит 7 уровней разметки: фонетическую, просодическую, морфологическую, синтаксическую, дискурсивную, жестовую и мимическую. Его объем – всего 8 часов видеозаписи; это, наверняка, меньше, чем ваши разговоры в течение одного дня.

Другая популярная и бесплатная программа для работы с мультимодальным корпусом, ELAN (www.lat-mpi.eu/tools/elan), кроме всего прочего дает возможность самостоятельно создавать многоуровневое аннотирование видео– или аудиопотока, привязанного как ко времени, так и к уже существующему аннотированию (например, к орфографической транскрипции). Создатели корпуса могут по своему усмотрению выбирать необходимые уровни аннотирования. Вот пример (опять же в виде неподвижной картинки!) глубокого аннотирования, которое включает разные уровни: интонацию и акустическую характеристики, орфографическую транскрипцию, движение тела, жесты и т. д.

Семантическая разметка корпуса языка

Сбор материала

Отдельной проблемой для создателя мультимодального корпуса является собственно сбор данных. Что записывать? Как записывать? Можно ли снимать скрытой камерой? Многое зависит от конкретных задач. Однако если вы будете записывать данные для вашего мультимодального корпуса, помните о следующем:

● запись должна быть непрерывной;

● запись должна быть без цензурных сокращений (какие бы выражения там ни встретились);

● запись должна сопровождаться точным описанием ситуации (время, социальные, возрастные, профессиональные, гендерные и другие характеристики участников);

● условия записи (свет, шум) должны, насколько это возможно, находиться в балансе между комфортом участников и техническими требованиями (бывает, что порывы ветра, незаметные человеческому уху, безнадежно портят запись);

● если запись ведется на несколько устройств, они должны быть синхронизированы по времени;

● разрешение от основных участников стоит получить до записи. При этом необходимо получить разрешение и на последующее публичное воспроизведение. Если разрешений по каким-то причинам нет, то участников записи можно анонимизировать (т. е. сделать невозможной их идентификацию) с помощью специальных приемов или не воспроизводить запись публично.

Записанные данные обычно хранятся в цифровом виде. Видеофайлы с хорошим разрешением тяжело обрабатывать и дороже хранить. С другой стороны, недостаточное качество видео может осложнить анализ мелких деталей, таких как движение глаз или микрожесты. Даже если вы точно знаете, что будете делать с полученными записями, в каждом случае стоит найти баланс между объемом сохраняемой информации и ее качеством с учетом возможного в будущем расширения разметки.

Для создания качественных видеоматериалов достаточно хорошей камеры и психологических условий максимальной естественности (обычно ощущение естественности происходящего возникает само собой через некоторое время: известны случаи, когда студенты на экзамене забывали о включенной камере). Иногда, впрочем, довольно затруднительно быть совершенно естественным: экипированный участник записи может быть похож на героя компьютерной игры.

Семантическая разметка корпуса языка

1. Bernsen N. O. Foundations of multimodal representations: a taxonomy of representational modalities // Interacting with Computers. Vol. 6. Issue 4. December 1994. P. 347–371.

2. Kipp M., Neff M., Albrecht I. An Annotation Scheme for Conversational Gestures: How to economically capture timing and form // Language Resources and Evaluation. 2007. Vol. 41. № 3–4. Р. 325–339.

3. MacWhinney B. The CHILDES Project: Tools for analyzing talk. transcription format and programs. Routledge, 2000

4. Богданова Н. В. и др. Звуковой корпус русского языка «Один речевой день»: пути пополнения и первые результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26–30 мая 2010 г.). Вып. 9 (16). М.: Издательство РГГУ, 2010. С. 41–47. Доступно по адресу: www.dialog-21.ru/dialog2010/materials/pdf/8.pdf.

5. Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 175–214. Доступно по адресу: ruscorpora.ru/sbornik2008/09.pdf.

6. Кибрик А. А., Подлесская В. И. (ред.). Рассказы о сновидениях. Корпусное исследование устного русского дискурса. М.: Языки славянской культуры. 2009.

7. Котов А. А., Гопкало О. С. Русскоязычный эмоциональный корпус: коммуникативное взаимодействие в реальных эмоциональных ситуациях // Труды международной научной конференции «Корпусная лингвистика – 2011». Доступно по адресу: corpora.phil.spbu.ru/Works2011/Котов_211.pdf.

8. Крейдлин Г. Е. Невербальная семиотика. М.: Новое литературное обозрение, 2002.

Задания

1. Русский мультимедийный корпус МУРКО – самый крупный русскоязычный ресурс такого рода. Прочитайте инструкцию к корпусу (ruscorpora.ru/instruction-murco.html) и дайте определение термина кликст. Что вы делаете, когда надо показать кому-то, что он дурак? Посмотрите, какие жесты со значением ‘дурак’ представлены в МУРКО (искать слово «дурак» бесполезно!). Есть ли там ваш жест?

2. Основная часть Звукового корпуса русского языка, который готовится в Санкт-Петербурге, называется «Один речевой день». Познакомьтесь с сайтом проекта model.org.spbu.ru и ответьте на следующие вопросы:

a. Что имели в виду авторы, давая такое название проекту: конкретный день календаря или что-то другое?

b. Какие варианты естественного произношения лексем «сейчас» и «конечно» можно найти в корпусе?

3. Прочитайте расшифровку одного из рассказов, включенных в Корпус рассказов о сновидениях (www.spokencorpora.ru/showtrans.py?file=00dreams/053z), попробуйте по полной или упрощенной транскрипционной записи догадаться об эмоциональном состоянии говорящего. Проверьте себя, нажав на «Старт» в правом верхнем углу и прослушав этот же рассказ.

Данное произведение размещено по согласованию с ООО «ЛитРес» (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Источник

Видео

Семантическая разметка Schema.org

Семантическая разметка Schema.org

Национальный корпус русского языка: как использовать сервис в школе?

Национальный корпус русского языка: как использовать сервис в школе?

Национальный корпус русского языка как использовать сервис в школе

Национальный корпус русского языка  как использовать сервис в школе

11 ОТКРЫТЫЙ ДИАЛОГ: ЛИНГВИСТИЧЕСКАЯ РАЗМЕТКА РУССКО-КИТАЙСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА

11 ОТКРЫТЫЙ ДИАЛОГ: ЛИНГВИСТИЧЕСКАЯ РАЗМЕТКА РУССКО-КИТАЙСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА

Национальный корпус русского языка при обучении русскому языку

Национальный корпус русского языка при обучении русскому языку

Рубанова Е.А. Полуавтоматическая морфологическая разметка параллельного русско-санскритского корпуса

Рубанова Е.А. Полуавтоматическая морфологическая разметка параллельного русско-санскритского корпуса

Выпуск №44 Национальный корпус русского языка

Выпуск №44 Национальный корпус русского языка

Национальный корпус русского языка в обучении и самообразовании

Национальный корпус русского языка в обучении и самообразовании

Корпусы текстов. Сочетаемость

Корпусы текстов. Сочетаемость

[ИТ-лекторий] Как устроен Национальный корпус русского языка

[ИТ-лекторий] Как устроен Национальный корпус русского языка
Поделиться или сохранить к себе:
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных, принимаю Политику конфиденциальности и условия Пользовательского соглашения.