КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 16-18-02054

НазваниеИсследование русского языкового сознания на основе семантического, статистического и психолингвистического анализа лексической многозначности

РуководительАпресян Валентина Юрьевна, Доктор филологических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт русского языка им. В. В. Виноградова Российской академии наук, г Москва

Период выполнения при поддержке РНФ

2016 г. - 2018 г.

Конкурс№14 - Конкурс 2016 года на получение грантов по приоритетному направлению деятельности РНФ «Проведение фундаментальных научных исследований и поисковых научных исследований по поручениям (указаниям) Президента Российской Федерации».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-453 - Языкознание

Ключевые словарусское языковое сознание, ментальный лексикон, семантика, метафора, метонимия, лексикография, словари, неоднозначность, омонимия, многозначность, полисемия, частотность, корпус текстов, семантическая близость, семантические векторы, психолингвистика, анализ микродвижений глаз, вызванные потенциалы мозга

Код ГРНТИ16.21.51

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Научная проблема, на решение которой направлен предлагаемый проект — изучение устройства русской лексической многозначности как одного из центральных компонентов русского языкового сознания в словаре, в узусе и в ментальном лексиконе. Проект направлен на разработку и применение комплексного мультидисциплинарного подхода к описанию явления лексической многозначности, сочетающего лексикографические, корпусно-статистические и психолингвистические методы. Методология исследования опирается на 1) метод интегрального описания языка и системной лексикографии; 2) метод построения семантических векторов на основе анализа корпусных частот; 3) метод анализа микродвижений глаз; 4) метод анализа вызванных потенциалов мозга. В ходе исследования планируется решить следующие задачи: 1) выработать лингвистические критерии выделения и упорядочивания значений для толкового словаря русского языка на основе анализа многозначных слов из разных частеречных и семантических классов; 2) провести психолингвистическую и корпусно-статистическую верификацию выделенных лексикографических критериев описания многозначности, в частности, определить a. в какой степени эти структуры многозначности коррелируют с частотным распределением значений в современном русском языке; b. в какой степени структуры многозначности, созданные на основе лексикографических критериев, коррелируют с реальным нейрокогнитивным восприятием семантической близости; 3) провести эксперименты по оценке удобства восприятия словарных статей многозначных слов, построенных по разным принципам: a. в соответствии с лексикографическими принципами описания структуры и порядка значений; b. в соответствии с корпусными данными о частотности разных значений; c. в соответствии с психолингвистическими данными о семантической близости; 4) изучить динамику изменения значений (отмирание значений, появление новых значений, централизацию одних и маргинализацию других значений) как отражение взаимодействия языковых, социальных, культурных и исторических процессов в обществе. В ходе выполнения проекта планируется получение следующих результатов: 1) лингвистически обоснованные критерии выделения и упорядочивания значений в словаре; 2) сведения о структурах и механизмах многозначности в разных частеречных и семантических группах русской лексики; 3) описание репрезентативных групп многозначных слов русского языка из частеречно и семантически различных групп лексики; 4) представление об отражении социальных, культурных и исторических процессов русского общества в системе многозначности русского языка; 5) описание структурного представления многозначных слов в ментальном лексиконе; 6) выявление динамики доступа к значениям многозначных слов в процессе понимания речи; 7) определение нейрональных коррелятов значений многозначных слов разного типа; 8) выявление возможностей компьютерно-лингвистических методов автоматического выделения значений в их применении к русскому языку и сравнение полученных наборов значений со значениями, выделяемыми в словаре на основе методов системной лексикографии; 9) сравнение устройства многозначности в русском языке в узусе (как степени частотной представленности разных значений в корпусе текстов), ментальном лексиконе и толковом словаре; 10) экспериментальная оценка usability (удобства использования) толковых словарей русского языка в сфере представления многозначности. Результаты проекта могут иметь разнообразное применение, в частности: 1) лексикографические критерии представления многозначности могут быть использованы при составлении словарей русского языка; 2) лексикографические описания могут быть использованы для машинного обучения систем автоматической кластеризации значений типа AdaGram (Bartunov et al 2015); 3) словарные описания многозначных слов русского языка, включающие данные о сравнительной частотности их значений, могут быть использованы в создании лексических минимумов, разговорников, учебников и обучающих ресурсов; 4) списки многозначных слов, снабженные сведениями о частотности каждого значения, могут быть использованы в различных компьютерно-лингвистических приложениях например, для вероятностного разрешения многозначности в отсутствие контекста); 5) результаты психолингвистических экспериментов могут использоваться при составлении толковых, переводных, ассоциативных и других словарей и обучающих материалов, как отражающие ментальный лексикон.

Ожидаемые результаты
В ходе проекта ожидается получить следующие результаты. 1) в области теоретической семантики и лексикографии: разработка формализованных критериев выделения значений; разработка формализованных критериев упорядочивания и иерархизации значений; описание основных групп многозначных слов русского языка из частеречно и семантически различных групп лексики; изучение структур и механизмов многозначности в разных частеречных и семантических группах русской лексики на основе обработки массового языкового материала; изучение отражения социальных и исторических процессов русского общества в системе многозначности русского языка. 2) в области психолингвистики: описание структурного представления многозначных слов в ментальном лексиконе; выявление динамики доступа к значениям многозначных слов в процессе понимания речи; определение нейрональных коррелятов значений многозначных слов разного типа. 3) в области корпусно-статистического анализа: выявление возможностей методов автоматического выделения значений в их применении к русскому языку и сравнение полученных наборов значений со значениями, выделяемыми в словаре на основе методов системной лексикографии; определение частотности разных значений у репрезентативной группы многозначных слов в корпусе. 4) междисциплинарные результаты: сравнение устройства многозначности в русском языке в узусе, ментальном лексиконе и толковом словаре; экспериментальная оценка usability толковых словарей русского языка в сфере представления многозначности; разработка предложений по оптимизации системы подачи многозначности в толковых словарях русского языка на основе результатов эксперимента по оценке usability. По теоретическим и практическим результатам проекта планируется опубликовать не менее 4 статей в журналах мирового уровня, индексируемых в базах данных Scopus или Web of Science. Результаты проекта могут иметь разнообразное применение, в частности: лексикографические критерии представления многозначности могут быть использованы при составлении словарей русского языка; лексикографические описания могут быть использованы для машинного обучения систем автоматической кластеризации значений типа AdaGram (Bartunov et al 2015); словарные описания многозначных слов русского языка, включающие данные о сравнительной частотности их значений, могут быть использованы в создании лексических минимумов, разговорников, учебников и обучающих ресурсов; списки многозначных слов, снабженные сведениями о частотности каждого значения, могут быть использованы в различных компьютерно-лингвистических приложениях (в частности, для вероятностного разрешения многозначности в отсутствие достаточного контекста); результаты психолингвистических экспериментов могут использоваться при составлении толковых, переводных, ассоциативных и других словарей и обучающих материалов, как отражающие ментальный лексикон.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2016 году
В 2016 году были выполнены следующие работы и получены следующие результаты. 1. В семантической части проекта: Была разработана общая схема описания полисемии, в которой описание каждого значения может включать до семи зон (представительные примеры, схема толкования, модификации, тип переноса, семантические теги, частота в корпусах, примечания). По разработанной схеме были составлены схемы словарных статей 170 многозначных слов и описано 650 значений в представительных группах русской лексики из разных классов: глаголы со значением начала и конца, со значением перемещения, со значением избавления от контакта; существительные со значением природных объектов, помещений, посуды, информационных объектов, иллюзорных объектов; прилагательных со значением цветообозначений, тактильных ощущений и черт характера, служебных частей речи — количественных и порядковых числительных, некоторых частиц и предлогов. Для каждого семантического класса были сформулированы общие тенденции развития полисемии (движение от конкретного к абстрактному и от абстрактного к конкретному, наиболее характерные типы семантических сдвигов, регулярные метафоры и метонимии, мотивирующие и результирующие метафоры, источники возникновения значений внутри класса, грамматические и прочие лингвистические различия между разными лексемами одной вокабулы), семантические признаки, различающие слова, входящие в каждый класс, степень близости значений внутри каждой вокабулы (от употреблений в рамках одной лексемы до сильно разошедшихся значений на грани омонимии), параллелизм структур полисемии слов внутри семантического поля, устройство семантических полей от центра к периферии. Были выявлены разные факторы, влияющие на развитие полисемии: семантический потенциал исходного значения, наличие коннотаций, влияние внутриязыковых связей (синонимия и антонимия), межъязыковые взаимодействия, культурные представления и конвенции. 2. В статистической части проекта: Было проведено исследование четырех методов автоматического извлечения значений слов из корпуса текстов: метод кластеризации близких слов (word2vec neighbours), метод кластеризации контекстов (context clustering), тематическое моделирование для контекстов, а именно латентное размещение Дирихле (latent Dirichlet allocation) и построение векторов значений (AdaGram) — а также их качественная и количественная оценка. Была разработана библиотека, позволяющая работать с методом AdaGram на языке Python. Был поставлен эксперимент по автоматическому нахождению примеров регулярной полисемии при помощи метода AdaGram. Было проведено исследование двух методов определения частот значений слов (cluster map и sense-vec), а также их качественная и количественная оценка. Выявлены наиболее качественные способы автоматического выделения значений — метод кластеризации контекстов и метод построения векторов значений (AdaGram). Создан ресурс, представляющий значения слов, автоматически полученные из большого корпуса текстов при помощи метода AdaGram: http://adagram.ll-cl.org/about Проведено пилотное исследование автоматического нахождения примеров регулярной полисемии по заданному примеру (см. пример для слова блеять http://adagram.ll-cl.org/sim-delta?word=%D0%B1%D0%BB%D0%B5%D1%8F%D1%82%D1%8C&s1=0&s2=1). Создан ресурс, на котором приведены частоты значений для 440 существительных из первого выпуска Активного словаря русского языка — http://sensefreq.ruslang.ru/; частоты подсчитаны по материалам двух корпусов — академического Национального корпуса русского языка и интернет-корпуса ruTenTen11. 3. В психолингвистической части проекта: Был подготовлен и проведен опрос для выявления и кластеризации значений образованными носителями языка, участникам которого предлагалось разделить на группы несколько словосочетаний с одним и тем же словом, выступающим в разных значениях. Было отобрано 50 многозначных слов разных частей речи, в структуру полисемии которых входят значения, образованные как путем метафоры, так и путем метонимии. Были составлены схемы их полисемии с краткими примерами, поясняющими каждое значение, которые затем предъявлялись испытуемым. В онлайн-опросе приняли участие 600 человек, 300 из которых составили так называемые наивные испытуемые, чья профессиональная деятельность и образование не связаны с языкознанием; остальные 300 человек имели высшее образование (как минимум, оконченный бакалавриат) в областях лингвистики, филологии, перевода и журналистики. Согласно результатам статистического анализа, расстояние (=различие) между классификацией опрошенных испытуемых и эталонной классификацией значимо зависит от того, к какой группе относится испытуемый — классификации наивных испытуемых дальше от эталонных (Est. = 0.08, SE = 0.02, t = 3.04). На успешность классификации влияет также часть речи классифицируемого слова: классификация наречий значимо менее успешна, чем классификация других частей речи (Est. = 1.18, SE = 0.46, t = 2.57). Мы не обнаружили значимого взаимодействия между группой испытуемых и частью речи классифицируемых слов. Всего по результатам работы над проектом было подготовлено 12 научных статей, из них опубликовано 11 и принята в печать одна (в том числе 6 статей в изданиях, входящих в базу цитирования SCOPUS). Состоялись выступления участников гранта на конференциях Диалог-2016 (Москва), SKY symposium «Time and Language» (Турку), Euralex-2016 (Тбилиси), Coling-2016 (Осака), «Русская лексикография XXI века: проблемы и способы их решения» (Москва).

Публикации

1. Апресян В.Ю. Глаголы "исчезнуть" и "пропасть": многозначность и семантическая мотивация Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”, Vol. 15 (22), pp. 16-27 (год публикации - 2016)

2. Апресян В.Ю. Двойные семантические роли в исходных и переносных значениях многозначных глаголов Вопросы языкознания, - (год публикации - 2017)

3. Иомдин Б.Л., Лопухин К.А., Лопухина А.А., Носырев Г.В. Word sense frequency of similar polysemous words in different languages Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”, Vol. 15 (22), pp.214–224 (год публикации - 2016)

4. Левонтина И.Б. Lexicalized prosody and the polysemy of discourse markers Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”, Vol. 15 (22), pp.369–381 (год публикации - 2016)

5. Лопухина А.А., Лопухин К.А. Word sense disambiguation for Russian verbs using semantic vectors and dictionary entries Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”, Vol. 15 (22), pp.393–404 (год публикации - 2016)

6. Урысон Е.В. Изменение структуры полисемии и модальных рамок слова: наречие впору в XIX веке и теперь Русский язык в научном освещении, 2016, № 1 (31). С. 24-61. (год публикации - 2016)

7. Урысон Е.В. Видовые пары, семантическая теория и критерий Маслова Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”, Vol. 15 (22), pp.792–805 (год публикации - 2016)

8. Апресян В.Ю. Information structure, syntax, pragmatics and other factors in resolving scope ambiguity Proceedings of the Workshop on Grammar and Lexicon: interactions and interfaces (GramLex, Coling'2016), - (год публикации - 2016)

9. Иомдин Б.Л., Лопухин К.А., Лопухина А.А., Носырев Г.В. Meaning structure of cognate words in English and Russian: comparing word sense frequency Journées internationales d'Analyse statistique des Données Textuelles. Nice, June 7-10, 2016, Vol.13 (год публикации - 2016)

10. Левонтина И.Б. Lexicalized prosody and the polysemy of some discourse particles in ADR Proceedings of the XVII EURALEX International Congress: Lexicography and Linguistic Diversity, 17th edition, pp.789–798 (год публикации - 2016)

11. Лопухина А.А., Лопухин К.А. Regular polysemy: from sense vectors to sense patterns The 26th International Conference on Computational Linguistics (COLING 2016). Osaka, Japan, Proceedings of the 5th Workshop on Cognitive Aspects of the Lexicon (CogALex-V). P. 19-23 (год публикации - 2016)

12. Лопухина А.А., Лопухин К.А., Иомдин Б.Л., Носырев Г.В. The Taming of the Polysemy: Automated Word Sense Frequency Estimation for Lexicographic Purposes Proceedings of the XVII EURALEX International Congress: Lexicography and Linguistic Diversity, 17th edition, pp.251–258 (год публикации - 2016)

13. - Диалог 2016: Как научить машину понимать значения слов Научная Россия, 2 июня 2016 г., 11:55 (год публикации - )

14. - Конференция «Диалог 2016» Полит.ру, 19 июня 2016, 23:30 (год публикации - )

15. - Русский ушел из науки в интернет. 6 июня отмечается День русского языка Газета.ru, https://www.gazeta.ru/science/2016/06/06_a_8282597.shtml (год публикации - )

Аннотация результатов, полученных в 2017 году
В 2017 году были выполнены следующие работы и получены следующие результаты. 1. В семантической части проекта: Было подробно описано 18 многозначных вокабул из разных семантических классов, с общим числом значений более 165. В результате были выделены и описаны 14 типов механизмов, задействованных в семантической деривации: метафора (горячий чай → горячая любовь), метонимия (глупый человек → глупый поступок), добавление компонентов (сужение, конкретизация, обогащение значения: равнобедренный треугольник → играть на треугольнике), утрата компонентов (расширение значения: горячие блины → подушка превратилась в блин), замена компонентов (Я услышал голос → Мне голос был), модализация (добавление оценки: с трудом запихать в чемодан все вещи → Ну куда ты запихал мои ключи?), гиперболизация (ослабление, overstatement: Наш сантехник просто гений), смягчение (литотизация, understatement, эвфемизация: двусмысленное словосочетание → двусмысленное впечатление), утрата агентивности (Ребенок разбил — Ветер разбил), перенос по коннотациям (разводить свиней → Он жуткая свинья, у него всегда такой беспорядок, по коннотации неаккуратности), перенос по импликатуре (приличный анекдот → приличный результат), десемантизация (бличинг, выветривание: давать деньги взаймы → Давай пойдем в кино), внешняя мотивация (левая рука → левые доходы), конверсия (выменять свое новое платье на туфли — выменять платье на свои новые туфли). Некоторые семантические переносы представляют собой более узкие разновидности других. Кроме того, некоторые семантические переносы часто появляются в сочетании с другими. Было продемонстрировано, что семантические переносы, по крайней мере некоторые, естественным образом объединяются в классы (пример — сдвиг семантического акцента). Кроме того, для сильно многозначных слов, особенно глаголов со значением физических действий, которые развивают многочисленные переносные значения, была отмечена следующая особенность развития семантической деривации: общее увеличение числа и усложнение задействованных механизмов семантического переноса по мере удаления от основного значения. При этом наблюдается следующая тенденция организации полисемии: внутри блоков значений сдвиги могут быть минимальными, а сами значения часто бывают семантически производны от первого значения в блоке; между блоками семантические различия существенно сильнее, а сами первые значения в блоке обычно семантически производны от основного значения вокабулы, с все нарастающим количеством переносов, по мере увеличения порядкового номера в блоке. Таким образом, можно наблюдать сочетание радиальной и цепочечной полисемии: первые значения в крупных блоках — примеры радиальной полисемии от основного значения, все прочие значения в крупных блоках производны от первого значения в блоке (цепочечная полисемия). Конечно, встречаются и более сложные случаи устройства полисемии, данное обобщение представляет собой лишь тенденцию. Помимо работы над типами семантических переносов в структуре полисемии было проведено несколько дополнительных исследований относительно семантических причин возникновения многозначности, а также ее изменения в культурно-социальном контексте. 2. В психолингвистической части проекта: В 2017 году мы провели дополнительную серию анализов полученных в прошлом году данных, нацеленную на классификацию ошибок при группировке значений. Результаты эксперимента позволяют предположить, что метонимические значения воспринимаются как близкие к прямым во всех трёх классах слов. Эксперимент также позволил увидеть, что в классе прилагательных метонимические и метафорические значения воспринимаются как более похожие, что неверно для существительных и глаголов. Это позволяет сделать вывод о том, как хранятся значения многозначных слов: прямые и метонимические значения существительных и глаголов хранятся в одной ментальной репрезентации, а метафорические — в отдельных репрезентациях. Многозначные прилагательные, судя по всему, хранятся иначе: репрезентации прямых значений пересекаются с репрезентациями метонимических значений, а те, в свою очередь, пересекаются с репрезентациями метафорических значений. Кроме того, было найдено подтверждение предположению о том, что лингвисты будут классифицировать значения ближе к теоретическому методу классификации, на который опираются составители словарей. Однако не было найдено никакого подтверждения тому, что не-лингвисты пользуются принципиально отличным способом классификации значений – общий рисунок ошибок классификации в двух группах испытуемых похож. Были также дополнительно исследованы экспериментальные стимулы с помощью метода дистрибутивной семантики. Для определения семантической близости использовался метод семантических векторов. Векторы были получены при помощи алгоритма word2vec skip-gram из большого корпуса текстов (2 миллиарда токенов). Оценка семантической близости стимулов была проведена следующим образом: для каждого стимула (короткого контекста с одним из значений слова) был построен контекстный вектор (усреднение по векторам каждого слова в контексте); затем для каждого слова мы попарно сравнили между собой все контекстные векторы для трех типов значений — прямого, метонимического и метафорического. Результаты измерения семантической близости в наших стимулах между прямым, метонимическим и метафорическим значениями соотносятся с результатами классификации стимулов в эксперименте. Прямое и метонимическое значение близки в корпусе и чаще группируются вместе во всех трех частях речи. Можно сделать вывод о том, что близость прямого и метонимического значений обусловлена не только их исторической связанностью, но и тем, что люди чаще видят эти значения в похожих контекстах и усваивают их как близкие. Таким образом, нецелесообразно разделять семантическую связанность и семантическую близость, как это предлагалось в более ранних исследованиях. Еще одним направлением работы была подготовка материалов и сбор данных для эксперимента с использованием методики вызванных потенциалов мозга. Этот эксперимент ставит своей целью выявление электрофизиологических коррелятов семантической связанности и близости прямого и непрямых значений (метонимического и метафорического); определение того, какие из непрямых значений ближе к прямому — метонимическое или метафорическое; а также сравнение обработки многозначных слов и омонимов. Для данного исследования были подобраны 63 многозначных существительных, у которых есть прямое, метонимическое и метафорическое значение, а также 63 омонима. Все стимулы были сбалансированы по длине и частотности. Все омонимы были дополнительно размечены по частотности значений. Последним направлением работы была подготовка материалов и сбор данных для экспериментов с регистрацией движений глаз при чтении. Данные эксперименты ставят своей целью выявление механизмов лексического доступа при обработке многозначных слов. Ожидается, что при обработке близких значений (прямого и метонимического) будет выявлен феномен недоспецификации (underspecification), суть которого в том, что при чтении в нейтральном контексте активируется не доминантное значение, а общее для всех близких значений недоспецифицированное значение (underspecified core meaning), которое позволяет быстрее активировать любое из значений в последующем контексте. Ожидается, что феномен недоспецификации значений будет обнаружен на материале близких метонимических значений, но не на материале далеких метафорических значений. 3. В статистической (компьютерно-лингвистической) части проекта: Были определены частоты значений слов для 329 многозначных глаголов и 265 прилагательных в разных корпусах и проанализирована точность снятия омонимии для разных словарей. Было обнаружено, что самое частотное значение совпадает в двух корпусах в 80% случаев для глаголов и 82% случаев для прилагательных. Другим важным наблюдением является то, как часто первое значение в словаре оказывается самым частотным в корпусе. Оказалось, что для прилагательных и особенно для глаголов первое словарное значение является наиболее употребимым в современном языке только в половине случаев. Мы исследовали возможность применения нашего метода снятия омонимии к еще двумя толковым словарям: БТС под ред. С. Кузнецова и МАС под редакцией А. Евгеньевой. Мы обнаружили, что при построении векторов значений на материалах БТС и МАС точность определения значений слов снижается, а вероятность ошибки в определении частотности значений увеличивается. Мы полагаем, что это напрямую связано с количеством примеров и иллюстраций для каждого значения в словаре. Кроме того, эти словари не содержат новых значений слов, иногда наиболее частотных, и существенное число контекстов оказывается неописанным. Для качественного исследования метода автоматического выделения кластеров значений AdaGram (http://adagram.ll-cl.org/) были выбраны 51 существительное, 40 глаголов и 35 прилагательных с разными типами неоднозначности. Для всех этих слов мы сравнили значения, которые выделяются у них в четырех словарях. Оказалось, что в большей степени кластеры-значения AdaGram согласуются со значениями существительных, чем со значениями глаголов и прилагательных. В ряде случаев метод выделяет меньше кластеров, чем словарь значений; особенно это касается редких, уходящих и специальных словарных значений. Кроме этого AdaGram не выделяет значения, которые различаются аргументной структурой, но не сочетаемостью. Мы также добавили еще один способ представления значений в кластерах AdaGram, он связан с представлением значений при помощи типичных контекстов, что позволяет использовать данный инструмент в качестве вспомогательного при составлении толковых словарей. В 2017 году участники проекта вошли в состав организаторов соревнования по снятию лексической неоднозначности автоматическими методами в рамках конференции Диалог-2018 (http://russe.nlpub.org/2018/wsi/). Данное соревнование — первое не только для русского, но и вообще для славянских языков. Его результаты, а именно разработанные методы, будут полезны и смогут использоваться для автоматического выделения значений слов из корпуса и снятия семантической неоднозначности для всех славянских языков. Участники гранта задействованы в разработке золотого стандарта для тренировки и тестирования методов, в выработке критериев для оценки методов и в подготовке материалов для соревнования. Всего по результатам работы над проектом было подготовлено девять научных статей, из них опубликовано семь (6 из них в БД Scopus, 2 в Web of Science Core Collection), принято в печать две. Состоялись выступления участников гранта на следующих конференциях: Международная лингвистическая конференция «Русская лексика: история и современность» 2017 (Будапешт, Венгрия), Международная конференция МАПРЯЛ 2017 (Хельсинки), XVIII Апрельская международная научная конференция НИУ ВШЭ (Москва), Русская грамматика: описание, преподавание, тестирование (Финляндия, Хельсинки), Компьютерная лингвистика и интеллектуальные технологии: Диалог 2017 (РГГУ, Москва), V Международная научная конференция "Культура русской речи: Гротовские чтения" (ИРЯ РАН, Москва), eLex 2017 (Лейден, Нидерланды) .

Публикации

1. Апресян В.Ю. Отрицательная и положительная поляризация: семантические источники Компьютерная лингвистика и интеллектуальные технологии, Т. 2. С. 2-16. (год публикации - 2017)

2. Апресян В.Ю. Двойные семантические роли в исходных и переносных значениях многозначных глаголов Вопросы языкознания, №2, 7-32 (год публикации - 2017)

3. Апресян В.Ю., Шмелев А.Д. «Ксенопоказатели» по данным параллельных корпусов и современных СМИ: русское ЯКОБЫ Компьютерная лингвистика и интеллектуальные технологии, Т. 2. С. 17-29. (год публикации - 2017)

4. Богуславская О. Ю., Иомдин Б. Л. Развитие полисемии у русских числительных и порядковых прилагательных Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Москва, 31 мая – 3 июня 2017 г.). Москва, Изд-во РГГУ, 2017., Вып. 16 (23): в 2 т. Т. 2. С. 96–105. (год публикации - 2017)

5. Лопухин К.А., Иомдин Б.Л., Лопухина А.А. Word Sense Induction for Russian: Deep Study and Comparison with Dictionaries Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2017”. Moscow, RGGU., Vol. 1. Pp. 121–134 (год публикации - 2017)

6. Лопухина А.А., Лопухин К.А. Word Sense Frequency Estimation for Russian: Verbs, Adjectives and Different Dictionaries Electronic lexicography in the 21st century. Proceedings of eLex 2017 conference, Electronic lexicography in the 21st century. Proceedings of eLex 2017 conference. P.267-280 (год публикации - 2017)

7. Урысон Е.В. Предлог или наречие? Частеречный статус наречных предлогов Вопросы языкознания, №5, с.36-55 (год публикации - 2017)

8. Урысон Е.В. Словарь vs. текст: актантная структура союза ХОТЯ Русский язык в научном освещении, №2 (34) (год публикации - 2017)

9. Урысон Е.В. Наречие СРАЗУ: семантика и грамматика Труды Института русского языка им. В.В. Виноградова РАН, 13 выпуск (год публикации - 2017)

Аннотация результатов, полученных в 2018 году
1. В семантической части проекта: В 2018 году были обобщены лексикографические данные, полученные в 2016 и 2017 гг., с учетом результатов корпусно-статистического и психолингвистического исследований. Было показано, что интуитивный, «психолингвистический» принцип организации полисемии близок к принципам, выработанным в теоретической семантике, а именно, что существующие лексикографические принципы в высокой степени отражают языковую интуицию носителей языка. Восприятие метонимических семантических отношений как когнитивно более близких, нежели метафорические, отражается в принципах упорядочения значений, принятых в теоретической лексикографии, в частности в Активном словаре русского языка: метонимический сдвиг обычно описывается в рамках того же семантического блока, что и основное значение, в то время как метафорические сдвиги обычно конституируют новый семантический блок. Статистический же принцип отражает скорее состояние языка в конкретный исторический момент и в конкретной группе говорящих: в разное время и у разных возрастных и социальных групп носителей те или иные значения могут активизироваться или, наоборот, отступать на задний план. Был проведен эксперимента с носителями языка, в результате которого выяснилось, что порядок перечисления значений сильно многозначного слова в словарной статье, предъявленной испытуемым для запоминания, практически не влияет на количество вспомненных ими значений, но сам порядок, соответствующий семантическому развертыванию от прямого к переносным значениям, запоминается лучше, чем порядок по убыванию частотности значений в текстах. Результаты эксперимента показывают, что нет оснований менять существующий семантический порядок кластеризации и подачи значений для толкового словаря, поскольку он соответствует интуитивному когнитивному порядку, и более высокая частотность тех или иных значений не влияет на их запоминание. С другой стороны, представляется целесообразным включение информации о частотности значений в словарные статьи. Теоретическое осмысление результатов экспериментов, проведенных в предыдущие годы, позволило поставить новые теоретические задачи и запланировать серию новых экспериментов. В прошлом году в ходе работы над многозначностью прилагательных был получен интересный и теоретически неожиданный результат: выяснилось, что на материале полисемии некоторых прилагательных обнаруживается сближение метонимии, метафоры и прямого значения. В отчетном году данные результаты получили теоретическое осмысление. Во-первых, выяснилось, что для многих прилагательных характерна следующая структура полисемии: прямое значение (например, холодное мороженое) → производное от прямого значения метафорическое значение (например, холодный человек) → производное от метафорического значения метонимическое значение (например, холодный взгляд). В свете этого становится понятным смешение метафоры и метонимии: смешивается метафорическое значение и производное от него метонимическое. На материале стандартных схем прямое значение (сильный человек → производное от прямого значения метонимическое значение (сильные руки) + производное от прямого значения метафорическое значение (сильная боль) смешения метафоры и метонимии не происходит. В связи с полисемией прилагательных возник другой теоретический вопрос, о близкой и далекой метонимии у прилагательных, для разрешения которого в отчетном году В.Ю. Апресян и А.А. Лопухиной была проведена серия новых экспериментов и онлайн-опрос более чем 5000 говорящих при помощи ресурса Яндекс.Толока. Была также проведена запланированная работа по изучению динамики изменения значений (отмирание значений, появление новых значений, централизация одних и маргинализация других значений) на материале группы существительных, принадлежащих к области бытовой лексики (Б. Л. Иомдин) и на материале междометий (И. Б. Левонтина). Наконец, было проведено исследование полисемии граммемы несовершенного вида (Е. В. Урысон). 2. В статистической части проекта: Была продолжена работа по автоматическому определению частот значений существительных, глаголов и прилагательных из вышедшего в конце 2017 года третьего тома Активного словаря русского языка (буквы Д-З). Было извлечено 252 неоднозначных существительных, 228 глагола и 140 прилагательных, к которым был применен разработанный ранее метод автоматического определения частот значений на основе семантических векторов (word2vec). Был также исследован новый метод кластеризации label propagation, который относится к подклассу semi-supervised методов и показал хорошие результаты при разметке многозначных слов английского языка, описанные в литературе. Было обнаружено, что метод label propagation особенно чувствителен к гиперпараметрам и не дает надежной прибавки качества на всех словах по сравнению с методом k-means, который использовался коллективом проекта ранее. Таким образом, мы приняли решение остановиться на методе k-means как на более надежном и менее чувствительном к гиперпараметрам методе кластеризации и не использовать метод label propagation для задачи автоматического определения частот значений слов. Наконец, в рамках конференции Диалог-2018 участники гранта К. А. Лопухин и А. А. Лопухина совместно с коллегами из Гамбургского университета, Университета Мангейма, МГУ им. Ломоносова и ABBYY организовали и провели первое соревнование по автоматическому извлечению значений слов из неразмеченного корпуса текстов для русского языка RUSSE’2018 (http://russe.nlpub.org/2018/wsi/). В соревновании приняли участие 18 команд, приславших 383 алгоритмов. Значительное число участников смогли показать результаты, превосходящие современный эталонный подход AdaGram [Bartunov et al., 2016], основанный на векторах смыслов, который организаторы предложили в качестве baseline в данном соревновании. Результатом работы стали подробно описанные алгоритмы, позволяющие наиболее эффективно извлекать значения слов из неразмеченного корпуса текстов на русском языке. 3. В статистической (компьютерно-лингвистической) части проекта: Была продолжена работа по двум исследованиям: эксперимент с записью вызванных потенциалов (ВП) мозга при обработке словосочетаний с неоднозначными существительными и эксперимент с регистрацией движений глаз при чтении предложений с многозначными существительными. Первый эксперимент ставил своей задачей выявление электрофизиологических коррелятов семантической связанности и близости прямого и непрямых значений (метонимических и метафорически), а также сравнение обработки многозначных слов и омонимов. Сравнение проводилось отдельно для омонимов и многозначных существительных с использованием метода дисперсионного анализа с повторными измерениями (RM ANOVA). Было обнаружено, что метонимические значения воспринимаются мозгом как близкие к прямым значениям. Восприятие идущих подряд метафорического и прямого значения слова вызывает конфликт: как на ранних этапах (N400) восприятия, во время лексического доступа, так и на более позднем этапе восприятия (P600), то есть мы видим конкуренцию между метафорическим и прямым значением в мозгу испытуемых. Похожим образом происходит восприятие разных значений омонимов: если подряд идут два разных омонима, то мы наблюдаем сильный электрический ответ мозга на позднем этапе восприятия (P600). Вероятно, это свидетельствует о переключении с одного значения омонима на другое. Был также проведен эксперимент с регистрацией движений глаз, в котором исследовалось чтение многозначных существительных в контексте предложения. Мы рассмотрели скорость обработки значений существительных в разных контекстах, активирующих метафорическое и метонимическое значения, а также в контексте недоспецификации, который согласуется с любым из возможных значений существительного. Целью эксперимента было исследовать скорость доступа к значениям слов и узнать, зависит ли она от того, активирует ли контекст данное значение. Предполагалось, что обработка недоспецифицированного значения происходит быстрее. Однако полученные результаты не подтвердили наше предположение: испытуемые читали многозначное слово в недоспецифицированном контексте значимо дольше, чем в однозначном контексте с прямым значением. Значимой разницы в скорости прочтения метонимического и метафорического значения слова по сравнению со скоростью прочтения прямого значения обнаружено не было. Итак, мы можем заключить, что при чтении многозначных слов люди опираются на контекст и в однозначных контекстах с одинаковой скоростью обрабатывают прямые, метонимические и метафорические значения слов. В неоднозначных (недоспецифицированных) контекстах носителям языка требуется больше времени, чтобы приписать многозначному слову то или иное значение. Эксперимент показал, что при чтении многозначного слова в предложении в мозгу человека сразу активируется одно из значений этого слова.

Публикации

1. Апресян В.Ю., Апресян Ю.Д., Драгой О.В., Иомдин Б.Л., Лауринавичюте А.К., Левонтина И.Б., Лопухин К.А., Лопухина А.А., Урысон Е.В. О методе комплексного семантического, статистического и психолингвистического анализа многозначности Русская речь, - (год публикации - 2019)

2. Е. В. Урысон Лексическое значение глагола в видовой паре: семантическая теория и критерий Маслова Вопросы языкознания, - (год публикации - 2019)

3. Левин И., Андриянец И., Иомдин Б., Амбарцумян А. Lexical Variation: Word Knowledge and Polysemy in Russian Everyday Life Lexicon Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2018”. Moscow, May 30 – June 2, 2018, Vol. 1. Pp. 410–419 (год публикации - 2018)

4. Левонтина И. Б. Об одном случае неканонического использования междометий (корпусное исследование) Компьютерная лингвистика и интеллектуальные технологии По материалам ежегодной международной конференции «Диалог» (2018) Выпуск 17, Выпуск 17. С. 424 -436 (год публикации - 2018)

5. Лопухина А. А., Лауринавичюте А. К., Драгой О. В. Как в ментальном лексиконе хранятся многозначные слова разных частей речи? Восьмая международная конференция по когнитивной науке: Тезисы докладов. Светлогорск, 18–21 октября 2018 г., М. : Институт психологии РАН, 2018. С. 644 - 646 (год публикации - 2018)

6. Лопухина А., Лауринавичюте А., Лопухин К., Драгой О. The Mental Representation of Polysemy across Word Classes Frontiers in Psychology, 2018. Vol. 9. P. 1-16 (год публикации - 2018) https://doi.org/10.3389/fpsyg.2018.00192

7. Лопухина А., Лауринавичюте А., Лопухин К., Драгой О. The representation of polysemous nouns, verbs, and adjectives in the mental lexicon Linguistic Evidence 2018 - Experimental data drives linguistic theory. Conference Booklet. Tübingen, 15th to 17th of February 2018, Pp. 105-107 (год публикации - 2018)

8. Лопухина А., Лопухин К., Носырев Г. Automated Word Sense Frequency Estimation for Russian Nouns Quantitative approaches to the Russian language / eds. M. Kopotev, O. Lyashevskaya, A. Mustajoki. Routledge, 2018, P. 79-94 (год публикации - 2018) https://doi.org/10.4324/9781315105048

9. Панченко А., Лопухина А., Усталов Д., Лопухин К., Арефьев Н., Леонтьев А., Лукашевич Н. RUSSE2018: a Shared Task on Word Sense Induction for the Russian Language Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2018”. Moscow, May 30 – June 2, 2018, Vol. 1. No. 17. P. 547-564 (год публикации - 2018)

10. Юрченко А., Лопухина А., Драгой О. Meaning relatedness in polysemous and homonymous words: an ERP study in Russian Working papers by the Basic Research Program. Series WP BRP 67/LNG/2018 "Linguistics / LNG". 2018. (Препринт НИУ ВШЭ), - (год публикации - 2018)

11. - Лекция Б. Л. Иомдина «Откуда берутся значения слов» Телеканал 78, Программа «Смысловая нагрузка» (выходит в декабре-январе 2018-2019 г.) (год публикации - )

Возможность практического использования результатов
Результаты проекта могут быть использованы (и уже отчасти внедряются) в образовании, создании новых учебников и толковых словарей, способствующих взаимопониманию всех, кто говорит на русском языке, и улучшению компьютерно-лингвистических технологий (в особенности связанных с автоматическим определением значений слов), на основе которых создаются современные конкурентноспособные системы общения на естественном языке.