Исследователи филологического факультета и НИВЦ МГУ предложили сравнивать языковые способности нейросетей и человека, используя в качестве эталона случаи языковой вариативности. Вариативные феномены предполагают более одного грамматически допустимого варианта, вследствие чего носители языка могут иметь разные предпочтения. Ученые определили пул феноменов, которые могут выступить эталоном для сравнения и охарактеризовали их по двум измерениям, учитывая, как варианты соотносятся друг с другом по приемлемости и насколько они взаимозаменяемые. Тест на воспроизведение суждений носителей о вариативных феноменах позволит сделать оценку языковых способностей нейросетей более реалистичной. Результаты работы опубликованы в журнале «Вестник Московского университета. Серия 9: Филология». Исследование выполнено в рамках НОШ МГУ «Культурное наследие».
Языковая компетенция проявляется в том, что носитель языка способен отличать правильные предложения от неправильных и выносить суждения о приемлемости языкового выражения. Высокое качество современных нейросетевых решений для обработки текста и речи позволяет предположить наличие у соответствующих нейронных систем языковой компетенции. Поскольку при обучении нейросетей на корпусах индивидуальные особенности носителей — авторов текстов сглаживаются, необходимо понять, насколько подобный эффект обобщения может искажать языковую действительность.
«В исследовании мы предлагаем обратиться к специфичному для естественного языка свойству внутриязыковой грамматической вариативности, — рассказывает Екатерина Лютикова, профессор кафедры теоретической и прикладной лингвистики филологического факультета. — Поскольку нейросети обучаются языку с помощью статистических инструментов, мы ожидаем, что в ситуации вариативности нейросеть может выбрать какой-то один вариант из нескольких доступных. Для того, чтобы понять, как вариативность проявляется в языке нейросети, необходимо прежде определить, какой в принципе бывает вариативность в естественном языке и какие характеристики вариативности можно использовать как основание для сравнения компетенции нейросети и человека.»
Исследователи представили таксономию вариативных феноменов, учитывающую два измерения. С одной стороны, грамматические феномены отличаются тем, как устроено распределение вариантов. Спектр возможностей включает континуум от дополнительного распределения в зависимости от отдельных свойств языкового выражения до взаимозаменяемости вариантов в одном контексте. С другой стороны, варианты могут иметь различный уровень приемлемости. Два измерения накладываются друг на друга, в результате чего может возникать градуальность в оценках приемлемости, проявляющаяся в том, что оба альтернативных варианты доступны, но один из них оказывается значимо более приемлемым.
В результате авторы выделили две группы феноменов в русском языке: ситуации с низкой вариативностью и однозначным выбором варианта в зависимости от отдельных характеристик языкового выражения и ситуации с высокой вариативностью, в которых не установлено, какие свойства выражения способствуют выбору того или иного варианта. Две группы феноменов представлены четырьмя конструкциями, которые отличаются ожидаемым распределением вариантов и типом грамматического взаимодействия, и могут использоваться для сравнения языковых способностей нейросети и человека.
Языковая компетенция проявляется в том, что носитель языка способен отличать правильные предложения от неправильных и выносить суждения о приемлемости языкового выражения. Высокое качество современных нейросетевых решений для обработки текста и речи позволяет предположить наличие у соответствующих нейронных систем языковой компетенции. Поскольку при обучении нейросетей на корпусах индивидуальные особенности носителей — авторов текстов сглаживаются, необходимо понять, насколько подобный эффект обобщения может искажать языковую действительность.
«В исследовании мы предлагаем обратиться к специфичному для естественного языка свойству внутриязыковой грамматической вариативности, — рассказывает Екатерина Лютикова, профессор кафедры теоретической и прикладной лингвистики филологического факультета. — Поскольку нейросети обучаются языку с помощью статистических инструментов, мы ожидаем, что в ситуации вариативности нейросеть может выбрать какой-то один вариант из нескольких доступных. Для того, чтобы понять, как вариативность проявляется в языке нейросети, необходимо прежде определить, какой в принципе бывает вариативность в естественном языке и какие характеристики вариативности можно использовать как основание для сравнения компетенции нейросети и человека.»
Исследователи представили таксономию вариативных феноменов, учитывающую два измерения. С одной стороны, грамматические феномены отличаются тем, как устроено распределение вариантов. Спектр возможностей включает континуум от дополнительного распределения в зависимости от отдельных свойств языкового выражения до взаимозаменяемости вариантов в одном контексте. С другой стороны, варианты могут иметь различный уровень приемлемости. Два измерения накладываются друг на друга, в результате чего может возникать градуальность в оценках приемлемости, проявляющаяся в том, что оба альтернативных варианты доступны, но один из них оказывается значимо более приемлемым.
В результате авторы выделили две группы феноменов в русском языке: ситуации с низкой вариативностью и однозначным выбором варианта в зависимости от отдельных характеристик языкового выражения и ситуации с высокой вариативностью, в которых не установлено, какие свойства выражения способствуют выбору того или иного варианта. Две группы феноменов представлены четырьмя конструкциями, которые отличаются ожидаемым распределением вариантов и типом грамматического взаимодействия, и могут использоваться для сравнения языковых способностей нейросети и человека.