Научно-образовательные школы Московского университета

Компьютерные лингвисты МГУ предложили методику тестирования больших языковых моделей

Культурное наследие
Группа исследователей НИВЦ и филологического факультета МГУ составила набор данных для оценки того, насколько большие языковые модели способны отличать грамматичные предложения от неграмматичных. Проведенные эксперименты над моделями демонстрируют более высокие результаты для случаев, когда модель не мультиязычна и много обучалась на русских данных, что говорит о корректности подобранной методики тестирования. Результаты исследования, проведенного в рамках НОШ «Культурное наследие» были опубликованы в журнале «Научно-технический вестник информационных технологий, механики и оптики» ИТМО.

Одно из главных применений больших языковых моделей (БЯМ) состоит в том, чтобы наиболее точно воспроизводить языковое поведение человека. Носителям языка свойственно не только порождать верные высказывания, но и отличать грамматичные предложения от неграмматичных. Похожие компетенции ожидались бы и от БЯМ. В ходе работ в рамках НОШ МГУ «Сохранение мирового культурно-исторического наследия» был предложен новый инструмент для тестирования лингвистической компетенции русскоязычных БЯМ — параметрический корпус минимальных пар RuParam.

Предлагаемый корпус лишен ряда проблем, свойственных некоторым его предшественникам: RuParam включает в основном однозначные, а не вариативные лингвистические параметры; вошедшие в корпус данные были порождены носителями языка независимо; корпус снабжен подробной грамматической разметкой, разработанной на основе данных лингвистической теории и типологии; благодаря формату минимальных пар грамматичные и неграмматичные предложения содержатся в корпусе в равном количестве и могут быть сопоставлены напрямую.

Корпус RuParam состоит из двух частей, содержащих в общей сложности около 10 тысяч пар примеров, и размечен по 80 параметрам. Каждому грамматичному предложению корпуса сопоставлен неграмматичный вариант. Количество примеров для разных параметров варьирует, но каждый из них представлен не менее чем десятью минимальными парами.

«Отметим, что применение подобного корпуса не ограничивается проверкой того, насколько хорошо БЯМ владеют естественным языком. Параллельно с этим наш корпус решает и теоретическую задачу параметризации русской грамматики. Проектируемый корпус не только содержит необходимые для тестирования эмпирические данные, но и систематизирует грамматику русского языка», — поясняет руководитель лаборатории автоматизированных лексикографических систем НИВЦ МГУ Павел Гращенков.

На подкорпусе RuParam, включающем примерно половину актуальных данных, был проведён эксперимент с семью большими языковыми. Все пары предъявлялись моделям дважды — в обоих вариантах следования приемлемого и неприемлемого предложений. Это делалось для того, чтобы нивелировать склонность моделей видеть правильным первый или второй из указанных примеров. Примененная методика инструктивного опроса напоминает работу с анкетированием носителей. Таким образом была проверена не только способность моделей предсказывать неграмматичность, но также были исследованы представления самих БЯМ о понятиях не/грамматичности.

Разные модели справились с поставленной задачей с различной степенью успешности — средние значения метрики accuracy начинаются с 0,597 (одна из мультиязычных моделей). Лучший результат показала модель YandexGPT со средним значением 0,927, следом идет GigaChat с результатом 0,895. Показательно, что ни одна модель не достигает уровня носителей-людей, который на данной выборке оказался равен ~0,99.

«В дальнейшем развитие RuParam продолжится. Планируется дополнить список грамматических параметров, разнообразить датасет новыми примерами, рассмотреть зависимость успешности решения задачи БЯМ от сложности тестов, а также провести более подробное (по отдельным параметрам) исследование предпочтений конкретных моделей», — подводит итог Лада Паско, представляющая филологический факультет.