Ученые Научно-исследовательского вычислительного центра (НИВЦ) и филологического факультета МГУ представили рецензию на книгу «Синтаксис на грани» (Syntax on the Edge) Диего Кривочена (Diego Krivochen). В книге предложена альтернативная модель синтаксиса на основе теории графов, которая упрощает структуру предложений, заменяя привычные синтаксические деревья. Рецензия подчеркивает недостатки подхода, но отмечает, что он может способствовать активному обсуждению в научных кругах и подтолкнуть к новым исследованиям. Она опубликована в пятом номере журнала «Вопросы языкознания» за 2024 год. Исследование проводились в рамках НОШ МГУ «Культурное наследие».
«Несмотря на подавляющее превосходство генеративных моделей в теоретической лингвистике, несомненные успехи нейросетевых подходов к NLP заставляют нас рассматривать альтернативные модели грамматической компетенции носителей языка. В первую очередь, нас интересуют порождающая способность и ограничительность моделей, возможность представления грамматического варьирования и грамматических ограничений в самой структуре модели и в виде дополнительных настраиваемых параметров», — рассказала один из авторов рецензии, профессор филологического факультета и сотрудник НИВЦ МГУ Екатерина Лютикова.
Подход, описываемый в Syntax on the Edge, представляет собой одну из таких альтернативных моделей. Автор книги стремится упростить синтаксис, сокращая количество синтаксических сущностей и вводя больше связей между ними. В отличие от более привычного генеративного синтаксиса, где предложения представляют собой иерархические структуры (деревья) со строго бинарным ветвлением и включают как элементы, эксплицитно присутствующие в предложении (слова или морфемы), так и абстрактные синтаксические объекты, модель Кривочена основана на теории графов. Его подход вдохновлен так называемыми грамматиками зависимостей. Отказываясь от традиционных синтаксических деревьев, он представляет предложения в виде графов, состоящих из узлов (лингвистических элементов) и ребер (отношений между ними).
Признавая широту охвата книги с точки зрения обсуждаемой теоретической литературы и спектра рассматриваемых языковых явлений, ее взаимодействие с литературой в области математической лингвистики и готовность оспаривать общепринятые точки зрения в лингвистической теории, рецензия отмечает ряд существенных проблем и нерешенных вопросов в подходе Кривочена. Хотя книга делает смелые заявления и вводит интригующие теоретические возможности, многие из этих заявлений остаются недостаточно разработанными или не имеют достаточной эмпирической поддержки и/или математической основы. Так, некоторые выражения (артикли, некоторые предлоги и др.) отсутствуют в графовом представлении, а линеаризация — процесс, определяющий порядок слов в предложении, — выводится за рамки подхода, предлагаемого в книге, что приводит к отсутствию взаимно-однозначного соответствия между предложением и его структурным описанием (графом).
Эти и другие решения делают модель Кривочена уязвимой к критике. Например, автор книги утверждает, что его подход позволяет моделировать сложные лингвистические явления — такие, как перекрещивающиеся зависимости в голландском и швейцарском немецком языках. В приводимом им классическом примере из голландского языка Jan Piet Marie zag helpen zwemmen (русский перевод — «Ян видел, как Пит помогал Мари плавать») зависимости между каждым глаголом и его субъектом — Jan «Ян» и zag «видел», Piet «Пит» и helpen «помогать», Marie «Мари» и zwemmen «плавать» — перекрещиваются, в отличие, например, от русского аналога, где они являются соположенными. Этот пример — одно из известных свидетельств того, что синтаксис естественных языков невозможно представить в виде простых иерархических структур, порождаемых контекстно-свободными грамматиками. Однако перекрещивающиеся зависимости являются таковыми только за счет порядка слов, а в игнорирующем его графе ничем не отличаются от соположенных. Аналогично, отказ от моделирования линеаризации и отсутствие некоторых категорий в графовом представлении в ряде случаев стирает различия между грамматичными предложениями (такими, как What did Sue say?) и неграмматичными (*What said Sue?).
В конечном итоге, рецензия подчеркивает важность постоянного диалога в области лингвистики, позиционируя книгу Кривочена как текст, который, несмотря на свои недостатки, имеет потенциал для стимулирования глубокой научной дискуссии и способен вдохновить на дальнейшие исследования и пересмотр традиционных синтаксических моделей. С публикацией в российском журнале «Вопросы языкознания» книга впервые вводится в оборот в отечественном академическом сообществе. Критически взаимодействуя с работой Кривочена, рецензия приглашает лингвистов, математиков, специалистов в области теории формальных грамматик, когнитивной науки и искусственного интеллекта к размышлению о вызовах, связанных с моделированием грамматической компетенции носителей естественного языка.
«Несмотря на подавляющее превосходство генеративных моделей в теоретической лингвистике, несомненные успехи нейросетевых подходов к NLP заставляют нас рассматривать альтернативные модели грамматической компетенции носителей языка. В первую очередь, нас интересуют порождающая способность и ограничительность моделей, возможность представления грамматического варьирования и грамматических ограничений в самой структуре модели и в виде дополнительных настраиваемых параметров», — рассказала один из авторов рецензии, профессор филологического факультета и сотрудник НИВЦ МГУ Екатерина Лютикова.
Подход, описываемый в Syntax on the Edge, представляет собой одну из таких альтернативных моделей. Автор книги стремится упростить синтаксис, сокращая количество синтаксических сущностей и вводя больше связей между ними. В отличие от более привычного генеративного синтаксиса, где предложения представляют собой иерархические структуры (деревья) со строго бинарным ветвлением и включают как элементы, эксплицитно присутствующие в предложении (слова или морфемы), так и абстрактные синтаксические объекты, модель Кривочена основана на теории графов. Его подход вдохновлен так называемыми грамматиками зависимостей. Отказываясь от традиционных синтаксических деревьев, он представляет предложения в виде графов, состоящих из узлов (лингвистических элементов) и ребер (отношений между ними).
Признавая широту охвата книги с точки зрения обсуждаемой теоретической литературы и спектра рассматриваемых языковых явлений, ее взаимодействие с литературой в области математической лингвистики и готовность оспаривать общепринятые точки зрения в лингвистической теории, рецензия отмечает ряд существенных проблем и нерешенных вопросов в подходе Кривочена. Хотя книга делает смелые заявления и вводит интригующие теоретические возможности, многие из этих заявлений остаются недостаточно разработанными или не имеют достаточной эмпирической поддержки и/или математической основы. Так, некоторые выражения (артикли, некоторые предлоги и др.) отсутствуют в графовом представлении, а линеаризация — процесс, определяющий порядок слов в предложении, — выводится за рамки подхода, предлагаемого в книге, что приводит к отсутствию взаимно-однозначного соответствия между предложением и его структурным описанием (графом).
Эти и другие решения делают модель Кривочена уязвимой к критике. Например, автор книги утверждает, что его подход позволяет моделировать сложные лингвистические явления — такие, как перекрещивающиеся зависимости в голландском и швейцарском немецком языках. В приводимом им классическом примере из голландского языка Jan Piet Marie zag helpen zwemmen (русский перевод — «Ян видел, как Пит помогал Мари плавать») зависимости между каждым глаголом и его субъектом — Jan «Ян» и zag «видел», Piet «Пит» и helpen «помогать», Marie «Мари» и zwemmen «плавать» — перекрещиваются, в отличие, например, от русского аналога, где они являются соположенными. Этот пример — одно из известных свидетельств того, что синтаксис естественных языков невозможно представить в виде простых иерархических структур, порождаемых контекстно-свободными грамматиками. Однако перекрещивающиеся зависимости являются таковыми только за счет порядка слов, а в игнорирующем его графе ничем не отличаются от соположенных. Аналогично, отказ от моделирования линеаризации и отсутствие некоторых категорий в графовом представлении в ряде случаев стирает различия между грамматичными предложениями (такими, как What did Sue say?) и неграмматичными (*What said Sue?).
В конечном итоге, рецензия подчеркивает важность постоянного диалога в области лингвистики, позиционируя книгу Кривочена как текст, который, несмотря на свои недостатки, имеет потенциал для стимулирования глубокой научной дискуссии и способен вдохновить на дальнейшие исследования и пересмотр традиционных синтаксических моделей. С публикацией в российском журнале «Вопросы языкознания» книга впервые вводится в оборот в отечественном академическом сообществе. Критически взаимодействуя с работой Кривочена, рецензия приглашает лингвистов, математиков, специалистов в области теории формальных грамматик, когнитивной науки и искусственного интеллекта к размышлению о вызовах, связанных с моделированием грамматической компетенции носителей естественного языка.