понимания того, как образуются новые единицы.

Как мы показали в предыдущей части, лексему невозможно определить как единицу «от пробела до пробела»: существует множество переходных случаев, и границы между лексемой и словосочетанием, лексемой и предложением оказываются размытыми. Гораздо более продуктивным кажется расположение единиц на шкале идиоматичности: словосочетание > фразема > лексема, где стрелки указывают не только направление процесса в конкретном случае, но и динамичность классификации в целом.

Всплеск интереса к совместной встречаемости единиц в последние десятилетия связан с возросшей ролью корпусной лингвистики, в которой изучение устойчивых выражений связано как с решением прикладных задач, так и с теоретическим осмыслением накопленного материала. Один из ведущих представителей корпусной лингвистики Джон Синклер уже в 1991 году сформулировал принцип идиоматичности:

Принцип идиоматичности заключается в том, что говорящий/ая имеет в своем распоряжении большое число полуоформленных фраз, которые представляют собой уже готовые единицы, даже несмотря на то, что при анализе их можно разбить на сегменты [Sinclair 1991:105][30].

Такие «полуоформленные фразы» получили название коллокации[31](от англ, collocation). Эти явления шире, чем традиционные фразеологизмы, о которых шла речь выше. При всей разнице в терминологии, коллокациями в корпусной лингвистике называют

неслучайное сочетание двух и более лексических единиц, характерное как для языка в целом (текстов любого типа), так и определенного типа текстов (или даже (под)выборки текстов) [Ягунова, Пивоварова 2011:575].

Это расширенное понимание коллокаций несколько противоречит более строгому, собственно лингвистическому, пониманию коллокаций как единиц, имеющих связанное, некомпозициональное значение [Мельчук 1960; Melcuk 1995а; Борисова 1995; Кустова 2008в и др.]. С другой стороны, такой подход позволяет включить широкий и, надо сказать, слабо оформленный список единиц, предполагающий дальнейшую более строгую классификацию, исходящую не из теоретических предпосылок, а из закономерностей, выявляемых в реальном массиве языковых данных.

Для выявления коллокаций в тексте корпусная лингвистика использует специальные инструменты, которые основываются на предположении, что частота коллокаций должна быть более значимой, чем у каждой из входящих в нее единиц по отдельности. Для измерения совместной встречаемости используются специальные статистические инструменты, которые получили название «меры устойчивости»; к ним относятся тесты MI, T-score, log-likelihood и некоторые другие (см. [Pecina 2005; Браславский, Соколов 2006; Хохлова 2008]). Надо сказать, что существующие в настоящий момент методы автоматического извлечения коллокаций нельзя признать совершенными, как минимум, в двух отношениях: во-первых, с их помощью извлекается очень разнородный набор устойчивых единиц, во-вторых, полнота извлечения далека от стопроцентной.

Важно понимать, что анализ частоты совместной встречаемости не позволяет автоматически извлекать фразеологизмы в лингвистическом смысле этого слова, то есть единицы с некомпозициональным сочетанием значений. Однако анализ больших текстовых массивов позволяет выявить единицы, занимающие положение между свободными сочетаниями и связанными фразеологизмами – «неслучайное сочетание двух и более лексических единиц». Приведенная ниже в качестве примера таблица показывает, какие двухсловные коллокаций извлекаются из одного и того же корпуса (коллекция текстов портала www.lenta.ru, объем 66 млн текстоформ) с помощью двух разных мер устойчивости (использованы данные из работы [Ягунова, Пивоварова 2010][32]).

Совершенно очевидно, что эти списки очень неоднородны. В них попадают:

– знаменательные лексические фразеологизмы (голубые фишки, тройская унция);

– незнаменательные лексические фразеологизмы, о которых шла речь выше (при этом, кроме того);

– фрагменты бо?льших конструкций ([в] связи с [чем], в результате [чего]);

– неидиоматизированные устойчивые сочетания (сообщает РИА, дельта Нигера, миллион долларов).

– составные имена собственные (Арбат Престиж, Ролан Гаррос) Повторим еще раз: в таблице представлены результаты автоматической работы алгоритма, которые не могут считаться ни полными, ни однородными. Однако теоретическое осмысление этих результатов позволяет заново поставить вопрос о соотношении устойчивости и идиоматичности (см. [Мельчук I960]), с одной стороны, и адекватности существующих классификаций – с другой.

Разрабатываемый под руководством одного из авторов этой книги алгоритм поиска устойчивых сочетаний усложняет эту задачу, позволяя определять устойчивость не только лексических, но и грамматических параметров для произвольной цепочки единиц (см. [Kopotev et al. 2013]). Этот алгоритм отвечает на вопрос, что и с какой вероятностью появится после конкретного слова или цепочки слов. Он находит ответы на такие, например, вопросы:

– Какая морфологическая категория оказывается наиболее устойчивой для этой позиции?

– Какое значение этой морфологической категории наиболее устойчиво?

– Что устойчивее: конкретные лексические единицы или морфологические параметры (например, падеж) с открытым списком лексем?

Использованная статистическая модель помогает распределить частоты морфологических признаков и лексических единиц на единой шкале, с тем чтобы

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату