Пока еще не все у компьютера получается гладко, не со всеми его решениями можно согласиться, но главное в том, что оказалось принципиально возможным обучить машину имитации понимания понятийного ядра — основы значения слова.
Скажем, в одну группу со словом бабочка компьютер отнес и слово хоккей. Что-либо общего в значениях этих слов трудно отыскать, не правда ли? Они оказались в одной группе на том основании, что в словарных описаниях и того и другого значений есть слово поле, а откуда машине знать, что хоккейное поле вовсе не тот лужок, над которым порхают мотыльки. Зато другие слова в соседи к бабочке компьютер подобрал с явным «пониманием» их значения: цветок, пыльца, пестик, крыло, птица и т. п.
Получается, что программа, по которой составлялся «Русский семантический словарь», является как бы автоматическим понятийным классификатором слов, распределяющим слова по группам в зависимости от сходств их понятийных ядер.
В целом машина неплохо освоила понятийную семантику почти десяти тысяч русских слов, распределив их по семантическим группам так, что непосвященному человеку и в голову не придет подозревать в этой явно интеллектуальной работе компьютер.
Вот, к примеру, такая группа: архитектура, архитектор, кремль, крепость, башня, пирамида, колокольня, дворец, здание, портал и т. п. Можно ли сомневаться в семантической общности этих слов? Конечно, нет. А ведь их подобрал компьютер, который действительно не понимает их значений. Просто трудно поверить, что машина не знает смысла слов, когда объединяет такую «театральную» лексику: спектакль, актер, балкон, кукла, отделение, премьера, самодеятельность, темп, афиша, кино, опера, постановка, программа, сцена, уборная, балет, кинотеатр, оркестр, представление, пьеса, театр, цирк.
Работа машины особенно поражает в тех случаях, когда семантика сформированных ею групп и человеку-то не всякому доступна. Например: альтруизм, самопожертвование, уступка, польза, делиться, ближайший, сосед.
Электронный языковед настолько правдоподобно имитировал понимание значений слов, что даже критиков словаря ввел в заблуждение. Ведь, подмечая семантические неточности в работе компьютера, они как бы спорили с ним на равных.
Разумеется, «Русский семантический словарь» — лишь первый приступ к машинному оперированию с самым важным, но и с самым сложным аспектом значения слова, с его понятийным ядром. Сейчас еще рано говорить о перспективах развития этого направления и конкретных приложениях его результатов, одно несомненно — принципиальная новизна направления приведет к принципиально новым решениям и результатам в этой важнейшей области обучения компьютера человеческому языку.
Работа эта чрезвычайно сложна, она только в популярном описании выглядит так просто. На самом деле предстоит еще долгий путь, пройдет еще немало времени, прежде чем компьютер сможет разнообразно оперировать понятийной семантикой, хотя человека он в этом не сможет ни заменить, ни даже повторить никогда.
А мы с вами вспомним, что понятийное ядро — только один (пусть и главный) аспект значения слова. И если компьютер добился успехов в постижении языковой семантики, опираясь даже на один этот аспект, то подключение к рассмотрению и других сторон семантики должно привести к еще более глубокому проникновению в сущность языкового значения. Поэтому перейдем к следующему семантическому аспекту — к качественно-признаковому ореолу слова.
Тридцать лет назад группа американских исследователей под руководством Ч. Осгуда опубликовала сенсационную книгу под вызывающим заглавием «Измерение значения». Для языковедов само сочетание этих слов было бессмыслицей: каждому ясно, что значение слова, его смысл невозможно как-то там измерить — это ведь не отрез на платье. И добро бы еще Ч. Осгуд выражался метафорически, просто для большей завлекательности употребил бы слово «измерение» в каком-нибудь переносном смысле. Тогда можно было бы упрекнуть его в стремлении к саморекламе, да и все тут. Так ведь нет — в книге рассказывалось именно об измерении значений слов буквально с помощью линеек, с помощью числа и даже (!) с помощью еще таинственных тогда ЭВМ! Это было непостижимо для солидных языковедов, которые в глубине души были уверены, что научно-техническая революция с ее числами и машинами касается физики, химии и других «прикладных» наук, что она не затронет их любимых членов предложения и уж, конечно, никогда не посмеет коснуться святая святых языка, его семантики.
Книга, понятно, была поначалу встречена в штыки и в Америке, и в других странах. Объявлялось, что Ч. Осгуд вообще ничего не измерил, а если измерил, то совсем не так, как надо бы, а если и так, то совсем не то, что следовало бы измерять. Появилась даже расхожая шутка: мол, Ч. Осгуд хотел открыть неведомую Америку, а приплыл в хорошо известную Индию. А чтобы уж не совсем обижать энтузиастов, к этой шутке снисходительно добавлялось, что опыт незадачливых мореплавателей все же, мол, оказался полезным. Правда, осталось непонятным, в каком смысле этот опыт признавался полезным: то ли в том, что группа Ч. Осгуда все же получила какие-то результаты, то ли в том, что убедилась в невозможности выполнить поставленную задачу.
Теперь, по прошествии времени, видно, сколь несправедлива была критика. И еще видно, как трудно, как невозможно трудно новой идее пробить стереотипы мышления. Ведь Ч. Осгуд действительно открыл для языкознания новые земли.
Прежде всего он доказал, что в области семантики возможны измерения. И не только доказал, но и показал, как их можно выполнить. Это принципиально важно вообще для науки, а сегодня особенно важно, потому что возможность семантических измерений открывает дорогу к семантике для компьютера. И как оказалось — дорогу к самым тонким и неуловимым аспектам значения, к которым пока никакими другими путями компьютеру прийти невозможно.
А кроме того, если уж проводить сравнение с Колумбом, то «экипаж» Ч. Осгуда скорее повторил открытие и
заблуждение первооткрывателя Америки. Ч. Осгуд считал, что измеряет значение слова, тогда как на самом деле он 01 крыл и измерил новый аспект семантики. Те, кто критиковал Ч. Осгуда, ставили ему в упрек то, что он не измерил значения, имея в виду понятийное ядро. Да, это так — понятийное ядро с помощью методики Осгуда не измеряется. Измеряется другое — качественный аспект, качественный ореол значения. Но кто знал тогда, что значение слова — не монолит, что оно само по себе сложное, многоаспектное явление?! Кто четко представлял себе, что у слова имеется понятийное ядро и семантические ореолы?! Это теперь ясно, что Ч. Осгуд впервые выделил и измерил качественно- признаковый аспект значения слова.
Как же удалось группе Осгуда сделать то, что казалось явно невозможным? Представьте себе, в принципе достаточно просто. Свой «измерительный инструмент» Ч. Осгуд назвал весьма внушительно — «семантический дифференциал», видимо, стараясь весомостью терминов как-то затушевать предельную простоту, можно даже сказать, примитивность самого этого инструмента. По сути дела, это просто линейка, а посолиднее говоря, шкала, которая у Ч. Осгуда еще выглядела довольно замысловато, а теперь, после многих лет «обкатки», оказалась и совсем простой: очень хорошее — 1, хорошее — 2, никакое — 3, плохое — 4, очень плохое — 5. Вот и все. Трудно поверить, но действительно все.
А дальше — измерения с помощью этого «инструмента». Этап трудоемок, но тоже в общем-то прост. Измерительная шкала дается носителям языка. Это те, кто говорит на данном языке и для кого язык является родным. Их называют информантами, потому что они дают исследователю нужную информацию. Так вот, информантам дается шкала и предъявляются слова (в произношении и написании или только в написании). Предъявляются как угодно: просто диктуются и записываются на доске или с помощью каких- либо технических средств — неважно. Задача информантов несложна — нужно поставить очередному слову «оценку», то есть цифру по данной шкале. Например, предъявлено слово дом. Если информант почему-либо считает, что это «что-то очень хорошее», он доставит слову оценку 1, если, по его мнению, это «нечто очень плохое» — оценку 5 и так далее. Если возникают затруднения с оценкой, или слово для информанта не обозначает ничего — ни хорошего, ни плохого, или информант вообще почему-либо не желает оценивать слово, он всегда может поставить тройку («никакое»).
Оценки, понятно, индивидуальные. Один информант ответил так, другой может ответить иначе.