например, вычисление 'колмогоровской сложности', - да еще и немедленно переносит идеи в область оценки рисков инвестирования.
Ну а боевая стрижка объясняется долгосрочным исследовательским сотрудничеством с департаментом полиции штата Нью-Йорк. Один из проектов - технологии поиска и картирования сетевых следов второго по упоминаемости в медиа (после 'международного террориста') злейшего врага человечества - 'сексуального хищника, угрожающего детям' (child sexual predator), для краткости назовем его просто 'предатор' (не так уж уродливо, если сравнить со многими уже общепринятыми кальками с английского). Совместные разработки университета, полиции и других заинтересованных организаций достигли вполне рабочего уровня. Во всяком случае, доклад Гоела на семинаре завершился показом многочисленных карт городских районов, усеянных разноцветными флажками в виде перевернутой капли - словно булавками, что удерживают добытые энтомологом ценные экземпляры коллекции.
Система, как мы уже писали ('КТ' #686), вызвала большой интерес у наших ИБ-специалистов из МГУ, и сейчас вовсю планируется совместный проект МГУ и SUNY. Но в том варианте ppt’шника, который я в конце концов заполучил, слайдов с булавками уже не было. Оказалось, что на лекции мы видели чуть ли не реальные оперативные сводки полицейского департамента, с фамилиями и адресами настоящих подозреваемых; цвет флажка кодировал степень уверенности властей в необходимости срочно изолировать данного персонажа от менее опасной части общества. Передавать эти данные в открытую печать разработчики, естественно, не стали. Похоже, что и многие технические подробности исчезли вместе с картами и флажками, и это тоже правильно - ибо предатор не дремлет и, узнав эти подробности, может выскользнуть из сетей.
Однако и без всего этого большой интерес представляют две вещи: сам факт появления подобных систем, а также принципы их функционирования и проблемы, ему препятствующие. Отметив факт, перейдем к принципам и проблемам.
'Много данных, но мало информации!'
Этот лозунг часто повторяют по самым разным поводам. В ситуации, о которой идет речь, главное препятствие на пути превращения данных в информацию - их разрозненность. Предположим, в чатах обнаружена подозрительная активность, наводящая на мысль о появлении предатора. Обнаружить ее можно по сигналу программы-монитора, настроенной на определенные параметры контента - или по личным впечатлениям агента-оперативника, мониторящего этот чат или форум, маскируясь под обычного участника. Кстати, в качестве агентов все чаще выступают гражданские добровольцы, работающие на свой страх и риск и лишь в последний момент перед задержанием выслеженного злодея вступающие в контакт с 'органами' (см. врезку об очень интересном явлении - сетевом виджилантизме [network vigilantism], касающемся не только антипредаторства, но и антитерроризма). Однако в данной системе такие источники информации, по-видимому, не учитывались. Так или иначе, первая задача - установить, кто может скрываться под ником, вызвавшим подозрения. В отличие от виджиланте (борцов за охрану порядка, так сказать, 'по понятиям'), полиция имеет доступ к огромным массивам данных, которыми располагают госорганы. Она может - но лишь при соблюдении корректного юридического протокола! - рассчитывать также на доступ (в рамках так называемых точечных операций) к нужным данным через провайдера или средствами 'легального перехвата'