Принцип прозрачности подразумевает, что пользователи понимают, как обрабатываются их данные; свобода выбора диктует право пользователей на определенное влияние на этот процесс.
Стартап музыкальных рекомендаций MoodLogic, сооснователем которого я являлся[45], предлагал своему пользователю определенную степень контроля над сочетанием использования и исследований, то есть между музыкой, которую он обычно слушает, и знакомством с чем-то новым. Мы анализировали коллекцию музыки в компьютере пользователя и создавали некую модель, позволяющую определить произведения, исполнителей, авторов, инструментальные составы, темпы и жанры, которые ему подойдут. Модель прогнозировала, насколько новое произведение может понравиться пользователю. Затем мы предлагали ему выбор из двух настроек. При выборе «безрискового» варианта система выдавала музыку примерно одного стиля, которая должна была, по нашему прогнозу, понравиться пользователю. «Зондирующая» настройка предлагала послушать музыку, которую, как мы считали, пользователь мог бы или полюбить, или возненавидеть. Выбор оставался за ним, но при этом аккумулировалась информация, которую мы могли использовать для совершенствования алгоритмов MoodLogic.
Хотя количество информации безгранично, этого нельзя сказать о времени. Решения приходится принимать. Феномен социальных данных в том, что результаты процесса их переработки могут становиться новым входящим потоком.
Работа над ошибкамиЛюдям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».
Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда[46]. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?
Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor[47].
Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.
Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».
Объединяя данные из многих источников, инфопереработка может выявлять наши ошибки во входящей информации. В июле 2012 года в моем смартфоне появился сервис под названием Google Now. Он сканировал мою электронную почту в поисках информации из моих электронных авиабилетов и сообщал о статусе рейсов, делая это даже раньше авиакомпаний. Казалось бы, все просто. Но этому сервису все же удалось удивить меня степенью продвинутости анализа данных. Как-то утром, когда я только собирался паковать свои чемоданы перед отъездом из Фрайбурга, приложение сообщило, что я должен выезжать в аэропорт немедленно. По моему графику до рейса оставалось еще несколько часов, а авиакомпании обычно не сдвигают регулярные перелеты вперед больше чем на пару минут. Тем не менее я доверял Google Now больше, чем своему календарю, и решил пошевеливаться – возможно, сервис узнал об огромной пробке на дороге. Приехав в аэропорт, я понял, что неправильно ввел время рейса в календарь. Google Now проигнорировал данные, введенные вручную, и послал мне напоминание исходя из информации в моем электронном билете в Gmail. (А спустя три года Google Now автоматически вносит расписание рейсов в мой календарь сразу же после того, как электронные билеты попадают в мою почту.)
Мы уже свыклись с тем, что инфопереработчики указывают нам на подобные ошибки и исправляют их. Это полезные услуги. Вопрос в том, будем ли мы готовы принимать схожие корректировки в других областях своей жизни по мере того, как создаем и распространяем все больше личной информации.
Инфопереработке приходится также разбираться и в том, что является сигналом, а что шумом. На статистическом жаргоне сигналом называется значимая информация, а шумом – случайная и потому не имеющая значения. Сложность социальных данных в том, что различия между сигналом и шумом варьируются в зависимости от конкретного пользователя и конкретной ситуации. Когда ваш френд из Facebook ставит тэг на фото, где вы отсутствуете, что это – сигнал или шум? Когда как. Если он поставил тэг по ошибке, перепутав вас с Эндрю, который идет следующим в списке его друзей, то это шум, то есть статистический эквивалент статическим помехам в вашем радиоприемнике. А если он поставил тэг сознательно, желая ввести в курс запечатленных событий вас и ваших френдов, то это сигнал, хотя, возможно, и раздражающий. То есть, на языке статистиков, это не шум.
Обратная связь от пользователей играет важнейшую роль в совершенствовании алгоритмов обработки информации. Я не имею в виду необходимость заполнения опросников для потребителей или участия в фокус-группах. Поддержание и развитие постоянного диалога с пользователями