Перспектива больших данных в том, что мы сможем узнать еще больше. Хотя не все так просто. Датафикация не гарантирует финального результата, который вы сможете использовать. Подавляющий объем новых данных плохого качества или с трудом поддается анализу. Например, сегодня практически все системы видеонаблюдения оснащены цифровыми камерами. Однако компьютеры пока не могут «смотреть» изображения с этих камер и определять, что они видят, кроме элементарных, но важных вещей, например большого скопления людей. Хранение тысяч документов в формате текстового редактора – это замечательно, если вам нужно найти слово или фразу, но уже не так хорошо, если у вас нет времени читать все документы по результату поиска. Большинство людей осуществляют поиск для решения проблемы, а не потому что хотят что-нибудь почитать.
Большие данные по определению представляют собой слишком объемный и сложный массив информации по сравнению с теми базами, с которыми обычно работают компании. Для управления этими данными, для их обновления и обеспечения их безопасности не обойтись без применения специальных технологий. Это сложно и дорого, и большинство компаний не могут себе этого позволить. Если ваша организация в их числе, то чем вам могут оказаться полезными большие данные?
Во-первых, те, кто работает с ними, предлагают самые разные варианты их использования для повышения эффективности бизнеса, нередко даже бесплатно. Самый очевидный пример – целый ряд сервисов от компании Google: это и карты Google Maps, и новостные ленты с персональными настройками, и отчеты о статистике по сайтам, которые составляет Google Analytics.
Большие данные также способствуют решению проблем, позволяя поставщикам услуг создавать экспертные системы на основе машинного обучения и искусственного интеллекта. Самым простым примером может служить рекомендательный сервис интернет-магазина Amazon «Люди, купившие это…». Такой тип приложения с использованием «коллективного разума» обладает свойствами, характерными для больших данных: этот сервис не идеален, потому что механизм его работы заключается в том, что он ищет соответствия выявленным ранее закономерностям в информации и совмещает их с потенциальными потребностями пользователя. Тем не менее этот алгоритм работает быстро и лучше, чем просто догадка, а, как нам уже известно, большинство сотрудников впустую тратят 60 % рабочего времени и интуиция не слишком эффективное руководство для принятия решений.
Эти экспертные системы датафицируют функции, которые раньше относились к области человеческих навыков, например набор текста и перевод. Признайтесь, вам нравится перепечатывать тексты? Качество оборудования, распознающего речь, стало гораздо выше, но не потому что мы изобрели новые принципы работы программного обеспечения этого типа, а потому что компьютеры применяют большие данные для самостоятельного обучения. Обучение экспертных систем происходит за счет введения аудиозаписей, отобранных из интернета, вместе с расшифровкой, после чего система анализирует их и самостоятельно «обучается». Если вы не используете ПО для переформатирования аудиозаписей в текст, потому что вы попробовали это в 1990-х годах и получилась полная ерунда (а так оно и было), протестируйте современные онлайн-приложения, например Transcribe, и вы будете поражены. Эти сервисы бесплатны или предлагают свои услуги за символическую стоимость. В основе их работы лежат большие данные, а вы пользуетесь только конечным результатом. Можете ли вы использовать большие данные как-то еще? Да и нет.
Есть два способа, как большие данные могут стать хорошей инвестицией даже для компаний малого бизнеса. Во-первых, исследование их можно применить для улучшения собственных данных: примерами могут быть оценка внешней кредитоспособности или способность автоматически отслеживать лоты, когда они выставляются на продажу на онлайн-аукционах. Это делается в интернете, и существует специальная платформа под названием Kaggle для исследователей разных уровней, которые занимаются поиском решения разных задач на основе больших данных. Компании предлагают различные задачи и назначают вознаграждение, а гики со всего мира борются за него, предлагая собственные варианты решения проблемы. Одной из последних предложенных задач был поиск оптимальных способов работы по управлению клиентскими рекламациями от компании BNP Paribas[7] (вознаграждение $30 000) и определение самых довольных клиентов компании Santander[8] (вознаграждение $60 000).
Возможно, вы не готовы тратить такие суммы. Действительно немногие компании идут на это. Располагая более скромным бюджетом, можно, например, нанять специализированную организацию и исследовать тренды Facebook. Однако вам все равно придется платить за результат, так что это не быстрое решение. Для начала тщательно обдумайте, за информацию какого рода вы готовы заплатить и как вы будете применять ее в дальнейшем в вашей работе. Согласно данным компании Insite Consulting, примерно половина полученной информации остается никак не задействованной в процессе дальнейшего принятия решений. Это в буквальном смысле пустая трата денег.
Вы также можете решить работать с данными самостоятельно. Насколько это сложно? Очень сложно. Вы можете получить нужную вам информацию, в открытом доступе находятся структурированные большие данные, полученные в результате обязательного сбора открытых данных или их анализа и обработки. В Великобритании ведущей организацией, представляющей эту информацию, стал Институт открытых данных (Open Data Institute). Правительство Великобритании публикует информацию по самым разным темам, начиная от планов по производству дорожных работ до статистики по ожирению. В других странах национальная статистика становится все более доступной для пользователей, которые хотят ее получить. Таким образом, доступными становятся огромные массивы данных. Однако главная ценность заключается в их анализе.
А это не так-то просто. На протяжении последних 20 лет миллиарды долларов были впустую потрачены компаниями, которые вкладывались в область данных, но получили больше вопросов, чем ответов. Согласно аналитическим данным компании Ovum[9], в 1998 году четыре из пяти проектов первой волны, связанных с большими данными, потерпели полный провал. Основная причина заключалась в том, что они не были уверены, насколько полученные ими выводы могли способствовать повышению эффективности ведения бизнеса, даже если сами эти выводы были верны. Поэтому они не знали, следует ли инвестировать в проекты, и не понимали, можно ли принимать бизнес-решения на основе этих фактов.
Как ни парадоксально, иногда от больших данных можно получить результат лучше, если начать с малого: использовать бесплатные или почти бесплатные сервисы для повышения эффективности бизнес-процессов, прежде чем делать в эту область крупные финансовые вложения.
Часть 2
Пять основных принципов работы с данными
6. Поддерживайте удобство использования данных
После того как вы собрали данные, они должны храниться у вас в цифровом, а не текстовом формате.
Однажды мне довелось беседовать с руководителем отдела компьютерной графики одной из газет о том, как ей удается превращать сложные визуальные данные в аккуратные графики и диаграммы. Я неосмотрительно упомянул формат PDF.
«Я бы просто запретила использование этого формата, – заявила Кэрол (назовем ее так), вскипая. – Не представляете, сколько времени я убила впустую из-за того, что мне присылают файлы в формате PDF и говорят [здесь Кэрол намеренно стала говорить с дурацкой интонацией]: “Кэрол, ты не можешь сделать график из этого?” НЕТ, Я НЕ МОГУ».
Итак! У вас собран определенный массив данных. Как его хранить? Подсказка: не в PDF. Чаще всего объем нужной информации может храниться в двух местах: базе данных и таблице. Эти файлы могут быть в компьютере, на серверах или в облачном приложении, однако важно, чтобы эти данные хранились в таком формате, с которым вы сможете работать.
Для хранения больших массивов информации используются базы данных. Детали организации этого процесса слишком сложны с технической точки зрения, так что я не буду погружаться в них сейчас, можете выдохнуть с облегчением. Вероятно, вы больше знакомы с тем, как работают таблицы. Если вам приходится работать с бюджетом, или с расписанием, или другими небольшими по масштабу данными, скорее всего, вы уже