Но столь пошлая вещь не для такой правильной братвы, коей мы с вами, орлы и орлицы, имеем честь являться.
Во-первых, зачастую нужной нам информации нет даже в хранилищах Гохрана.
А во-вторых, из открытых источников сведения получаешь гораздо быстрее, чем из закрытых (таков парадокс современного постиндустриального информационного общества).
При работе с открытыми источниками (периодическая печать, телек и все такое) возникает проблема выборки — на каком количестве сообщений остановится и с какой по какую дату их изучать.
Чем больше будет всякой байды, тем больше времени потребуется для того, чтобы загнать всю эту смурную шнягу в нутро компьютера.
Эти параметры выборки определяются задачами и масштабами исследования.
Необходимым его условием является разработка таблицы-вопросника — основного рабочего документа, с помощью которого проводится исследование.
Без нее контентолог — никто и ничто, без папки с этими таблицами его надо гнать из приличного общества пинками по колышущемуся, аки медуза-гигант на борту попавшей в шторм рыболовецкой шхуны, пухлому заду.
Такая таблица внешне напоминает анкету: каждый вопрос предполагает ряд признаков (ответов), по которым садистки-жестоко дербанится содержание текста.
Для регистрации же единиц анализа составляется другая таблица — кодировальная матрица.
Если объем выборки достаточно велик (свыше 100 единиц), то кодировщик, как правило, работает с толстой пачкой матричных листов, заляпанных разводами приднестровского портвейна, измазанных волынским салом и покрытый кусочками мелко нашинкованного кубанского лука.
Процедура подсчета при количественном контент-анализе проста, как бином Ньютона.
Возьмем, к примеру, формулу вычисления коэффициента некоего Яниса (не путать с Янусом и с анусом!), предназначенную для того, чтобы узнать соотношение положительных и отрицательных оценок товара, который мы отрекламировали по полной программе, вкатив в рекламную кампанию немыслимое количество бабок.
В случае, когда число положительных оценок товаров или услуг после рекламы превышает число отрицательных, считаем так: С=(a2-ab)/de.
Тут «a» — это число положительных оценок; «b» — число отрицательных оценок; «d» — объем содержания текста, имеющего прямое отношение к изучаемой проблеме; «e» — общий объем анализируемого текста.
В случае, когда число положительных оценок меньше, чем отрицательных, считаем иначе: С = (ab-b2) / de.
Построенная на изменении полученных чисел диаграмма больше, чем все горластые рекламщики, покажет клиенту, каким же он был идиотом, поведясь на увещевания акул из агентства.
Есть и более простые способы измерения.
К примеру, удельный вес той или иной ключевой для нас фразы (слова) можно вычислить с помощью формулы: Е=f/g, где f — число единиц анализа, фиксирующих данную категорию, а g — общее количество единиц анализа.
А теперь 6 бесплатных советов по контент-анализу, открытых мне одним контентологом под страшными пытками:
№ 1. Качественный или количественный анализ нам нужен?
Количественный контент-анализ в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания.
Например, нам нужно узнать, чем интересуется немецкая пресса, чьи читатели — пивуны-привереды (в смысле — любят пиво качественного разлива).
И чего мы делаем? Мы берем первую сотню наиболее часто упоминаемых в этой прессе словечек. Отсеиваем к чертовой бабушке всякую байду вроде: 'Биттэ-дриттэ, хенде-хох!', 'Хитлер капут, русише швайне!' и прочие «данкешоны». Оставляем только то, что связано с предпочтением тех или иных сортов пива и закуси к нему (это прозвучит дико, но так оно и есть на самом деле: несчастная немчура не знает вкуса сушеной воблы, не умеет правильно разбавлять пиво шнапсом и поэтому уже какой век мечется в поисках лучшей выпивки и закуски). И считаем-считаем-считаем…
И вот таким банальным способом мы, дорогие мои братцы и сестрицы, и вылавливаем еще не окученный конкурентами сегмент на рынке пивных услуг.
Качественный же контент-анализ позволяет делать выводы даже на основе единственного присутствия или отсутствия определенной характеристики содержания.
№ 2. Что такое простые частоты?
Это подсчет частот появления в текстах различных слов или тем.
Например, если мы видим в статье 'наш любимый Василь Василич Пупкин', значит, это статья на его бабки.
Если — просто 'уважаемый всем народом лидер', значит — на бабки его спонсоров.
Если же без пиетета — «Пупкин» или 'политический деятель', значит — на бабки органов местного самоуправления.
Если 'душитель свободы' и 'кровавый бандит' значит, на членские взносы радикально- оппозиционной антипупкинской партии.
№ 3. А что есть относительные частоты?
Однако просто частота появления того или иного слова или темы мало что говорят. Гораздо более информативны не абсолютные, а относительные частоты, которые вычисляются как отношение абсолютной частоты к длине анализируемого текста.
В зависимости от того, что является переменной содержания, под длиной текста может пониматься количество слов в нем, количество предложений, абзацев и пр.
№ 4. Надо ли применять базовые частоты?
Естественно!
Например, депутаты Госдумы ругают Правительство.
Это мода такая.
И если нам поступил заказ, проверить, насколько удачны пиар-действия лоббистов по свержению нынешнего кабинета министров, то глупо браться за тексты выступлений депутатов и оценивать по их агрессивности скорость роспуска команды премьера.
Надо взять в качестве образца тексты (изготовить, так сказать, 'частотные словарики') прежних депутатских выступлений. И сделать на их основе таблицу с базовыми частотами употребления приготовленных нами для исследований единиц анализа (например, криков: 'Долой!' или 'В отставку раздолбаев!').
И тогда — сравнивая результаты теперешних выступлений с базовыми, мы поймем насколько они действительны агрессивны.
Отклонение частот вычисляют по формуле: h-j/i.
Тут у нас: h — количество слов данной категории, реально встретившихся в тексте, j — ожидаемое число вхождений слов данной категории в текст, а i — стандартное отклонение.
Величина j вычисляется путем умножения нормальной частоты категории на число слов в анализируемом тексте.
Представим, что мы хотим оценить степень агрессивности выступления не депутата, а