Треугольник новостного влияния
Существуют три главных игрока, когда речь идет о новостных торгах. Прежде всего, это известные новостные агентства, такие как Доу-Джонс, Томсон Рейтер и Блумберг, которые распространяют тысячи новостных сообщений в день и хорошо осведомлены. Следующий – относительно новый канал распространения через социальные сети, который реагирует быстрее, но остается менее изученным, более эмоциональным, действующим на основании тысяч мнений, которые могут отражать или не отражать настроение рынка. И, наконец, фондовые биржи и нормативно-правовые службы, которые нацелены на стабилизацию рынка. Поэтому, для того чтобы избежать подобной волатильности, публикация квартальных отчетов, скорее всего, должна проходить не во время торгов.
Основы автоматического анализа текста
Во время извлечения информации из любого текста можно столкнуться с многочисленными проблемами. Вопрос, как осуществлять поиск слов, предложений, чисел, наименований организаций, концепций и идей и при этом оставаться в контексте как семантически, так и грамматически, является главным в лингвистике. Однако такой подход далек от практического воплощения в условиях реального времени. При анализе финансового текста финансовая и экономическая аналитика требуют проведения предметного анализа за миллисекунды. Таким образом, любое программное обеспечение, призванное помогать брокерам, должно улучшать анализ и сокращать время его проведения.
Обозначение объектов, формулировки и показатели
Во-первых, указанные объекты и понятия, такие как страны, компании и лица, исполнительные директора, политические лидеры, должны быть разбиты на категории. Во-вторых, указание числа должно быть точным; поскольку разные форматы и числовые представления очень важны, любая автоматическая система должна уметь обрабатывать различные буквенно-цифровые форматы и переводить их в конкретные значения. В финансовом контексте необходимо искать только те понятия, в которых заинтересован брокер, чтобы избежать переизбытка информации.
Приложение, которое действительно помогает трейдеру, должно, таким образом, предлагать возможность выбирать интересующие понятия и позволять настраивать темы, на которые трейдер хотел бы отреагировать. Настройка, возможность выбора, личный интерес и опыт неотъемлемы.
Здесь различия между формулировками, фразами и показателями являются определяющими. Когда формулировки состоят из словосочетаний, таких как «низкий спрос», «уменьшающиеся продажи», «сокращающиеся прогнозы», описывающих, какие экономические ситуации или события могут возникнуть, финансовые результаты и цифры, скорее всего, будут более осторожными. Показатели всегда сопровождаются цифрами и часто связанными с ними временными отрезками. Читатели легко отличат числа 2015 и 2016; программное обеспечение нужно научить сопровождать выборку чисел информацией о времени или позиции.
Учитывая короткий текст новости, на следующем рисунке часть информации представлена в неструктурированной форме. Красные и темно-серые пометки выделяют компанию, которую необходимо искать в тексте, зеленые и серые пометки выделяют показатели, а светло-зеленые и светло-серые указывают числа, найденные в тексте. Далее следует наиболее важный шаг: все эти показатели, формулировки, временные отрезки, лица или компании связываются и переплетаются в едином контексте. Таким образом, в этом примере мы понимаем, что доход IBM упал до $22,4 млрд в III квартале. Трейдеры могли бы использовать эту конкретную информацию, чтобы продать акции, если их ожидания не были оправданы, или в противном случае купить их.
ATRAP – это программа для обработки новостей по торгам в режиме реального времени. Она способна проводить текстовый анализ и имеет огромные возможности для настройки параметров торгов после анализа неструктурированного текста. К примеру, трейдер настраивает программу таким образом: он будет продавать свои акции IBM, если его ожидания прибыли в размере $25 млрд не сбываются, и он будет покупать акции, если ожидания сбываются. Когда появляется новость, ATRAP проверяет факты, и, если они отвечают (неважно каким образом) указанным условиям, автоматически размещает заказ на рынке. Следующий рисунок демонстрирует снимок экрана ATRAP с успешной сделкой. Скорость проведения анализа позволяет ATRAP размещать заказы раньше других и до того, как торги будут приостановлены.
Формулировки найти проще, если они есть в тексте. Однако очень часто трудно оценить влияние котировок. При большом риске появляются и лучшие возможности получения прибыли. ATRAP продемонстрировала свои возможности и становилась одним из первых покупателей в мире, когда происходило значимое событие.
События и решения об инвестициях
Определение аналитических рейтингов в тексте, таких как «Кредит Сюис подняла рейтинг Daimler с HOLD до BUY», может быть осуществлено при помощи автоматизированного анализа. Кредит Сюис – это рейтинговое агентство, Daimler – оцениваемая компания, и событие оценки «подняла рейтинг с HOLD до BUY» указывает на положительное развитие. Использование этого анализа в секторе частных инвестиций, где нет структурированных каналов данных, может быть полезным.
Возможно распознавание рейтинговых событий, но как распознавать более общие новости? Политические события, события в мире бизнеса, такие как слияние компаний, отставка генерального директора или даже стихийное бедствие, – люди могут узнать обо всех таких новостях. Используя эту информацию, трейдеры получают мгновенные предупреждения или информацию о том, произошло ли подобное событие и рискованно ли оно для их инвестиций.
Получение информации о настроениях и мнениях
Свежие новости или противоречивые сообщения в социальных сетях могут оказывать колоссальное влияние на мнение о компании или ее активах. Такая эмоциональная составляющая – сущность настроения на рынке – часто выражается в анализах, рыночных отчетах, причем все чаще посредством социальных сетей. Оценка настроения на рынке, основанная на новостях и сообщениях в Twitter, должна отражать самые последние сообщения, отчеты и анализы, чтобы приносить пользу. Повторяющееся освещение одной и той же темы в СМИ скорее всего окажет большее воздействие, чем единичное появление новости; надежность автора или источника информации также играют свою роль. Автоматическая оценка настроения, заложенного в тексте (извлечение информации о мнениях и анализ настроения, основанные на лингвистическом анализе), требует как экспертных финансовых знаний, так и глубокого понимания того, как разные мнения выражаются на различных медийных платформах: Twitter имеет отличительный словарь, каждый язык и даже каждый домен для выражения мнения использует различные речевые обороты и фразы.
Распознавание понятий и объектов, таких как данные аналитики, названия компаний или стран, обсуждалось ранее при разборе процесса распознавания понятия. Языковые образы, выражающие позитивное или негативное настроение, могут быть присвоены распознаваемой компании. Пример на рис. 4 позволяет присвоить две разные оценки (перспективу роста/остановки роста) соответствующим ценным бумагам.
Twitter описывается как «по-видимому, остановившийся», в то время как Facebook представлен как «растущий», что приводит к негативной оценке первого и позитивной оценке второго. Дифференцированное назначение