Машинное обучение — прогнозирование политических изменений
Умный алгоритм, который семь десятилетий анализировал статьи государственных СМИ Китая, теперь готов обратить свой взор на будущие политические события. Исследование конструкции этого «хрустального шара» также может помочь в решении множества других проблем.
Контролируемое обучение – наиболее развитая форма машинного обучения, которая включает в себя изучение и сопоставление входных данных (например, электронных писем) с выходными метками (будь то «спам») и, впоследствии, применение изученного сопоставления для прогнозирования меток для новых данных (т. е. новых электронных писем). Однако критической предпосылкой такого подхода является богатый и репрезентативный набор изучаемых данных, которые зачастую весьма трудно заполучить.
С другой стороны, в эпоху Big Data существуют метки данных, которые вроде бы легко доступны, но совсем не имеют отношения к проблемам, которые мы хотели бы решить. Так давайте же разберемся, действительно ли они настолько несущественны?
В новой исследовательской статье «Чтение Китая: прогнозирование изменений политики с помощью машинного обучения» можно увидеть, как обычные метки могут использоваться для выявления важных базовых закономерностей. Для этого был построен алгоритм нейронной сети, который «читает» официальную газету Китая Жэньминь жибао и классифицирует, является ли появление каждой статьи на первой странице — якобы обычной меткой. Оказывается, такой простой алгоритм может быть использован для обнаружения изменений в том, каким вопросам Жэньминь жибао уделяет приоритетное внимание, что, в свою очередь, имеет глубокие последствия для политики правительства Китая.
Алгоритм стремится имитировать сознание постоянного читателя Жэньминь жибао, который читает их статьи и пытается понять, каким образом редактор подбирает их для главной страницы. Из-за официального статуса этой газеты, то как ее редактор делает выбор в пользу тех или иных статей, отражает приоритеты каждого тиража газеты. Если бы читатель продумал, скажем, статьи на пять лет вперед, у него сложилось бы представление о том, как мыслит редактор и какие статьи «должны» или «не должны» появляться на первой странице газеты. Однако, если в следующем квартале читатель удивлен новым статьям, то логично, что это может повлиять на его точку зрения. Если небольшие изменения можно воспринять как случайность, то сильный сигнал к переменам убедит читателя в том, что его текущее понимание образа мышления редактора больше неактуально и что приоритеты Жэньминь жибао должны в скором времени коренным образом измениться.
Используя приведенные выше рассуждения, можно построить квартальный индикатор с условным названием «индекс изменения политики Китая», который фиксирует количество неожиданных явлений для алгоритма в каждом квартале по сравнению с парадигмой, которую алгоритм сформировал на основе анализа данных последних 5 лет.
Так называемый индикатор исходит из того факта, что обнаружение изменений в приоритетах газеты позволяет нам прогнозировать перемены в политике правительства Китая. Это происходит по причине того, что Жэньминь жибао находится в самом центре пропагандистской системы Китая, основной функцией которой является мобилизация ресурсов для достижения политических целей правительства. Более того, перед тем, как будут сделаны важные изменения в политике, правительство часто считает необходимым оправдаться или убедить общественность в том, что эти изменения являются правильными для страны.
Следовательно, несмотря на то, что алгоритм обнаруживает изменение направления пропаганды в реальном времени, результирующий индекс на самом деле предсказывает изменения политики в будущем.
Если бы была возможность протестировать этот алгоритм на политических изменениях в Китае, которые имели место в прошлом, то этот индекс мог бы правильно предсказать начало Великого скачка в 1958 году, программы экономической реформы в 1978 году, а что касается последнего времени, то это ускорение реформ в 1993 году и их замедление в 2005 году. Примечателен тот факт, эти события широко признаны в академической литературе как наиболее критические моменты в истории экономики и реформ в Китае.
Этот подход к изучению базовых закономерностей на основе легко доступных меток имеет очевидную «контекстно-свободную» особенность; то есть построение индикатора не зависит от понимания исследователем китайского контекста (это язык, история или политика). Этот алгоритм открывает возможности для различных применений со структурой, схожей с вышеописанной.