Это знаменитая картина не менее знаменитого бельгийского художника Рене Магритта. На ней нарисована курительная трубка, а надпись на французском внизу гласит “Это не трубка”. Сопоставляя изображение и текст, вы, возможно, испытали, пусть и в легкой, незаметной постороннему глазу форме некоторый ментальный конфликт между ожидаемым и воспринимаемым. Описание этого внутреннего “столкновения с реальностью” американский социальный психолог Леон Фестингер опубликовал в 1957 назвав это “Теорией когнитивного диссонанса”. Музыкальный контекст происхождения термина (от лат. dissonantia – расхождение, разногласие, несоответствие) на интуитивном уровне подсказывает основной смысл, заложенный в этой теории: в плавный и гармоничный процесс восприятия реальности вторгается резкая, фальшивая, кричащая нота, которая все портит.
Когнитивный диссонанс это не всегда именно психологический конфликт, который подразумевает некую фрустрацию, а скорее целый градиент ощущений разной степени сложности и выраженности: от ступора и непонимания как жить дальше, до легкого недоумения, как, например, от загадки, которой бравый солдат Швейк сотрясал восприятие судебных врачей:
“Стоит четырехэтажный дом, в каждом этаже по восьми окон, на крыше – два слуховых окна и две трубы, в каждом этаже по два квартиранта. А теперь скажите, господа, в каком году умерла у швейцара его бабушка?”
В массовом сознании когнитивный диссонанс представлен чаще всего только самим психологическим конфликтом, из виду теряется вторая часть этого явления – механизм улаживания этого конфликта, или, если можно так выразиться, примирения ожиданий с реальностью. Описываемый Фестингером в одноименной теории феномен когнитивного диссонанса включает в себя не только стресс и дискомфорт от восприятия новой информации, противоречащей имеющимся ожиданиям, но и способы снижения этого диссонанса.
Откуда берутся ожидания?
Вспомните дуалистическую схему зрительного восприятия: сенсорная стимуляция активирует процессы в мозге. Представьте себе эту сложную цепочку событий, начиная от фотона, ударившегося в светочувствительные клетки (палочки и колбочки) сетчатки нашего глаза, и заканчивая “сборкой” в высших отделах мозга комплексного визуального образа, включенного в определенный контекст. Теперь масштабируйте это на весь объем доступных визуальных стимулов. А ведь это только зрение – один из “каналов” входящей информации о мире. Умом нельзя объять весь этот чудовищный шквал сенсорных сигналов, который обрушивается на нас в единицу времени. Если бы восприятие живых организмов функционировало согласно устаревшим взглядам, то жизни бы просто не существовало – невозможно угнаться за уходящим поездом флуктуаций реальности. Если нельзя успеть, то остается одно – предвосхитить.
Представьте себе мозг, запертый под сводом черепа – он ничего не видит и не слышит. Он просто получает поток сигналов, ориентируясь на которые должен угадать что происходит снаружи. А на самом деле, не просто угадать, но ПРЕДугадать – чтобы тело успело подготовиться и отреагировать.
Теория прогностической обработки (Predictive processing theory)
Мозг функционирует как многоуровневая машина предсказаний, в которой нисходящий поток предсказаний (что мы ожидаем от мира) непрерывно сравнивается и корректируется относительно восходящего потока сенсорных данных (что воспринимают наши органы чувств). Нисходящий поток – это всё, что мы знаем о мире, наши лучшие эвристики (быстрые и упрощенные в угоду эффективности умозаключения), наши предварительные убеждения и ожидания (priors), весь наш предыдущий опыт – от E = mc2 до “London is the capital of Great Britain”. Восходящий поток же состоит из трёх частей – экстероцепция (что происходит снаружи тела), интероцепция (что происходит внутри тела) и проприоцепция (положение и движение тела), которые собираются в мультимодальную модель. Таким образом все наши знания становятся фундаментом для конструирования предсказаний того, что мы должны почувствовать.
Как это происходит:
- Мозг генерирует ментальные модели (потому они и называются генеративными), которые предсказывают, что сенсорный аппарат должен получить “на входе” (sensory input). Эти предсказания называют prior beliefs – “предварительными убеждениями”.
- Предсказательные модели наслаиваются друг на друга согласно определенной иерархии отражающей организацию мозга, от низших к высшим, от простых к сложным – верхние уровни посылают предсказания вниз, а нижние отправляют входящие сенсорные данные наверх.
- В случае, если нисходящие (top-down signals) предсказания не соответствуют восходящим (bottom-up signals) сенсорным данным, то возникает так называемая ошибка предсказания (sensory prediction error), и модель либо обновляет свои предварительные убеждения (priors), либо игнорирует входящие данные как шум и сохраняет предварительные установки.
Пример
Подумайте о зрении. Мы никогда не видим мир так, как он воспринимается сетчаткой. Во-первых, на сетчатку попадает перевернутое изображение (с точки зрения оптики, глаз – это камера обскура, а переворачивает изображение ваш мозг). Во-вторых оно размытое по периферии из-за неравномерного распределения зрительных клеток по площади сетчатки. В-третьих, сверху еще накладывается слой кровеносных сосудов (инвертированная сетчатка). В четвертых – слепое пятно в месте выхода зрительного нерва. Да, а еще наши глаза совершают множество незаметных и очень и быстрых движений, саккад, “ощупывая” пространство. Мы же наслаждаемся полноцветной, трёхмерной, стабилизированной относительно движения наших глаз и головы, картинкой. Еще и предварительно интерпретированной. Наш мозг даже предсказывает игру света и тени, как на зрительной иллюзии ниже.
Как мозг использует байесовскую статистику
Критически важным параметром для сигналов обоих потоков является уровень достоверности. То есть, нас интересуют не только данные, но еще их точность (precision) или вероятностный “вес”. Восходящий сигнал “перед вами стоит слон” будет иметь высокий вероятностный вес, зыбкий силуэт далеко в тумане – низкий вероятностный вес. Нисходящее предсказание, что вода, скорее всего, будет мокрая – очень высокий вес, “Индекс Dow Jones должен просесть на пару пунктов из-за подорожания подгузников” – очень низкий.
Оба потока — восходящий (bottom-up) и нисходящий (top-down) —, непрерывно взаимодействуют друг с другом на каждом уровне, и этот процесс непрерывного уточнения вероятностей можно описать используя Байесовскую статистику.
Теорема Байеса отчасти похожа на анекдот-загадку про засовывание жирафа в холодильник. Её суть в определении вероятности наступления события по предшествующим событиям. Совсем утрированно – если рюмка, из которой вы вчера принимали на грудь с непонятными личностями, пахнет ацетоном, то утром будет плохо.
На картинке пример графического изображения байесовского логического вывода с гауссовым распределением. На самом деле, тут все не так сложно как кажется на первый взгляд. Expectation – это наши ожидания, Reality – это, очевидно, реальность, а Estimate – это наша оценка, или же восприятие, компромисс между первым и вторым.
По оси X у нас любой параметр, который мы пытаемся предсказать, а по оси Y вероятность каждого значения этого параметра. Неопределенность (Uncertainty) – это вариативность ожиданий, а шум (Noise) – это вариативность достоверности.
А теперь собираем это всё вместе:
- Есть определенное ожидание (Expectation), оно же прогноз/предварительные данные (Prior), чья точность зависит от неопределенности (Uncertainty).
- Есть сенсорный вход/достоверность (Likelihood) или попросту реальность (Reality), чья точность зависит от шума (Noise).
- Между ожиданиями и реальностью как раз и находится то, что мы воспринимаем, Posterior. Были априорные (предварительные) ожидания (состояние ДО), мы их откорректировали согласно поступившему сигналу от реальности и получили апостериорную вероятность (состояние ПОСЛЕ).
Обратите внимание на рисунок, там есть два очень важных элемента: вертикальная пунктирная в Prior и Likelihood, и двойная стрелка там же. Пунктирная линия – это наше математическое ожидание, что значение параметра должно оказаться где-то в этой точке распределения. А двойная стрелка указывает на точность предварительных прогнозов, она же степень неопределенность (Uncertainty), и точность входящих сенсорных данных, она же степень зашумленности (Noise).
Наглядный но ГРУБЫЙ пример:
Вы решили прогулять работу на основании предположения, что директор уехал в командировку и это останется незамеченным. Это наш Prior.
Точность вашего прогноза зависит от степени неопределенности (Uncertainty) – А он точно уехал? А ничего не поменялось? А откуда инфа? А у нас нет никаких авралов? Чем меньше вы знаете – тем выше неопределенность – тем менее точен прогноз.
Мы начинаем процесс отбора информации, получаем этот самый сенсорный ввод (Likelihood) – пробиваем у коллег, менеджеров, вплоть до проверки вылета его рейса на сайте авиакомпании. И здесь точность уже входящих данных зависит от уровня шума (Noise) – вы это услышали на курилке (низкий вероятностный вес, low-precision sensory data), от руководителя вашего проекта, который регулярно отчитывается директору (средний вероятностный вес, medium precision sensory data) или это вам по знакомству на ушко сказал его помощник-секретарь, который покупал ему билеты, отвозил в аэропорт, сажал в самолёт и махал вслед платочком (высокий вероятностный вес, high precision sensory data).
То, с чем мы будем иметь дело – это апостериорная вероятность (Posterior) – среднее между тем, что мы спрогнозировали, и тем, что узнали. И если прогнозы были достаточно точными, и вводные данные были не слишком засорены малозначимой информацией, то мы все четко рассчитали, и наш самовольный отпуск прошел успешно и остался незамеченным. Ошибка предсказания (Prediction error) будет небольшой. А вот если мы опирались на туманные умозаключения с высокой степенью неопределенности (большим разбросом значений) и входящие данные отбирали как попало и где попало (большой разброс показателей из-за высокого уровня шума), то велика вероятность того, что наше предсказание провалилось, директор просто отскочил куда-то по делам, наши “доверенные лица” нас первыми же и застучали директору, попадалово, выговор, и дальше все как в жизни.
Но вам ведь не единожды хочется устроить себе отпуск? Следовательно, свои следующие попытки вы будете анализировать гораздо более тщательно. Осталось выяснить, каким образом вы будете корректировать свои убеждения, чтобы впредь уж точно не попадаться. Тут все достаточно просто. Посмотрите снова на график – в этом примере реальность оказалась точнее, и наша апостериорная вероятность сместилась к ней. Грубо говоря, секретарь это надежный источник, а свои собственные домыслы – не очень. И мы серьезно обновляем свое предварительное убеждение. А вот если наше внутреннее чутьё, какие-то косвенные признаки и все то, что можно отнести к предварительным прогнозам, оказалось бы точнее, то наша апостериорная вероятность сместилась бы к нему. Грубо говоря, мы и сами с усами, нам виднее, когда директор таки уехал. И тогда глобального обновления убеждений не происходит – предыдущие оказались достаточно эффективными.
Сёрфинг неопределенности
Теперь, когда мы разобрались с так называемой “гипотезой байесовского мозга”, дополним и расширим наше понимание того, как предсказания взаимодействуют с входящими данными.
Есть три варианта развития событий:
Первый
Если предсказания более-менее совпадают с входящими сенсорными данными, то “в Багдаде всё спокойно”, а на высоких уровнях вообще тишина в эфире и томная нега – предсказания сбываются, престиж крепчает, мощно возрастает процент жиров в масле, все идет своим чередом.
Второй
Сенсорные данные с небольшим “вероятностным весом” (low-precision sense data) противоречат высокоуровневым предсказаниям. Байесовская математика может заключить, что предсказания-то верные, это со входящими данными что-то не так (неправильные пчёлы дают неправильный мёд). Тогда нижние уровни “подгоняют данные” под предсказание (раз начальство говорит, что так надо – значит так надо). Высшие уровни продолжают придерживаться предсказаний, и в Багдаде все так же спокойно.
Третий
Возникает конфликт между входящими данными с “высоким вероятностным весом” (high-precision sense data) и предсказаниями. И тут уже байесовская математика заключает, что предсказания не годятся. Вовлеченные в процесс нейроны (мы сейчас говорим о мозге) подают сигнал “Тревога! Шухер! Алярма!”, подразумевающий несоответствие, внезапность, неждан (surprisal). Чем выше степень несоответствия и выше “вероятностный вес” поступивших данных – тем масштабнее неждан – тем громче орёт метафорическая внутренняя сирена.
Для высоких уровней такая тревога – это вообще новость, как пожарная тревога для производства, где все так хорошо налажено, что начальство не знает, что происходит в цеху. Представьте себе менеджера среднего звена на этом умозрительном производстве, ему звонят и говорят, что в цеху пожар. Его первая реакция “А с начальством согласовали, что будет пожар?”. Если да – то всё идёт по плану, можно дальше пить свой душистый кофе. Если нет – то надо что-то думать. Есть вариант списать всё на приступ белой горячки у бригадира цеха, дурную шутку, “ошиблись номером”, “там нечему гореть”. А если и это не прокатит – то выходные испорчены, нужно брать самую быструю машину без верха, кокаин, магнитофон для особой музыки, две рубашки поярче, и свалить из Лос-Анджелеса звонить наверх и разбираться.
Аналогия с человеческой бюрократической системой здесь более чем уместна – на любом из этих уровней НЕНАВИДЯТ слышать сигнал тревоги, простите за антропоморфизацию. Основная задача каждого из уровней этой иерархии – МИНИМИЗАЦИЯ НЕОЖИДАННОСТИ. То есть, в идеале, настолько хорошо предсказывать мир, чтобы свести вероятность неждана к минимуму, потому, что каждая такая тревога по неожиданности – это вихрь активности, всеобщий кипиш направленный на корректировку параметров генеративной модели мира – или вообще производство новых моделей – пока неожиданности не прекратятся и снова воцарится тишь да благодать. Сплошные энергозатраты и суета. Запомните этот момент, мы к нему еще вернемся.
Все эти процессы длятся доли секунды. Низшие уровни постоянно бомбардируют потоком данных высшие уровни, которые на основании этих данных подстраивают свои гипотезы и спускают вниз предсказания. Когда что-то идет не так и регистрируется ошибка предсказания – соответствующие уровни (менеджеры) либо меняют гипотезу, либо беспокоят вышестоящие уровни (начальство). После бессчетного множества таких циклов у всех всё более-менее пристреляно, предсказано, ожидаемо, никто ничем не удивлен, все ровно и четко. Ровно до следующего аврала.
Энди Кларк в своей книге “Surfing Uncertainty” удачно сравнил весь этот процесс предсказательной обработки с сёрфингом:
“Чтобы быстро и гибко действовать в нестабильном и шумном мире, мозг должен стать мастером предсказаний – скользить по волнам зашумленной и неоднозначной сенсорной стимуляции, стараясь обогнать её. Опытный сёрфер держится в так называемом “кармане”: близко, но чуть впереди того места, где волна начинает “ломаться”. Она несёт тебя, но не ловит. У мозга такая же задача. Непрерывно пытаясь предсказать входящий сенсорный сигнал мы получаем возможность изучать мир вокруг нас, думать и действовать в нём.”
Результатом становится восприятие, которое в теории прогностической обработки называется “контролируемой галлюцинацией”. Мы воспринимаем не мир, таким, каков он есть, а наши предсказания о нем в виде ожидаемых ощущений, откорректированные потоком входящих данных. Как сказал Анил Сет в своем выступлении на TED – это “наиболее удачная догадка” нашего мозга (our brain’s best guess).
Активный вывод (active inference)
Мы разобрались в передовой теории работы мозга – прогностической или предсказательной обработке (predictive coding), чтобы понять, откуда берутся наши ожидания. Мы теперь представляем себе, что подразумевают под “байесовским мозгом”. После примеров с прогулом работы и пожаром на производстве схема ниже должна стать для вас наглядной и понятной. Она, по сути, “упаковывает” процесс предсказательной обработки так, чтобы было видно, какие процессы происходят в мозге, а какие – снаружи. Мозг строит внутреннюю модель мира, на ее основании делает прогнозы о том, что должно произойти, сравнивает прогнозы с поступившей из мира информацией, корректирует картину мира, корректирует прогнозы, цикл замыкается. Обратите внимание на цвет фона на рисунке, всё, что на бежевом – относится к внешней среде, всё, что на белом – к внутренней. А сенсорные данные и действия оказываются на границе.
Теперь взглянем на еще одно изображение.
Схематически почти то же самое и уже почти знакомое: модель мира, ожидания/прогноз, предсказание, ошибка предсказания, обновление модели мира. Forecasting – это всего лишь другое слово для “предсказания”.
Тут у нас добавляется граница между системой (internal) и окружающим миром (external), изображенная пунктирной линией. Все рассмотренные нами процессы происходят ВНУТРИ системы, а на границе с внешним миром оказываются действия (action) и сенсорные данные (sensation).
Для удобства, еще больше упростим эту схему.
Sensory states – это те самые sensations, сенсорный ввод, наше восприятие. Active states – actions, действия или поведение. Internal states – внутренние состояния системы, наши ощущения, результат работы всех рассмотренных нами процессов. Ну а external states – это вся совокупность состояний окружающего мира, который и является средой нашего существования.
Состояния окружающего мира (S) -> обусловливают наши сенсорные состояния (восприятие) (o) -> которые, пройдя внутреннюю обработку, становятся нашими внутренними состояниями (ощущения) (s) -> которые обусловливают наши активные состояния (поведение) (a) -> которые изменяют состояния окружающего мира, замыкая эту каузальную (причинно-следственную) цепочку событий. Это называется “активным выводом” (active inference) и, в общем то, представляет из себя способ функционирования автономных агентов в динамической среде.
И тут мы подобрались к фундаментальному вопросу с высочайшим уровнем абстракции. Где та граница, где заканчивается мир и начинаетесь вы? Одним из самых всеохватывающих и емких научных описаний будет ограда, или, более поэтично, одеяло Маркова.
Мы все – одеяла Маркова.
Термин “одеяло Маркова” был сформулирован израильско-американским ученым и философом Джудеа Перлом, который занимается вероятностным подходом (probabilistic approach) к разработке ИИ и байесовскими сетями. Андрей Андреевич Марков (старший), чью фамилию носит этот термин, был одним из прадедов изучения стохастических (случайных) процессов и теории вероятности. Его сын, тоже Андрей Андреевич Марков (младший) был не менее выдающимся математиком, чем отец, и подарил нам, кроме всего прочего, Марковские цепи и Марковские процессы.
“Одеяло” или “ограда” Маркова – это концепция, чье применение выходит далеко за рамки исследований сознания и нейронаук – оно еще фундаментальнее. Абсолютно любое что-то, что угодно, существует как одеяло Маркова. Потому, что иначе нельзя было бы провести границу между этим чем-то и всем остальным. Если у чего-то нет одеяла/ограды Маркова – этого чего-то попросту не существует. Все в известном нам мире представляет из себя одеяла Маркова “вложенные” (nested) в одеяла Маркова, вложенные в другие одеяла Маркова, и так насколько хватит способности к масштабированию.
“Если марковское одеяло минимально, что означает, что оно не может отбросить любую переменную без потери информации, это называется марковской границей”.
Вот это и есть та самая граница, где заканчиваемся мы и начинается окружающий мир и наоборот.
Без какой-либо из этих составляющих: сенсорных, внутренних или активных состояний, не будет нас как автономных субъектов. Наша марковская граница защищает нас от каузальной сложности мира.
Принцип свободной энергии (Free energy principle)
Чем заняты все живые организмы в этом хаотичном, трудно предсказуемом, и, главное, неравновесном мире? В первую очередь – непосредственно бытием, то есть поддержанием своих границ, которые отделяют их от окружающей среды, и какой-то внутренней структуры и процессов. А для этого нужно тем или иным образом воспринимать мир (байесовская математика), репрезентировать или же попросту представлять его (внутренняя генеративная модель), предсказывать (иерархическая прогностическая обработка) и действовать (активный вывод), чтобы обновлять свою внутреннюю генеративную модель.
Мы “ощупываем” мир путем активного вывода, создаем его внутреннюю модель путем прогностической обработки, обновляем эту модель (обучаемся) путем применения байесовской теоремы. Остается последний, чуть ли не ключевой элемент. Все эти процессы можно свести к оптимизации одного-единственного параметра – разницы между ожиданием и реальностью. Весь комплекс наших сложнейших адаптивных стратегий сводится к снижению неопределенности. Этот параметр называется “вариационная свободная энергия”.
Собственно, только что мы в предельно упрощенном виде познакомились с “Принципом свободной энергии”, который по своей объяснительной способности уже считается равным теории эволюции путем естественного отбора.
У Карла Фристона, автора “принципа свободной энергии” и “теории прогностической обработки”, индекс цитирования выше чем у Эйнштейна, 1200+ научных публикаций. У всех без исключения, кто мало-мальски ознакомился с некоторыми его работами, складывается впечатление, что он запредельно крут.
Нельзя не оценить изящество формулировки, что все живое является генератором прогнозов о состояниях окружающего мира, находящимся в процессе самоподдержания и самоорганизации путем отграничения себя от среды и минимизации ошибки своих прогнозов.
Проводя параллели, делая выводы
Теория когнитивного диссонанса Фестингера описывающая конфликт ожиданий с реальностью и механизмы разрешения этого конфликта, оказалась предтечей новых, более сложных и масштабных теорий. Начав с объяснения психических процессов, они, развиваясь, перешли к самой сути адаптивных стратегий всего живого. Хорошая теория как призма – позволяет увидеть то, что скрыто от невооруженного взгляда. Мир, который мы воспринимаем – генеративная модель построенная на догадках нашего мозга о том, что происходит снаружи, контролируемая галлюцинация. Мы не можем избежать этого непреложного факта, но в наших силах более чутко прислушиваться к тому, что говорят нам органы чувств, не бояться обновлять и усложнять свою картину мира. Не ошибается тот, кто не познает новое и ничему не учится.