Страница 22 из 29
Одно известно наверняка: нам всегда легче делать то, что мы делали раньше. Что происходит в нашем сознании, вследствие чего это становится возможным? Вот что мне видится: при решении какой-либо задачи некоторые агенты, вероятно, активируют каких-то других агентов. Давайте примем, что под «вознаграждением» имеется в виду ситуация, когда агент А участвует в активации агента Б, и следствием вознаграждения будет, что впредь для А станет легче активировать Б, зато, возможно, станет тяжелее активировать других агентов. В свое время я был настолько захвачен этой идеей, что разработал машину под названием «Snarc», которая обучалась по данному принципу; она объединяла сорок агентов, каждый из которых был связан с несколькими другими, более или менее наугад, посредством системы «вознаграждений», а последняя включалась после всякого успешного действия и побуждала агента к стимулированию тех же реципиентов сигнала в дальнейшем.
Мы вводили в эту машину задачи наподобие поиска выхода из лабиринта при необходимости избегать встречи с опасным хищником. Машина быстро научилась решать простые задачи, но никак не могла справиться с трудными, например с постройкой башен из кубиков или с игрой в шахматы. Стало ясно, что для решения трудных задач любая машина с памятью ограниченной емкости должна иметь возможность повторно использовать своих агентов по-разному в разных контекстах (вспомним агента «Видеть» и две параллельные задачи, в которых он задействован). Но когда машина пыталась научиться прохождению через хитроумный лабиринт, типичный агент предлагал то правильное направление в один момент времени, то неправильное в другой момент. Позже, когда мы ввели награду за правильные действия, оба решения сделались более вероятными, причем правильный и неправильный выборы тяготели к тому, чтобы отменять друг друга!
Налицо дилемма проектирования машин, которые учатся, «фиксируя» взаимосвязи между агентами. В процессе решения трудной задачи мы обычно совершаем несколько неудачных действий, прежде чем находим правильное; по сути, как раз это имеется в виду, когда мы говорим о «трудных» задачах. Чтобы избежать обучения неправильным действиям, можно было бы запрограммировать машину на фиксацию только тех действий, которые непосредственно предшествовали успеху. Но такая машина способна обучиться лишь решению задач, которые требуют нескольких шагов. В качестве альтернативы можно было бы увеличить срок действия вознаграждения, однако в таком случае награда станет выдаваться и за неправильные действия наряду с правильными, а вдобавок будут стираться ранее усвоенные знания. Мы не можем научиться решению трудных задач посредством «массовой» фиксации состояний агентов или их связей. Почему среди всех животных только обладающие большим мозгом сородичи человека способны научиться решать задачи, которые требуют многих последовательных шагов или связаны с использованием тех же агентов для разных целей? Ответ следует искать в тактиках, которые наши агенты применяют для достижения целей.
Мне могут возразить, что бобр выполняет множество действий при постройке плотины, а колонии термитов возводят затейливые гнезда. Однако эти замечательные животные не изучают индивидуально такие практики, они используют навыки, закодированные в их генах благодаря миллионам лет эволюции. Бобра не научить строить гнезда термитов, а термитов не научить строить бобровые плотины.
7.7. Локальная ответственность
Предположим, что Алиса, владеющая оптовым магазином, просит менеджера Билла увеличить продажи. Билл поручает продавцу Чарльзу продавать больше радиоприемников. Чарльз оформляет крупный заказ на выгодных условиях. Но выясняется, что производитель не может поставить эти радиоприемники в нужном количестве, потому что возник дефицит производства. Кто виноват? Алисе следовало бы наказать Билла, чья работа состоит в проверке ассортимента. Вопрос в том, нужно ли вознаграждать Чарльза? С точки зрения Алисы, он своими действиями подвел фирму. Но с точки зрения Билла, Чарльз выполнил обязанности продавца и не его вина, что не удалось достичь цели, поставленной руководителем. Рассмотрим этот пример с двух точек зрения – назовем их «локальной наградой» и «глобальной наградой».
Локальная схема вознаграждает каждого агента, который помогает достичь цели руководителя. Потому Билл вознаграждает Чарльза, хотя действия Чарльза не помогли достижению целей более высокого уровня.
Глобальная схема вознаграждает только тех агентов, которые помогают добиваться целей высшего уровня. Следовательно, Чарльз остается без награды.
Придумывать механизмы для реализации локальных тактик обучения просто, ибо награда в каждом случае зависит только от отношений между агентом и его руководителем. Реализовать глобальную схему обучения труднее, поскольку требуется, чтобы механизмы выясняли, какие агенты действуют во имя первоначальной цели посредством цепочек достижения промежуточных целей. Локальная схема сравнительно великодушна к Чарльзу и вознаграждает его всякий раз, когда он выполняет то, о чем его просят. Глобальная схема оказывается «скареднее», она не поощряет Чарльза, даже пускай тот делает то, о чем просит руководитель, если его действия не вносят вклад в достижение цели высшего уровня. В такой схеме агенты зачастую не получают опыта. Соответственно глобальная тактика подразумевает более медленное обучение.
Обе схемы имеют свои преимущества. Осторожность глобальной тактики уместна, когда цена ошибки чрезвычайно высока или когда система располагает запасом времени. Она способна обеспечить более «ответственное» поведение, поскольку побуждает Чарльза научиться своевременно и самостоятельно проверять ассортимент, а не просто подчиняться указаниям Билла. При этом глобальная тактика не позволяет оправдывать личные упущения фразами вроде: «Я только выполнял распоряжение своего начальника». С другой стороны, локальная тактика ведет к мгновенному усвоению многих знаний, ибо каждый агент имеет возможность постоянно улучшать свою способность добиваться локальных целей, независимо от того, как те соотносятся с целями других агентов. Конечно, наши агенты обладают сразу несколькими вариантами действий. Какие именно они выбирают, зависит от состояния в конкретный момент времени других агентов, чья работа заключается в том, чтобы узнавать, какими стратегиями обучения пользоваться в зависимости от обстоятельств.
Глобальная схема требует способа не только выявлять тех агентов, чьи действия помогли справиться с задачей, но и определять, какие агенты помогли при реализации промежуточных целей. Например, в ходе строительства башни может оказаться полезным отодвинуть какой-то кубик, чтобы освободить место для другого. Возникает желание запомнить, что это движение помогает в строительстве башни; но если умозаключить из этого, что такое движение полезно всегда, нам никогда не построить другую башню. Когда мы решаем трудную задачу, обычно мало выяснить, правильными или неправильными были действия конкретного агента для достижения общей цели; необходимо, чтобы такие суждения хотя бы в малой степени зависели от локальных условий, то есть от того, насколько деятельность каждого агента помогала или мешала работе других. Эффект вознаграждения должен заключаться в том, чтобы заставить агента реагировать тем образом, который помогает достижению определенной цели – но без чрезмерного вмешательства в достижение иных, более важных целей. Все это диктуется обычным здравым смыслом, но для движения дальше нам понадобится уточнить нашу терминологию. Мы все испытываем стремление к достижению целей, но опыт вовсе не то же самое, что понимание. Что такое цель и может ли машина стремиться к целям?
7.8. Разностная машина
Рассуждая о «целях», мы неизбежно смешиваем в одном слове тысячу значений. Цели присущи всем неведомым агентам, которые включаются в работу всякий раз, когда мы пытаемся изменить себя или внешний мир. Если «цель» объединяет в себе столь много значений, зачем мы увязываем их все в одно слово? Вот некоторые примеры того, что мы обычно вкладываем в свои рассуждения о цели: