Страница 19 из 19

Сердце машины. Наше будущее в эру эмоционального искусственного интеллекта

Йонк Ричард

Нейросети – моделируемые по образцу человеческого мозга4 – строятся как соединения программных и аппаратных узлов (представляющих синапсы и нейроны) по слоям, которые постепенно улучшают решение для входной информации, например изображения. Некоторые слои скрыты, это значит, что они принимают входную информацию и производят расчеты, а решение передают на следующий слой, где процесс повторяется. В случае распознавания изображений это означает, что каждый последующий слой нейросети считывает признаки более высокого уровня. Наконец результат передается на выходной слой. Слои называются скрытыми, поскольку точно не известно, как происходят вычисления, ведь нейросети постепенно умнеют, используя методы машинного обучения с учителем и без. Определение оптимального количества нейронов, слоев, информации на входе и методов обучения составляет часть проблемы отладки сетей.

В общем, при большем количестве скрытых слоев сеть способна функционировать с большей точностью. (Хотя есть момент, при достижении которого точность начинает падать.) Дилемма стремления к большей точности состоит в том, что чем больше используется нейронов и слоев, тем больше требуется времени для вычислений. К счастью, практически в то же время, когда вышли статьи 2006 года, стали более доступными и дешевыми графические процессоры. С ними удалось на порядок ускорить обучение нейросетей, поскольку сжатие изображений, на которое раньше уходили недели, теперь можно было выполнить за несколько дней или даже часов. Различные подходы улучшили техники глубинного обучения, в том числе ограниченную машину Больцмана и рекуррентную нейронную сеть. Улучшенные алгоритмы глубинного обучения использовались во многих разновидностях распознавания образов. Прогресс в скорости расчетов привел к значительным успехам искусственного интеллекта в течение последнего десятилетия. Например, технология DeepFace, используемая в социальной сети Facebook, способна распознавать человеческие лица с точностью до 97 %. В 2012 году команда ученых Торонтского университета по исследованию искусственного интеллекта, в которую входили Хинтон и двое его студентов, победила в соревновании между исследовательскими группами по широкомасштабному распознаванию образов в базе данных. Их нейросеть на основе глубинного обучения не оставила соперникам ни одного шанса на победу5. Совсем недавно компания Google DeepMind использовала техники глубинного обучения для разработки ИИ, играющего в го, под названием AlphaGo. Программа AlphaGo обучалась самостоятельно при помощи базы данных, в которую были занесены тридцать миллионов записанных ходов из игр уровня эксперта. В марте 2016 года AlphaGo выиграл у гроссмейстера по го мирового уровня Ли Седоля четыре партии из пяти. Игра в го считается более сложной для искусственного интеллекта, чем игра в шахматы. Разработчики ИИ не ожидали игры на таком уровне еще по крайней мере в течение десятилетия.

Метод обучения не менее важен, чем используемые алгоритмы. Вот почему компании Affectiva пришлось изменить код приложения FaceSense. Ведь в обучении первоначального приложения участвовало относительно мало исследователей. Как только была завершена новая система, Affectiva запустила пилотный проект, в котором рекламный ролик Супербоула[1] транслировали зрителям, давшим согласие на участие в проекте, а выражение их лиц при просмотре анализировалось через веб-камеру. Таким образом команда эль Калиуби получила результаты, необходимые для переобучения системы, на этот раз – на примерах подлинных реакций реальных людей. Дополнительное изучение рекламы и другого медиаконтента с участием зрителей позволило собрать дополнительные данные о выражениях лиц реальных людей. Это было крайне важно. Система училась распознавать трудноуловимые нюансы выражений лиц. Оттенки были настолько незаметными, что даже хороший актер не смог бы изобразить выражение лица человека, по-настоящему переживающего ту или иную эмоцию. Чем больше было образцов эмоциональных реакций на рекламные ролики, тем умнее становилась система. Вот как объяснила это эль Калиуби в своем основном докладе.

Мы фиксируем эмоции, глядя на лицо. Лицо – один из самых надежных каналов сообщения социальной и эмоциональной информации. Мы используем компьютерное зрение и алгоритмы машинного обучения, которые отслеживают ваше лицо, его черты – глаза, брови – и соотносим их с эмоциональными ориентирными точками. Затем мы накладываем информацию на карту эмоциональных состояний, таких как смущение, интерес, удовольствие. И за последнюю пару лет, начав обрабатывать собранные данные, мы обнаружили, что чем больше данных мы предоставляем, тем точнее становятся систематизаторы эмоций. Когда мы обучали подобные систематизаторы лишь с сотней образцов, их точность не превышала 75 %. Но когда количество позитивных учебных образцов составило 100 000, точность превысила 90 %. Это по-настоящему захватывающе, и мы продолжили пополнять массив данных новой информацией, чтобы достичь большей точности6.

Работа с большими данными и машинным обучением была грандиозной. Фактически успех привел к еще большему успеху.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Супербоул – в американском футболе название финальной игры за звание чемпиона Национальной футбольной лиги Соединенных Штатов Америки. – Прим. перев.