Страница 6 из 7

Искусственный интеллект – для вашего бизнеса. Руководство по оценке и применению

Берджесс Эндрю

Интересно, что даже в наши дни описанный выше подход используется во многих чат-ботах, широко распространенных в интернете. Большинство их разработчиков утверждает, что они используют искусственный интеллект, и кое-где он реально задействован, но большинство таких программ являются лишь застывшим «древом принятия решений», неспособным самостоятельно развиваться. Существует целый ряд онлайн-платформ (в большинстве своем бесплатных) для разработки чат-ботов, где можно создавать свои собственные версии таких алгоритмов, используя все тот же подход. И для простых процессов они вполне пригодны. Не так давно я и сам создал очередной (совсем элементарный) вариант чат-бота. Все дело заняло у меня полдня. С одной стороны, это доказывает, что подобное «программирование» доступно даже человеку, далекому от техники. С другой стороны, очевидно, что искусственный интеллект в этом процессе был едва задействован, если вообще имело смысл о нем говорить.

В истории искусственного интеллекта было два затяжных периода «спячки», когда прогресс в этой области застывал на многие годы. Происходило это оба раза вследствие завышенных ожиданий от разработок, с последующим разочарованием и прекращением финансирования. Первая «спячка» длилась с 1974 по 1980 год и была спровоцирована тремя событиями. Во-первых, это был отчет сэра Джеймса Лайтхилла для правительства Великобритании за 1973 год, в котором критиковалось «громадье планов» научного сообщества, занимавшегося искусственным интеллектом, и неспособность ученых хоть как-то приблизиться к выполнению обещанного. Во-вторых, принятая в Соединенных Штатах так называемая «Поправка Мэнсфилда» потребовала, чтобы Агентство перспективных исследовательских проектов (ARPA, ныне известное как DARPA) финансировало только проекты с четко сформулированными задачами и целями, отдавая предпочтение оборонным заказам, – всем этим ограничениям в то время искусственный интеллект удовлетворять не мог. В-третьих, ключевой искусственный интеллект-проект, выполняемый для ARPA, который позволил бы летчикам-истребителям «разговаривать» со своими самолетами, уверенно двигался к полному провалу. Все эти события привели к тому, что большая часть финансирования была отозвана, а само выражение «искусственный интеллект» надолго вышло из моды.

Второй «ледниковый период» продолжался для искусственного интеллекта с 1987 по 1993 год и был в основном связан с неспособностью «экспертных систем» в 1985 году оправдать завышенные ожидания целого ряда корпораций, потративших миллиарды долларов на совершенствование этой технологии. Как и в случае с моим собственным чат-ботом, о котором я упомянул выше, экспертные системы в конечном итоге оказались сложными для написания, «сборки» и запуска на компьютере. Это делало их чрезмерно дорогими, и в начале 1990-х годов они быстро утратили популярность, чему способствовал одновременный крах на рынке сопутствующего оборудования (так называемых машин Lisp). В 1981 году в Японии стартовала программа стоимостью 850 млн долларов по разработке «компьютера пятого поколения», который мог бы «вести разговоры, переводить языки, интерпретировать картинки и рассуждать, как люди», но даже через десяток лет она не смогла достичь ни одной из своих целей (впрочем, некоторые из них остаются неосуществленными и поныне). И хотя в 1983 году DARPA начала снова финансировать в Соединенных Штатах проекты по развитию искусственного интеллекта в ответ на амбициозные планы Японии, дотации прекратились в 1987 году, когда в Отдел технологий обработки информации DARPA (который и направлял усилия и средства в разработку искусственного интеллекта, суперкомпьютеров и микроэлектроники) пришло новое руководство и заключило, что искусственный интеллект «не в тренде». Начальство отвергло экспертные системы на том основании, что это было просто «мудрствование на тему программирования», и, оглядываясь назад, можно считать это весьма прозорливой оценкой.

Я рассказываю о тяжелых для искусственного интеллекта временах потому, что возникает совершенно резонный вопрос: не является ли нынешний бум технологий искусственного интеллекта еще одним прецедентом, связанным с завышенными ожиданиями? Быть может, нас всех ждет уже третье по счету разочарование и прекращение дальнейших разработок? Как мы увидели в предыдущей главе, вся маркетинговая индустрия и аналитика бурлит от восторга по поводу искусственного интеллекта и его нынешних и потенциальных возможностей. Ожидания, следовательно, чрезвычайно высоки, однако если бизнес начнет сейчас верить всему, что говорится и пишется про искусственный интеллект, итогом может стать сильнейшее разочарование. Вот почему нам нужно как следует разобраться в том, что вынесло искусственный интеллект на нынешнюю волну популярности и почему в этот раз «заморозки» вряд ли повторятся.

С технологической точки зрения единственный термин, который вам следует запомнить на данный момент, – это «машинное обучение». Оно представляет собой современную версию экспертных систем, которую сейчас интенсивно финансируют, разрабатывают и применяют в самых различных областях. Но прежде чем я опишу (разумеется, в упрощенной форме), что такое машинное обучение, нам нужно понять, что представляют собой все остальные силы, участвующие в текущем компьютерном прорыве, и почему на этот раз для искусственного интеллекта все может сложиться по-другому. На мой взгляд, в области ИИ сейчас действуют четыре основные движущие силы.

Роль больших данных

Первой из движущих сил, породившей огромный интерес и создавшей высочайшую активность в области искусственного интеллекта, является колоссальный объем данных, доступных в современном мире. Специалисты называют разные цифры, но все они сходятся на том, что объем данных, генерируемых человечеством, удваивается каждые два года. Это означает, например, что в 2022 году будет создано (или скопировано) 88 зетабайт (то есть 88 трлн гигабайт) данных. Для нашей темы это исключительно важно, потому что большая часть технологий искусственного интеллекта подпитывается массовыми данными – без них искусственный интеллект был бы бесполезен, как электростанция без топлива.

Чтобы обучить систему искусственного интеллекта (например, нейронную сеть) с той или иной степенью точности, требуются миллионы примеров, и чем сложнее модель, тем больше примеров необходимо. Вот почему крупные интернет-компании и социальные сети, такие как Google и Facebook, настолько активны в сфере искусственного интеллекта – именно у них в первую очередь достаточно данных для такой работы. Поиски, выполняемые с помощью Google, создают около 3,5 млрд запросов в день, а публикации в «Фейсбуке» ежедневно обновляют 421 млрд статусов, загружают 350 млн фотографий и генерируют почти 6 трлн «лайков» – так вот и возникает топливо для этих систем. Один только Facebook формирует около 4 млн гигабайт данных каждые 24 часа.

Этот огромный объем данных используется искусственным интеллектом для создания тех или иных «ценностей» – в самом широком понимании. Воспользуемся снова простым примером, который я использовал в предыдущей главе: когда систему DNN обучают распознавать изображения собак. Чтобы научить систему, вам понадобится множество изображений собак, помеченных для системы как «собака», и такое же множество других изображений, где собаки отсутствуют и которые, соответственно, помечены как «собак нет». Только после того, как система научится распознавать собак с использованием исходного набора данных и пройдет этап предварительной проверки, на котором алгоритм дополнительно настраивается с использованием обучающих данных, разбитых на подмножества, систему можно (и нужно) протестировать на «чистом», то есть немаркированном наборе изображений.

Не существует строгих указаний относительно того, сколько именно данных необходимо для подобного тестирования, но, как правило, потребность в обучающих данных составляет около 30 % от общего массива.

Огромные объемы данных, которые мы постоянно создаем, используются в компьютерном мире каждую минуту и большей частью без нашего ведома, но с нашего согласия (как правило, невольного или неявного). Взять, к примеру, ваши поиски в Google. Когда вы вводите поисковый запрос, вы периодически пишете слова неправильно, или с ошибками, или не вполне стандартным (например, просторечным) образом. В ответ на это Google обычно предлагает вам результаты, основанные на правильном, или более распространенном, или более литературном написании этого слова. Скажем, если я пишу «Эндрю Дерджесс» (англ. Andrew Durgess), Гугл показывает мне результаты для Эндрю Берджесса (англ. Andrew Burgess), хотя я могу заставить его выполнить поиск именно для написанного мной варианта. Это означает, что Google постоянно собирает данные о версиях слов с ошибками и, что еще важнее, о том, какие предлагаемые системой исправления являются приемлемыми для пользователя, а какие – нет. Все эти данные затем используются для настройки проверки орфографии с помощью искусственного интеллекта. Но если, как в моем примере, существует реальный человек по имени Эндрю Дерджесс, который завтра внезапно станет знаменитым, то множество людей бросятся искать информацию о нем, и Google быстро отменит исправление «Эндрю Берджесс», поскольку все меньше и меньше людей принимают его и вместо этого выберут поиск: «Эндрю Дерджесс, точно как написано».