Страница 3 из 20
При этом просто игнорировать монетизацию нельзя, IFTTT – это не opensource на подаренном хостинге и не проект чьего-то свободного времени, а вполне серьезная компания с несколькими десятками программистов – поддерживать в актуальном состоянии работу с сотней API дело трудоемкое. Более того, в 2014 году он получил неадекватные 30 миллионов долларов по фантастической оценке в 170 миллионов, т. е. и превратиться в благотворительный opensource уже поздно, такую сумму инвесторам списать будет жалко. Значит, нужна монетизация, которой нет и придумать которую не получается, – ситуация тяжелая. Если всё будет идти как идет, то, когда закончатся деньги раунда, какой-нибудь Google или Facebook купит их по цене найма программистов – хорошо, если сервис после этого не свернется.
https://ifttt.com/
Несколько лет назад распознавание лиц и смежные технологии незаметно перестали быть чем-то эксклюзивным и превратились в стандартизованный товар. Функции типа «найти лицо на фотографии», «проверить, принадлежат ли лица одному человеку», «найти похожих людей», «определить пол и возраст» предоставляются десятком разных подрядчиков по приблизительно одинаковым ценам и со схожим качеством.
Разумеется, каждый из них может рассказать, почему именно он лучше всех остальных, и в каждом специфическом случае конкретного проекта есть смысл выбирать подрядчика внимательно, а не первого попавшегося, но в целом разницы между ними нет, да и меняются цены и наборы функций раз в полгода.
Стандартизация услуги привела и к открытости условий. Посмотрите на сайт российского VisionLabs: «У нас совершенно уникальная технология, пишите в наш отдел продаж, чтобы узнать условия». Так было модно еще года три назад, но сейчас такому подходу есть вполне человеческая альтернатива: у Microsoft или Kairos прайс-лист публичен, ключи к API можно получить онлайн, есть бесплатная версия с ограничением по числу запросов. Да, наверное, очень большой проект может и скидку получить через общение с живыми людьми, но стартап с десятком тысяч обращений в день просто платит с кредитной карты.
Цены, между прочим, довольно щадящие. Понятно, что всё бывает по-разному, но очень примерно – 0,1–0,3 цента за запрос. Т. е. если привлечение нового пользователя стоит хотя бы рублей 30 и какая-нибудь распознавательная финтифлюшка увеличивает его вовлеченность или конверсию хотя бы процентов на 5, то это уже выгодно с запасом. А если 5 % нет, то и зачем оно?.. При этом маржа выглядит более чем достойно, если считать, скажем, запрос в секунду на ядро процессора, то каждое ядро приносит своим владельцам несколько сот долларов в день. Обратная сторона этой медали очевидна: для сайтов знакомств и подобных сервисов, где поиск лиц актуален на каждом клике, а не пару раз за жизнь, такой прайсинг может быть разорителен, но для них есть предложения по офлайн-SDK с фиксированной ценой.
В общем, в плане доступности технологии будущее уже наступило. Качеству есть еще куда расти, особенно в плане вычисления возраста и определения настроения, но для многих задач всё уже готово. Для иллюстрации: в Китае водитель Didi обязан иногда показывать таксометру свое лицо, чтобы доказать, что он – это действительно он, а не его знакомый на чужом подключении ездит.
Китайский Face++ – один из дюжины мировых проектов, называющих себя лидерами в технологии распознавания лиц. Впрочем, по венчурному финансированию Face++ точно среди лидеров, еще с предпоследнего раунда в 100 миллионов долларов. Зарабатывает компания в основном на контрактах с государством и крупными корпорациями, но и стартапчикам дает открытое API с онлайн-подключением и оплатой по карте.
Результаты бизнеса непрозрачны, масштаб новых интеграций оценить обычно трудно, но, судя по инвестициям, всё идет хорошо, в ноябре 2017 года Face++ получил почти полмиллиарда долларов по оценке в миллиард.
https://www.faceplusplus.com/
Еще одна внезапно решенная проблема – понимание простых фраз на естественном языке, что-то на уровне Siri или Cortana. Русский язык публично предлагает Яндекс, а сервисов для понимания английского или даже испанского в интернете просто много.
Не возьмусь утверждать, что стартап SoundHound – самый продвинутый из всех, но у него кроме технологии есть еще и ее собственные применения. Начнем с API. Сделан он правильно, с онлайн-регистрацией и открытым прайсом, без необходимости общения с сейлзами, но с бесплатным минимальным тарифным планом и преднастроенной демонстрацией технологии. Качество продукта объективно оценить сложно – что-то он понимает, что-то нет, процент успеха с очевидностью зависит от акцента говорящего, выбранной темы и просто везения, некое число типа «72 % верных ответов» не говорит ни о чем. Наверное, правильно было бы проверять его через детские тесты: «Разговаривает на уровне среднего ребенка 5 лет и 8 месяцев», – это была бы наиболее информативная оценка. Но, увы, сейчас могу только сказать, что субъективно по распознаванию звуков он примерно на уровне Nuance (это то, что в трех четвертях приложений с голосовым вводом используется), а по пониманию смысла – хоть и неожиданно хорош в простых предложениях, но запутаться может и в них. Сложносочиненные не берет ни в какую.
Сто́ит доступ в самом простом случае от нескольких сотен до нескольких тысяч запросов за доллар в зависимости от размеров выбранного пакета, но это «общая лексика», подключение некоторых тематических пакетов легко может изменить цену раз в десять. Тем не менее, считая даже по 100 запросов за доллар и три фразы в минуту от живого человека, получается, что «зарплата» робота – 300 долларов в месяц за восьмичасовой рабочий день без простоев, отпусков, перекуров, больничных и налогов на ФОТ. В большинстве стран это вполне экономически целесообразный сотрудник колл-центра – и нет, он не будет как голосовой IVR, который в «Аэрофлоте» стоит уже сто лет, конечный клиент может и не понять, с кем разговаривает. А уж во всевозможные текстовые онлайн-помощники его точно можно вставлять по схеме «робот отвечает на то, на что может, человек – на всё остальное». Даже интересно, почему это не встречается в обычной жизни – компания, между прочим, заявляет о 20 000 разработчиков, использующих ее API, а она такая не единственная.
Кроме синтетического демо, на технологии SoundHound можно посмотреть в двух живых приложениях. Hound – полный аналог Siri, но за счет отсутствия в девайсе по умолчанию в тысячу раз менее популярный. SoundHound – умный Shazam, приложение умеет определять звучащую музыку или песню. Главное преимущество SH по сравнению с оригиналом – возможность найти песню не только по профессиональному исполнению, но и если ее пользователь сам в микрофон напоет. «Лучший способ узнать, что за мелодия к тебе прилипла, если не считать любого поисковика». Тем не менее, несмотря на сомнительную пользу отличия и чудовищный интерфейс, страшно перегруженный рекламой, приложение очень популярно, порядка миллиона загрузок в месяц – 1/6 от настоящего Shazam.
Осенью 2017 года компания получила новый раунд инвестиций, по сравнению с предыдущим оценка выросла с 830 миллионов долларов до миллиарда (у Shazam, для сравнения, на пике был миллиард, а публичный Nuance стоит 5 миллиардов). Тратить деньги планируют на расширение числа предметных областей, с которыми умеет работать их AI, и, разумеется, на маркетинг.
https://www.soundhound.com/
Казалось бы, что может быть проще, чем отправка электронного письма из кода сайта? Пара строчек на родном Python или PHP – вот и всё, задача для Junior-разработчика на полчаса с учетом отладки. Увы, спасибо спамерам и антиспамерам, на деле всё куда сложнее: нужно иметь свой почтовый сервер, нетривиально его настроить, а потом следить, чтобы он не сломался или кто-нибудь из крупных почтовиков его не забанил.