Добавить в цитаты Настройки чтения

Страница 19 из 21

• Удержание (retention): число клиентов, повторно использующих продукт. Отслеживается в виде таких показателей, как количество активных пользователей в день (DAU, daily active users), в месяц (MAU, monthly active users) или их соотношение (DAU/MAU). Также сюда относятся метрики использования, такие как количество минут просмотра видео на YouTube.

• Рекомендации (referral): готовность клиентов советовать продукт другим пользователям. Можно оценивать, например, по количеству отправленных приглашений. Многие компании также отслеживают индекс потребительской лояльности (NPS, net promoter score), рассчитываемый на основе ответов на вопрос: «Какова вероятность, что вы порекомендуете наш продукт?» Этот вопрос показывает, насколько успешным может быть сарафанное радио.

• Доход (revenue): объем дохода. Например, стоимость подписки, приобретение продукта или продажа рекламы. Здесь важно отслеживать пожизненную ценность клиента (lifetime value, LTV), чтобы сравнить ее со стоимостью его привлечения (cost of acquiring a customer, CAC). Существует универсальное правило – соотношение LTV: CAC должно быть не менее 3: 1. Когда действующий клиент отменяет подписку, это называется оттоком.

Обратите внимание, что эти метрики тесно связаны с концепцией «Путь клиента» (с. 50). Они подходят для широкого спектра продуктов, но, возможно, их придется слегка доработать, чтобы они отвечали задачам именно вашего бизнеса.

A/B-тестирование и статистика

A/B-тестирование, также известное как сплит-тестирование или онлайн-эксперимент, представляет собой живой эксперимент с имеющейся базой пользователей. Одна случайная выборка пользователей получает одну версию продукта, так называемый вариант, а другая – второй вариант. Затем вы сравниваете, какой из вариантов лучше сработал для достижения ваших целей, например увеличения кликабельности или конверсии. Как правило, по завершении теста версия, показавшая лучшие результаты, распространяется среди 100 % пользователей.

Одновременно тестируя продукт на двух случайных группах пользователей, вы можете быть уверены, что любые различия между результатами групп будут обусловлены разницей между версиями. Если вместо этого предложить модифицированную версию всем пользователям, а потом сравнить полученные значения с показателями предыдущего месяца, вам будет сложно понять, какие изменения вызваны внешними факторами, например сезонностью или рекламной кампанией конкурентов, а какие нет.

Некоторые A/B-тесты сравнивают две альтернативы какой-то функции, например синий или зеленый цвет кнопки. Другие сопоставляют текущее положение дел с возможными изменениями, такими как добавление окна поиска в верхней части страницы.

A/B-тестирование невероятно полезно, потому что оно дает реальную информацию о том, как люди действуют на самом деле, а не о том, как они, по их мнению, поступят. Оно наиболее точно отображает действительный эффект от вашего продукта.

Такие мелочи, как надпись на кнопке в форме регистрации, могут значительно повлиять на важные показатели, например количество зарегистрировавшихся пользователей. С другой стороны, A/B-тестирование увеличивает сроки выполнения проекта и может сбить с толку пользователей или вызвать у них раздражение, если они заметят, что видят разные версии продукта. К применению А/В-тестирования нужно подходить очень разборчиво – используйте его, только чтобы проверить изменения чувствительных к интенсивному трафику компонентов продукта, которые будут иметь преимущественно краткосрочный эффект[33].

ЧТО НУЖНО ЗНАТЬ О СТАТИСТИКЕ

• Принцип, лежащий в основе A/B-тестирования, достаточно прост – сравнить две вещи и выбрать ту, что лучше. Все!

Более сложный вопрос заключается в следующем: как долго нужно проводить эксперимент? Когда вы будете уверены, что вариант 2 на самом деле лучше, чем вариант 1? Вот тут-то и пригодится понимание статистики.

Представьте, что вы пытаетесь определить, «честная» ли у вас монетка, то есть дает ли она равную вероятность выпадения орла и решки. После 20 бросков количество орлов равно 60 %. Значит, монета «нечестная»? Трудно сказать. Однако, если вы подбросите монетку 1000 раз и орел выпадет снова в 60 % случаев, вы можете сделать вывод, что монета, вероятно, и правда не совсем «честная».

Чем дольше идет эксперимент, тем выше наша уверенность в правильности результата. Однако здесь есть нюанс. Эксперименты отнимают много времени, поэтому не стоит проводить их дольше, чем необходимо.

Это касается и A/B-тестов. Проверять варианты А и В нужно так долго, пока не появится уверенность в правильности выбора, но не затягивать их настолько, чтобы нельзя было принять решение или испробовать другие варианты.





Итак, как долго должен длиться эксперимент? Сколько людей должны увидеть варианты А и В, прежде чем мы сможем определиться с выбором? Проводить эксперимент нужно до тех пор, пока результат не приобретет статистическую значимость для метрик успеха, то есть пока не станет ясно, что случайное возникновение изменений в показателях маловероятно.

Чтобы определить статистическую значимость, можно вычислить одну из следующих величин: доверительный интервал (confidence interval) или p-значение (p-value). Обе они помогают понять, является ли результат статистически существенным, но доверительный интервал дает дополнительную информацию о диапазоне возможных значений.

Доверительный интервал

Предположим, что мы хотим узнать средний рост учащихся в школе. Чем больше детей мы измерим, тем ближе наши расчеты будут к фактическому среднему значению. Допустим, мы измерили рост 50 случайных учеников, и с вероятностью в 95 % (стандартное значение, используемое большинством компаний) получили доверительный интервал от 122 до 132 сантиметров. Это значит, что с вероятностью в 95 % фактический средний рост – если бы мы измерили рост всех учеников в школе – составляет от 122 до 132 сантиметров[34]. Однако все еще существует вероятность в 5 %, что мы ошибаемся, и средний рост выше или ниже этого диапазона.

Конечно, для PM рост пользователей не важен. PM занимаются обновлением приложений и хотят знать, помогли внесенные изменения или нет, и насколько.

Если эксперимент с вероятностью в 95 % показывает доверительный интервал количества зарегистрированных пользователей в 10–12 %, это означает, что вариант B увеличил количество новых регистраций на 10–12 %. Отлично! Если бы вместо этого он показывал диапазон от –12 до –10 %, это был бы провал.

Часто доверительный интервал охватывает сразу отрицательные и положительные значения, а также ноль, например от –4 до 3 %. Это значит, что нам неизвестно, привело ли изменение продукта к росту или снижению показателей. Поскольку доверительный интервал включает в себя ноль, изменение может дать как отрицательный результат – потерю до 4 %, так и положительный – прирост до 3 %.

Если помимо имеющихся в вашем распоряжении данных у вас есть причины полагать, что изменение будет успешным (например, оно понравилось пользователям из бета-группы), то вы можете принять потерю в 4 % как приемлемую и запустить обновление продукта.

Итоговое значение доверительного интервала может означать успех, провал или быть нейтральным. По мере сбора большего количества данных в ходе эксперимента границы доверительного интервала будут сжиматься, и мы сможем увидеть, что эксперимент покажет 1–2 % успеха.

Чем дольше длится эксперимент, тем сильнее уменьшается доверительный интервал (то есть диапазон сокращается, и мы получаем более точную информацию об ожидаемом воздействии изменений). Если к концу эксперимента интервал равен 1–2 %, это означает, что с вероятностью в 95 % тестируемые изменения улучшат показатели на 1–2 %. Это можно считать успехом.

33

A/B-тесты хорошо подходят для проверки того, как обновления продукта влияют на количество новых пользователей и монетизацию, так как эти показатели чувствительны к изменениям и по ним можно быстро понять, сработали эти изменения или нет. Изменения, направленные на удержание пользователей или улучшение репутации бренда, трудно измерить с помощью A/B-теста.

34

Технически это означает, что в 95 % экспериментов с одним набором тестируемых образцов доверительный интервал будет включать истинное значение. На практике намного проще использовать грубое определение.