Наверное одна из самых ярких историй о важности мощности статистического критерия – это публичная критика Даниеля Канемана и последующая реакция на нее.

Мощность – это вероятность критерия зафиксировать эффект, если он действительно есть. Сейчас этот показатель – оплот частотного подхода. Видимо в 2001 году, когда выходил бестселлер Канемана "Думай медленно, решай быстро", было по-другому.

Среди прочих когнитивных искажений Канеман и его коллега Амос Тверски исследовали так называемый эффект прайминга – при котором человек принимает решения в зависимости от краткосрочного предыдущего опыта.

Один из экспериментов, описывающий его – исследование студентов, которым были предложены такие слова как «старость», «морщины», «седина», «возраст». Оказалось, что при перемещении в другую аудиторию они двигались более медлительно. Вот за этот и другие эксперименты Канеману и досталось.

Разоблачителем выступил Ульрах Шиммак – профессор психологии из Торонто. Он настолько озаботился проверкой результатов психологических экспериментов, что в 2014 даже создал сайт с аналитикой таких исследований – replicationindex.com.

Так вот, именно на этом ресурсе была опубликована нашумевшая критика экспериментов Канемана: оказалось, что 11 из 12 научных работ, на которых базировалась "Думай медленно, решай быстро" использовали результаты ненадежных исследований – с крайне низким R-Index (индекс воспроизводимости).

R-Index – своеобразная прокси на мощность. При норме 50 в исследованиях, изучаемых Канеманом, он был в районе 14-19 (пруф). То есть по сути результаты этих экспериментов обладали крайне низкой мощностью (надежностью). Но Канеман с честью вышел из этой ситуации – он признал свои ошибки. Его ответ (пруф) звучал так:

"... я слишком сильно полагался на недостаточно мощные исследования. Как указано в блоге в моей ошибке есть особая ирония, потому что первая статья, которую Амос Тверски и я опубликовали, касалась веры в 'закон малых чисел', который позволяет исследователям доверять результатам недостаточно мощных исследований с чрезмерно маленькими выборками…".

Вспомнил эту историю, когда наткнулся на презентацию Ronny Kohavi (Ex-Airbnb, Ex-Microsoft, Ex-Amazon) об AB-тестах. Среди прочего в ней обсуждается важность мощности и используется как раз этот пример.

У этой истории аж 2 морали:

1. Используйте мощность для анализа своих экспериментов.

2. Если совершаете ошибки – признавайте их.

Больше о работе с данными в продукте и маркетинге есть в Телеграм-канале "Модель атрибуции”