Наверное одна из самых ярких историй о важности мощности статистического критерия – это публичная критика Даниеля Канемана и последующая реакция на нее.
Мощность – это вероятность критерия зафиксировать эффект, если он действительно есть. Сейчас этот показатель – оплот частотного подхода. Видимо в 2001 году, когда выходил бестселлер Канемана "Думай медленно, решай быстро", было по-другому.
Среди прочих когнитивных искажений Канеман и его коллега Амос Тверски исследовали так называемый эффект прайминга – при котором человек принимает решения в зависимости от краткосрочного предыдущего опыта.
Один из экспериментов, описывающий его – исследование студентов, которым были предложены такие слова как «старость», «морщины», «седина», «возраст». Оказалось, что при перемещении в другую аудиторию они двигались более медлительно. Вот за этот и другие эксперименты Канеману и досталось.
Разоблачителем выступил Ульрах Шиммак – профессор психологии из Торонто. Он настолько озаботился проверкой результатов психологических экспериментов, что в 2014 даже создал сайт с аналитикой таких исследований – replicationindex.com.
Так вот, именно на этом ресурсе была опубликована нашумевшая критика экспериментов Канемана: оказалось, что 11 из 12 научных работ, на которых базировалась "Думай медленно, решай быстро" использовали результаты ненадежных исследований – с крайне низким R-Index (индекс воспроизводимости).
R-Index – своеобразная прокси на мощность. При норме 50 в исследованиях, изучаемых Канеманом, он был в районе 14-19 (пруф). То есть по сути результаты этих экспериментов обладали крайне низкой мощностью (надежностью). Но Канеман с честью вышел из этой ситуации – он признал свои ошибки. Его ответ (пруф) звучал так:
"... я слишком сильно полагался на недостаточно мощные исследования. Как указано в блоге в моей ошибке есть особая ирония, потому что первая статья, которую Амос Тверски и я опубликовали, касалась веры в 'закон малых чисел', который позволяет исследователям доверять результатам недостаточно мощных исследований с чрезмерно маленькими выборками…".
Вспомнил эту историю, когда наткнулся на презентацию Ronny Kohavi (Ex-Airbnb, Ex-Microsoft, Ex-Amazon) об AB-тестах. Среди прочего в ней обсуждается важность мощности и используется как раз этот пример.
У этой истории аж 2 морали:
1. Используйте мощность для анализа своих экспериментов.
2. Если совершаете ошибки – признавайте их.
Больше о работе с данными в продукте и маркетинге есть в Телеграм-канале "Модель атрибуции”
