Получаете разные результаты при анализе данных Google Analytics 4 в BigQuery по сравнению с стандартным интерфейсом отчетности? Понимание различий между двумя методами анализа данных необходимо для точных и надежных выводов. В статье Минхаза Кази из Google описаны наиболее значимые расхождения между BigQuery и пользовательским интерфейсом GA4 и советы по обеспечению точного расчета метрик. Вот мое краткое резюме основных различий и способов как их избежать:

Сэмплирование
Предварительно обработанные таблицы базы данных в GA4 используются в стандартных отчетах и Data API. При исследованиях же используется необработанные данные, но они сэмплируются, если количество событий превышает квоту от 10 млн. Чтобы сопоставить данные с экспортом из BigQuery, проверьте отчеты без сэмплирования в исследованиях.

Различные определения пользователей в GA4 и BigQuery
Метрика "Всего пользователей" в GA4 считает пользователей, которые выполнили по крайней мере одно событие, но при этом "Активные пользователи" - это основная отчетная метрика. При расчете количества пользователей из BigQuery следует фильтровать активных пользователей на основе критериев для каждого типа потока. Реализация запросов может варьироваться, но в скором времени в BigQuery будет добавлено поле is_active_user для упрощения фильтрации.

HyperLogLog++
GA4 использует алгоритм HLL++ для оценки активных пользователей и сеансов. Расчеты в интерфейсе и API являются приблизительными значениями с уровнем точности, который варьируется в зависимости от метрики и доверительных интервалов. В BigQuery можно использовать точные расчеты с потенциально небольшими отклонениями в метриках. Дополнительную информацию можно найти в HLL++ Sketches.

Задержка во времени
BigQuery создает ежедневные таблицы после сбора всех событий из GA4 за день. Эти таблицы могут обновляться до 72 часов после даты. Эта проблема в основном влияет на реализации Firebase SDK или Measurement Protocol с отложенными событиями. Сравнения между BigQuery и GA4 должны проводиться на данных старше 72 часов из-за возможных расхождений между стандартными отчетами и экспортом из BigQuery.

Google Signals
Активация Google Signals в GA4 позволяет избежать проблемы учета нескольких пользователей для одного юзера, просматривающего ваш сайт на нескольких браузерах и устройствах. Однако, при экспорте в BigQuery могут по-прежнему отображаться несколько user_pseudo_id – поскольку BigQuery работает на основе cookie-идентификтаоров.

Режим согласия и Моделированные данные
Если пользователи не дали согласие на использование куки, то в GA4 используется моделирование, чтобы заполнить пробелы в данных. Но в BigQuery при этом user_pseudo_id может меняться в зависимости от сессии и это провоцирует различия между стандартными отчетами и BigQuery. Внедрение User-ID в GA4 снижает этот эффект.

Атрибуция трафика
В BigQuery данные об атрибуции трафика доступны на уровне пользователя и события, но не на уровне сессии, поскольку GA использует собственную модель атрибуции. Чтобы создать пользовательскую модель, вы можете объединить набор данных с first-party-данными. В будущем в BigQuery будет доступно больше данных для атрибуции трафика.

Ошибки вычислений
Для обеспечения точности метрик в BigQuery важно использовать правильные методы расчета, такие как подсчет уникальных комбинаций user_pseudo_id/user_id и ga_session_id. Также следует учитывать способ идентификации, область действия параметров и показателей, разницу в часовых поясах и ограничения на фильтрацию/экспорт данных, которые могут вызывать расхождения между данными экспорта событий BigQuery и стандартными отчетами.

Учитывайте эти моменты при работе с данными GA4 в BigQuery, чтобы получить точные и надежные данные.

Ссылка на статью Минхаза Кази.

Больше о работе с данными в продукте и маркетинге есть в Телеграм-канале "Модель атрибуции”