Семплювання коли виникає і як його позбутися
Створити звіт у Google Analytics. Просте завдання, поки не побачиш таке повідомлення:
Що це означає? Google Analytics бере 10% даних. Домножує їх на 10. І каже, що 100% так би поводилися.
Це класно, коли працюєш із великими цифрами. Звіт готується швидко.
Але є недоліки. Уявіть, що ви отримали 1 із 10 шматочків торта. І треба зрозуміти, скільки на торті свічок. Якщо вам трапився шматок без свічки – ви скажете, що 0. Якщо з 1 свічкою – то 10. А якщо 2 – то 20.
Так само і в аналітиці. Ви вивантажуєте статистику за ключовими словами. Analytics побудував звіт на 10% даних. У ці дані увійшов запит, який ввів лише 1 особа. Але в семпльованому звіті ви побачите, ніби цей запит навів 10 людей.
Семплювання спотворює дані. Як його позбутися?
Рішення 1. Google Analytics Premium
Інструмент коштує $150 000 на рік. Буде корисний, якщо проект відвідуваний і ви стикаєтеся із семплюванням постійно. Або якщо ви робите складні вибірки.
Проблема в тому, що у GA Premium теж є семплювання. Але можна вивантажити вибірку на сторонній ресурс. Наприклад, у Excel. І там уже опрацьовувати сирі дані.
Плати, не плати. Excel все одно знадобиться.

Рішення 2. Спробувати обійти семплювання
Щоб оминути семплювання, треба розуміти, як воно виникає.
Коли виникає семплювання?
1. Нестандартний звіт
- Користувальницькі звіти - Custom Reports;
- Розширені сегменти - Advanced Segments;
- Використання додаткових змінних – Secondary Dimensions.
2. Багато даних
Якщо у звіті за період:
- 1 000 000+рядків – унікальних параметрів (dimensions). Наприклад, рефералів чи ключових слів.
- 500 000+ сесій користувачів на рівні ресурсу (property). Як використовувати веб-аналітику у великих проектах.
Чим більше інформації потрібно вивантажити, тим частіше зустрічається семплювання.
Як обійти семплювання?
1. Короткі періоди часу
Наприклад, ви створюєте звіт за рік. Виникає семплювання. Замість одного великого створіть 12 дрібних звітів. Щомісяця. Вивантаження даних забере більше часу. Проте семплювання може відключитися.
2. Висока точність замість швидкої обробки
Під час створення звітів у Google Analytics натисніть на таку іконку:

І поріг семплювання множиться вдвічі. Звіт будувався на 10% даних? Після вибору «Високої точності» він довше вантажитиметься, але захопить вже 20% вибірки.
3. Відфільтровані заздалегідь уявлення (Views)
Якщо ви плануєте створити звіт і сегментувати дані, змініть порядок дій. Створіть заздалегідь відсегментовані уявлення. І вивантажуйте звіти окремо для кожної частини даних.
Але це не завжди працює. Складні звіти навіть у фільтрованому поданні можуть бути семпльованими.
4. Спрощений запит
Зробіть вибірку простіше, щоб менше навантажувати Analytics. Наприклад, ви звикли фільтрувати якийсь параметр за регулярним виразом. Спробуйте профільтрувати точно. Можливо, частина даних буде простіше обробити в Excel.
5. Рішення на основі API - Google Analytics Query Explorer 2
Google Analytics Query Explorer 2
Це пісочниця від Google. Вона використовує ту ж мову запитів. Тут ви можете створювати запити. Ділитись посиланням із колегою.
Переваги
- Можна використовувати більше Dimentions – максимум 7.
- Дані можна стягувати з різних профілів. Зручно, якщо у вас кілька сайтів.
- Дані після вивантаження можна поєднувати з іншими базами - CRM-система, SQL-база.
Обмеження
- 50 000 для проекту на день
- 10 запитів на секунду на IP
Core Reporting API
- 10 показників
- 7 параметрів
- 10 000 рядків даних як результат запиту
- 10 000 запитів для профілю на день
- 10 паралельних запитів для профілю
Як працює? Будуйте запит - які дані хочете отримати. Даєте посилання звіт програмісту. Просіть вивантажити дані API.

Зверніть увагу! Google Analytics Query Explorer вивантажує до 10 тис. рядків за один раз.
Що робити, якщо вибірка має понад 10 тис. рядків? Щоб вивантажити всі дані, можна створити кілька запитів:
- Запит 1. Вивантажити 10 000 рядків (max-results) від рядка 1 (start-index)
- Запит 2. Вивантажити 10000 рядків (max-results) від рядка 10001 (start-index)
- Запит 3. Вивантажити 10000 рядків (max-results) від рядка 20001 (start-index).
Існують інші інструменти, за допомогою яких можна завантажувати дані з Google Analytics. Вони захищають від семплювання. А для особливо великих проектів значно зменшують його. Читайте про те, які бувають джерела даних для Інтернет-проекту, крім Google Analytics.
Supermetrics Data Grabber
Це доповнення до Excel. Працює з Windows Excel 2003+ та з Mac Excel 2011.
Витягує дані з Google Analytics, Google AdWords, Bing Ads, Facebook, Youtube, Twitter.
Вартість: 39-174 $ на місяць.
Як працює? Вибираєте період, метрики і ставите галочку «Спробувати позбутися семплювання». І вивантажуєте звіт.

Supermetrics for Google Docs
Додаток до Google Docs, Google Sheets.
Витягує дані з Google Analytics, Google AdWords, Google Webmasters Tools, Bing Ads, Facebook, Youtube, Twitter, Database.
Вартість: безкоштовно, 49-99 $ на місяць.
Платна версія частково вирішує проблему семплювання. Безкоштовна – ні.
Як працює? У Google Docs з'являється колонка праворуч. У ній можна вибрати за якими параметрами будувати звіт. Вивантажує до 100000 рядків.

Analytics Canvas
Програма, що працює на Windows XP, Vista, 7, 8
Витягує дані з Google Analytics, Bing Ads, Excel, Database (SQL etc.)
Вартість - 49-798 $ на місяць
Переваги. Експортує витрати на Google Analytics.

Мова програмування "R" + доповнення RGA

Працює з Windows, Mac.
Витягує дані з Google Analytics.
Переваги. Безкоштовний інструмент.
Як працює? Спеціальний скрипт підвантажує кілька бібліотек. Іде до API на Google Analytics.
Щоб уникнути семплювання, зверніть увагу на 2 параметри: batch і walk.
Batch. Поділяє вибірку на групи по 10 000 рядків. Вивантажує дані порціями. Як Google Analytics Query Explorer. Потім склеїти все в один файл.
Walk. Корисний, коли вивантажуєте дані за великий період. Параметр поділяє дані щодня. Якщо ви створюєте звіт за 1 рік, параметр walk поділить його на 365 окремих блоків. Вивантаження даних займе більше часу, зате ви позбавитеся семплювання.
Файли для встановлення,інструкцію з налаштування та скрипт для R+RGA дивіться на Roman.ua.
Не задовольняйтесь малим. Аналізуйте усі дані!