Додаток 1 1990 Фогель Ф, Мотульський А

Методи підрахунку генних частот

У цій книзі розглядаються лише основні засади підрахунку частот генів (розд. 3.2). Докладніше ці питання викладено у роботах Рейса і Сенгера [166], Муранта [144] та інших. Ми почнемо з найпростішого прикладу.

Одна пара алелів: усі три генотипи мають різний фенотипічний вираз. І тут можна ідентифікувати кожен окремий аллель (М чи N), і частота гена підраховується прямо. Як приклад можна навести ізоантигени групи крові MN:

Можна вирахувати і дисперсію

Генні частоти рˆ і qˆ використовують для тестування відповідності фенотипічних частот, що спостерігаються, їх очікуваним значенням за законом Харді - Вайнберга. Застосовуючи таку формулу, можна уникнути обчислення очікуваних значень

Цей метод підрахунку придатний і в тому випадку, коли є більше двох алелів і кожному генотипу відповідає певний фенотип; наприклад, для поліморфних варіантів кислих фосфатаз еритроцитів.

Одна пара алелей: за фенотипом можна визначити лише два різні генотипи. Проблема ускладнюється, якщо один із двох алелей домінує, тобто гетерозигота фенотипно збігається з однією з гомозигот. І тут за частотою рецесивних гомозигот можна будувати висновки про частоті відповідного гена.

Частота гомозигот становить q2. Прикладом може бути група крові Дієго (Diego) (розд. 7.3.1). У американських індіанців і в монголоїдних популяціях є два фенотипічні класи: які виявляють позитивну реакцію аглютинації з сироваткою анти-Di і не виявляють такої. Сімейні дослідження показали, що негативний тип реакції є рецесивною ознакою

У цьому випадку не залишається жодногоодного ступеня свободи для тестування рівноваги Харді – Вайнберга.

Якщо є анти-Di b сироватка, можна ідентифікувати гетерозигот і обчислити частоту гена тим же способом, що був описаний вище для груп крові MN.

Більше двох алелів: не всі генотипи можна розрізнити за фенотипом. Спеціальний випадок груп крові АВ0 вже обговорювався у розд. 3.2.2.

Метод підрахунку, що ґрунтується на принципі максимальної правдоподібності. Ми стикаємося із загальною проблемою оцінки апріорно невідомого параметра за емпіричними даними. Згідно з Фішером, оцінка повинна задовольняти наступним умовам:

а) вона має бути заможною. Це означає, що зі збільшенням числа спостережень оцінка сходить стохастично (ймовірно) до параметра;

б) оцінка має бути достатньою. Це означає, що з наявних даних не можна отримати додаткові знання про параметр за допомогою обчислення інших статистик;

в) оцінка має бути ефективною, тобто витягувати з даних максимально можливу кількість інформації. Дисперсія має бути мінімальною.

Зазвичай проблема оцінки найкраще вирішується з урахуванням принципу максимальної правдоподібності, запропонованого Фішером. Розглянемо спочатку простий приклад.

Імовірність настання n1 подій, кожна з яких має ймовірність р, і n - n1 подій, кожна з яких має ймовірність 1 - р, відповідно до біномного розподілу дорівнює

Щоб знайти значення р, для якого ця ймовірність максимальна, слід прирівняти першу нулю похідну L по р. Для зручності замість L зазвичай максимізують її логарифм

Отже, р = n1/n – результат, який інтуїтивно очевидний. Це означає, що n1 = nр, тобто для біномного розподілу найбільш ймовірнезначення параметра є таке, для якого очікуване значення збігається із спостережуваним. Наведемо без висновку формулу для дисперсії (у разі великих вибірок) цієї оцінки параметра р, яка виходить підстановкою оцінки максимальної правдоподібності параметра р у вираз для негативної зворотної другої похідної L по р. У нашому випадку

Цей вираз для s 2 можна отримати зручнішим способом. Підстановка р = n1/n та 1 - р = (n - n1)/n у загальну формулу для дисперсії біномного розподілу V = p (1 - р)/n дає той самий результат.

Розглянемо тепер загальніший випадок [150]. Нехай x буде випадковою змінною, розподіл якої залежить лише від р. Тоді функцію густини ймовірності для x можна записати як f(x; p). Нехай є і реалізацій (вибір обсягу n) x1, х2, . хn змінної x. Тоді ймовірність такої вибірки можна записати так:

Якщо в цей вислів підставити конкретні вибіркові значення і розглядати його як функцію від р, то вийде функція правдоподібності даної вибірки. Оцінка максимальної правдоподібності знаходиться шляхом рішення щодо наступного рівняння:

Дисперсію цієї оцінки отримують шляхом обчислення другої похідної та взяття негативної зворотної величини її математичного очікування (математичне очікування зазвичай позначається символом E)

1/s 2 називається також інформацією про р або Ipp.

Проте метод Бернштейна з поправками виявився практично еквівалентним. Отже, формули, отримані з рівнянь максимальної правдоподібності, можна використовувати для обчислення дисперсій оцінок Бернштейна;

Тут n означає обсяг вибірки (для всіх чотирьох груп крові разом).

Обчислення частот алелей груп крові системи АВ0 методом Бернштейна. Бернштейн для дослідження генетичної основи системи АВ0 (розд. 3.2) розробив метод оцінки частот алелей груп крові цієї системи. Потім він удосконалив свій метод, отримуючи спочатку попередні оцінки частот р', q', r', а потім виправляючи їх для обчислення точних генних частот р, q, r:

де D = 1 – (p' + q' + r'). Було показано, що оцінки, які отримуються з використанням цього вдосконаленого методу Бернштейна, практично ідентичні оцінкам максимальної правдоподібності.

приклад: оцінка генних частот за допомогою підрахунку генів. Рейс і Сенгер [166] навели такі фенотипічні частоти для жителів Лондона, Оксфорда та Кембриджа:

Отже, відповідно до рівняння (П. 1.1) частота ралеля М і частота q алелі N рівні:

Звідси випливає р2 = 0,2827; 2pq = 0,4980; q 2 = 0,2193.

Щоб обчислити очікувані генотипічні частоти (Е), ці цифри слід помножити на 1279 р. - загальна кількість обстежених жителів

Тепер порівняємо ці очікувані значення зі спостережуваними

В даному випадку немає статистично значущої різниці між спостеріганими та очікуваними генними частотами.

Приклад: оцінка частот аллелей системи АВ0 [711]. Для 21104 жителів Берліна було знайдено наступний розподіл за групами крові:

Відповідно до вдосконаленого методу Бернштейна це дає такі результати (докладніше в розд. 3.2.2):

p = 0,287685 ± 0,002411,

q = 0,106555 ± 0,001545,

r = 0,605760±0,002601.

Було показано, що метод максимальної правдоподібності призводить до таких самих результатів [711]. Дисперсії за методом максимальної правдоподібностівийшли наступними:

Для отримання стандартних відхилень потрібно витягти квадратне коріння з цих дисперсій.

Так само, як було показано для груп крові MN, за частотою алелів А, В і 0 можна обчислити очікувані генотипічні частоти і порівняти їх з частотами, що спостерігаються за критерієм хі-квадрат.

Проте неадекватність складання вибірки не компенсується обробкою комп'ютера. Всі згадані досі методи засновані на припущенні, що вибір індивідів проводився незалежно, тобто вибір якогось одного індивіда не збільшує і не зменшує шанс бути обраним для будь-якого іншого індивіда в популяції. Це правило порушується, наприклад, при зборі даних родичів. Однак не можна сказати, що вибірки, що містять родичів, завжди не приносять користі для обчислення генних частот. Але включення родичів у вибірку має бути обов'язково відзначено разом зі ступенем їхньої спорідненості, і для аналізу повинні використовуватися спеціальні статистичні методи [211].