Najlepsza liniowa nieobciążona predykcja (BLUP - best linear unbiased prediction)
Wiadomości ogólne
Podstawową metodą hodowlaną stosowaną w populacjach zwierząt gospodarskich jest selekcja, która polega na wyborze na rodziców zwierząt najlepsze pod względem genetycznym po to, aby uzyskać jak najlepsze potomstwo. Miarą wartości genetycznej jest wartość hodowlana. Aby zatem selekcja mogła być przeprowadzana skutecznie muszą być znane wartości hodowlane selekcjonowanych zwierząt. Wartości hodowlanej nie można zmierzyć bezpośrednio. Możemy ją jednak określić pośrednio na podstawie obserwacji (wydajności) cech samego ocenianego osobnika albo jego krewnych. Ze statystycznego punktu widzenia zagadnienie sprowadza się do określenia jednej zmiennej na podstawie wartości przyjmowanych przez jedną lub kilka innych zmiennych. Gdy zależność między tymi wartościami jest liniowa najlepiej jest użyć równania regresji prostej lub wielokrotnej. Można więc mówić o ocenie wartości hodowlanej na podstawie jednego źródła informacji albo na podstawie wielu (kilku) źródeł informacji. Tymi źródłami informacji mogą być zmierzone wartości cechy (cech) samego ocenianego osobnika, bądź jego krewnych.
BLUP. Model mieszany
Proces przewidywania (prognozowania) wartości zmiennej losowej na podstawie wartości przyjmowanych przez inną zmienną losową (inne zmienne losowe) nazywa się predykcją, natomiast funkcję, na podstawie, której dokonuje się tego przewidywania nazywa się predyktorem. Pojęcia te są analogiczne do pojęć estymacja i estymator, odnoszących się do określania nieznanego parametru populacji.
Niech g oznacza zmienną losową, której wartości nie można obserwować, zaś x wektor obserwacji, na podstawie których chcemy przewidzieć tę wartość, tzn. uzyskać predyktor
. Metodę określania predykatora, dla której wartość oczekiwana kwadratu różnicy g -
jest minimalna, tzn.
E(g - )2 = min.
Nazywa się najlepszą predykcją (Best prediction - BP). Powyższy warunek spełnia funkcja regresji
Aby określić funkcję regresji trzeba znać łączny rozkład g oraz x, a gdy nie jest znany, z konieczności należy się ograniczyć do liniowej funkcji regresji, tzn. przyjąć, że
+βx
Gdzie β = [β1, β2, …βp] jest wierszowym wektorem cząstkowych współczynników regresji. Ta metoda przewidywania wartości g nazywa się najlepszą liniową predykcją. Jeżeli łączny rozkład g i x jest normalny, to BLP jest również BP. Do określenia współczynników regresji trzeba znać tylko wariancje zmiennych losowych g i poszczególnych xi oraz ich kowariancje. Aby uzyskać predyktor
należy znać średnie g oraz xi.
Gdy wartości średnie g oraz xi nie są znane, należy je zastąpić ich estymatorami. Dokładność takiej metody będzie zależeć od tego jakie estymatory zostaną użyte. Pożądane jest, aby predykator był nieobciążony, tzn. aby
E(
) - E(g) oraz E(g - )2 = min.
Metodę, która umożliwia znalezienie wśród liniowych predykatorów nieobciążonych predykatora z minimalnym średnim kwadratowym błędem, nazywa się najlepszą nieobciążoną liniową predykcją.
Ocena wartości hodowlanej metodą BLUP wymaga rozwiązania układu równań związanego z modelem mieszanym. Poniższy przykład posłuży do zilustrowania konstrukcji macierzy, które w tym układzie występują.
Przyjmijmy, że wydajność osobnika określa model
xijk = µ + hi + sj + eijk
W którym xijk oznacza wydajność k-tego potomka j-tego ojca w i-tym stadzie, µ oznacza średnią wydajność populacji, hi - oznacza efekt i-tego stada, sj - efekt j-tego ojca, eijk - oznacza efekt losowy - specyficzny dla k-tego potomka j-tego ojca z i-tego stada. Liczbę potomków j-tego ojca w i-tym stadzie oznaczamy nij. Zakładamy, że µ oraz hi są efektami stałymi, a sj zmienną losową. Wobec takich założeń, model ten nazywamy mieszanym. Tabela 1. zawiera dane do rozpatrywanego przykładu (bez wydajności).
Tabela 1.
Ojciec Stado j i |
1 |
2 |
3 |
Suma |
1 2 |
n11 = 0 n21=1 |
n12= 2 n22=0 |
n13=1 n23=3 |
n1.=3 n2.=4 |
Suma |
n.1=1 |
n.2=2 |
n.3=4 |
n..=7 |
Korzystając z danych zawartych w tabeli 1. Możemy napisać równania dla wydajności poszczególnych potomków. Równań musi być 7 - po jednym równaniu dla każdego osobnika
x111 = µ + h1 + s1 + e111 to równanie jest niepotrzebne, bowiem nie ma żadnego potomka pierwszego ojca w pierwszym stadzie
x121 = µ + h1 + s2 + e121 obok zestawiono µ h1 h2 s1 s2 s3
x122 = µ + h1 + s2 + e122 współczynniki 1 1 0 0 1 0
x131 = µ + h1 + s3 + e131 przy µ, h, s 1 1 0 0 1 0
x211 = µ + h2 + s1 + e211 1 1 0 0 0 1
x231 = µ + h2 + s3 + e231 1 0 1 1 0 0
x232 = µ + h2 + s3 + e232 1 0 1 0 0 1
x233 = µ + h2 + s3 + e233 1 0 1 0 0 1
1 0 1 0 0 1
Zielonym kolorem zaznaczono współczynniki przy efektach stałych modelu.
Poniżej zapisano odpowiednie macierze:
X =
Z =
e =
y =
Układ równań można zapisać w symbolice macierzowej jak niżej:
y = X α +Z s + e
Macierz X jest macierzą współczynników przy efektach stałych, wskazuje więc, które efekty są związane z poszczególnymi wydajnościami. Macierz Z jest macierzą związaną z efektami losowymi (macierz współczynników efektów losowych). Macierz e jest wektorem kolumnowym efektów specyficznych (błędu). Macierz Y jest macierzą wydajności (wektor kolumnowy). α jest wektorem kolumnowym efektów stałych [µ h1 h2], s jest wektorem kolumnowym efektów losowych [s1 s2 s3].
W tym prostym przykładzie efekty stałe obejmują średnią populacji oraz efekty stad. Można sobie wyobrazić bardziej skomplikowane sytuacje; W przypadku oceny wartości hodowlanej ojców na podstawie potomstwa oceniani ojcowie mogą być podzieleni na grupy między którymi występują systematyczne różnice. Wówczas efekt grupy należy wliczyć do składników stałych modelu.
Należy pamiętać, że średnie dla efektów losowych mają wartości równe zero (efekty ojca s oraz e). Oznaczmy przez G macierz kowariancji dla elementów wektora s, a przez R macierz kowariancji dla wektora e. W większości zastosowań modelu liniowego w hodowli zwierząt przyjmuje się, że eijk nie są wzajemnie skorelowane i wariancja każdego eijk jest jednakowa i wynosi σ2e. W zapisie macierzowym oznacza to, że R jest macierzą diagonalną o elementach diagonalnych równych σ2e, co można zapisać jako:
R = I σ2e =
σ2e * R-1 =
W ogólnym przypadku estymatory
i
wektorów α i s otrzymujemy rozwiązując równanie macierzowe przedstawione po raz pierwszy w pracy C.R. Hendersona Best linear unbised estimation and prediction under a selection model, Biometrics 31, 1975, 423.
**
Ponieważ macierz R jest dana wzorem *, to macierz R-1 ma postać jak obok równania z gwiazdką (*). Wobec czego po pomnożeniu stronami układu równań macierzowych Hendersona otrzymujemy:
***
W arkuszu kalkulacyjnym BLUP1.xls wykonano obliczenia iloczynów macierzy z równania Hendersona zamieszczonego powyżej. Warto zauważyć, że wartości otrzymane w wyniku mnożenia odpowiednich macierzy są odpowiednimi liczebnościami.
X'X =
=
X'Z =
=
Z'X = (X'Z)' Z'Z =
=
X'y =
i Z'y =
Symbol x z kropkami w miejscu wskaźników oznacza sumę obserwacji po tych wskaźnikach, np. x… jest sumą ogólną obserwacji, x1.. - sumą obserwacji z pierwszego stada itd.
Ocena wartości hodowlanej metodą BLUP
Aby metodę BLUP zastosować do oceny wartości hodowlanej zwierząt, trzeba poszczególnym składnikom modelu nadać interpretacje genetyczną. Jeżeli oceniane osobniki dzielą się na grupy genetyczne, to różnice między takimi grupami są natury genetycznej. Wówczas wśród efektów stałych reprezentowanych przez wektor α należy wyodrębnić efekty grup genetycznych. W ocenie wartości hodowlanej grupę genetyczną na ogół tworzą buhaje wprowadzone do reprodukcji w tym samym roku. Różnice między grupami z różnych lat odzwierciedlają trend genetyczny, czyli zmianę poziomu genetycznego populacji w czasie. Innym kryterium podziału na grupy jest przynależność do rasy (np. w Polsce).
Poniżej przedstawiono model mieszany z wyodrębnioną grupą genetyczną:
xijkl = µ + hi + aj + sjk + eijkl
hi oznacza efekt i=tego stada - jest to czynnik niegenetyczny (może to być również efekt stado-rok-sezon), aj jest efektem j-tej grupy genetycznej, sjk oznacza efekt k-tego osobnika (ocenianego) w j-tej grupie genetycznej.
Wartość hodowlaną osobnika definiujemy jako
gjk = aj + sjk
Ocenę wartości hodowlanej metodą BLUP otrzymujemy, zastępując w powyższym wzorze aj oraz sjk estymatorami otrzymanymi w wyniku rozwiązania równania Hendersona ***. Ponieważ w ostatnio przywołanym wzorze wartości µ + hi nie występują, nie muszą być szacowane. Możemy wobec tego zmodyfikować model zastępując µ + hi przez ri. otrzymamy zatem model jak niżej:
xijkl = ri + aj + sjk + eijkl
Modelowi temu odpowiadać będzie macierz X bez pierwszej kolumny (kolumny jedynek) oraz wektor α bez stałej µ. Wektor α i macierz X można podzielić na dwie części: 1. Odpowiadającą efektom niegenetycznym i 2. odpowiadającą efektom genetycznym. Zatem model można zapisać:
y = Xr αr + Xa αa + Z s + e
Wówczas równanie Hendersona (z trzema gwiazdkami - ***) przyjmie postać:
Wygodniej je przedstawić w postaci jak niżej
Macierz współczynników powyższego układu równań jest symetryczna i została podzielona na podmacierze oznaczone literą M. Pierwszy wskaźnik przy symbolu M wskazuje jakiego typu efekty wskazują wiersze, drugi zaś jakiego typu efekty wskazują kolumny.
Mra = X'rXa = [nij..]
Mrs = X'rZ = [nijk.]
Mas = X'aZ = [n.jk.]
Macierze Mrr i Maa są macierzami diagonalnymi, w których na przekątnej występują liczebności ni..(macierz Mrr) oraz n.j. (macierz Maa ). Wiersze macierzy Mrs odpowiadają grupom niegenetycznym, a kolumny ocenianym osobnikom. Wiersze macierzy Mas odpowiadają grupom genetycznym. Ponieważ oceniany osobnik występuje tylko w jednej grupie genetycznej, elementy niezerowe w tej macierzy mogą wystąpić tylko na przecięciu kolumny danego osobnika z wierszem jego grupy genetycznej.
Macierz Mss jest sumą macierzy Z'Z oraz σ2eG-1. Z'Z jest macierzą diagonalną, w której na przekątnej głównej występują liczebności n.jk. Jeżeli efekty ocenianych osobników, sjk są nieskorelowane oraz wariancje poszczególnych sjk są jednakowe i równe σ2s, to G jest macierzą diagonalną z elementami diagonalnymi σ2s. Macierz σ2eG-1 jest również macierzą diagonalną z elementami σ2e/σ2s na przekątnej. W rozpatrywanym przypadku Mss będzie macierzą diagonalną, w której na przekątnej wystąpią wartości
Gdy ocenia się wartość hodowlaną ojców na podstawie ich potomstwa, wtedy
stąd
h2 oznacza odziedziczalność rozpatrywanej cechy.
Elementami wyrazów wolnych są odpowiednie sumy wydajności.
Zadanie
W tabeli podano dane o wydajności córek 4 ojców należących do dwóch grup genetycznych. Odziedziczalność cechy wynosi h2 = 0,25, czyli a =
. Dokonaj oceny wartości hodowlanej buhajów metodą BLUP
Grupa genetyczna j |
Grupa i Ojciec k |
Stado1 |
Stado2 |
Łącznie |
||||||
|
|
Liczba córek |
Efektywna liczba córek k-tego ojca |
Suma wydajności |
Liczba córek |
Efektywna liczba córek k-tego ojca |
Suma Wydaj- nośći |
Liczba córek |
Efektywna liczba córek k-tego ojca ć |
Suma wydaj-nośći |
1 |
1 |
5 |
3,75 |
51 |
- |
- |
- |
5 |
3,75 |
51 |
|
2 |
4 |
3,20 |
36 |
2 |
1,50 |
25 |
6 |
4,70 |
61 |
2 |
1 |
- |
- |
- |
5 |
1,87 |
31 |
5 |
1,87 |
31 |
|
2 |
11 |
4,95 |
81 |
1 |
0,88 |
10 |
12 |
5,83 |
91 |
|
Suma |
20 |
|
168 |
8 |
66 |
|
|
|
|
|
Średnia |
|
|
8,40 |
|
8,25 |
|
|
|
|