Przypuśćmy, że posiadamy informacje na temat próbki liczącej n obserwacji. Każda z nich jest opisana przez p zmiennych objaśniających, co w rezultacie daje nam macierz X rozmiaru nxp:
X\1 |
Xu |
*13 |
... xlp |
3-21 |
X22 |
X23 |
■ ■ ■ X2p |
Z31 |
X32 |
X33 |
... x3p |
Xnl |
Xn2 |
Xn3 |
... Xnp |
Ponadto, mamy wektor zmiennych objaśnianych Y = ... ,Yn), gdzie zmienne Y{, Yj
są niezależne i mają jednakowy rozkład dla dowolnych i ^ j. Najpopularniejszym modelem regresji dla danych zliczających (ang. count data) jest model regresji Poissona, w którym funkcją łączącą zmienne objaśniające ze zmienną objaśnianą jest funkcja logarytmiczna, a funkcja masy prawdopodobieństwa jest postaci
y{ = 0,1,2,..., 9i> 0.
Po odwróceniu funkcji łączącej otrzymujemy zależność E(Y{) = exp(x, o /?), gdzie x,- jest wektorem zmiennych objaśniających dla danej obserwacji, a 0 wektorem nieznanych parametrów, które należy wyestymować. W przypadku występowania nadrozproszenia w analizowanych danych możemy posłużyć się uogólnionym rozkładem Poissona (ang. generalized Poisson dis-tribution - GP) o następującej funkcji masy prawdopodobieństwa
y, — o, i, 2,...
gdzie 6i > 0 i max(—1. -&) < k < 1. Z pracy Joe and Zhu (2005) wiemy, że
IH = E(Y,) = Var«) = = W)- (U)
W tym przypadku składnik <j> — Tyrm pełni funkcję czynnika rozproszenia. Jeżeli k — 0, to uogólniony rozkład Poissona redukuje się do zwykłego rozkładu Poissona z parametrem 6*. W przypadku gdy k < 0 mamy do czynienia z podrozproszeniem, a gdy n > 0 z nadrozproszeniem. Opierając się na uogólnionym rozkładzie Poissona możemy wprowadzić do modelu regresji dwie parametryzacje. W pierwszej, przedstawionej w pracach Consul (1989) oraz Consul and Famoye (1992), jako funkcję łączącą przyjmujemy funkcję logarytmiczną
Q p
ln pi — ln -—-— = Xir0r,
(12)
8