3 Model Poissona i jego rozszerzenia

3.1 Uogólniony rozkład Poissona

Przypuśćmy, że posiadamy informacje na temat próbki liczącej n obserwacji. Każda z nich jest opisana przez p zmiennych objaśniających, co w rezultacie daje nam macierz X rozmiaru nxp:

X\1

Xu

*13

... xlp

3-21

X22

X23

■ ■ ■ X2p

Z31

X32

X33

... x3p

Xnl

Xn2

Xn3

... Xnp

Ponadto, mamy wektor zmiennych objaśnianych Y =    ... ,Yn), gdzie zmienne Y{, Yj

są niezależne i mają jednakowy rozkład dla dowolnych i ^ j. Najpopularniejszym modelem regresji dla danych zliczających (ang. count data) jest model regresji Poissona, w którym funkcją łączącą zmienne objaśniające ze zmienną objaśnianą jest funkcja logarytmiczna, a funkcja masy prawdopodobieństwa jest postaci

y{ = 0,1,2,..., 9i> 0.

Po odwróceniu funkcji łączącej otrzymujemy zależność E(Y{) = exp(x, o /?), gdzie x,- jest wektorem zmiennych objaśniających dla danej obserwacji, a 0 wektorem nieznanych parametrów, które należy wyestymować. W przypadku występowania nadrozproszenia w analizowanych danych możemy posłużyć się uogólnionym rozkładem Poissona (ang. generalized Poisson dis-tribution - GP) o następującej funkcji masy prawdopodobieństwa

0,(0, +

1*1


y, — o, i, 2,...


(10)


gdzie 6i > 0 i max(—1. -&) < k < 1. Z pracy Joe and Zhu (2005) wiemy, że

IH = E(Y,) =    Var«) =    = W)-    (U)

W tym przypadku składnik <j> — Tyrm pełni funkcję czynnika rozproszenia. Jeżeli k — 0, to uogólniony rozkład Poissona redukuje się do zwykłego rozkładu Poissona z parametrem 6*. W przypadku gdy k < 0 mamy do czynienia z podrozproszeniem, a gdy n > 0 z nadrozproszeniem. Opierając się na uogólnionym rozkładzie Poissona możemy wprowadzić do modelu regresji dwie parametryzacje. W pierwszej, przedstawionej w pracach Consul (1989) oraz Consul and Famoye (1992), jako funkcję łączącą przyjmujemy funkcję logarytmiczną

Q    p

ln pi — ln -—-— = Xir0r,

(12)

8