50 3.7 Analiza regresji
Istnieją oczywiście również inne miary zależności pomiędzy zmiennymi, które stosować możemy dla danych porządkowych, nominalnych, itd. Przykładem jest tutaj współczynnik korelacji rang Spearmana. Jeśli dwie cechy statystyczne są mierzone skalami porządkowymi, to wykorzystać można właśnie taką miarę, oznaczaną zazwyczaj symbolem p. W celu obliczenia współczynnika korelacji rang Spermana należy uporządkować rosnąco oba ciągi zaobserwowanych wartości zmiennych X i Y
®(l:n) ^ a-(2:n) ^ ^ x(n:n) > 2/(l:n) ^ V(2 :n) V(n:n) • (3.132)
Następnie obu tak uporządkowanym ciągom przypisywane są rangi
gdzie odpowiednio Ri to ranga dla wartości X(i:n), zaś Sy to ranga dla obserwacji
yu-ny
Bazując na wartościach rang, obliczamy współczynnik p według wzoru
lub jego alternatywnej formy
P »(»*-!)
Współczynnik p przyjmuje wartości z przedziału [ — 1; 1]. Wartość p bliska 1 świadczy o dodatniej korelacji pomiędzy cechami, a wartość bliska -1 o ujemnej korelacji. Jeśli cechy są niezależne (lub nieskorelowane), to wartość p jest bliska zeru. Bezwzględna wartość współczynnika p odpowiada sile zależności pomiędzy zmiennymi.
Współczynnik korelacji rang lepiej niż współczynnik korelacji liniowej nadaje się do badania nieliniowych zależności pomiędzy zmiennymi.
3.7.2 Prosta regresja liniowa
Analiza regresji jest bardzo złożonym i skomplikowanym tematem. Omówimy tutaj jedynie najprostsze modele i sformułujemy najprostsze wnioski.
Interesować nas będzie istnienie związku pomiędzy dwiema zmiennymi - x i Y (konwencja takiego zapisu będzie wyjaśniona później). Zakładać będziemy, że obserwujemy w pewnym doświadczeniu pary (jcj.,Vi),(x2, Yj*),.• ■ (£«>}»)• Zmienną x będziemy nazywać zmienną niezależną (objaśniającą), a Y - zmienną zależną (objaśnianą). Oznacza to zatem, że sprawdzamy, czy zmienna Y zależy od zmiennej x (np. czy wzrost pszenicy na polu zależy od wielkości opadów, czy wyniki studentów zależą od czasu poświęconego na naukę, itd.). Zmienne te nie są równouprawnione - zamiana ich kolejności prowadzi do innych wyników w analizie regresji.
Zakładamy, że Y jest pewną liniową funkcją od zmiennej x, ale zaburzoną losowymi błędami lub innymi czynnikami. Błędy te wynikać mogą z samego niedokładnego procesu pomiaru, lub są dodatkowymi, nieznanymi czynnikami