3.4.Analiza współzależności
W dotychczasowych rozważaniach opisywaliśmy zbiorowość statystyczną z punktu widzenia jednej cechy czyli niezależnie od pozostałych wykorzystując miary średnie i rozproszenia.
W rzeczywistości jednak poszczególne zjawiska nie są wyizolowane, lecz zachodzą między nimi mniej lub bardziej ścisłe zależności.
Ważnym zadaniem analizy statystycznej jest wykrycie współzależności i określenie jej siły.
Ograniczymy się do prezentacji tylko prostych metod badania współzależności dwóch cech mieszalnych.
Jeżeli formuła opisująca zależność funkcyjną ma charakter statystyczny tzn. konkretnej wartości jednej cechy odpowiada pewna przeciętna wartość drugiej cechy, to mówimy o związku korelacyjnym lub korelacji.
Wykrycie związku korelacyjnego oraz określenie jego siły (współczynnika korelacji) pozwala na głębszą analizę przyczynowo-skutkową np. procesów gospodarczych i możliwość pośredniego oddziaływania na niektóre zjawiska.
Od sytuacji występowania zjawiska współzależności należy oddzielić takie, w których jest zbieżność występowania zjawisk czyli korelację pozorną.
Podstawowymi metodami wykrywania związków korelacyjnych są:
metoda porównywania przebiegu szeregów statystycznych charakteryzujących badane zjawisko ,
metoda graficzna,
metoda specjalnych tablic korelacyjnych.
3.4.1.Współczynnik korelacji
Najczęściej stosowaną miarą określającą kierunek i siłę związku między zjawiskami(cechami) jest współczynnik korelacji rxy - właściwy dla korelacji prostoliniowej:
Średnią arytmetyczną iloczynów odchyleń poszczególnych wartości badanych cech od wartości średnich nazywa się kowariancją i jest ona równa:
gdzie:
n- liczba rozpatrywanych par cech (xiyi)
W pomiarze korelacji określa się miernik niezależny od jednostek, w jakich wyrażane są badane cechy - powinien być miernikiem porównywalnym.
Takim miernikiem jest współczynnik korelacji:
Tak zdefiniowany współczynnik przyjmuje wartości z przedziału <-1,1> jest więc unormowaną miarą ścisłości siły związku zachodzącego między rozważanymi cechami.
W ocenie stopnia współzależności nie powinno się ograniczać jedynie do wartości współczynnika korelacji rxy, stopień ten zależy bowiem jeszcze od wielu okoliczności nie uwzględnionych w konstrukcji wzoru na współczynnik korelacji.
Współczynnik korelacji Pearsona ∈ <-1,1>.
r = 0 - współzależność nie występuje, brak korelacji
0 < r < 0,3 - słaby stopień współzależności
0,3 ≤ r < 0,5 - średni stopień współzależności, 0,2 - 0,4 wyraźna , ale niska korelacja
0,5 ≤ r < 0,7 - znaczny stopień współzależności . 0,4 - 0,7 umiarkowana korelacja
0,7 ≤ r < 0,9 - wysoki stopień współzależności, 0,7 - 0,9 znacząca korelacja
r ≥ 0,9 - bardzo wysoki stopień współzależności, >0,9 bardzo silna korelacja
r = 1 - współzależność całkowita (ścisłość) tzn. zależność funkcyjna między rozważanymi cechami.
Uwaga: potwierdzenie wyniku przez obliczenie współczynnika korelacji rang
Współczynnik korelacji rang Spearmana służy do opisu siły korelacji dwóch cech w przypadku:
gdy cechy są mierzalne, a badana zbiorowość jest nieliczna,
gdy mają one charakter jakościowy i istnieje możliwość ich uporządkowania.
Współczynnik korelacji rang wyznacza się ze wzoru:
i przyjmuje wartości <-1;1)
W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenie standardowe należy wyliczyć z funkcji „REGBŁSTD.”.
WspółczynnikI regresji a1 i b1 oblicza się następująco:
a1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając kolejno tablice Y i X.
b1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając odwrotnie tablice Yi i Xi (zamiast Y wprowadzić X i zamiast X prowadzić Y).
Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :
a0 - z funkcji „ODCIĘTA” wprowadzając kolejno tablice Y i X.
b0 - z funkcji „ODCIĘTA” wprowadzając odwrotnie tablice ( zamiast Y wprowadzić X i analogicznie zamiast X wprowadzić Y).
W pozostałych przypadkach wykorzystuje się wpisane wzory do paska formuł.
Korelacyjne wykresy rozrzutu - w programie należy wykorzystać wykresy punktowe ( zakres danych dwie kolumny o jednakowej ilości wierszy).
korelacja liniowa dodatnia r > 0
korelacja liniowa ujemna r < 0
brak korelacji r = 0
korelacja krzywoliniowa r = 0
3.4.1.1.Przykłady
Przykład 1
Z partii towaru wylosowano 10 egzemplarzy i przebadano ze względu na cechy X i Y
xi |
3,5 |
3,4 |
2,1 |
5,4 |
1,1 |
5,1 |
6,9 |
4,0 |
4,5 |
2,5 |
yi |
1,6 |
2,9 |
1,5 |
3,5 |
0,6 |
2,5 |
7,1 |
3,5 |
2,1 |
2,6 |
Wyznaczyć zaobserwowaną wartość r współczynnika korelacji liniowej
Dane: xi;yi;
Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”.
Wykres rozrzutu 1
Rozwiązanie:
0,8232 ∈< 0,7;0,9)
tj. wysoki stopień współzależności
Przykład 2
Zbadać współzależność między liczbą samochodów osobowych na 1 tysiąc mieszkańców (X) i zużyciem benzyny na 1 mieszkańca (Y) w wybranych krajach Europy w 1990 roku.
Dane : x;y
Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”.
Wykres rozrzutu
Rozwiązanie:
0,92 - bardzo wysoki stopień współzależności.
Oznacza to, że zużycie benzyny w krajach europejskich , a więc i na świecie, jest przede wszystkim uzależnione od liczby samochodów osobowych użytkowanych przez obywateli.
Przykład 3
Dane miesięczne o wielkości zużycia pewnego surowca S potrzebnego do produkcji wyrobu A oraz o wielkości produkcji tego wyrobu w pewnym zakładzie przedstawia tablica . Na podstawie danych określić siłę i kierunek zależności między zużyciem surowca a .
Dane : x;y
Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”. Współczynnik determinacji należy obliczyć wprowadzając do paska formuł odpowiedni wzór.
Wykres rozrzutu 2
Rozwiązanie:
Wynik 0,914 oznacza, że między badanymi cechami istnieje silna zależność dodatnia.
Kwadrat współczynnika korelacji, zwany współczynnikiem determinacji określa , w jakim stopniu zmiany jednej cechy są wyjaśniane przez zmiany drugiej cechy.
W zadaniu r2 = 0,835 , co oznacza , że w 83,5 % zużycie surowca jest wyjaśniane przez wielkość produkcji.
Przykład 4
Wiadomo, że plony czarnej porzeczki zależą w pewnej mierze od wielu plantacji. Pozyskane informacje o plonach i wieku plantacji porzeczek pochodzą z 7 losowo wybranych gospodarstw . Zbadać stopień skorelowania plonów czarnej porzeczki z wiekiem plantacji poprzez obliczenie współczynnika korelacji liniowej.
Dane: x;y;
Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”.
Wykres rozrzutu 3
Rozwiązanie:
r > 0,9- współczynnik korelacji bliski 1 - badane cechy są bardzo silnie skorelowane dodatnio. Wraz ze wzrostem wieku plantacji następuje przyrost przeciętnych plonów porzeczki z 1ha
Przykład 5
Zbadać stopień współzależności liczby nowo powstałych firm serwisowych technicznej obsługi samochodów osobowych (X) od liczby nowo powstałych firm dealerskich sprzedających nowe samochody osobowe ( Y) na terenie miasta Krakowa w ciągu 2 lat .
Dane: x;y;
Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”. Współczynnik korelacji rang należy obliczyć wprowadzając do paska formuł odpowiedni wzór.
Wykres rozrzutu 4
Rozwiązanie:
0,163 < 0,2 zatem słaby stopień współzależności . Nie ma istotnego związku między liczbą nowo powstałych firm dealerskich praz liczbą nowo powstałych firm serwisowych dla samochodów osobowych.
Współczynnik korelacji rang :
Otrzymany wynik wskazuje na wysoką ujemną współzależność pomiędzy liczbą nowo powstałych firm dealerskich a nowo powstałych firm serwisowych.
3.4.2.Regresja liniowa
Charakterystyka
Współzależność między zmiennymi może występować w dwóch odmianach :
Funkcyjnej ( deterministycznej) i stochastycznej . Ta druga zależność w świecie zjawisk społeczno - ekonomicznych i przyrodniczych wykorzystuje się współczynnik korelacji .
Narzędziem pozwalającym badać mechanizm powiązań między różnymi zjawiskami są funkcje regresji - liniowe i nieliniowe.
Rozważania sprowadzimy wyłącznie do regresji liniowej z jedną zmienną niezależną.
Funkcja regresji Y względem zmiennej X przybiera postać :
Yi = αo + α1xi + ξi i=1,........n
Funkcja regresji X względem zmiennej Y przybiera postać :
Xi = βo + β1yi + εi i=1,........n
gdzie :
n - liczba obserwacji - liczebność próby
αo, α1, βo, β1 - parametry równań regresji
ξi, εi - składniki losowe równań
Dla oszacowania parametrów : αo, α1, βo, β1 korzysta się z metody najmniejszych kwadratów.
Metoda ta pozwala uzyskać na podstawie n- elementowej próby takie wartości estymatorów: ao,a1,bo,b1 przy których wyrażenia :
osiągają minimum.
Oszacowane równania regresji zapisuje się następująco :
Estymatory a1,oraz ,b1 nazywane współczynnikami regresji, zaś ao i bo to stałe regresji.
Znając a1 i b1 można obliczyć współczynnik korelacji liniowej
Funkcje regresji są generowane na bazie danych empirycznych, dlatego rezultat estymacji zawsze należy porównać z rzeczywistą wartością zmiennej zależnej (opisywanej).
Podstawą tych porównań jest tzw. składnik resztowy - reszta .
Dla regresji Y względem X resztę definiuje się następująco :
W równaniu dla regresji X względem Y reszty wyznacza się analogicznie:
Funkcja regresji jest poprawnie oszacowana, jeżeli wartości reszt są niewielkie i mają charakter losowy.
Wariancje resztowe wyznacza się ze wzorów :
A błąd określają - odchylenia standardowe czyli:
Odchylenie standardowe reszt zwane również średnim błędem szacunku, określa, o ile ( średnio rzecz biorąc ) wartości empiryczne odchylają się od wartości teoretycznych. Wraz ze wzrostem odchylenia standardowego reszt maleje „dobroć” oszacowania funkcji regresji.
W analizie regresji do oceny dopasowania funkcji regresji miarą najczęściej stosowaną jest współczynnik zbieżności ϕ2:
który przyjmuje wartości (0,1), przy czym im mniejszą wartość przyjmuje współczynnik zbieżności, tym lepsze jest dopasowanie funkcji regresji do punktów empirycznych.
Oczywiście:
Współczynnikiem determinacji R2 nazywa się wyrażenie:
W przypadku zależności liniowej współczynnik determinacji równy jest współczynnikowi korelacji liniowej, a zatem:
Tak więc im wartość r2yx jest bliższa jedności, tym „dobroć” dopasowania funkcji regresji do danych empirycznych jest lepsza.
3.4.2.1.Przykłady
Przykład 1
W 1966 roku zebrano informacje w siedmiu krakowskich uczelniach o liczbie studentów Y = [y1,...y7] oraz o powierzchni (w m2) sal dydaktycznych tych uczelni X = [x1,........x7] . Wydaje się, że merytorycznie jest uzasadniona hipoteza o istnieniu obustronnej zależności między zmiennymi X i Y .
Należy :
Oszacować równanie regresji zmiennej Y względem zmiennej X
Oszacować równanie regresji zmiennej X względem zmiennej Y
Wyznaczyć wartość współczynnika korelacji rxy na bazie informacji pozyskanych z obu równań regresji
Określić szacunkową wielkość powierzchni sal wykładowych w jednej z krakowskich uczelni, jeśli ta zdecyduje się kształcić 15 tysięcy osób
Oszacować S2(u) i S(u)
Oszacować S2(v) i S(v)
Dane:X;Y;
W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenia standardowe należy wyliczyć z funkcji „REGBŁSTD.”. Średnie obliczyć wykorzystując funkcję „ŚREDNIA”.
WspółczynnikI regresji a1 i b1 oblicza się następująco:
a1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając kolejno tablice Y i X.
b1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając odwrotnie tablice Yi i Xi (zamiast Y wprowadzić X i zamiast X prowadzić Y).
Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :
a0 - z funkcji „ODCIĘTA” wprowadzając kolejno tablice Y i X.
b0 - z funkcji „ODCIĘTA” wprowadzając odwrotnie tablice ( zamiast Y wprowadzić X i analogicznie zamiast X wprowadzić Y).
Pozostałe obliczenia należy wykonać wprowadzając odpowiednie wzory do paska formuł.
Wykres rozrzutu i prosta regresji 1
Rozwiązanie:
Silna współzależność między zmiennymi X i Y potwierdza zasadność budowy równań regresji,
Kształcenie 15.000 studentów w jednej z krakowskich uczelni wiąże się z zapewnieniem bazy dydaktycznej o powierzchni sal równej około 11667,5m2
Przykład 2
Produkcja budowlano-montażowa oraz przeciętne zatrudnienie w Polsce w latach 1955-66 przedstawiały się następująco:
Na podstawie powyższych danych ustalić siłę i kierunek współzależności obu zjawisk.
Dane:X;Y;
W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenia standardowe należy wyliczyć z funkcji „REGBŁSTD.”. Średnie obliczyć wykorzystując funkcję „ŚREDNIA”.
WspółczynnikI regresji a1 i b1 oblicza się następująco:
a1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając kolejno tablice Y i X.
b1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając odwrotnie tablice Yi i Xi (zamiast Y wprowadzić X i zamiast X prowadzić Y).
Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :
a0 - z funkcji „ODCIĘTA” wprowadzając kolejno tablice Y i X.
b0 - z funkcji „ODCIĘTA” wprowadzając odwrotnie tablice ( zamiast Y wprowadzić X i analogicznie zamiast X wprowadzić Y).
Wariancję należy wykonać wprowadzając odpowiedni wzór do paska formuł.
Wykres rozrzutu i prosta regresji 2
Rozwiązanie:
Współczynnik korelacji 0,9 - silna zależność.
Przykład 3
Wśród studentów pewnego wydziału przeprowadzono badania między czasem nauki X a oceną Y, ze statystyki uzyskaną na egzaminie.
Uzyskane informacje kształtują się następująco:
Wyznaczyć równanie regresji Y(X), ocenić błąd oszacowania.
Jaką ocenę otrzyma student, który na naukę poświęci 8 dni ?
Dane:X;Y;
W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenia standardowe należy wyliczyć z funkcji „REGBŁSTD.”. Średnie obliczyć wykorzystując funkcję „ŚREDNIA”.
WspółczynnikI regresji a1 i b1 oblicza się następująco:
a1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając kolejno tablice Y i X.
b1 - z funkcji „NACHYLENIE „ lub „REGLINP” wprowadzając odwrotnie tablice Yi i Xi (zamiast Y wprowadzić X i zamiast X prowadzić Y).
Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :
a0 - z funkcji „ODCIĘTA” wprowadzając kolejno tablice Y i X.
b0 - z funkcji „ODCIĘTA” wprowadzając odwrotnie tablice ( zamiast Y wprowadzić X i analogicznie zamiast X wprowadzić Y).
Pozostałe wyliczenia należy obliczyć przez wprowadzenie odpowiednich wzorów do paska formuł.
Rozwiązanie:
Przy 8 godzinach nauki może otrzymać ocenę z podanego powyżej przedziału.
Aby odpowiedzieć na pytanie ile dni trzeba się uczyć aby otrzymać 5 należy znaleźć zależność X od Y.
Aby otrzymać ocenę 5,0 należy spędzić 20,5 na nauce.