Analiza wspolzaleznosci MOC


3.4.Analiza współzależności

W dotychczasowych rozważaniach opisywaliśmy zbiorowość statystyczną z punktu widzenia jednej cechy czyli niezależnie od pozostałych wykorzystując miary średnie i rozproszenia.

W rzeczywistości jednak poszczególne zjawiska nie są wyizolowane, lecz zachodzą między nimi mniej lub bardziej ścisłe zależności.

Ważnym zadaniem analizy statystycznej jest wykrycie współzależności i określenie jej siły.

Ograniczymy się do prezentacji tylko prostych metod badania współzależności dwóch cech mieszalnych.

Jeżeli formuła opisująca zależność funkcyjną ma charakter statystyczny tzn. konkretnej wartości jednej cechy odpowiada pewna przeciętna wartość drugiej cechy, to mówimy o związku korelacyjnym lub korelacji.

Wykrycie związku korelacyjnego oraz określenie jego siły (współczynnika korelacji) pozwala na głębszą analizę przyczynowo-skutkową np. procesów gospodarczych i możliwość pośredniego oddziaływania na niektóre zjawiska.

Od sytuacji występowania zjawiska współzależności należy oddzielić takie, w których jest zbieżność występowania zjawisk czyli korelację pozorną.

Podstawowymi metodami wykrywania związków korelacyjnych są:

3.4.1.Współczynnik korelacji

Najczęściej stosowaną miarą określającą kierunek i siłę związku między zjawiskami(cechami) jest współczynnik korelacji rxy - właściwy dla korelacji prostoliniowej:

0x01 graphic

Średnią arytmetyczną iloczynów odchyleń poszczególnych wartości badanych cech od wartości średnich nazywa się kowariancją i jest ona równa:

0x01 graphic

gdzie:

n- liczba rozpatrywanych par cech (xiyi)

W pomiarze korelacji określa się miernik niezależny od jednostek, w jakich wyrażane są badane cechy - powinien być miernikiem porównywalnym.

Takim miernikiem jest współczynnik korelacji:

0x01 graphic

Tak zdefiniowany współczynnik przyjmuje wartości z przedziału <-1,1> jest więc unormowaną miarą ścisłości siły związku zachodzącego między rozważanymi cechami.

W ocenie stopnia współzależności nie powinno się ograniczać jedynie do wartości współczynnika korelacji rxy, stopień ten zależy bowiem jeszcze od wielu okoliczności nie uwzględnionych w konstrukcji wzoru na współczynnik korelacji.

Współczynnik korelacji Pearsona ∈ <-1,1>.

0x01 graphic

r = 0 - współzależność nie występuje, brak korelacji

0 < r < 0,3 - słaby stopień współzależności

0,3 ≤ r < 0,5 - średni stopień współzależności, 0,2 - 0,4 wyraźna , ale niska korelacja

0,5 ≤ r < 0,7 - znaczny stopień współzależności . 0,4 - 0,7 umiarkowana korelacja

0,7 ≤ r < 0,9 - wysoki stopień współzależności, 0,7 - 0,9 znacząca korelacja

r ≥ 0,9 - bardzo wysoki stopień współzależności, >0,9 bardzo silna korelacja

r = 1 - współzależność całkowita (ścisłość) tzn. zależność funkcyjna między rozważanymi cechami.

Uwaga: potwierdzenie wyniku przez obliczenie współczynnika korelacji rang

Współczynnik korelacji rang Spearmana służy do opisu siły korelacji dwóch cech w przypadku:

Współczynnik korelacji rang wyznacza się ze wzoru:

0x01 graphic

i przyjmuje wartości <-1;1)

W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenie standardowe należy wyliczyć z funkcji „REGBŁSTD.”.

WspółczynnikI regresji a1 i b1 oblicza się następująco:

Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :

W pozostałych przypadkach wykorzystuje się wpisane wzory do paska formuł.

Korelacyjne wykresy rozrzutu - w programie należy wykorzystać wykresy punktowe ( zakres danych dwie kolumny o jednakowej ilości wierszy).

korelacja liniowa dodatnia r > 0

0x01 graphic

korelacja liniowa ujemna r < 0

0x01 graphic

brak korelacji r = 0

0x01 graphic

korelacja krzywoliniowa r = 0

0x01 graphic

3.4.1.1.Przykłady

Przykład 1

Z partii towaru wylosowano 10 egzemplarzy i przebadano ze względu na cechy X i Y

xi

3,5

3,4

2,1

5,4

1,1

5,1

6,9

4,0

4,5

2,5

yi

1,6

2,9

1,5

3,5

0,6

2,5

7,1

3,5

2,1

2,6

Wyznaczyć zaobserwowaną wartość r współczynnika korelacji liniowej

Dane: xi;yi;

Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”.

0x08 graphic
0x01 graphic

Wykres rozrzutu 1

Rozwiązanie:

0x01 graphic

0,8232 ∈< 0,7;0,9)

tj. wysoki stopień współzależności

Przykład 2

Zbadać współzależność między liczbą samochodów osobowych na 1 tysiąc mieszkańców (X) i zużyciem benzyny na 1 mieszkańca (Y) w wybranych krajach Europy w 1990 roku.

Dane : x;y

Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”.

0x01 graphic

Wykres rozrzutu 0x01 graphic

Rozwiązanie:

0x01 graphic

0,92 - bardzo wysoki stopień współzależności.

Oznacza to, że zużycie benzyny w krajach europejskich , a więc i na świecie, jest przede wszystkim uzależnione od liczby samochodów osobowych użytkowanych przez obywateli.

Przykład 3

Dane miesięczne o wielkości zużycia pewnego surowca S potrzebnego do produkcji wyrobu A oraz o wielkości produkcji tego wyrobu w pewnym zakładzie przedstawia tablica . Na podstawie danych określić siłę i kierunek zależności między zużyciem surowca a .

Dane : x;y

Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”. Współczynnik determinacji należy obliczyć wprowadzając do paska formuł odpowiedni wzór.

0x01 graphic

Wykres rozrzutu 2

0x01 graphic

Rozwiązanie:

0x01 graphic

Wynik 0,914 oznacza, że między badanymi cechami istnieje silna zależność dodatnia.

Kwadrat współczynnika korelacji, zwany współczynnikiem determinacji określa , w jakim stopniu zmiany jednej cechy są wyjaśniane przez zmiany drugiej cechy.

W zadaniu r2 = 0,835 , co oznacza , że w 83,5 % zużycie surowca jest wyjaśniane przez wielkość produkcji.

Przykład 4

Wiadomo, że plony czarnej porzeczki zależą w pewnej mierze od wielu plantacji. Pozyskane informacje o plonach i wieku plantacji porzeczek pochodzą z 7 losowo wybranych gospodarstw . Zbadać stopień skorelowania plonów czarnej porzeczki z wiekiem plantacji poprzez obliczenie współczynnika korelacji liniowej.

Dane: x;y;

Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”.

0x01 graphic

Wykres rozrzutu 3

0x01 graphic

Rozwiązanie:

0x01 graphic

r > 0,9- współczynnik korelacji bliski 1 - badane cechy są bardzo silnie skorelowane dodatnio. Wraz ze wzrostem wieku plantacji następuje przyrost przeciętnych plonów porzeczki z 1ha

Przykład 5

Zbadać stopień współzależności liczby nowo powstałych firm serwisowych technicznej obsługi samochodów osobowych (X) od liczby nowo powstałych firm dealerskich sprzedających nowe samochody osobowe ( Y) na terenie miasta Krakowa w ciągu 2 lat .

Dane: x;y;

Aby wykonać wykres należy użyć kreatora wykresów na pasku narzędzi i wybrać wykres punktowy. Współczynnik korelacji trzeba obliczyć z funkcji „WSP.KORELACJI”. Średnie - należy użyć funkcji „ŚREDNIA”. Współczynnik korelacji rang należy obliczyć wprowadzając do paska formuł odpowiedni wzór.

0x01 graphic

Wykres rozrzutu 4

0x01 graphic

Rozwiązanie:

0x01 graphic

0,163 < 0,2 zatem słaby stopień współzależności . Nie ma istotnego związku między liczbą nowo powstałych firm dealerskich praz liczbą nowo powstałych firm serwisowych dla samochodów osobowych.

Współczynnik korelacji rang :

0x01 graphic

Otrzymany wynik wskazuje na wysoką ujemną współzależność pomiędzy liczbą nowo powstałych firm dealerskich a nowo powstałych firm serwisowych.

3.4.2.Regresja liniowa

Charakterystyka

Współzależność między zmiennymi może występować w dwóch odmianach :

Funkcyjnej ( deterministycznej) i stochastycznej . Ta druga zależność w świecie zjawisk społeczno - ekonomicznych i przyrodniczych wykorzystuje się współczynnik korelacji .

Narzędziem pozwalającym badać mechanizm powiązań między różnymi zjawiskami są funkcje regresji - liniowe i nieliniowe.

Rozważania sprowadzimy wyłącznie do regresji liniowej z jedną zmienną niezależną.

Funkcja regresji Y względem zmiennej X przybiera postać :

Yi = αo + α1xi + ξi i=1,........n

Funkcja regresji X względem zmiennej Y przybiera postać :

Xi = βo + β1yi + εi i=1,........n

gdzie :

n - liczba obserwacji - liczebność próby

αo, α1, βo, β1 - parametry równań regresji

ξi, εi - składniki losowe równań

Dla oszacowania parametrów : αo, α1, βo, β1 korzysta się z metody najmniejszych kwadratów.

Metoda ta pozwala uzyskać na podstawie n- elementowej próby takie wartości estymatorów: ao,a1,bo,b1 przy których wyrażenia :

0x01 graphic

0x01 graphic

osiągają minimum.

Oszacowane równania regresji zapisuje się następująco :

0x01 graphic

Estymatory a1,oraz ,b1 nazywane współczynnikami regresji, zaś ao i bo to stałe regresji.

0x01 graphic

0x01 graphic

Znając a1 i b1 można obliczyć współczynnik korelacji liniowej

0x01 graphic

Funkcje regresji są generowane na bazie danych empirycznych, dlatego rezultat estymacji zawsze należy porównać z rzeczywistą wartością zmiennej zależnej (opisywanej).

Podstawą tych porównań jest tzw. składnik resztowy - reszta .

Dla regresji Y względem X resztę definiuje się następująco :

0x01 graphic

W równaniu dla regresji X względem Y reszty wyznacza się analogicznie:

0x01 graphic

Funkcja regresji jest poprawnie oszacowana, jeżeli wartości reszt są niewielkie i mają charakter losowy.

Wariancje resztowe wyznacza się ze wzorów :

0x01 graphic

A błąd określają - odchylenia standardowe czyli:

0x01 graphic
0x08 graphic

Odchylenie standardowe reszt zwane również średnim błędem szacunku, określa, o ile ( średnio rzecz biorąc ) wartości empiryczne odchylają się od wartości teoretycznych. Wraz ze wzrostem odchylenia standardowego reszt maleje „dobroć” oszacowania funkcji regresji.

W analizie regresji do oceny dopasowania funkcji regresji miarą najczęściej stosowaną jest współczynnik zbieżności ϕ2:

0x01 graphic

który przyjmuje wartości (0,1), przy czym im mniejszą wartość przyjmuje współczynnik zbieżności, tym lepsze jest dopasowanie funkcji regresji do punktów empirycznych.

Oczywiście:

0x01 graphic

Współczynnikiem determinacji R2 nazywa się wyrażenie:

0x01 graphic

W przypadku zależności liniowej współczynnik determinacji równy jest współczynnikowi korelacji liniowej, a zatem:

0x01 graphic

Tak więc im wartość r2yx jest bliższa jedności, tym „dobroć” dopasowania funkcji regresji do danych empirycznych jest lepsza.

3.4.2.1.Przykłady

Przykład 1

W 1966 roku zebrano informacje w siedmiu krakowskich uczelniach o liczbie studentów Y = [y1,...y7] oraz o powierzchni (w m2) sal dydaktycznych tych uczelni X = [x1,........x7] . Wydaje się, że merytorycznie jest uzasadniona hipoteza o istnieniu obustronnej zależności między zmiennymi X i Y .

Należy :

  1. Oszacować równanie regresji zmiennej Y względem zmiennej X

  2. Oszacować równanie regresji zmiennej X względem zmiennej Y

  3. Wyznaczyć wartość współczynnika korelacji rxy na bazie informacji pozyskanych z obu równań regresji

  4. Określić szacunkową wielkość powierzchni sal wykładowych w jednej z krakowskich uczelni, jeśli ta zdecyduje się kształcić 15 tysięcy osób

  5. Oszacować S2(u) i S(u)

  6. Oszacować S2(v) i S(v)

Dane:X;Y;

W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenia standardowe należy wyliczyć z funkcji „REGBŁSTD.”. Średnie obliczyć wykorzystując funkcję „ŚREDNIA”.

WspółczynnikI regresji a1 i b1 oblicza się następująco:

Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :

Pozostałe obliczenia należy wykonać wprowadzając odpowiednie wzory do paska formuł.

0x01 graphic

Wykres rozrzutu i prosta regresji 1

0x01 graphic

Rozwiązanie:

0x01 graphic

Silna współzależność między zmiennymi X i Y potwierdza zasadność budowy równań regresji,

Kształcenie 15.000 studentów w jednej z krakowskich uczelni wiąże się z zapewnieniem bazy dydaktycznej o powierzchni sal równej około 11667,5m2

Przykład 2

Produkcja budowlano-montażowa oraz przeciętne zatrudnienie w Polsce w latach 1955-66 przedstawiały się następująco:

0x01 graphic

Na podstawie powyższych danych ustalić siłę i kierunek współzależności obu zjawisk.

Dane:X;Y;

W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenia standardowe należy wyliczyć z funkcji „REGBŁSTD.”. Średnie obliczyć wykorzystując funkcję „ŚREDNIA”.

WspółczynnikI regresji a1 i b1 oblicza się następująco:

Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :

Wariancję należy wykonać wprowadzając odpowiedni wzór do paska formuł.

Wykres rozrzutu i prosta regresji 2

0x01 graphic

Rozwiązanie:

0x01 graphic

Współczynnik korelacji 0,9 - silna zależność.

Przykład 3

Wśród studentów pewnego wydziału przeprowadzono badania między czasem nauki X a oceną Y, ze statystyki uzyskaną na egzaminie.

Uzyskane informacje kształtują się następująco:

0x01 graphic

Wyznaczyć równanie regresji Y(X), ocenić błąd oszacowania.

Jaką ocenę otrzyma student, który na naukę poświęci 8 dni ?

Dane:X;Y;

W programie do obliczeń współczynnika korelacji korzysta się z funkcji statystycznej „WSP. KORELACJI”, odchylenia standardowe należy wyliczyć z funkcji „REGBŁSTD.”. Średnie obliczyć wykorzystując funkcję „ŚREDNIA”.

WspółczynnikI regresji a1 i b1 oblicza się następująco:

Natomiast stałe regresji a0 i b0 w programie oblicza się następująco :

Pozostałe wyliczenia należy obliczyć przez wprowadzenie odpowiednich wzorów do paska formuł.

Rozwiązanie:

0x01 graphic

Przy 8 godzinach nauki może otrzymać ocenę z podanego powyżej przedziału.

Aby odpowiedzieć na pytanie ile dni trzeba się uczyć aby otrzymać 5 należy znaleźć zależność X od Y.

Aby otrzymać ocenę 5,0 należy spędzić 20,5 na nauce.


0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
Analiza wspolzaleznosci MOC
ćw 5 analiza współzależności zmiennych
statys ANALIZA WSPÓŁZALEŻNOŚCI
wyklad 3b ANALIZA WSPÓŁZALEŻNOŚCI
Analiza współzależności i korelacji
Analiza współzależności zmiennych na różnych skalach pomiarowych
Metody analizy współzależności
Analiza współzależności (2)
Analiza współzależności zjawisk ekonomicznych, Studia, STUDIA PRACE ŚCIĄGI SKRYPTY
ANALIZA WSPOLZALEZNOSCI ZJAWISK czesc 1, materiały z roku 2011-2012, Semestr II, Statystyka opisowa
wyklad4b ANALIZA WSPÓŁZALEŻNOŚCI
Analiza współzależności wzory, I rok, Statystyka opisowa
Analiza współzależności (8 stron) 3WWDYEUOONKTCD6JQ5OEOPOCUHWFYQNCOOTUDBA
Opisowe metody analizy współzależności zjawisk

więcej podobnych podstron