Statystyka - nauka o metodach badania zjawisk masowych.
Przeciwieństwem zjawiska masowego jest pojedynczy przypadek. Obserwując zjawiska masowe jesteśmy w stanie wykryć pewne prawidłowości o trwałym charakterze, opisać je a następnie wykorzystać w celach przewidywania, prognozowania. Prawidłowości te nie zawsze znajdują potwierdzenie w pojedynczych przypadkach. W celu poznania nowych zjawisk należy przeprowadzić badanie statystyczne. Jest to ogół zbiór czynności, które możemy sprowadzić do czterech podstawowych etapów:
Przygotowanie badania
Pierwszą czynnością jest określenie celu badania, ponieważ jemu podporządkowane są dalsze czynności. Cel badania może pochodzić z różnorodnych dziedzin nauki lub praktyki. W następnej kolejności ustalamy przedmiot obserwacji, czyli zbiorowość statystyczną. Cechy statystyczne to właściwości posiadane przez jednostki np.: wiek. Cechy statystyczne posiadają wszystkie jednostki badanej zbiorowości, ale różny ich poziom pozwala na wyróżnienie jednostki w zbiorowości.
|
Cechy statystyczne |
|
czasowe |
rzeczowe |
terytorialne |
|
(strukturalne) |
(przestrzenne) |
|
np. nasz wygląd, włosy |
np. miejsce zamieszkania |
cechy mierzalne |
cechy niemierzalne |
|
|
cechy skokowe |
cechy ciągłe |
Cecha mierzalna skokowa przyjmuje tylko niektóre wartości z określonego przedziału liczbowego (wyrażona jest liczbami całkowitymi).
Cecha mierzalna ciągła przyjmuje wszystkie możliwe wartości z określonego przedziału liczbowego (np. wiek, dochody - wyrażone w ułamkach).
Spośród wszystkich możliwych cech statystycznych dokonujemy wyboru tych, które są niezbędne z punktu widzenia celu badania.
Następną czynnością jest ustalenie zakresu badania tzn. podjęcie decyzji, czy będzie to badanie całkowite czy częściowe. W badaniu całkowitym bezpośrednią obserwacją objęte są wszystkie jednostki zbiorowości. Zbiorowość taką nazywamy zbiorowością generalną lub populacją. W badaniach częściowych bezpośredniej obserwacji podlegają te jednostki, które zostały wybrane lub wylosowane do badania. Zespół takich jednostek nazywamy zbiorowością próbną lub próbą.
Ostatnią czynnością w tym etapie badania jest opracowanie formularza, który posłuży do zbierania danych.
Obserwacja statystyczna, czyli zbieranie materiałów
W tym etapie badania musimy podjąć decyzję jaką metodą będziemy zbierać dane. Może to być bezpośredni wywiad, pośrednictwo poczty, zlecenie specjalnym instytucjom i inne. Metoda zbierania danych musi być powiązana z celem badania.
Opracowanie zebranego materiału
Pierwszą czynnością jest kontrola zebranego materiału. Wstępna kontrola formalna polega na sprawdzeniu kompletności zapisów tzn. sprawdzeniu, czy na wszystkie pytania otrzymaliśmy odpowiedzi. Kontrola merytoryczna polega na wstępnej ocenie jakości zebranego materiału. W zbieranych informacjach mogą pojawić się błędy przypadkowe lub systematyczne. Przypadkowe są wynikiem pomyłek i na ogół nie wpływają na jakość formułowanych wniosków. Systematyczne są wynikiem na ogół złej woli respondentów (osób odpowiadających). Błędy te mogą wpłynąć na jakość naszych ocen i wniosków.
Opis statystyczny i wnioskowanie
Następną czynnością jest grupowanie materiału, które polega na łączeniu jednostek charakteryzujących się takim samym lub zbliżonym poziomem badanej cechy w jednorodnej grupie. Grupowania dokonujemy wg każdej z badanych cech statystycznych. W wyniku grupowania otrzymujemy szeregi statystyczne.
Szeregi strukturalne powstają w wyniku grupowania materiału wg cechy rzeczowej.
Szeregi szczegółowe (proste) to zbiory wartości charakteryzujących poziom cechy dla każdej jednostki oddzielnie.
Schemat szeregu prostego, szczegółowego:
Cecha statystyczna |
np. powierzchnia mieszkania w m2 |
Xi |
Xi |
x1 |
38 = x1 |
x2 |
56 = x2 |
x3 |
73 = x3 |
... |
23 = x4 |
xn |
45 = x5 |
x1+x2+x3+x4+...+xn=∑xi 235 m2
Szeregi takie tworzymy dla niewielkich zbiorowości - na ogół nie przekraczających 30 informacji.
O P I S S T A T Y S T Y C Z N Y S T R U K T U R Y Z J A W I S K
Podstawią analizy są dane empiryczne pogrupowane w szeregu wg cechy rzeczowej. Miernikami służącymi do opisu są:
wskaźnik struktury
miary średnie, inaczej miary tendencji centralnej
miary zróżnicowania, inaczej rozproszenia (dyspersji)
miary asymetrii (skośności)
miary koncentracji
Ad. 1.
Wskaźnik struktury jest to udział jednostek z cechą wyróżnioną w ogólnej liczbie jednostek badanej zbiorowości.
ni |
n - wybrana gruba lub jednostka zbiorowości |
W |
∑i ni - suma jednostek zbiorowości |
∑i ni |
W - miernik |
0 ≤ Wi ≤ 1 ; ∑i Wi = 1,0
|
ni W = * 100 - otrzymujemy wynik w procentach |
∑i ni |
0 ≤ Wi ≤ 100 ; ∑i Wi = 100
np.: W = 20%
20% badanej zbiorowości charakteryzuje się wybranym wariantem cechy.
Ad. 2.
Miary średnie służące do opisu struktury zjawisk dzielimy na:
średnie klasyczne
średnia arytmetyczna jest wynikiem podzielenia łącznej wartości cechy przez ogólną liczbę jednostek.
W szeregach szczegółowych łączną wartość cechy otrzymujemy w wyniku bezpośredniego jej sumowania. Dzieląc sumę przez liczbę jednostek otrzymujemy średnią arytmetyczną prostą.
__
X - poziom średni (charakterystyczna kreska na górze)
__ ∑i xi |
|
n
W szeregach rozdzielczych wartości cechy są rozdzielone.
Schemat szeregu rozdzielonego:
Cecha |
Liczba jednostek |
xi ni |
xi |
ni |
|
x1 |
n1 |
x1 n1 |
x2 |
n2 |
x2 n2 |
x3 |
n3 |
x3 n3 |
x4 |
n4 |
x4 n4 |
... |
... |
... |
... |
... |
... |
xn |
nn |
xn nn |
Ogółem |
∑i ni |
∑i xini |
W szeregach rozdzielczych o klasach pojedynczych (jednowariantowych) łączną wartość cechy obliczamy mnożąc każdy jej wariant przez liczbę jednostek, następnie sumując te iloczyny. Dzieląc łączną wartość cechy przez sumę jednostek (obserwacji) otrzymujemy średnią arytmetyczną ważoną.
|
|
∑i ni
W szeregach rozdzielczych o przedziałach klasowych obliczamy również średnią arytmetyczną ważoną. Przed jej obliczeniem obliczamy środki przedziałów klasowych. Jest to średnia arytmetyczna z granic przedziału.
__ ∑i xi ni charakterystyczny znak (kółko) |
|
∑i ni
Własności średniej arytmetycznej:
Jest wielkością mianowaną, przyjmuje takie miano jak badana cecha.
Jest obliczana ze wszystkich wartości w szeregu statystycznym, dlatego reaguje na wielkości nietypowe. Na ogół średniej nie możemy obliczyć w szeregach rozdzielczych o otwartych przedziałach klasowych.
__
X min < X < X max
Suma odchyleń (różnic) poszczególnych wartości cechy od średniej jest równa zero we wszystkich rodzajach szeregów.
___
∑i (xi - x) = 0
___
∑i (xi - x)ni = 0
średnia harmoniczna - przekształcona postać średniej arytmetycznej.
Średnie pozycyjne - są wyznaczane w szeregu, ponieważ zajmują w nim określoną pozycję.
Mediana (wartość środkowa) jest to ta wartość cechy, która w uporządkowanym szeregu statystycznym zajmuje pozycję środkową.
W pierwszej kolejności porządkujemy wartości cechy rosnąco lub malejąco, następnie wyznaczamy miejsce jednostki, która znajduje się pośrodku szeregu tzn. obliczamy numer mediany. Wartość cechy środkowej jednostki jest medianą.
W szeregach szczegółowych o nieparzystej liczbie obserwacji obliczamy jeden numer mediany.
n + 1 |
|
2
W szeregach o parzystej liczbie obserwacji obliczamy dwa numery mediany.
n n |
|
2 2
W szeregach rozdzielczych obliczamy tylko jeden numer mediany, a następnie tworzymy skumulowany szereg liczebności.
∑i ni |
|
2
W szeregach o klasach pojedynczych wskazujemy od razu wartość mediany.
W szeregach rozdzielczych o przedziałach klasowych w pierwszej kolejności wyznaczamy przedział mediany, a następnie szacujemy jej wartość w przedziale wg wzoru:
ho |
|
no
M - wartość mediany
x0 - dolna granica przedziału mediany
h0 - rozpiętość przedziału mediany
n0 - liczba jednostek w przedziale mediany
NM - numer mediany
N isk - 1 -liczba jednostek w skumulowanym szeregu liczebności w przedziale poprzedzającym przedział mediany.
Własności mediany:
Mediana może być wyznaczana bez żadnych ograniczeń w każdym rodzaju szeregu statystycznego.
Dominanta (modalna) jest to wartość cechy, która w zbiorowości występuje najczęściej.
W szeregach rozdzielczych dominanta to ta wartość cechy, której odpowiada największa liczba jednostek.
W szeregach rozdzielczych o przedziałach klasowych wyznaczamy przedział dominanty, a następnie szacujemy jej wartość w przedziale wg wzoru:
(no - n -1)ho |
|
(no - n -1) + (no - n +1)
D - wartość dominanty
x0 - dolna granica przedziału dominanty
n0 - liczba jednostek w przedziale dominanty
n -1 - liczba jednostek w przedziale poprzedzającym przedział dominanty
n +1 - liczba jednostek w przedziale następnym dominanty
h0 - rozpiętość przedziału dominanty
Dominanty nie wyznaczamy w szeregach:
w których dominuje więcej niż jedna wartość cechy,
o różnej rozpiętości przedziałów klasowych,
warunkiem koniecznym jest jednakowa rozpiętość przedziału dominanty i przedziałów z nią sąsiadujących.
Kwartyle - powstają w wyniku podziału zbiorowości na cztery równe części.
Q1 |
Q2 |
Q3 |
Q4 |
25% |
50% |
75% |
100% |
Kwartyle wyznaczamy analogicznie jak Medianę.
W szeregach rozdzielczych o przedziałach klasowych w pierwszej kolejności wyznaczamy przedział wyznaczony numerem kwartyla, a następnie szacujemy jego wartość w przedziale wg wzoru jak medianę:
∑i ni |
|
4 NQ1 - numer kwartyla
3∑i ni |
|
4
Ad. 3
Miary zróżnicowania, inaczej rozproszenia (dyspersji)
Np.
Zbiorowości:
A |
B |
|
1500 zł |
50% 1000 zł |
1400 zł |
2000 zł |
1600 zł |
x - średnia płaca w spółkach A i B
Obliczanie różnicy pomiędzy poszczególnymi zarobkami, a średnią.
A |
B |
xi - x |
xi - x |
-500 |
-100 |
+500 |
+100 |
|
0 |
│xi - x │
pozbywamy się znaków + i -
( xi - x) 2
Miary dyspersji |
||||||
|
|
|
||||
Klasyczne |
|
Pozycyjne |
||||
|
|
|
|
|
|
|
|
|
Względne |
|
Bezwzględne |
|
Względne |
|
|
|
|
|
|
|
|
Współczynnik zmienności |
|
Odchylenie ćwiartkowe |
|
Współczynnik zmienności |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Odchylenie przeciętne
|
|
n
|
|
∑i ni pojedynczych (jednowariantowych)
|
|
∑i ni
Wariancja
|
|
n n
|
|
∑i n i ∑i ni pojedynczych
|
|
∑i n i ∑i ni przedziałach klasowych
Wariancja wyrażona jest w jednostkach kwadratowych, nie nadaje się więc do interpretacji ekonomicznej. W porównaniu zróżnicowania struktur zbiorowości posługujemy się odchyleniem standardowym, które jest pierwiastkiem kwadratowym z wariancji.
Odchylenie standardowe
δx = √ δ2
Np.
Porównaj stopień zróżnicowania cech zbiorowości
Zbiorowości:
A |
B |
|
1000 zł |
δx 50 zł |
100 zł |
Np.
Bieg na 100m i skok wzwyż. Porównaj zróżnicowanie zbiorowości w tych dyscyplinach.
|
δx = 4 sek |
|
δx = 180 cm |
Do porównania stopnia zróżnicowania,
dwu lub kilku różnych zbiorowości z punktu widzenia tej samej cechy
jednej zbiorowości z punktu widzenia dwu lub kilku różnych cech
posługujemy się względnymi miernikami. Są to współczynniki zmienności obliczane jako procentowy udział odchylenia w odpowiedniej średniej.
dx |
|
x
δx |
|
x stosunek odchylenie standardowego do średniej arytmetycznej
Rozwiązanie:
|
x = 12 sek |
δx = 4 sek |
4/12 = 1/3 = 33% |
Vx = 10% |
x = 180 cm |
δx = 18 cm |
18/180 = 1/10 = 10% |
Odchylenie ćwiartkowe
Pomiędzy 3 i 1 kwartylem
Q3 - Q1 |
|
2
Q |
|
M medianie
Miary pozycyjne obliczamy w zastępstwie miar klasycznych.
Ad. 4
Miary asymetrii (skośności)
Jeżeli dla tego samego zbioru danych obliczamy średnią arytmetyczną, medianę i dominantę to pomiędzy nimi może zachodzić jedna z trzech relacji (zależności):
x = M = D - występuje w szeregu symetrycznym
x = M = D x
x ≤ M ≤ D
x M D x
x - D < 0
Jest to szereg asymetryczny o ujemnym kierunku zależności, lewostronnie skośny.
D ≤ M ≤ x
D M x x
x - D > 0
Jest to szereg asymetryczny o dodatnim kierunku zależności, prawostronnie skośny.
Do porównań stopnia asymetrii stosujemy względne mierniki, do których należą:
współczynnik asymetrii
|
|
δx
│WAS │ - bezwzględna wartość charakteryzuje wartość asymetrii, znak określa kierunek asymetrii -1 ≤ WAS ≤ 1 |
│WAS │= 1 to skrajna asymetria
|
( Q3 - M ) - ( M - Q1 ) |
|
Q3 - Q1
-1 ≤ WAS ≤ 1
Ad. 5.
Miary koncentracji
Wyróżniamy dwa rodzaje koncentracji:
koncentracja rozumiana jako nierównomierny podział łącznej wartości cechy w zbiorowości
Ze zjawiskiem tym mamy do czynienia w przypadku bardzo nierównomiernego podziału zjawiska. W skrajnych sytuacjach możemy sobie wyobrazić, że posiadaczem łącznej wartości cechy jest jedna jednostka czy instytucja.
Np.:
Wszystkie grunty orne danego województwa mają jednego właściciela lub wszystkie oszczędności ludność znajdują się w jednym banku.
jako koncentrację zbiorowości wokół średniej (Kurtoza).
Skrajnym przypadkiem jest równomierny podział łącznej wartości cechy.
Np.:
10 % gruntów jest własnością 10 % właścicieli, 20 % własnością 20 % właścicieli.
Dane empiryczne do opisu koncentracji muszą zawierać trzy informacje:
wartość cechy
łączną wartość cechy
częstość występowania poszczególnych wartości cechy
Badając stopień koncentracji posługujemy się wykresem oraz liczbowym miernikiem tzw. współczynnikiem koncentracji. Sporządzając wykres na osi OX odkładamy skumulowane części występowania poszczególnych wariantów cechy. Na osi OY - względne wskaźniki (w %) łącznej wartości cechy.
y
100 %
a
b
10 %
10 100 x
Przekątna kwadratu to linia równomiernego podziału - oznacza to brak koncentracji.
Boki trójkąta wyznaczają gęstość koncentracji.
Krzywa nosi nazwę krzywej Lorenza.
Pole trójkąta obliczamy sumując pola wszystkich trapezów (pod krzywą Lorenza).
a |
|
a + b
P = (100 * 100)/2 = 5000
a = 5000 - b
5000 - b |
|
5000 1 - pełna koncentracja
0 ≤ k ≤ 1
Zadanie nr 1
Zbadać stopień koncentracji zatrudnionych w zakładach wg wielkości zakładów w 1996 r.
xi |
Liczba zakładów
ni |
Liczba zatrudnio-nych w tyś. xini |
Wskaźniki w %
^ Wi Wi |
Skumulowane wskaźniki struktury
^ Wisk Wisk
|
$ |
Zi * Wi |
||
Do 100 |
2820 |
185,6 |
38,5 |
6,8 |
38,5 |
6,8 |
3,4 |
130,50 |
101 - 200 |
1980 |
281,9 |
26,2 |
10,4 |
64,7 |
17,2 |
12,0 |
314,40 |
201 - 500 |
1628 |
501,3 |
21,4 |
18,5 |
86,0 |
35,7 |
26,45 |
566,03 |
501 - 1000 |
588 |
411,7 |
7,8 |
15,2 |
93,9 |
50,9 |
43,30 |
337,74 |
1001 i więcej |
460 |
1331,0 |
6,1 |
49,1 |
100 |
100 |
75,43 |
420,25 |
Ogółem: |
7586 |
2711,5 |
100,0 |
100,0 |
- |
- |
- |
1808,92 |
^
$ to oznaczenie następującego działania (Wisk + Wisk - 1)/2
Obliczyć wskaźniki struktury
W1 = 2820/7586 = 0,385 * 100 = 38,5 %
W2 = 1980/7586 = 0,262 * 100 = 26,2 %
W3 = 1628/7586 = 0,214 * 100 = 21,4 %
^
W1 = 185,6/2711,5 * 100 = 6,8
^
W2 = 281,9/2711,5 * 100 = 10,4
Wisk1 = 0 + 38,5 = 38,5
Wisk2 = 38,5 +26,2 = 64,7 itd.
5000 - 1808,2 |
|
5000
k = 0,638
W celu określenia obserwacji wokół średniej należy porównać badany rozkład zjawiska z rozkładem typowym.
y
x = M = D x
Jako typowy przyjmuje się rozkład normalny. Szereg, który po przeniesieniu wykresu na wykres krzywej normalnej jest bardziej wysmukły, oznacza większe skupienie wartości cechy wokół średniej. Natomiast szereg bardziej spłaszczony oznacza mniejszy stopień koncentracji (skupienia).
Miarą natężenia koncentracji w tym przypadku jest moment centralny czwartego rzędu.
|
|
∑i n i
Miernik ten nie nadaje się do interpretacji ekonomicznej, ponadto jako miara mianowana utrudnia porównania. Dlatego też w porównaniach stosuje się często miernik standaryzowania.
O P I S S T A T Y S T Y C Z N Y W S P Ó Ł Z A L E Ż N O Ś C I Z J A W I S K
(analiza korelacji)
W dotychczasowej analizie dokonywaliśmy porównania struktury kilku zbiorowości z punktu widzenia jednej cechy. W praktyce spotykamy często sytuacje, w których zmiany na poziomie jednej z cech, powodują określoną tendencję zmian na poziomie cechy drugiej. Mówimy wówczas, że zjawiska takie pozostają w zależności przyczynowo - skutkowej.
Na ogół wyróżniamy dwa typy zależności:
Funkcyjna przy, której określonemu poziomowi zmiennej niezależnej X odpowiada ściśle określony poziom zmiennej zależnej Y. Zależność taka opisana jest równaniem funkcji matematycznych. Jest to zależność teoretyczna.
Statystyczna (korelacyjna) przy, której odpowiedniej wartości zmiennej niezależnej X odpowiada wartość zmiennej zależnej Y z pewnego przedziału. Wynika to z faktu, że na zmiany zmiennej zależnej ma wpływ czynnik główny, który kształtuje tę zależność oraz szereg czynników ubocznych i czynnik losowy powodujący odchylenie od głównej zależności.
Dane statystyczne do opisu korelacji muszą zawierać informacje o poziomie dwóch cech dla każdej badanej jednostki statystycznej. Przed przystąpieniem do opisu należy dokonać merytorycznej oceny badanych zjawisk. Dane mogą być przedstawione w postaci szeregów korelacyjnych (szeregi szczegółowe) lub tablicy korelacyjnej.
Opis zależności sprowadza się do trzech podstawowych zagadnień:
ustalenie na podstawie danych, czy badane zjawiska są zależne
xi |
yi |
|
xi |
yi |
|
xi |
yi |
2 |
15 |
|
2 |
24 |
|
2 |
10 |
3 |
16 |
|
3 |
24 |
|
3 |
10 |
4 |
14 |
|
4 |
23 |
|
4 |
10 |
5 |
17 |
|
5 |
21 |
|
5 |
11 |
6 |
20 |
|
6 |
19 |
|
6 |
10 |
7 |
19 |
|
7 |
20 |
|
7 |
10 |
8 |
21 |
|
8 |
17 |
|
8 |
9 |
9 |
23 |
|
9 |
14 |
|
9 |
10 |
10 |
24 |
|
10 |
16 |
|
10 |
10 |
11 |
24 |
|
11 |
15 |
|
11 |
9 |
Wstępnej oceny istnienia lub braku zależności możemy dokonać na podstawie danych empirycznych, przedstawionych w szeregach korelacyjnych.
Jeżeli wzrost wartości jednej z cech wywołuje rosnącą tendencję wartości cechy drugiej to cechy te są zależne, a kierunek zależności dodatni.
Jeżeli wzrostowi wartości jednej z cech towarzyszy tendencja malejąca wartości cechy drugiej to stwierdzamy zależność o kierunku ujemnym.
Jeżeli zmianom wartości jednej z cech nie towarzyszy żadna określona tendencja zmian wartości cechy drugiej, to stwierdzamy brak zależności.
Innym sposobem jest sporządzenie wykresu danych empirycznych i podjęcie decyzji czy cechy są zależne.
określenie charakteru zależności i wyznaczenie linii regresji
^
y = ax + b (*)
Celem tej analizy jest przewidywanie określonej wartości zmiennej zależnej przy zmianach zmiennej niezależnej. Przewidywać możemy wyłącznie na podstawie równań funkcji matematycznych. Dlatego należy zależność statystyczną sprowadzić do zależności matematycznej.
Do zbioru danych należy dopasować odpowiednią postać funkcji. W pierwszej kolejności należy podjąć decyzję, czy zależność ma charakter prosty czy krzywoliniowy. Najczęściej wyboru funkcji dokonujemy na podstawie wykresu danych empirycznych. Jeśli podejmiemy decyzję, że zależność ma charakter prostoliniowy o ogólnej postaci (*), to najlepiej dopasowana jest prosta, która spełnia warunek, że suma kwadratów odchyleń danych empirycznych do danych teoretycznych równa jest minimum.
^
∑i ( yi - y )2 = min
yi - dane empiryczne
^
y - dane teoretyczne
Warunek ten jest spełniony, jeżeli parametry a, b równania prostej obliczamy na podstawie układu równań normalnych.
∑i yi = a∑i xi + bN
∑i yi xi = a∑i xi2 + b∑i xi gdzie, N - liczba obserwacji
aA - współczynniki regresji
W analizie korelacji rozpatrujemy zagadnienia współzależności zjawisk. Okazuje się, że do zbioru danych empirycznych możemy dopasować drugą prostą postać:
^
x = Ay + B
∑i xi = A∑i xi + BN
∑i xi yi = A∑i yi2 + B∑i xi
Wartość liczbowa parametru „a”, charakteryzuje jak zmienia się poziom cechy zależnej przy wzroście zmiennej niezależnej o jedną jednostkę. Znak przy parametrze wskazuje kierunek zależności (+, - , 0 czyli brak zależności).
Wynik prognozy obliczamy na podstawie równania linii regresji, uwzględniając wpływ wyłącznie czynniku głównego.
W prognozie musimy uwzględniać wpływ pozostałych czynników na poziom zmiennej zależnej.
Obliczamy błąd szacunku (prognozy):
^
|
|
N - K K - liczba szacowanych parametrów
Ostateczny wynik prognozy:
^ ^
y(x) = (y(x) ± Sy)
Wyznaczone równania noszą nazwę teoretycznych równań linii regresji, a metoda obliczeń to metoda najmniejszych kwadratów (MNK) lub klasyczna metoda najmniejszych kwadratów (KMNK).
ustalenie ścisłości związku korelacyjnego
Wstępnej oceny zależności pomiędzy badanymi cechami możemy dokonać na podstawie wykresu teoretycznych linii regresji. Linie te przecinają się w punkcie ( x , y ), a wielkość kąta pomiędzy tymi liniami wskazuje jak silny związek pomiędzy badanymi zjawiskami.
P(x , y )
W skrajnych sytuacjach teoretyczne linie regresji mogą przeciąć się pod kątem prostym co oznacza brak zależności pomiędzy cechami lub nałożyć się co oznacza zależność funkcyjną - czyli pełną korelację. Oznacza to, że większy kąt pomiędzy liniami regresji oznacza mniejszą zależność i odwrotnie.
rxy = 0
900
rxy = -1 rxy = 1
^
y = ax + b
^
x = Ay + B
Liczbowym wyrażeniem ścisłości związku korelacyjnego jest współczynnik korelacji Pearson'a.
rxy = ± aA
-1 ≤ rxy ≤ 1
│rxy│- charakteryzuje ścisłość związku korelacyjnego. Natomiast znak przy współczynniku wskazuje kierunek zależność („+” kierunek dodatni tzn. wartości obu cech wykazują tendencję rosnącą oraz „ - ” kierunek ujemny tzn. rosnąca tendencja wartości jednej z cech i towarzysząca jej malejąca tendencja wartości cechy drugiej.
Jeżeli rxy = 1 to mamy zależność funkcyjną, czyli pełną korelację.
Jeżeli rxy = 0 to oznacza to brak zależności pomiędzy cechami.
Bardziej szczegółową interpretację siły związku otrzymujemy obliczając kwadrat współczynnika korelacji (rxy2 to współczynnik determinacji). Określa on w jakim stopniu zmiany cechy zależnej objaśnione są zmianami zmiennej niezależnej. Współczynnik ten charakteryzuje też stopień dopasowanie funkcji do danych empirycznych.
0 ≤ rxy2 ≤ 1
Własności współczynnika korelacji :
może być obliczany wyłącznie dla zależności prostoliniowych,
badane zjawiska muszą być wyrażone liczbami tzn. muszą być mierzalne,
współczynnik jest miarą symetryczną tzn.
rxy = ryx
Obliczanie współczynnika korelacji na podstawie parametrów linii regresji wymaga wyznaczenia obu teoretycznych równań linii regresji. Nie zawsze to jest konieczne. Dlatego, też opracowano inne metody obliczania współczynnika korelacji:
metoda kowariancji
|
|
δx δy δx δy
∑i xiyi |
|
N
Na podstawie obliczonego współczynnika korelacji możemy wyznaczyć teoretyczne linie regresji w następujący sposób:
^ ^
y = ax + b y = rxy δx / δy (x - x) + y
^ ^
x = Ay + B x = ryx δy / δx (y - y) + x
x = A y + B
Obliczony na podstawie współczynnika korelacji błąd szacunku, czyli prognozy przybiera postać:
^
Sy = δy 1 - ryx2
^
Sx = δx 1 - ryx2
Współczynnik korelacji „rang” Spearman'.
Szczególnym współczynnikiem służącym do pomiarów stopnia zależności pomiędzy cechami jest współczynnik korelacji „rang”. Może on być obliczany zarówno dla cech mierzalnych, jak i niemierzalnych. Warunkiem koniecznym jest możliwość uporządkowania danych rosnąco lub malejąco. Kolejnym wartościom każdej z cech przypisujemy odpowiednią rangę, która wskazuje pozycję danej jednostki w szeregu korelacyjnym. Siłę związku obliczamy wg następującego wzoru:
6 ∑i di2 |
|
N(N2 - 1) N - liczba obserwacji
-1 ≤ ≤ 1
│ Ryx │= 1 to zależność pełna (funkcyjna) wskazuje zarówno siłę jak i kierunek zależności
Ryx = 0 to brak zależności
Znak określa kierunek:
„+” oznacza, że uporządkowanie wg obu cech jest jednokierunkowe
„-” oznacza, że uporządkowanie jednej cechy jest przeciwne do uporządkowania wg cechy drugiej.
Zadanie nr 2
Przeprowadzono badanie zależności wydajności pracy od stopnia zdyscyplinowania pracowników. Otrzymano następujące uszeregowanie wg obu cech:
Zdyscyplinowanie pracowników |
Wydajność |
xi |
yi |
A |
E |
B |
D |
E |
F |
B |
J |
G |
K |
I |
L |
C |
C |
F |
I |
A |
B |
J |
H |
L |
A |
H |
G |
Określić siłę i kierunek zależności pomiędzy badanymi cechami.
Rozwiązanie:
Nadajemy rangi, gdzie A=1, B=2, C=3 itd.
dxi |
dyi |
di |
di2 |
1 |
5 |
-4 |
16 |
4 |
4 |
0 |
0 |
5 |
6 |
-1 |
1 |
2 |
10 |
-8 |
64 |
7 |
11 |
-4 |
16 |
9 |
12 |
-3 |
9 |
3 |
3 |
0 |
0 |
6 |
9 |
-3 |
9 |
8 |
2 |
6 |
36 |
10 |
8 |
2 |
4 |
12 |
1 |
11 |
121 |
11 |
7 |
4 |
16 |
------- |
----------- |
---------- |
292 |
6 * 292 |
|
12(144 - 1)
Wnioski:
Zależność pomiędzy wydajnością pracy, a zdyscyplinowaniem prawie nie istnieje. Kierunek uporządkowania obu cech jest przeciwny.
2
Zbiór punktów