korelacja i regresja


A N A L I Z A S T R U K T U R Y Z B I O R O W O Ś Ć I
STRUKTURA - budowa wewnętrzna badanej zbiorowości statystycznej.
ROZKAAD EMPIRYCZNY  przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy
zmiennej.
KLASY ROZKAADÓW EMPIRYCZNYCH
1. Rozkłady symetryczne i asymetryczne
2. Rozkłady jednomodalne, bimodalne i wielomodalne
3. Rozkłady platokurtyczne (spłaszczone) i leptokurtyczne (wysmukłe)
ROZKAAD SYMETRYCZNY  rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu
stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej
ROZKAAD ASYMETRYCZNY  rozkład nie posiadający oś symetrii,
1. rozkład lewostronny  ujemny - większość jednostek grupuje się wokół wartości wyższych w szeregu;
2. rozkład prawostronny  dodatni  większość jednostek grupuje się wokół wartości niższych w szeregu;
ROZKAAD JEDNOMODALNY  krzywa liczebności o jednym ekstremum (maksimum)
ROZKAAD BIMODALNY  krzywa liczebności o dwóch ekstremach
ROZKAAD WIELOMODALNY  krzywa liczebności ma więcej niż dwa maksima
PODSTAWOWE WSKAyNIKI STRUKTURY I NATŻENIA
ni - bezwzględna liczba jednostek i-tego wariantu cechy
=� n - łączna liczba jednostek w zbiorowości
��ni
i
ni
f =� 1
fi =� - częstość tj. frakcja
�� i
n
i
ni - wskaznik struktury, tj. stosunek wybranej części zbiorowości do całej zbiorowości;
wi =� ��100%
=� 100%
��wi
n
i
ni - wskaznik natężenia, tj. stosunek liczebności dwóch zbiorowości pozostających ze sobą w
wn =� ��100%
i
mi
logicznej zależności
nicum - liczebności szeregu skumulowanego,
(sumowanie liczebności kolejnych przedziałów);
)
��min(wi
- względny wskaznik podobieństwa struktur, tj. iloraz sumy mniejszych wskazników
i
Z =�
)
��max(wi
i
zaobserwowanych w kolejnych przedziałach porównywalnych rozkładów i
sumy większych wskazników; ;
Z �� 0,1
WAASNOŚCI ROZKAADU EMPIRYCZNEGO
1
TENDENCJA CENTRALNA  POAOŻENIE - punkt skupienia obserwacji znajduje się w środku rozkładu
(symetria) lub w pobliżu środka rozkładu (umiarkowana asymetria)
v� R. wykazujące tendencję centralną
v� R. nie wykazujące tendencji centralnej
DYSPERSJA  ZRÓŻNICOWANIE , ROZPROSZENIE, ZMIENNOŚĆ - zróżnicowanie jednostek zbiorowości
między sobą wartościami cechy zmiennej
v� R. słabo zróżnicowane
v� R. umiarkowanie zróżnicowane
v� R. silnie zróżnicowane
ASYMETRIA  SKOŚNOŚĆ  sposób rozmieszczenia liczebności przy wartościach cechy
v� R. symetryczne
v� R. umiarkowanie asymetryczne (p,l)
v� R. skrajnie asymetryczne (p,l)
KONCENTRACJA  KURTOZA, SPAASZCZENIE  stopień skupienia obserwacji wokół wartości średniej
arytmetycznej
v� R. normalny
v� R. wysmukły
v� R. spłaszczony
PARAMETRY OPISUJCE WAASNOŚCI ROZKAADU
WAASNOŚĆ
MIARY KLASYCZNE MIARY POZYCYJNE
ROZKAADU
Mediana Me
TENDENCJA Dominanta D
Średnia arytmetyczna x
CENTRALNA Kwartyle Q , Q
1, 3
Decyle D , D , ..., D
1 2 9
Wariancja s2
Rozstęp R
Odchylenie przeciętne d
DYSPERSJA Odchylenie ćwiartkowe Q
Odchylenia standardowe s
Współczynnik zmienności V(Q)
Współczynnik zmienności V(s)
Moment trzeci centralny m�3
ASYMETRIA Współczynnik skośności A(x)
Moment trzeci względny a�3
Moment czwarty centralny m�4
KONCENTRACJA Wskaznik spłaszczenia W
k
Moment czwarty względny a�4
2
PARAMETRY KLASYCZNE  miary obliczane na podstawie wszystkich obserwacji, stosowane do analizy
rozkładów charakteryzujących się te tendencją centralną;
PARAMETRY POZYCYJNE  wyznaczane na podstawie miejsca jakie zajmują w szeregu lub częstotliwości
występowania; szczególnie przydatne w analizie szeregów silnie (skrajnie) asymetrycznych, szeregów z otwartymi
przedziałami klasowymi,
MIARY POAOŻENIA
ŚREDNIA ARYTMETYCZNA  iloraz globalnej wartości cechy oraz liczby obserwacji.
1. szereg szczegółowy:
��xi
i
x =�
x poszczególne wartości cechy
i 
n
n  ogólna liczba obserwacji
2. szereg rozdzielczy jednostopniowy:
ni
��xi
i
x =�
n
x warianty cechy
i 
n  liczebności wariantów cechy
i
3. szereg rozdzielczy wielostopniowy:
&�
ni
��xi
i
&�
xi - środek przedziału klasowego
x =�
n
xi0 +� xi1
&�
xi =�
2
n  liczebność w przedziale
i
WAASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
xmin Ł� x Ł� xmax
1.
2.
-� x) =� 0
��(xi
i
y =� a �� x
3.
z =� x +� b
4.
5.
��(x -� x)2 =� min
i
3
MEDIANA  wartość środkowa; wartość cechy jaką posiada jednostka znajdująca się w środku uporządkowanego
szeregu.
1. szereg szczegółowy  porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy
obserwację środkową.
W przypadku parzystej liczby obserwacji wartość mediany jest średnią arytmetyczną z dwóch
środkowych obserwacji.
np.
2 3 3 6 7 7 9 11 13
Me =� 7
11 13 13 16 18 19 22 22 25 30
18 +� 19
Me =� =� 18,5
2
2. szereg rozdzielczy jednostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu,
tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany,
3) wartość mediany jest wartością cechy we wskazanej klasie;
n+�1
pozMe=�
2
n
x n icum
i i
0 6 6
1 7 13
2 11 24
3 4 28
4 3 31
5 2 33
" 33 x
n +� 1 33 +� 1
pozMe =� =� =� 17
Me =� 2
2 2
4
3. szereg rozdzielczy wielostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu,
tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany,
3) wyznaczamy medianę w oparciu o wzór interpolacyjny:
0
Me =�x0+�(�pozMe-� nsk-�1)�c
n0
n
icum
n
Ł� xi <� i
9
0-10 9
28
10-20 19
51
20-30 23
65
30-40 14
74
40-50 9
81
50 i więcej 7
x
" 81
n +�1 81 +� 1
pozMe =� =� =� 41
2 2
Me =� 20 +� (�41 -� 28)�10 =� 25,65
23
KWARTYLE  wartości ćwiartkowe, dzielą zbiorowość, uporządkowaną wg rosnących wartości badanej cechy, na
cztery jednakowo liczne części.
KWARTYL PIERWSZY Q oznacza, iż 25% badanej zbiorowości osiąga wartości cechy nie większe niż Q , a 75%
1 
1
zbiorowości ma wartości cechy nie mniejsze niż Q .
1
KWARTYL DRUGI Q jest równy Medianie, gdyż oznacza, iż 50% badanej zbiorowości osiąga wartości cechy nie
2 
większe niż Q , a druga połowa  wartości nie mniejsze niż Q
2 2.
KWARTYL TRZECI Q  oznacza, iż 75% badanej zbiorowości osiąga wartości cechy nie większe niż Q , zaś
3 3
pozostałe 25% - wartości nie mniejsze niż Q .
3
1. szereg szczegółowy  porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację leżącą w ź
zbiorowości.
np.
2 3 3 6 7 7 9 11 13
Q1 =� 3
Q3 =� 9
5
2. szereg rozdzielczy jednostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw.
pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość
mediany jest wartością cechy we wskazanej klasie;
n +� 1
pozQ =�
1
4
3( n +� 1)
pozQ =�
3
4
n
x n icum
i i
0 6 6
1 7 13
Q1
2 11 24
3 4 28
Q
3
4 3 31
5 2 33
" 33 x
n +�1 33 +� 1
pozQ1 =� =� =� 8,5
4 4
3(n +� 1) 3(33 +� 1)
pozQ3 =� =� =� 25,5
4 4
3. szereg rozdzielczy wielostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw.
pozycję, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję parametru, 3) wyznaczamy
parametr w oparciu o wzór interpolacyjny:
0
Qn =�x0+�(�pozQ -�nsk-�1)�c
n
n0
n
icum
n
Ł� xi <� i
9
0-10 9
28
10-20 19
51
20-30 23
65
30-40 14
74
40-50 9
81
50 i więcej 7
x
" 81
3(n +�1) 3(81+�1)
n +�1 81+�1
pozQ3 =� =� =� 61,5
pozQ1 =� =� =� 20,5
4 4
4 4
10
Q1 =� 10 +� (�20,5 -� 9)�10 =� 16,05 Q3 =� 30+� (61,5-�51) =� 37,5
19 14
6
DOMINANTA  MODA - to pozycyjna miara położenia wyznaczana przez częstotliwość występowania
wyróżnionych wartości cechy. Informuje ona jaka wartość cechy występuje najczęściej (dominuje).
1. szereg szczegółowy  porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację występującą
najczęściej.
np.
2 3 3 6 7 7 7 9 11 13
D =� 7
2. szereg rozdzielczy jednostopniowy  wskazujemy wartość cechy wokół oscyluje największa liczba
obserwacji
x n
i i
0 6
1 7
D =� 2
2 11
3 4
4 3
5 2
" 33
3. szereg rozdzielczy wielostopniowy - 1) wskazujemy przedział klasowy, w którym skupia się największa
liczba obserwacji 2) wyznaczamy dominantę w oparciu o wzór interpolacyjny:
n0 -� n-�1
D =� x0 +� ��c
(n0 -� n-�1) +� (n0 -� n+�1)
n
Ł� xi <� i
0-10 9
10-20 19
20-30 23
30-40 14
40-50 9
23 -�19
50-60 7
D =� 20 +� ��10 =� 23,08
(23 -�19) +� (23 -�14)
" 81
7
DYSPERSJA, ROZPROSZENIE, ZRÓŻNICOWANIE, ZMIENNOŚĆ - to zróżnicowanie jednostek
zbiorowości pomiędzy sobą pod względem wartości cechy zmiennej.
MIARY DYSPERSJI  umożliwiają uogólnienie różnic w wartościach cechy zaobserwowanych u poszczególnych
jednostek.
KLASYCZNE MIARY DYSPERSJI  obliczane na podstawie informacji o wszystkich jednostkach statystycznych,
jako wypadkowa różnic w poziomie cechy.
WARIANCJA  średnia arytmetyczna z kwadratów odchyleń wartości cechy od wartości średniej
arytmetycznej.
WARIANCJA NIE POSIADA LOGICZNEJ INTERPRETACJI
4. szereg szczegółowy:
n n
-� x)2 2
��(xi ��xi
i=�1 i=�1
s2 =� =� -� x2
n n
5. szereg rozdzielczy jednostopniowy:
k k
-�x)2ni 2ni
��(xi ��xi
i=�1 i=�1
s2 =� =� -� xi
n n
6. szereg rozdzielczy wielostopniowy:
k k
&� -�x)2ni ni
&�2
��(xi ��xi
i=�1 i=�1
s2 =� =� -� xi
n n
x warianty cechy
i 
n  liczebności wariantów cechy
i
&�
xi - środek przedziału klasowego
xi0 +� xi1
&�
xi =�
2
n  ogólna liczba obserwacji
ODCHYLENIE STANDARDOWE  średnia z odchyleń zaobserwowanych wartości cechy od jej średniej
arytmetycznej. Oznacza  o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej .
2
s =� s
8
WSPÓACZYNNIK ZMIENNOŚCI  względna miara dyspersji wyrażająca procentowy udział odchylenia
standardowego w średniej arytmetycznej. Pozwala ocenić natężenie zróżnicowania badanej cechy w zbiorowości.
s
< 0 , 100 >
V (s) =� ��100%
x
V(S) bliskie 0  badana zbiorowość jest jednorodna
V(S) 1  rośnie siła zróżnicowania zbiorowości ze względu na badaną cechę.
ODCHYLENIE PRZECITNE  średnia z bezwzględnych odchyleń zaobserwowanych wartości cechy od jej
średniej arytmetycznej. Oznacza  o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej .
7. szereg szczegółowy:
n
xi -� x
��
i=�1
d =�
n
8. szereg rozdzielczy jednostopniowy:
k
xi -�x �� ni
��
i=�1
d =�
n
9. szereg rozdzielczy wielostopniowy:
k
&�
xi -�x �� ni
��
i=�1
d =�
n
WSPÓACZYNNIK ZMIENNOŚCI 
d
V (d ) =� ��100%
x
POZYCYJNE MIARY DYSPERSJI  obliczane są na podstawie dwóch wartości cechy występujących u jednostek
zajmujących szczególne miejsce w szeregu (K W A N T Y L E )
ROZSTP  odległość między najmniejszą a największą wartością cechy w rozkładzie. Przedstawia obszar
zmienności 100% badanej zbiorowości.
R =� xmax -� xmin
ROZSTP DECYLOWY  odległość między decylem pierwszym a decylem dziewiątym. Określa obszar
zmienności środkowych 80% jednostek zbiorowości.
R(D) =� D9 -� D1
9
ROZSTP KWARTYLOWY - odległość między kwartylem pierwszym a kwartylem trzecim. Określa obszar
zmienności środkowych 50% jednostek zbiorowości.
R(Q) =� Q3 -� Q1
R
D Q Me Q D
1 1 3 9
R(Q)
R(D)
ODCHYLENIE ĆWIARTKOWE  to połowa obszaru zmienności środkowych 50% jednostek zbiorowości.
Q3 -� Q1
Q =�
2
WSPÓACZYNNIK ZMIENNOŚCI 
Q
V(Q) =� ��100%
Me
ASYMETRIA  SKOŚNOŚĆ  sposób rozmieszczenia liczebności przy wartościach cechy, położenie
punktu skupienia obserwacji, położenie dominanty.
ROZKAAD SYMETRYCZNY - rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu
stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej.
x =� Me =� D
ROZKAAD ASYMETRYCZNY  rozkład nie posiadający osi symetrii,
1. ROZKAAD LEWOSTRONNIE ASYMETRYCZNY - UJEMNY - większość jednostek skupia się wokół wyższych
wartości cechy w szeregu; x <� Me <� D
2. ROZKAAD PRAWOSTRONNIE ASYMETRYCZNY - DODATNI  większość jednostek skupia się wokół
niższych wartości cechy w szeregu; D <� Me <� x
KLASYCZNE MIARY ASYMETRII  stosowane w analizie szeregów rozdzielczych punktowych i przedziałowych,
wykazujących tendencję centralną;
MOMENT TRZECI CENTRALNY  średnia arytmetyczna z podniesionych do potęgi trzeciej odchyleń wartości
cechy od wartości średniej arytmetycznej; informuje jaki jest kierunek asymetrii rozkładu cechy zmiennej:
10
k
-� x)2 ni
��(xi
i=�1
m�3 =�
n
m�3 =� 0 �� rozkład symetryczny
m�3 >� 0 �� rozkład prawostronnie asymetryczny
m�3 <� 0 �� rozkład lewostronnie asymetryczny
MOMENT TRZECI WZGLDNY  to iloraz momentu trzeciego centralnego i odchylenia standardowego
podniesionego do trzeciej potęgi; ocenia siłę i kierunek asymetrii:
m�3
a�3 =�
-� 2 <� a�3 <� 2
s3
POZYCYJNE MIARY ASYMETRII  stosowane gdy rozkład zapisany jest w formie szeregu o przedziałach otwartych, a
forma ta wynika z silnej asymetrii a także występowania w rozkładzie wartości skrajnych.
WSPÓACZYNNIK ASYMETRII OPARTY O KWARTYLE
(Q3 -� Me) -�(Me-�Q1) Q3 +�Q1 -� 2Me
A(Q) =� =� -�1<� A(Q)<�+�1
Q3 -�Q1 2Q
MIESZANE MIARY ASYMETRII  stosowane do analizy symetrii rozkładów, w których nie wskazane jest
m�3 i a�3
obliczanie
x -� D
A =�
s 1
-�1<� As1 <� +�1
s
-� 3 <� As2 <� +�3
3 ( x -� Me )
A =�
s 2
s
11


Wyszukiwarka