korelacja i regresja


A N A L I Z A S T R U K T U R Y Z B I O R O W O Ś Ć I
STRUKTURA - budowa wewnętrzna badanej zbiorowości statystycznej.
ROZKAAD EMPIRYCZNY  przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy
zmiennej.
KLASY ROZKAADÓW EMPIRYCZNYCH
1. Rozkłady symetryczne i asymetryczne
2. Rozkłady jednomodalne, bimodalne i wielomodalne
3. Rozkłady platokurtyczne (spłaszczone) i leptokurtyczne (wysmukłe)
ROZKAAD SYMETRYCZNY  rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu
stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej
ROZKAAD ASYMETRYCZNY  rozkład nie posiadający oś symetrii,
1. rozkład lewostronny  ujemny - większość jednostek grupuje się wokół wartości wyższych w szeregu;
2. rozkład prawostronny  dodatni  większość jednostek grupuje się wokół wartości niższych w szeregu;
ROZKAAD JEDNOMODALNY  krzywa liczebności o jednym ekstremum (maksimum)
ROZKAAD BIMODALNY  krzywa liczebności o dwóch ekstremach
ROZKAAD WIELOMODALNY  krzywa liczebności ma więcej niż dwa maksima
PODSTAWOWE WSKAyNIKI STRUKTURY I NATŻENIA
ni - bezwzględna liczba jednostek i-tego wariantu cechy
= n - łączna liczba jednostek w zbiorowości
ni
i
ni
f = 1
fi = - częstość tj. frakcja
i
n
i
ni - wskaznik struktury, tj. stosunek wybranej części zbiorowości do całej zbiorowości;
wi = 100%
= 100%
wi
n
i
ni - wskaznik natężenia, tj. stosunek liczebności dwóch zbiorowości pozostających ze sobą w
wn = 100%
i
mi
logicznej zależności
nicum - liczebności szeregu skumulowanego,
(sumowanie liczebności kolejnych przedziałów);
)
min(wi
- względny wskaznik podobieństwa struktur, tj. iloraz sumy mniejszych wskazników
i
Z =
)
max(wi
i
zaobserwowanych w kolejnych przedziałach porównywalnych rozkładów i
sumy większych wskazników; ;
Z 0,1
WAASNOŚCI ROZKAADU EMPIRYCZNEGO
1
TENDENCJA CENTRALNA  POAOŻENIE - punkt skupienia obserwacji znajduje się w środku rozkładu
(symetria) lub w pobliżu środka rozkładu (umiarkowana asymetria)
v R. wykazujące tendencję centralną
v R. nie wykazujące tendencji centralnej
DYSPERSJA  ZRÓŻNICOWANIE , ROZPROSZENIE, ZMIENNOŚĆ - zróżnicowanie jednostek zbiorowości
między sobą wartościami cechy zmiennej
v R. słabo zróżnicowane
v R. umiarkowanie zróżnicowane
v R. silnie zróżnicowane
ASYMETRIA  SKOŚNOŚĆ  sposób rozmieszczenia liczebności przy wartościach cechy
v R. symetryczne
v R. umiarkowanie asymetryczne (p,l)
v R. skrajnie asymetryczne (p,l)
KONCENTRACJA  KURTOZA, SPAASZCZENIE  stopień skupienia obserwacji wokół wartości średniej
arytmetycznej
v R. normalny
v R. wysmukły
v R. spłaszczony
PARAMETRY OPISUJCE WAASNOŚCI ROZKAADU
WAASNOŚĆ
MIARY KLASYCZNE MIARY POZYCYJNE
ROZKAADU
Mediana Me
TENDENCJA Dominanta D
Średnia arytmetyczna x
CENTRALNA Kwartyle Q , Q
1, 3
Decyle D , D , ..., D
1 2 9
Wariancja s2
Rozstęp R
Odchylenie przeciętne d
DYSPERSJA Odchylenie ćwiartkowe Q
Odchylenia standardowe s
Współczynnik zmienności V(Q)
Współczynnik zmienności V(s)
Moment trzeci centralny m3
ASYMETRIA Współczynnik skośności A(x)
Moment trzeci względny a3
Moment czwarty centralny m4
KONCENTRACJA Wskaznik spłaszczenia W
k
Moment czwarty względny a4
2
PARAMETRY KLASYCZNE  miary obliczane na podstawie wszystkich obserwacji, stosowane do analizy
rozkładów charakteryzujących się te tendencją centralną;
PARAMETRY POZYCYJNE  wyznaczane na podstawie miejsca jakie zajmują w szeregu lub częstotliwości
występowania; szczególnie przydatne w analizie szeregów silnie (skrajnie) asymetrycznych, szeregów z otwartymi
przedziałami klasowymi,
MIARY POAOŻENIA
ŚREDNIA ARYTMETYCZNA  iloraz globalnej wartości cechy oraz liczby obserwacji.
1. szereg szczegółowy:
xi
i
x =
x poszczególne wartości cechy
i 
n
n  ogólna liczba obserwacji
2. szereg rozdzielczy jednostopniowy:
ni
xi
i
x =
n
x warianty cechy
i 
n  liczebności wariantów cechy
i
3. szereg rozdzielczy wielostopniowy:
&
ni
xi
i
&
xi - środek przedziału klasowego
x =
n
xi0 + xi1
&
xi =
2
n  liczebność w przedziale
i
WAASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
xmin Ł x Ł xmax
1.
2.
- x) = 0
(xi
i
y = a x
3.
z = x + b
4.
5.
(x - x)2 = min
i
3
MEDIANA  wartość środkowa; wartość cechy jaką posiada jednostka znajdująca się w środku uporządkowanego
szeregu.
1. szereg szczegółowy  porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy
obserwację środkową.
W przypadku parzystej liczby obserwacji wartość mediany jest średnią arytmetyczną z dwóch
środkowych obserwacji.
np.
2 3 3 6 7 7 9 11 13
Me = 7
11 13 13 16 18 19 22 22 25 30
18 + 19
Me = = 18,5
2
2. szereg rozdzielczy jednostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu,
tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany,
3) wartość mediany jest wartością cechy we wskazanej klasie;
n+1
pozMe=
2
n
x n icum
i i
0 6 6
1 7 13
2 11 24
3 4 28
4 3 31
5 2 33
" 33 x
n + 1 33 + 1
pozMe = = = 17
Me = 2
2 2
4
3. szereg rozdzielczy wielostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu,
tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany,
3) wyznaczamy medianę w oparciu o wzór interpolacyjny:
0
Me =x0+(pozMe- nsk-1)c
n0
n
icum
n
Ł xi < i
9
0-10 9
28
10-20 19
51
20-30 23
65
30-40 14
74
40-50 9
81
50 i więcej 7
x
" 81
n +1 81 + 1
pozMe = = = 41
2 2
Me = 20 + (41 - 28)10 = 25,65
23
KWARTYLE  wartości ćwiartkowe, dzielą zbiorowość, uporządkowaną wg rosnących wartości badanej cechy, na
cztery jednakowo liczne części.
KWARTYL PIERWSZY Q oznacza, iż 25% badanej zbiorowości osiąga wartości cechy nie większe niż Q , a 75%
1 
1
zbiorowości ma wartości cechy nie mniejsze niż Q .
1
KWARTYL DRUGI Q jest równy Medianie, gdyż oznacza, iż 50% badanej zbiorowości osiąga wartości cechy nie
2 
większe niż Q , a druga połowa  wartości nie mniejsze niż Q
2 2.
KWARTYL TRZECI Q  oznacza, iż 75% badanej zbiorowości osiąga wartości cechy nie większe niż Q , zaś
3 3
pozostałe 25% - wartości nie mniejsze niż Q .
3
1. szereg szczegółowy  porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację leżącą w ź
zbiorowości.
np.
2 3 3 6 7 7 9 11 13
Q1 = 3
Q3 = 9
5
2. szereg rozdzielczy jednostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw.
pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość
mediany jest wartością cechy we wskazanej klasie;
n + 1
pozQ =
1
4
3( n + 1)
pozQ =
3
4
n
x n icum
i i
0 6 6
1 7 13
Q1
2 11 24
3 4 28
Q
3
4 3 31
5 2 33
" 33 x
n +1 33 + 1
pozQ1 = = = 8,5
4 4
3(n + 1) 3(33 + 1)
pozQ3 = = = 25,5
4 4
3. szereg rozdzielczy wielostopniowy  1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw.
pozycję, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję parametru, 3) wyznaczamy
parametr w oparciu o wzór interpolacyjny:
0
Qn =x0+(pozQ -nsk-1)c
n
n0
n
icum
n
Ł xi < i
9
0-10 9
28
10-20 19
51
20-30 23
65
30-40 14
74
40-50 9
81
50 i więcej 7
x
" 81
3(n +1) 3(81+1)
n +1 81+1
pozQ3 = = = 61,5
pozQ1 = = = 20,5
4 4
4 4
10
Q1 = 10 + (20,5 - 9)10 = 16,05 Q3 = 30+ (61,5-51) = 37,5
19 14
6
DOMINANTA  MODA - to pozycyjna miara położenia wyznaczana przez częstotliwość występowania
wyróżnionych wartości cechy. Informuje ona jaka wartość cechy występuje najczęściej (dominuje).
1. szereg szczegółowy  porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację występującą
najczęściej.
np.
2 3 3 6 7 7 7 9 11 13
D = 7
2. szereg rozdzielczy jednostopniowy  wskazujemy wartość cechy wokół oscyluje największa liczba
obserwacji
x n
i i
0 6
1 7
D = 2
2 11
3 4
4 3
5 2
" 33
3. szereg rozdzielczy wielostopniowy - 1) wskazujemy przedział klasowy, w którym skupia się największa
liczba obserwacji 2) wyznaczamy dominantę w oparciu o wzór interpolacyjny:
n0 - n-1
D = x0 + c
(n0 - n-1) + (n0 - n+1)
n
Ł xi < i
0-10 9
10-20 19
20-30 23
30-40 14
40-50 9
23 -19
50-60 7
D = 20 + 10 = 23,08
(23 -19) + (23 -14)
" 81
7
DYSPERSJA, ROZPROSZENIE, ZRÓŻNICOWANIE, ZMIENNOŚĆ - to zróżnicowanie jednostek
zbiorowości pomiędzy sobą pod względem wartości cechy zmiennej.
MIARY DYSPERSJI  umożliwiają uogólnienie różnic w wartościach cechy zaobserwowanych u poszczególnych
jednostek.
KLASYCZNE MIARY DYSPERSJI  obliczane na podstawie informacji o wszystkich jednostkach statystycznych,
jako wypadkowa różnic w poziomie cechy.
WARIANCJA  średnia arytmetyczna z kwadratów odchyleń wartości cechy od wartości średniej
arytmetycznej.
WARIANCJA NIE POSIADA LOGICZNEJ INTERPRETACJI
4. szereg szczegółowy:
n n
- x)2 2
(xi xi
i=1 i=1
s2 = = - x2
n n
5. szereg rozdzielczy jednostopniowy:
k k
-x)2ni 2ni
(xi xi
i=1 i=1
s2 = = - xi
n n
6. szereg rozdzielczy wielostopniowy:
k k
& -x)2ni ni
&2
(xi xi
i=1 i=1
s2 = = - xi
n n
x warianty cechy
i 
n  liczebności wariantów cechy
i
&
xi - środek przedziału klasowego
xi0 + xi1
&
xi =
2
n  ogólna liczba obserwacji
ODCHYLENIE STANDARDOWE  średnia z odchyleń zaobserwowanych wartości cechy od jej średniej
arytmetycznej. Oznacza  o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej .
2
s = s
8
WSPÓACZYNNIK ZMIENNOŚCI  względna miara dyspersji wyrażająca procentowy udział odchylenia
standardowego w średniej arytmetycznej. Pozwala ocenić natężenie zróżnicowania badanej cechy w zbiorowości.
s
< 0 , 100 >
V (s) = 100%
x
V(S) bliskie 0  badana zbiorowość jest jednorodna
V(S) 1  rośnie siła zróżnicowania zbiorowości ze względu na badaną cechę.
ODCHYLENIE PRZECITNE  średnia z bezwzględnych odchyleń zaobserwowanych wartości cechy od jej
średniej arytmetycznej. Oznacza  o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej .
7. szereg szczegółowy:
n
xi - x

i=1
d =
n
8. szereg rozdzielczy jednostopniowy:
k
xi -x ni

i=1
d =
n
9. szereg rozdzielczy wielostopniowy:
k
&
xi -x ni

i=1
d =
n
WSPÓACZYNNIK ZMIENNOŚCI 
d
V (d ) = 100%
x
POZYCYJNE MIARY DYSPERSJI  obliczane są na podstawie dwóch wartości cechy występujących u jednostek
zajmujących szczególne miejsce w szeregu (K W A N T Y L E )
ROZSTP  odległość między najmniejszą a największą wartością cechy w rozkładzie. Przedstawia obszar
zmienności 100% badanej zbiorowości.
R = xmax - xmin
ROZSTP DECYLOWY  odległość między decylem pierwszym a decylem dziewiątym. Określa obszar
zmienności środkowych 80% jednostek zbiorowości.
R(D) = D9 - D1
9
ROZSTP KWARTYLOWY - odległość między kwartylem pierwszym a kwartylem trzecim. Określa obszar
zmienności środkowych 50% jednostek zbiorowości.
R(Q) = Q3 - Q1
R
D Q Me Q D
1 1 3 9
R(Q)
R(D)
ODCHYLENIE ĆWIARTKOWE  to połowa obszaru zmienności środkowych 50% jednostek zbiorowości.
Q3 - Q1
Q =
2
WSPÓACZYNNIK ZMIENNOŚCI 
Q
V(Q) = 100%
Me
ASYMETRIA  SKOŚNOŚĆ  sposób rozmieszczenia liczebności przy wartościach cechy, położenie
punktu skupienia obserwacji, położenie dominanty.
ROZKAAD SYMETRYCZNY - rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu
stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej.
x = Me = D
ROZKAAD ASYMETRYCZNY  rozkład nie posiadający osi symetrii,
1. ROZKAAD LEWOSTRONNIE ASYMETRYCZNY - UJEMNY - większość jednostek skupia się wokół wyższych
wartości cechy w szeregu; x < Me < D
2. ROZKAAD PRAWOSTRONNIE ASYMETRYCZNY - DODATNI  większość jednostek skupia się wokół
niższych wartości cechy w szeregu; D < Me < x
KLASYCZNE MIARY ASYMETRII  stosowane w analizie szeregów rozdzielczych punktowych i przedziałowych,
wykazujących tendencję centralną;
MOMENT TRZECI CENTRALNY  średnia arytmetyczna z podniesionych do potęgi trzeciej odchyleń wartości
cechy od wartości średniej arytmetycznej; informuje jaki jest kierunek asymetrii rozkładu cechy zmiennej:
10
k
- x)2 ni
(xi
i=1
m3 =
n
m3 = 0 rozkład symetryczny
m3 > 0 rozkład prawostronnie asymetryczny
m3 < 0 rozkład lewostronnie asymetryczny
MOMENT TRZECI WZGLDNY  to iloraz momentu trzeciego centralnego i odchylenia standardowego
podniesionego do trzeciej potęgi; ocenia siłę i kierunek asymetrii:
m3
a3 =
- 2 < a3 < 2
s3
POZYCYJNE MIARY ASYMETRII  stosowane gdy rozkład zapisany jest w formie szeregu o przedziałach otwartych, a
forma ta wynika z silnej asymetrii a także występowania w rozkładzie wartości skrajnych.
WSPÓACZYNNIK ASYMETRII OPARTY O KWARTYLE
(Q3 - Me) -(Me-Q1) Q3 +Q1 - 2Me
A(Q) = = -1< A(Q)<+1
Q3 -Q1 2Q
MIESZANE MIARY ASYMETRII  stosowane do analizy symetrii rozkładów, w których nie wskazane jest
m3 i a3
obliczanie
x - D
A =
s 1
-1< As1 < +1
s
- 3 < As2 < +3
3 ( x - Me )
A =
s 2
s
11


Wyszukiwarka