A N A L I Z A S T R U K T U R Y Z B I O R O W O Ś Ć I STRUKTURA - budowa wewnętrzna badanej zbiorowości statystycznej. ROZKAAD EMPIRYCZNY przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy zmiennej. KLASY ROZKAADÓW EMPIRYCZNYCH 1. Rozkłady symetryczne i asymetryczne 2. Rozkłady jednomodalne, bimodalne i wielomodalne 3. Rozkłady platokurtyczne (spłaszczone) i leptokurtyczne (wysmukłe) ROZKAAD SYMETRYCZNY rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej ROZKAAD ASYMETRYCZNY rozkład nie posiadający oś symetrii, 1. rozkład lewostronny ujemny - większość jednostek grupuje się wokół wartości wyższych w szeregu; 2. rozkład prawostronny dodatni większość jednostek grupuje się wokół wartości niższych w szeregu; ROZKAAD JEDNOMODALNY krzywa liczebności o jednym ekstremum (maksimum) ROZKAAD BIMODALNY krzywa liczebności o dwóch ekstremach ROZKAAD WIELOMODALNY krzywa liczebności ma więcej niż dwa maksima PODSTAWOWE WSKAyNIKI STRUKTURY I NATŻENIA ni - bezwzględna liczba jednostek i-tego wariantu cechy = n - łączna liczba jednostek w zbiorowości ni i ni f = 1 fi = - częstość tj. frakcja i n i ni - wskaznik struktury, tj. stosunek wybranej części zbiorowości do całej zbiorowości; wi = 100% = 100% wi n i ni - wskaznik natężenia, tj. stosunek liczebności dwóch zbiorowości pozostających ze sobą w wn = 100% i mi logicznej zależności nicum - liczebności szeregu skumulowanego, (sumowanie liczebności kolejnych przedziałów); ) min(wi - względny wskaznik podobieństwa struktur, tj. iloraz sumy mniejszych wskazników i Z = ) max(wi i zaobserwowanych w kolejnych przedziałach porównywalnych rozkładów i sumy większych wskazników; ; Z 0,1 WAASNOŚCI ROZKAADU EMPIRYCZNEGO 1 TENDENCJA CENTRALNA POAOŻENIE - punkt skupienia obserwacji znajduje się w środku rozkładu (symetria) lub w pobliżu środka rozkładu (umiarkowana asymetria) v R. wykazujące tendencję centralną v R. nie wykazujące tendencji centralnej DYSPERSJA ZRÓŻNICOWANIE , ROZPROSZENIE, ZMIENNOŚĆ - zróżnicowanie jednostek zbiorowości między sobą wartościami cechy zmiennej v R. słabo zróżnicowane v R. umiarkowanie zróżnicowane v R. silnie zróżnicowane ASYMETRIA SKOŚNOŚĆ sposób rozmieszczenia liczebności przy wartościach cechy v R. symetryczne v R. umiarkowanie asymetryczne (p,l) v R. skrajnie asymetryczne (p,l) KONCENTRACJA KURTOZA, SPAASZCZENIE stopień skupienia obserwacji wokół wartości średniej arytmetycznej v R. normalny v R. wysmukły v R. spłaszczony PARAMETRY OPISUJCE WAASNOŚCI ROZKAADU WAASNOŚĆ MIARY KLASYCZNE MIARY POZYCYJNE ROZKAADU Mediana Me TENDENCJA Dominanta D Średnia arytmetyczna x CENTRALNA Kwartyle Q , Q 1, 3 Decyle D , D , ..., D 1 2 9 Wariancja s2 Rozstęp R Odchylenie przeciętne d DYSPERSJA Odchylenie ćwiartkowe Q Odchylenia standardowe s Współczynnik zmienności V(Q) Współczynnik zmienności V(s) Moment trzeci centralny m3 ASYMETRIA Współczynnik skośności A(x) Moment trzeci względny a3 Moment czwarty centralny m4 KONCENTRACJA Wskaznik spłaszczenia W k Moment czwarty względny a4 2 PARAMETRY KLASYCZNE miary obliczane na podstawie wszystkich obserwacji, stosowane do analizy rozkładów charakteryzujących się te tendencją centralną; PARAMETRY POZYCYJNE wyznaczane na podstawie miejsca jakie zajmują w szeregu lub częstotliwości występowania; szczególnie przydatne w analizie szeregów silnie (skrajnie) asymetrycznych, szeregów z otwartymi przedziałami klasowymi, MIARY POAOŻENIA ŚREDNIA ARYTMETYCZNA iloraz globalnej wartości cechy oraz liczby obserwacji. 1. szereg szczegółowy: xi i x = x poszczególne wartości cechy i n n ogólna liczba obserwacji 2. szereg rozdzielczy jednostopniowy: ni xi i x = n x warianty cechy i n liczebności wariantów cechy i 3. szereg rozdzielczy wielostopniowy: & ni xi i & xi - środek przedziału klasowego x = n xi0 + xi1 & xi = 2 n liczebność w przedziale i WAASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ xmin Ł x Ł xmax 1. 2. - x) = 0 (xi i y = a x 3. z = x + b 4. 5. (x - x)2 = min i 3 MEDIANA wartość środkowa; wartość cechy jaką posiada jednostka znajdująca się w środku uporządkowanego szeregu. 1. szereg szczegółowy porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację środkową. W przypadku parzystej liczby obserwacji wartość mediany jest średnią arytmetyczną z dwóch środkowych obserwacji. np. 2 3 3 6 7 7 9 11 13 Me = 7 11 13 13 16 18 19 22 22 25 30 18 + 19 Me = = 18,5 2 2. szereg rozdzielczy jednostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość mediany jest wartością cechy we wskazanej klasie; n+1 pozMe= 2 n x n icum i i 0 6 6 1 7 13 2 11 24 3 4 28 4 3 31 5 2 33 " 33 x n + 1 33 + 1 pozMe = = = 17 Me = 2 2 2 4 3. szereg rozdzielczy wielostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wyznaczamy medianę w oparciu o wzór interpolacyjny: 0 Me =x0+(pozMe- nsk-1)c n0 n icum n Ł xi < i 9 0-10 9 28 10-20 19 51 20-30 23 65 30-40 14 74 40-50 9 81 50 i więcej 7 x " 81 n +1 81 + 1 pozMe = = = 41 2 2 Me = 20 + (41 - 28)10 = 25,65 23 KWARTYLE wartości ćwiartkowe, dzielą zbiorowość, uporządkowaną wg rosnących wartości badanej cechy, na cztery jednakowo liczne części. KWARTYL PIERWSZY Q oznacza, iż 25% badanej zbiorowości osiąga wartości cechy nie większe niż Q , a 75% 1 1 zbiorowości ma wartości cechy nie mniejsze niż Q . 1 KWARTYL DRUGI Q jest równy Medianie, gdyż oznacza, iż 50% badanej zbiorowości osiąga wartości cechy nie 2 większe niż Q , a druga połowa wartości nie mniejsze niż Q 2 2. KWARTYL TRZECI Q oznacza, iż 75% badanej zbiorowości osiąga wartości cechy nie większe niż Q , zaś 3 3 pozostałe 25% - wartości nie mniejsze niż Q . 3 1. szereg szczegółowy porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację leżącą w ź zbiorowości. np. 2 3 3 6 7 7 9 11 13 Q1 = 3 Q3 = 9 5 2. szereg rozdzielczy jednostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość mediany jest wartością cechy we wskazanej klasie; n + 1 pozQ = 1 4 3( n + 1) pozQ = 3 4 n x n icum i i 0 6 6 1 7 13 Q1 2 11 24 3 4 28 Q 3 4 3 31 5 2 33 " 33 x n +1 33 + 1 pozQ1 = = = 8,5 4 4 3(n + 1) 3(33 + 1) pozQ3 = = = 25,5 4 4 3. szereg rozdzielczy wielostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję parametru, 3) wyznaczamy parametr w oparciu o wzór interpolacyjny: 0 Qn =x0+(pozQ -nsk-1)c n n0 n icum n Ł xi < i 9 0-10 9 28 10-20 19 51 20-30 23 65 30-40 14 74 40-50 9 81 50 i więcej 7 x " 81 3(n +1) 3(81+1) n +1 81+1 pozQ3 = = = 61,5 pozQ1 = = = 20,5 4 4 4 4 10 Q1 = 10 + (20,5 - 9)10 = 16,05 Q3 = 30+ (61,5-51) = 37,5 19 14 6 DOMINANTA MODA - to pozycyjna miara położenia wyznaczana przez częstotliwość występowania wyróżnionych wartości cechy. Informuje ona jaka wartość cechy występuje najczęściej (dominuje). 1. szereg szczegółowy porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację występującą najczęściej. np. 2 3 3 6 7 7 7 9 11 13 D = 7 2. szereg rozdzielczy jednostopniowy wskazujemy wartość cechy wokół oscyluje największa liczba obserwacji x n i i 0 6 1 7 D = 2 2 11 3 4 4 3 5 2 " 33 3. szereg rozdzielczy wielostopniowy - 1) wskazujemy przedział klasowy, w którym skupia się największa liczba obserwacji 2) wyznaczamy dominantę w oparciu o wzór interpolacyjny: n0 - n-1 D = x0 + c (n0 - n-1) + (n0 - n+1) n Ł xi < i 0-10 9 10-20 19 20-30 23 30-40 14 40-50 9 23 -19 50-60 7 D = 20 + 10 = 23,08 (23 -19) + (23 -14) " 81 7 DYSPERSJA, ROZPROSZENIE, ZRÓŻNICOWANIE, ZMIENNOŚĆ - to zróżnicowanie jednostek zbiorowości pomiędzy sobą pod względem wartości cechy zmiennej. MIARY DYSPERSJI umożliwiają uogólnienie różnic w wartościach cechy zaobserwowanych u poszczególnych jednostek. KLASYCZNE MIARY DYSPERSJI obliczane na podstawie informacji o wszystkich jednostkach statystycznych, jako wypadkowa różnic w poziomie cechy. WARIANCJA średnia arytmetyczna z kwadratów odchyleń wartości cechy od wartości średniej arytmetycznej. WARIANCJA NIE POSIADA LOGICZNEJ INTERPRETACJI 4. szereg szczegółowy: n n - x)2 2 (xi xi i=1 i=1 s2 = = - x2 n n 5. szereg rozdzielczy jednostopniowy: k k -x)2ni 2ni (xi xi i=1 i=1 s2 = = - xi n n 6. szereg rozdzielczy wielostopniowy: k k & -x)2ni ni &2 (xi xi i=1 i=1 s2 = = - xi n n x warianty cechy i n liczebności wariantów cechy i & xi - środek przedziału klasowego xi0 + xi1 & xi = 2 n ogólna liczba obserwacji ODCHYLENIE STANDARDOWE średnia z odchyleń zaobserwowanych wartości cechy od jej średniej arytmetycznej. Oznacza o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej . 2 s = s 8 WSPÓACZYNNIK ZMIENNOŚCI względna miara dyspersji wyrażająca procentowy udział odchylenia standardowego w średniej arytmetycznej. Pozwala ocenić natężenie zróżnicowania badanej cechy w zbiorowości. s < 0 , 100 > V (s) = 100% x V(S) bliskie 0 badana zbiorowość jest jednorodna V(S) 1 rośnie siła zróżnicowania zbiorowości ze względu na badaną cechę. ODCHYLENIE PRZECITNE średnia z bezwzględnych odchyleń zaobserwowanych wartości cechy od jej średniej arytmetycznej. Oznacza o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej . 7. szereg szczegółowy: n xi - x
i=1 d = n 8. szereg rozdzielczy jednostopniowy: k xi -x ni
i=1 d = n 9. szereg rozdzielczy wielostopniowy: k & xi -x ni
i=1 d = n WSPÓACZYNNIK ZMIENNOŚCI d V (d ) = 100% x POZYCYJNE MIARY DYSPERSJI obliczane są na podstawie dwóch wartości cechy występujących u jednostek zajmujących szczególne miejsce w szeregu (K W A N T Y L E ) ROZSTP odległość między najmniejszą a największą wartością cechy w rozkładzie. Przedstawia obszar zmienności 100% badanej zbiorowości. R = xmax - xmin ROZSTP DECYLOWY odległość między decylem pierwszym a decylem dziewiątym. Określa obszar zmienności środkowych 80% jednostek zbiorowości. R(D) = D9 - D1 9 ROZSTP KWARTYLOWY - odległość między kwartylem pierwszym a kwartylem trzecim. Określa obszar zmienności środkowych 50% jednostek zbiorowości. R(Q) = Q3 - Q1 R D Q Me Q D 1 1 3 9 R(Q) R(D) ODCHYLENIE ĆWIARTKOWE to połowa obszaru zmienności środkowych 50% jednostek zbiorowości. Q3 - Q1 Q = 2 WSPÓACZYNNIK ZMIENNOŚCI Q V(Q) = 100% Me ASYMETRIA SKOŚNOŚĆ sposób rozmieszczenia liczebności przy wartościach cechy, położenie punktu skupienia obserwacji, położenie dominanty. ROZKAAD SYMETRYCZNY - rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej. x = Me = D ROZKAAD ASYMETRYCZNY rozkład nie posiadający osi symetrii, 1. ROZKAAD LEWOSTRONNIE ASYMETRYCZNY - UJEMNY - większość jednostek skupia się wokół wyższych wartości cechy w szeregu; x < Me < D 2. ROZKAAD PRAWOSTRONNIE ASYMETRYCZNY - DODATNI większość jednostek skupia się wokół niższych wartości cechy w szeregu; D < Me < x KLASYCZNE MIARY ASYMETRII stosowane w analizie szeregów rozdzielczych punktowych i przedziałowych, wykazujących tendencję centralną; MOMENT TRZECI CENTRALNY średnia arytmetyczna z podniesionych do potęgi trzeciej odchyleń wartości cechy od wartości średniej arytmetycznej; informuje jaki jest kierunek asymetrii rozkładu cechy zmiennej: 10 k - x)2 ni (xi i=1 m3 = n m3 = 0 rozkład symetryczny m3 > 0 rozkład prawostronnie asymetryczny m3 < 0 rozkład lewostronnie asymetryczny MOMENT TRZECI WZGLDNY to iloraz momentu trzeciego centralnego i odchylenia standardowego podniesionego do trzeciej potęgi; ocenia siłę i kierunek asymetrii: m3 a3 = - 2 < a3 < 2 s3 POZYCYJNE MIARY ASYMETRII stosowane gdy rozkład zapisany jest w formie szeregu o przedziałach otwartych, a forma ta wynika z silnej asymetrii a także występowania w rozkładzie wartości skrajnych. WSPÓACZYNNIK ASYMETRII OPARTY O KWARTYLE (Q3 - Me) -(Me-Q1) Q3 +Q1 - 2Me A(Q) = = -1< A(Q)<+1 Q3 -Q1 2Q MIESZANE MIARY ASYMETRII stosowane do analizy symetrii rozkładów, w których nie wskazane jest m3 i a3 obliczanie x - D A = s 1 -1< As1 < +1 s - 3 < As2 < +3 3 ( x - Me ) A = s 2 s 11