A N A L I Z A S T R U K T U R Y Z B I O R O W O Ś Ć I STRUKTURA - budowa wewnętrzna badanej zbiorowości statystycznej. ROZKAAD EMPIRYCZNY przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy zmiennej. KLASY ROZKAADÓW EMPIRYCZNYCH 1. Rozkłady symetryczne i asymetryczne 2. Rozkłady jednomodalne, bimodalne i wielomodalne 3. Rozkłady platokurtyczne (spłaszczone) i leptokurtyczne (wysmukłe) ROZKAAD SYMETRYCZNY rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej ROZKAAD ASYMETRYCZNY rozkład nie posiadający oś symetrii, 1. rozkład lewostronny ujemny - większość jednostek grupuje się wokół wartości wyższych w szeregu; 2. rozkład prawostronny dodatni większość jednostek grupuje się wokół wartości niższych w szeregu; ROZKAAD JEDNOMODALNY krzywa liczebności o jednym ekstremum (maksimum) ROZKAAD BIMODALNY krzywa liczebności o dwóch ekstremach ROZKAAD WIELOMODALNY krzywa liczebności ma więcej niż dwa maksima PODSTAWOWE WSKAyNIKI STRUKTURY I NATŻENIA ni - bezwzględna liczba jednostek i-tego wariantu cechy =� n - łączna liczba jednostek w zbiorowości ��ni i ni f =� 1 fi =� - częstość tj. frakcja �� i n i ni - wskaznik struktury, tj. stosunek wybranej części zbiorowości do całej zbiorowości; wi =� ��100% =� 100% ��wi n i ni - wskaznik natężenia, tj. stosunek liczebności dwóch zbiorowości pozostających ze sobą w wn =� ��100% i mi logicznej zależności nicum - liczebności szeregu skumulowanego, (sumowanie liczebności kolejnych przedziałów); ) ��min(wi - względny wskaznik podobieństwa struktur, tj. iloraz sumy mniejszych wskazników i Z =� ) ��max(wi i zaobserwowanych w kolejnych przedziałach porównywalnych rozkładów i sumy większych wskazników; ; Z �� 0,1 WAASNOŚCI ROZKAADU EMPIRYCZNEGO 1 TENDENCJA CENTRALNA POAOŻENIE - punkt skupienia obserwacji znajduje się w środku rozkładu (symetria) lub w pobliżu środka rozkładu (umiarkowana asymetria) v� R. wykazujące tendencję centralną v� R. nie wykazujące tendencji centralnej DYSPERSJA ZRÓŻNICOWANIE , ROZPROSZENIE, ZMIENNOŚĆ - zróżnicowanie jednostek zbiorowości między sobą wartościami cechy zmiennej v� R. słabo zróżnicowane v� R. umiarkowanie zróżnicowane v� R. silnie zróżnicowane ASYMETRIA SKOŚNOŚĆ sposób rozmieszczenia liczebności przy wartościach cechy v� R. symetryczne v� R. umiarkowanie asymetryczne (p,l) v� R. skrajnie asymetryczne (p,l) KONCENTRACJA KURTOZA, SPAASZCZENIE stopień skupienia obserwacji wokół wartości średniej arytmetycznej v� R. normalny v� R. wysmukły v� R. spłaszczony PARAMETRY OPISUJCE WAASNOŚCI ROZKAADU WAASNOŚĆ MIARY KLASYCZNE MIARY POZYCYJNE ROZKAADU Mediana Me TENDENCJA Dominanta D Średnia arytmetyczna x CENTRALNA Kwartyle Q , Q 1, 3 Decyle D , D , ..., D 1 2 9 Wariancja s2 Rozstęp R Odchylenie przeciętne d DYSPERSJA Odchylenie ćwiartkowe Q Odchylenia standardowe s Współczynnik zmienności V(Q) Współczynnik zmienności V(s) Moment trzeci centralny m�3 ASYMETRIA Współczynnik skośności A(x) Moment trzeci względny a�3 Moment czwarty centralny m�4 KONCENTRACJA Wskaznik spłaszczenia W k Moment czwarty względny a�4 2 PARAMETRY KLASYCZNE miary obliczane na podstawie wszystkich obserwacji, stosowane do analizy rozkładów charakteryzujących się te tendencją centralną; PARAMETRY POZYCYJNE wyznaczane na podstawie miejsca jakie zajmują w szeregu lub częstotliwości występowania; szczególnie przydatne w analizie szeregów silnie (skrajnie) asymetrycznych, szeregów z otwartymi przedziałami klasowymi, MIARY POAOŻENIA ŚREDNIA ARYTMETYCZNA iloraz globalnej wartości cechy oraz liczby obserwacji. 1. szereg szczegółowy: ��xi i x =� x poszczególne wartości cechy i n n ogólna liczba obserwacji 2. szereg rozdzielczy jednostopniowy: ni ��xi i x =� n x warianty cechy i n liczebności wariantów cechy i 3. szereg rozdzielczy wielostopniowy: &� ni ��xi i &� xi - środek przedziału klasowego x =� n xi0 +� xi1 &� xi =� 2 n liczebność w przedziale i WAASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ xmin Ł� x Ł� xmax 1. 2. -� x) =� 0 ��(xi i y =� a �� x 3. z =� x +� b 4. 5. ��(x -� x)2 =� min i 3 MEDIANA wartość środkowa; wartość cechy jaką posiada jednostka znajdująca się w środku uporządkowanego szeregu. 1. szereg szczegółowy porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację środkową. W przypadku parzystej liczby obserwacji wartość mediany jest średnią arytmetyczną z dwóch środkowych obserwacji. np. 2 3 3 6 7 7 9 11 13 Me =� 7 11 13 13 16 18 19 22 22 25 30 18 +� 19 Me =� =� 18,5 2 2. szereg rozdzielczy jednostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość mediany jest wartością cechy we wskazanej klasie; n+�1 pozMe=� 2 n x n icum i i 0 6 6 1 7 13 2 11 24 3 4 28 4 3 31 5 2 33 " 33 x n +� 1 33 +� 1 pozMe =� =� =� 17 Me =� 2 2 2 4 3. szereg rozdzielczy wielostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wyznaczamy medianę w oparciu o wzór interpolacyjny: 0 Me =�x0+�(�pozMe-� nsk-�1)�c n0 n icum n Ł� xi <� i 9 0-10 9 28 10-20 19 51 20-30 23 65 30-40 14 74 40-50 9 81 50 i więcej 7 x " 81 n +�1 81 +� 1 pozMe =� =� =� 41 2 2 Me =� 20 +� (�41 -� 28)�10 =� 25,65 23 KWARTYLE wartości ćwiartkowe, dzielą zbiorowość, uporządkowaną wg rosnących wartości badanej cechy, na cztery jednakowo liczne części. KWARTYL PIERWSZY Q oznacza, iż 25% badanej zbiorowości osiąga wartości cechy nie większe niż Q , a 75% 1 1 zbiorowości ma wartości cechy nie mniejsze niż Q . 1 KWARTYL DRUGI Q jest równy Medianie, gdyż oznacza, iż 50% badanej zbiorowości osiąga wartości cechy nie 2 większe niż Q , a druga połowa wartości nie mniejsze niż Q 2 2. KWARTYL TRZECI Q oznacza, iż 75% badanej zbiorowości osiąga wartości cechy nie większe niż Q , zaś 3 3 pozostałe 25% - wartości nie mniejsze niż Q . 3 1. szereg szczegółowy porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację leżącą w ź zbiorowości. np. 2 3 3 6 7 7 9 11 13 Q1 =� 3 Q3 =� 9 5 2. szereg rozdzielczy jednostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość mediany jest wartością cechy we wskazanej klasie; n +� 1 pozQ =� 1 4 3( n +� 1) pozQ =� 3 4 n x n icum i i 0 6 6 1 7 13 Q1 2 11 24 3 4 28 Q 3 4 3 31 5 2 33 " 33 x n +�1 33 +� 1 pozQ1 =� =� =� 8,5 4 4 3(n +� 1) 3(33 +� 1) pozQ3 =� =� =� 25,5 4 4 3. szereg rozdzielczy wielostopniowy 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję parametru, 3) wyznaczamy parametr w oparciu o wzór interpolacyjny: 0 Qn =�x0+�(�pozQ -�nsk-�1)�c n n0 n icum n Ł� xi <� i 9 0-10 9 28 10-20 19 51 20-30 23 65 30-40 14 74 40-50 9 81 50 i więcej 7 x " 81 3(n +�1) 3(81+�1) n +�1 81+�1 pozQ3 =� =� =� 61,5 pozQ1 =� =� =� 20,5 4 4 4 4 10 Q1 =� 10 +� (�20,5 -� 9)�10 =� 16,05 Q3 =� 30+� (61,5-�51) =� 37,5 19 14 6 DOMINANTA MODA - to pozycyjna miara położenia wyznaczana przez częstotliwość występowania wyróżnionych wartości cechy. Informuje ona jaka wartość cechy występuje najczęściej (dominuje). 1. szereg szczegółowy porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację występującą najczęściej. np. 2 3 3 6 7 7 7 9 11 13 D =� 7 2. szereg rozdzielczy jednostopniowy wskazujemy wartość cechy wokół oscyluje największa liczba obserwacji x n i i 0 6 1 7 D =� 2 2 11 3 4 4 3 5 2 " 33 3. szereg rozdzielczy wielostopniowy - 1) wskazujemy przedział klasowy, w którym skupia się największa liczba obserwacji 2) wyznaczamy dominantę w oparciu o wzór interpolacyjny: n0 -� n-�1 D =� x0 +� ��c (n0 -� n-�1) +� (n0 -� n+�1) n Ł� xi <� i 0-10 9 10-20 19 20-30 23 30-40 14 40-50 9 23 -�19 50-60 7 D =� 20 +� ��10 =� 23,08 (23 -�19) +� (23 -�14) " 81 7 DYSPERSJA, ROZPROSZENIE, ZRÓŻNICOWANIE, ZMIENNOŚĆ - to zróżnicowanie jednostek zbiorowości pomiędzy sobą pod względem wartości cechy zmiennej. MIARY DYSPERSJI umożliwiają uogólnienie różnic w wartościach cechy zaobserwowanych u poszczególnych jednostek. KLASYCZNE MIARY DYSPERSJI obliczane na podstawie informacji o wszystkich jednostkach statystycznych, jako wypadkowa różnic w poziomie cechy. WARIANCJA średnia arytmetyczna z kwadratów odchyleń wartości cechy od wartości średniej arytmetycznej. WARIANCJA NIE POSIADA LOGICZNEJ INTERPRETACJI 4. szereg szczegółowy: n n -� x)2 2 ��(xi ��xi i=�1 i=�1 s2 =� =� -� x2 n n 5. szereg rozdzielczy jednostopniowy: k k -�x)2ni 2ni ��(xi ��xi i=�1 i=�1 s2 =� =� -� xi n n 6. szereg rozdzielczy wielostopniowy: k k &� -�x)2ni ni &�2 ��(xi ��xi i=�1 i=�1 s2 =� =� -� xi n n x warianty cechy i n liczebności wariantów cechy i &� xi - środek przedziału klasowego xi0 +� xi1 &� xi =� 2 n ogólna liczba obserwacji ODCHYLENIE STANDARDOWE średnia z odchyleń zaobserwowanych wartości cechy od jej średniej arytmetycznej. Oznacza o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej . 2 s =� s 8 WSPÓACZYNNIK ZMIENNOŚCI względna miara dyspersji wyrażająca procentowy udział odchylenia standardowego w średniej arytmetycznej. Pozwala ocenić natężenie zróżnicowania badanej cechy w zbiorowości. s < 0 , 100 > V (s) =� ��100% x V(S) bliskie 0 badana zbiorowość jest jednorodna V(S) 1 rośnie siła zróżnicowania zbiorowości ze względu na badaną cechę. ODCHYLENIE PRZECITNE średnia z bezwzględnych odchyleń zaobserwowanych wartości cechy od jej średniej arytmetycznej. Oznacza o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej . 7. szereg szczegółowy: n xi -� x �� i=�1 d =� n 8. szereg rozdzielczy jednostopniowy: k xi -�x �� ni �� i=�1 d =� n 9. szereg rozdzielczy wielostopniowy: k &� xi -�x �� ni �� i=�1 d =� n WSPÓACZYNNIK ZMIENNOŚCI d V (d ) =� ��100% x POZYCYJNE MIARY DYSPERSJI obliczane są na podstawie dwóch wartości cechy występujących u jednostek zajmujących szczególne miejsce w szeregu (K W A N T Y L E ) ROZSTP odległość między najmniejszą a największą wartością cechy w rozkładzie. Przedstawia obszar zmienności 100% badanej zbiorowości. R =� xmax -� xmin ROZSTP DECYLOWY odległość między decylem pierwszym a decylem dziewiątym. Określa obszar zmienności środkowych 80% jednostek zbiorowości. R(D) =� D9 -� D1 9 ROZSTP KWARTYLOWY - odległość między kwartylem pierwszym a kwartylem trzecim. Określa obszar zmienności środkowych 50% jednostek zbiorowości. R(Q) =� Q3 -� Q1 R D Q Me Q D 1 1 3 9 R(Q) R(D) ODCHYLENIE ĆWIARTKOWE to połowa obszaru zmienności środkowych 50% jednostek zbiorowości. Q3 -� Q1 Q =� 2 WSPÓACZYNNIK ZMIENNOŚCI Q V(Q) =� ��100% Me ASYMETRIA SKOŚNOŚĆ sposób rozmieszczenia liczebności przy wartościach cechy, położenie punktu skupienia obserwacji, położenie dominanty. ROZKAAD SYMETRYCZNY - rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej. x =� Me =� D ROZKAAD ASYMETRYCZNY rozkład nie posiadający osi symetrii, 1. ROZKAAD LEWOSTRONNIE ASYMETRYCZNY - UJEMNY - większość jednostek skupia się wokół wyższych wartości cechy w szeregu; x <� Me <� D 2. ROZKAAD PRAWOSTRONNIE ASYMETRYCZNY - DODATNI większość jednostek skupia się wokół niższych wartości cechy w szeregu; D <� Me <� x KLASYCZNE MIARY ASYMETRII stosowane w analizie szeregów rozdzielczych punktowych i przedziałowych, wykazujących tendencję centralną; MOMENT TRZECI CENTRALNY średnia arytmetyczna z podniesionych do potęgi trzeciej odchyleń wartości cechy od wartości średniej arytmetycznej; informuje jaki jest kierunek asymetrii rozkładu cechy zmiennej: 10 k -� x)2 ni ��(xi i=�1 m�3 =� n m�3 =� 0 �� rozkład symetryczny m�3 >� 0 �� rozkład prawostronnie asymetryczny m�3 <� 0 �� rozkład lewostronnie asymetryczny MOMENT TRZECI WZGLDNY to iloraz momentu trzeciego centralnego i odchylenia standardowego podniesionego do trzeciej potęgi; ocenia siłę i kierunek asymetrii: m�3 a�3 =� -� 2 <� a�3 <� 2 s3 POZYCYJNE MIARY ASYMETRII stosowane gdy rozkład zapisany jest w formie szeregu o przedziałach otwartych, a forma ta wynika z silnej asymetrii a także występowania w rozkładzie wartości skrajnych. WSPÓACZYNNIK ASYMETRII OPARTY O KWARTYLE (Q3 -� Me) -�(Me-�Q1) Q3 +�Q1 -� 2Me A(Q) =� =� -�1<� A(Q)<�+�1 Q3 -�Q1 2Q MIESZANE MIARY ASYMETRII stosowane do analizy symetrii rozkładów, w których nie wskazane jest m�3 i a�3 obliczanie x -� D A =� s 1 -�1<� As1 <� +�1 s -� 3 <� As2 <� +�3 3 ( x -� Me ) A =� s 2 s 11