Zadanie 1) Liczba ludności w Polsce na koniec 2012 roku wynosiła nieco ponad 38,5 mln osób. Struktura tej populacji według 10-letnich grup wieku kształtowała się zaś następująco:
Wiek (w latach) |
Odsetek ludności |
---|---|
0 – 9 10 − 19 20 − 29 30 − 39 40 − 49 50 − 59 60 − 69 70 i więcej |
10,2% 10,6% 15,2% 15,9% 12,6% 14,7% 10,8% 10,1% |
Ogółem | 100,0% |
Źródło: Główny Urząd Statystyczny.
Przeprowadź kompleksową analizę struktury badanej zbiorowości.
Rozwiązanie:
W pierwszym etapie analizy kompleksowej określamy, że zbiorowość statystyczną stanowią wszyscy Polacy według stanu na 31.XII.2012 roku, jednostką statystyczną jest jeden Polak, zaś cechą statystyczną jest wiek wyrażony w latach. Jest to cecha rzeczowa, mierzalna, ciągła i może być wyrażona na skali przedziałowej, czyli da się stwierdzić o ile lat dana osoba jest starsza od innej.
W drugim etapie określamy, że przedstawiona tabela to według kryterium formy szereg rozdzielczy wielowariantowy, składający się z 8 przedziałów klasowych, z których jeden przedział (ostatni) jest otwarty, zaś według kryterium treści jest to szereg strukturalny, bowiem obrazuje strukturę Polaków według wieku.
W trzecim etapie powinniśmy zdecydować się na wybór odpowiednich parametrów do przeprowadzenia analizy. Nie można w tym przypadku zastosować miar klasycznych, bowiem jeden z przedziałów jest otwarty, a jego liczebność jest za duża (przekracza 5% łącznej liczebności), aby można go było zamknąć. Pozostaje więc przeprowadzenie analizy na miarach pozycyjnych.
W czwartym etapie wyznaczamy wybrane przez nas miary, w tym przypadku pozycyjne. Pierwszą z nich jest modalna czyli dominanta. Jako wartość występująca najczęściej, znajdzie się ona w przedziale o maksymalnej liczebności, a więc tam, gdzie znajduje się najwięcej Polaków, czyli w przedziale 30-39. Modalną w przypadku szeregu rozdzielczego wielowariantowego wyznaczamy ze wzoru . Podstawiając odpowiednie wartości otrzymujemy wynik 31,73 lata, który oznacza, że najwięcej Polaków ma 31,73 lata.
Kolejny parametr - mediana - jako wartość środkowa dzieli zbiorowość w stosunku 50%-50%, a zatem najpierw musimy odszukać środkowego Polaka, który zamyka pierwszą połowę zbiorowości. Sporządzając kolumnę skumulowanych liczebności (kolumna 3 w tabeli pomocniczej) stwierdzamy, że znajduje się on w czwartym od góry przedziale czyli od 30 do 39 lat. Podstawiając do wzoru odpowiednie wartości otrzymujemy = 38,81 lat, co oznacza, że połowa Polaków ma 38,81 lat lub mniej, a druga połowa ma tyle lub więcej lat.
Kwartyl pierwszy (Q1) dzieli zbiorowość w stosunku 25%-75%, należy zatem odszukać Polaka zamykającego pierwszą ćwiartkę. Jak wynika z kolumny skumulowanych liczebności, znajduje się on w trzecim od góry przedziale, czyli od 20 do 29. Podstawiając do wzoru odpowiednie wartości otrzymujemy = 22,76 lat, co oznacza, ze 1/4 Polaków ma 22,76 lat lub mniej, a 3/4 ma tyle lub więcej lat.
Kwartyl trzeci (Q3) dzieli zbiorowość w stosunku 75%-25%, należy zatem odszukać Polaka zamykającego trzecią ćwiartkę. Jak wynika z kolumny skumulowanych liczebności, znajduje się on w szóstym od góry przedziale, czyli od 50 do 59. Podstawiając do wzoru odpowiednie wartości otrzymujemy = 57,19 lat, co oznacza, że 3/4 Polaków ma 57,19 lat lub mniej, a 1/4 ma tyle lub więcej lat.
Odchylenie ćwiartkowe (Q) informuje o ile przeciętnie poszczególni Polacy różnią się wiekiem od mediany, a zróżnicowanie to dotyczy 50% środkowych obserwacji (położonych między kwartylem 1 a 3). Zgodnie ze wzorem otrzymujemy = 17,22 lat co oznacza, że wśród 50% środkowych Polaków ich zróżnicowanie wieku względem mediany wynosi przeciętnie ± 17,22 lata.
Kolejny parametr, pozycyjny współczynnik zmienności (VQ) odpowie czy zróżnicowanie to jest duże, umiarkowane czy małe. Podstawiając do wzoru wyliczone już poprzednio wartości otrzymujemy = 44,36% co oznacza, że zróżnicowanie to jest umiarkowane (35% < Vq ≤ 60%).
Z kolei asymetrię ocenimy wyznaczając pozycyjny współczynnik asymetrii . Po podstawieniu wyliczonych wcześniej miar otrzymujemy = +0,07. Oznacza to, że wśród 50% środkowych Polaków występuje niewielka prawostronna asymetria wieku (bowiem AsQ > 0) czyli dominują osoby nieco młodsze od mediany.
Uwaga: w całym zadaniu rozpiętość przedziałów wynosi 10, bowiem wiek jako cecha ciągła nie kończy się na 9, 19, 29 itd. ale równie dobrze możemy spotkać osobę mającą 9,25 lat lub 19,999 lat.
Tabela pomocnicza:
Wiek (w latach) |
Odsetek ludności |
Liczebność skumulowana | |
---|---|---|---|
0 – 9 10 − 19 20 − 29 30 − 39 40 − 49 50 − 59 60 − 69 70 i więcej |
10,2% 10,6% 15,2% 15,9% 12,6% 14,7% 10,8% 10,1% |
10,2% 20,8% 36,0% 51,9% 64,4% 79,1% 89,9% 100,0% |
<--- pozycja Q1 <--- pozycja Me |
Ogółem | 100,0% |
Zadanie 2) W ostatnim dniu czerwca br. w pewnym serwisie aukcyjnym pojawiło się 120 nowych ofert sprzedaży mieszkań w Poznaniu. Strukturę tych lokali według powierzchni (w m2) przedstawia poniższa tabela:
Powierzchnia (w m2) |
Liczba mieszkań |
---|---|
Do 30 30 − 39,9 40 − 49,9 50 − 59,9 60 − 69,9 70 − 79,9 80 − 89,9 90 − 99,9 |
6 18 28 24 22 11 6 5 |
Ogółem | 120 |
Przeprowadź kompleksową analizę struktury badanej zbiorowości.
Rozwiązanie:
W pierwszym etapie analizy kompleksowej określamy, że zbiorowość statystyczną stanowią poznańskie mieszkania jakie w dniu 30.VI.2013 roku pojawiły się w ofercie sprzedaży pewnego serwisu aukcyjnego, jednostką statystyczną jest jedno z tych mieszkań, zaś cechą statystyczną jest ich powierzchnia wyrażona w m2. Jest to cecha rzeczowa, mierzalna, ciągła i może być wyrażona na skali ilorazowej, czyli da się stwierdzić ile razy dane mieszkanie jest większe od innego.
W drugim etapie określamy, że przedstawiona tabela to według kryterium formy szereg rozdzielczy wielowariantowy, składający się z 8 przedziałów klasowych, z których jeden przedział (pierwszy) jest otwarty, zaś według kryterium treści jest to szereg strukturalny, bowiem obrazuje strukturę mieszkań według ich powierzchni.
W trzecim etapie powinniśmy zdecydować się na wybór odpowiednich parametrów do przeprowadzenia analizy. Choć wydaje się, że nie można zastosować miar klasycznych, bowiem jeden z przedziałów jest otwarty, jednak jego liczebność nie przekracza 5% łącznej liczebności (wynosi dokładnie 5% jako 6/120), czyli można go zamknąć bez szkody dla zachowania struktury tej zbiorowości. Po zamknięciu otrzymamy przedział (20-29,9), który ma taką samą rozpiętość jak pozostałe przedziały, a ponadto wszystkie one są już teraz zamknięte więc można przeprowadzić analizę na miarach klasycznych.
W czwartym etapie wyznaczamy wybrane przez nas miary, w tym przypadku klasyczne. Pierwszą z nich jest średnia arytmetyczna. Zgodnie ze wzorem , po podstawieniu odpowiednich wartości otrzymujemy = 55 m2. Oznacza to, że przeciętna powierzchnia wystawionych na sprzedaż mieszkań liczyła 55 m2.
Kolejno chcemy ocenić jak bardzo poszczególne mieszkania różnią się powierzchnią od tej średniej. Mówi o tym odchylenie standardowe, które wyznacza się ze wzoru czyli po podstawieniu = 17,18 m2. Wiemy już zatem, że poszczególne mieszkania różnią się powierzchnią od średniej arytmetycznej przeciętnie o ± 17,18 m2.
Współczynnik zmienności pozwoli zaś ocenić jak duże jest to zróżnicowanie. Zgodnie ze wzorem otrzymujemy = 31,24% co oznacza, że zróżnicowanie badanych mieszkań jest nieduże (Vx ≤ 35%), zbiorowość jest w miarę jednorodna, a wyliczona średnia dobrze opisuje przeciętną powierzchnię mieszkań.
Typowy obszar zmienności to parametr, który informuje o tym w jakim przedziale znajdują się najbardziej typowe obserwacje, których zgodnie z teorią rozkładu normalnego jest zazwyczaj około 68%. Wyznaczając ten obszar ze wzoru otrzymujemy przedział (37,82 < xtyp < 72,18), który mówi, że najbardziej typowe mieszkania (których jest około 68%) mają powierzchnię od 37,82 do 72,18 m2.
Klasyczny współczynnik asymetrii wskaże z kolei jaką asymetrię wykazuje rozkład badanych mieszkań według ich powierzchni. Oblicza się go według wzoru zaś po podstawieniu odpowiednich wartości otrzymujemy = 0,42. Oznacza to, że rozkład powierzchni badanych mieszkań wykazuje niezbyt silną asymetrię prawostronną (α3 > 0), a zatem większość mieszkań ma niską powierzchnię użytkową, a tylko nieliczne (co potwierdzają małe liczebności dwóch ostatnich przedziałów) mają wysoką powierzchnię.
Współczynnik koncentracji informuje zaś o sile skupienia badanych mieszkań wokół średniej arytmetycznej. Wyznacza się go według wzoru co po podstawieniu daje = 2,65. Wynik ten jest niższy niż 3 zatem informuje o słabszej niż w rozkładzie normalnym koncentracji badanych mieszkań wokół średniej arytmetycznej. Rozkład jest więc bardziej spłaszczony (platokurtyczny).
Uwaga: do wyznaczenia środków przedziałów musimy pamiętać, że powierzchnia mieszkania jako cecha ciągła nie kończy się na 39,9 czy też 49,9 ale równie dobrze możemy kupić mieszkanie mające 39,93 m2 lub 49,999 m2 (rozpiętość przedziałów wynosi więc 10).
Tabela pomocnicza:
Powierzchnia (w m2) - xi |
Liczba mieszkań (ni) |
x’i | x’i ⋅ ni | (x’i - )2 ⋅ ni | (x’i - )3 ⋅ ni | (x’i - )4 ⋅ ni |
---|---|---|---|---|---|---|
20 – 29,9 30 − 39,9 40 − 49,9 50 − 59,9 60 − 69,9 70 − 79,9 80 − 89,9 90 − 99,9 |
6 18 28 24 22 11 6 5 |
25 35 45 55 65 75 85 95 |
25 ⋅ 6 = 150 35 ⋅ 18 = 630 45 ⋅ 28 = 1260 itd. |
(25 - 55)2 ⋅ 6 = 5400 (35 - 55)2 ⋅ 18 = 7200 (45 - 55)2 ⋅ 28 = 2800 itd. |
(25 - 55)3 ⋅ 6 = -162000 (35 - 55)3 ⋅ 18 = -144000 (45 - 55)3 ⋅ 28 = -28000 itd. |
(25 - 55)4 ⋅ 6 = 4860000 (35 - 55)4 ⋅ 18 = 2880000 (45 - 55)4 ⋅ 28 = 280000 itd. |
Ogółem | 120 | 6 600 | 35 400 | 258 000 | 27 660 000 |