Wstępna analiza danych Materiał statystyczny i jego porządkowanie Szeregi statystyczne


Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Wstępna analiza danych. Materiał statystyczny i jego porządkowanie. Szeregi staty-
styczne. Prezentacja graficzna szeregów statystycznych. Charakterystyki liczbowe
cechy jednowymiarowej. Miary położenia, zmienności, asymetrii i koncetracji roz-
kładu empirycznego cechy.
Zagadnienia:
üð porzÄ…dkowanie materiaÅ‚u statystycznego
üð rodzaje i konstrukcja szeregów statystycznych (szereg szczegółowy prosty (dane indywidualne),
szereg szczegółowy ważony (szereg rozdzielczy punktowy), szereg rozdzielczy przedziałowy)
üð pojÄ™cia liczebnoÅ›ci skumulowanej, czÄ™stoÅ›ci wzglÄ™dnej, dystrybuanty empirycznej (czÄ™stoÅ›ci
względnej skumulowanej),
üð prezentacja graficzna rozkÅ‚adu empirycznego cechy: histogram, krzywa liczebnoÅ›ci, wykres pu-
dełkowy, wykres kwantyl-kwantyl
üð miary poÅ‚ożenia: Å›rednie klasyczne, miary przeciÄ™tne pozycyjne,
üð miary zmiennoÅ›ci: rozstÄ™p, wariancja, odchylenie standardowe, odchylenie przeciÄ™tne, odchylenie
ćwiartkowe, współczynnik zmienności, rozstęp międzykwartylowy
üð miary asymetrii: współczynniki asymetrii (skoÅ›noÅ›ci),
üð miary koncentracji: współczynnik koncentracji (kurtoza), współczynnik ekscesu
üð DokÅ‚adność obliczeÅ„: 4 miejsca po przecinku.
Zad. 1. Rozważmy rozkład miesięcznych wynagrodzeń 10 pracowników z wyższym wykształceniem,
zatrudnionych w pewnym przedsiębiorstwie. Przedstawia się on w następujący sposób:
2500, 3000, 3000, 3000, 3000, 3500, 3500, 4000, 4000, 4000
X
a) Określić zbiorowość generalną, jednostkę statystyczną i cechę badania
b) Sporządz na podstawie powyższych danych szereg szczegółowy prosty
c) Obliczyć i zinterpretować kwartyl rzędu pierwszego, medianę, kwartyl rzędu trzeciego
d) Obliczyć i zinterpretować średnią arytmetyczną
e) Obliczyć i zinterpretować modalną (wartość typową, najczęstszą)
f) Obliczyć i zinterpretować rozstęp, rozstęp międzykwartylowy*
g) Obliczyć i zinterpretować wariancję oraz odchylenie standardowe
h) Obliczyć i zinterpretować odchylenie przeciętne
i) Obliczyć i zinterpretować odchylenie ćwiartkowe oraz medianę odchyleń od mediany (MAD)*
j) Obliczyć i zinterpretować wybrane względne miary zmienności
k) Zbadać asymetrię przy wykorzystaniu odpowiednich miar (Do samodzielnego opracowania: alter-
natywne wzory na współczynnik asymetrii).
l) W zależności od siły asymetrii ocenić koncentrację badanej cechy (Do samodzielnego opracowa-
nia: postać i zastosowanie współczynnika koncentracji, krzywej koncentracji Lorenza)
m) Sporządz wykres pudełkowy (ang. boxplot) przyjmując jako długość wąsów 1,5*IQR. Badacz
dysponuje również następującymi charakterystykami rozkładu zarobków osób z wyższym wy-
kształceniem w podobnym przedsiębiorstwie:
xmin =ð 2000, Q1 =ð 2500, Me =ð 3000, Q3 =ð 3500, xmax =ð 4000
. Jakie wnioski płyną z analizy wykre-
su? W którym z przedsiębiorstw wolałbyś pracować?
n) Wyznaczyć dystrybuantę empiryczną
o) Utwórz na podstawie powyższych danych szereg rozdzielczy z przedziałami klasowymi. (W jaki
sposób można określić rozsądnie długość przedziałów?*)
p) Sporządz histogram z wykorzystaniem częstości względnych dla otrzymanego szeregu tak, aby
pola poszczególnych słupków sumowały się do 1.
q) Sporządz i zinterpretuj wykres kwantyl-kwantyl (do wykonania wyłącznie w pakiecie R)*. Po-
równaj w ten sposób rozkład empiryczny badanej cechy z najlepiej dopasowanym rozkładem
normalnym.
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Zapytano również jeszcze jedną osobę o zarobki i okazało się, że zarabia 12000zł
r) Proszę wyznaczyć średnią arytmetyczną oraz medianę cechy X (dla wszystkich 11 obserwacji).
(Proszę zastanowić się nad złożonością obliczeniową wspomnianych dwóch miar położenia (ten-
dencji centralnej))*.
s) Proszę wyznaczyć odchylenie standardowe oraz odchylenie przeciętne cechy X (dla 11 obserwa-
cji).
t) Proszę określić, jaki wpływ na wyniki analizy ma nietypowa obserwacja. Proszę własnymi sło-
wami zdefiniować pojęcie odporności miary statystycznej na obserwacje odstające (nietypowe)*.
u) Proszę wyznaczyć współczynnik asymetrii cechy X (dla wszystkich 11 obserwacji).
v) Proszę zaproponować odporną miarę położenia oraz rozproszenia*.
w) W jaki sposób występowanie jednostki odstającej wpływa na ocenę rozkładu za pomocą histo-
gramu?*
x) Dla ambitnych: Wykonaj powyższe zadanie w programie R*
Zad. 2. Badając rozkład płac w dwóch bankach obliczono m.in.
Wyszczególnienie Bank I Bank II
Åšrednia arytmetyczna 2300 2100
Mediana 2200 ?
Dominanta 2100 ?
Wariancja 62500 ?
Odchylenie standardowe ? ?
Typowy obszar zmienności ? 2050-2150
Współczynnik zmienności ? ?
(klasyczny)
Współczynnik skośności ? 0
Pearsona
Ustal brakujące miary i naszkicuj na wspólnym rysunku rozkłady empiryczne płac w obu bankach. Czy
wolałbyś pracować w banku I, czy w II? Uzasadnij odpowiedz.
Zad. 3 W pewnym przedsiębiorstwie przeprowadzono inwentaryzację sprzętu komputerowego i otrzy-
mano następujący empiryczny rozkład liczby napraw tego sprzętu od momentu ich zakupu:
Liczba napraw Liczba urzÄ…-
dzeń
xi
ni
0 10
1 22
2 15
3 5
4 5
5 3
Razem
X
a) Określić zbiorowość generalną, jednostkę statystyczną i cechę badania
b) Wyznaczyć liczebności skumulowane, częstości względne, częstości względne skumulowane
(dystrybuantÄ™ empirycznÄ…)
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
c) Obliczyć i zinterpretować kwartyl rzędu pierwszego, medianę, kwartyl rzędu trzeciego
d) Obliczyć i zinterpretować średnią arytmetyczną
e) Obliczyć i zinterpretować modalną (wartość typową, najczęstszą)
f) Obliczyć i zinterpretować rozstęp
g) Obliczyć i zinterpretować wariancję oraz odchylenie standardowe
h) Obliczyć i zinterpretować odchylenie przeciętne
i) Obliczyć i zinterpretować wybrane względne miary zmienności
j) Zbadać asymetrię przy wykorzystaniu odpowiednich miar
k) W zależności od siły asymetrii ocenić koncentrację badanej cechy
l) Dla ambitnych: Wykonaj powyższe zadanie w programie R*
Zad. 4 Zbadano 50 losowo wybranych zakładów produkcyjnych ze względu na jednostkowy koszt pro-
dukcji pewnego wyrobu i otrzymano następujące wyniki:
Jednostkowy koszt pro- Liczba
dukcji ( w PLN ) zakładów
áðxi; xi+ð1) ni
0  20 5
20  40 7
40  60 11
60  80 15
80  100 9
100  120 3
Razem
X
a) Określić zbiorowość generalną, jednostkę statystyczną i cechę badania
b) Wyznaczyć liczebności skumulowane, częstości względne, częstości względne skumulowane
(dystrybuantÄ™ empirycznÄ…)
c) Obliczyć i zinterpretować kwartyl rzędu pierwszego, medianę, kwartyl rzędu trzeciego
d) Wyznacz graficznie medianÄ™ z wykorzystaniem odpowiedniego wykresu
e) Obliczyć i zinterpretować średnią arytmetyczną
f) Obliczyć i zinterpretować modalną (wartość typową, najczęstszą).
g) Wyznacz graficznie modalnÄ… z wykorzystaniem odpowiedniego wykresu
h) Obliczyć i zinterpretować rozstęp
i) Obliczyć i zinterpretować wariancję oraz odchylenie standardowe
j) Obliczyć i zinterpretować odchylenie przeciętne
k) Obliczyć i zinterpretować wybrane względne miary zmienności
l) Zbadać asymetrię przy wykorzystaniu odpowiednich miar
m) W zależności od siły asymetrii ocenić koncentrację badanej cechy
n) Dla ambitnych: Wykonaj powyższe zadanie w programie R*
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Zad. 5 Skonstruuj rozkład liczby zgłoszonych reklamacji w minionym miesiącu oraz wielkości zrealizo-
wanych obrotów w minionym roku w punktach sprzedaży należących do sieci dystrybucji na podstawie
danych zamieszczonych w tablicach 1 i 2.
Tablica 1. Liczba zgłoszonych reklamacji w poszczególnych punktach sprzedaży należących do sieci
sprzedaży.
0 1 0 0 1 4 2 1 1 1 2 3 2 1 1 0 1 2 3 2 2
Tablica 2. Obroty w minionym roku w poszczególnych punktach sprzedaży należących do sieci dystrybu-
cji ( w mln zł).
1,2 3,6 2,0 0,8 3,1 5,5 2,0 2,2 1,3 1,0 3,0 3,3 2,2 1,8 1,1 2,1 2,6 2,3 1,4 1,6 3,1
Proszę odpowiedzieć na następujące pytania:
- w ilu punktach sprzedaży zgłoszono 3 reklamacje?
- jak często występują punkty sprzedaży, w których zgłoszono 3 reklamacje?
- w jakiej części punktów sprzedaży zgłoszono co najwyżej 2 reklamacje?
- jaka część punktów sprzedaży w sieci dystrybucji osiągnęła obrót na poziomie co najmniej 3 mln zł?
- jak często występują punkty sprzedaży, które osiągnęły obrót równy 3 mln zł?
- Jaka część punktów sprzedaży osiągnęła obroty od 0,99mln zl do 1,79 mln zł.
Zad. 6. Przedstaw oba rozkłady graficznie.
Zad. 7. Dla poniższych danych wyznacz wartość średnią środkową oraz dominującą:
7, 9, 10, 5, 8, 10, 12, 8, 6, 10.
Zad. 8. Wyznacz dominantę medianę oraz kwartyle liczby reklamacji oraz wielkości obrotów.
Zad. 9. Oblicz średnią liczbę reklamacji zgłoszonych w tej sieci dystrybucji w minionym miesiącu oraz
średnią wielkość osiągniętych obrotów.
Zad. 10.. Dlaczego wartości średniego obrotu wyznaczone z danych indywidualnych oraz z rozkładu
różnią się?
Zad. 11. Mieszkańców miasta A charakteryzuje: wiek środkowy = 42 lata, wiek dominujący =46 lat.
Mieszkańców miasta B charakteryzuje średni wiek na poziomie 42,6 roku.
Która grupa mieszkańców jest średnio biorąc starsza.
Zad. 12. Wśród ogólnej liczbie 600 pracowników połowa z nich przeznaczyła 4 dni na szkolenie w mi-
nionym miesiącu, zaś 100 z nich 2 dni. Jaka była ogólna i średnia liczba dni odbytych na szkoleniach w
minionym miesiącu w tej grupie pracowników.
Zad. 13. Wyniki badania empirycznego pensjonariuszy turnusu rehabilitacyjnego dostarczyły następują-
cych informacji o poziomie wydatków na słodycze:
- cała grupa pensjonariuszy, licząca 120 osób, wydała łącznie 3240 zł,
- najczęściej zaobserwowany poziom wydatków był o 20% wyższy od średniego poziomu.
a) Ile średnio biorąc wydał na słodycze jeden pensjonariusz tego turnusu?
b) O czym świadczy rozbieżność między średnim poziomem wydatków oraz poziomem dominującym?
Zad. 14. Strukturę tygodniowych wydatków na rozrywkę [w zł] w grupie 100 studentów geografii przed-
stawia poniższa tablica:
wydatki 0-10 10-20 20-30 30-40 40-50 50-60
udział studentów 0.05 0.08 0.12 0.3 0.25 0.20
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Z kolei dla 100 studentów ekonomii średnie tygodniowe wydatki na rozrywkę wyniosły 35 zł, mediana
36 zł, zaś dla 200 studentów AWF średnie tygodniowe wydatki na rozrywkę, wynoszące 36 zł, były jed-
nocześnie najczęściej występującymi i okazało się, że stanowiły górną granicę wydatków połowy bada-
nych.
Wykorzystując odpowiednie miary położenia proszę porównać poziom wydatków w badanych grupach
studentów.
Zad. 15. Wyznacz wartości średnie dla dwóch zbiorów danych:
A: 9, 10, 11 B: 1, 10, 19
Jakie wnioski można wysnuć z otrzymanych wyników w konfrontacji z danymi wyjściowymi.
Zad. 16. Odnosząc się do danych z zad. 5 proszę określić jak bardzo różnią się punkty sprzedaży ze
względu na zgłoszoną liczbę reklamacji oraz ze względu na osiągnięte obroty?
Zad. 17. Które punkty sprzedaży można uznać za typowe pod względem liczby zgłoszonych reklamacji
oraz wielkości obrotów? Ile punktów sprzedaży jest nietypowych?
Zad. 18. Co najmniej ile punktów sprzedaży powinien obejmować dwukrotnie większy obszar niż obszar
jednostek typowych, a ile trzykrotnie większy? Jak liczne były to grupy w rzeczywistości?
Zad. 19. Ze względu na którą cechę punkty sprzedaży w tej sieci są bardziej zróżnicowane?
Zad. 20. Rozbieżność między średnią wydajnością pracy i wydajnością dominującą wynosi 5 szt/godz. na
korzyść wartości średniej. Jeśli ustalono, że wariancja wydajności pracy wynosi 81, to czy można uznać,
że:
- rozkład wydajności pracy charakteryzuje bardzo silna lewostronna skośność,
- wartość dominująca należy do wartości typowych,
- średnia arytmetyczna dobrze odzwierciedla wydajność pracy pracowników i może stać się obo-
wiÄ…zujÄ…cÄ… normÄ…,
Zad. 21 Ocenić siłę i kierunek asymetrii rozkładu jeśli wariancja wydajności pracy wynosi 25 zaś różnice
obserwowaną wydajnością i średnią, podniesione do trzeciej potęgi dla grupy 100 pracowników wyniosły
Å‚Ä…cznie 150.
Zad. 22 Ze względu na którą cechę - liczbę zgłoszonych reklamacji czy też wielkość rocznego obrotu,
rozkład liczby punktów sprzedaży wykazuje silniejszą asymetrię?
Zad. 23. Czy występuje koncentracja obrotów w badanej sieci dystrybucji.
Zad. 24. Wyniki sprzedaży w dwóch kolejnych miesiącach opisują następujące charakterystyki:
produkt A miernik produkt B miernik
Åšrednia 16 Åšrednia 4
Mediana 15 Mediana 4
Dominanta 14 Dominanta 4
Odchylenie standardowe 4 Odchylenie standardowe 3
Wariancja 15 Wariancja 9
Kurtoza 3,7 Kurtoza 5,5
Asymetria 1,3 Asymetria 0
Zakres 21 Zakres 15
Minimum 5 Minimum 0
Maksimum 26 Maksimum 10
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Suma 5104 Suma 1276
Licznik 319 Licznik 319
Scharakteryzuj sprzedaż obu produktów oraz naszkicuj krzywe liczebności obu rozkładów.
Zad. 25. Na podstawie obserwacji wielkości zamówień zrealizowanych przez 100 dystrybutorów ustalo-
no, że: zamówienie co czwartego dystrybutora było niższe niż 3 tys. szt., 65% dystrybutorów zamówiło
poniżej 5 tys. szt., dystrybutorzy, którzy zamówili mniej niż 7 tys. szt. stanowili 85%, zaś pozostali za-
mówili 7 tys. szt. lub więcej, przy czym 5% wszystkich dystrybutorów zamówiło co najmniej 9 tys. szt.
Ponadto odnotowano, że najmniejsze zamówienie dotyczyło 1 tys. szt. Skonstruować rozkład wielkości
zamówień zrealizowanych przez zbadanych dystrybutorów oraz ocenić asymetrię i koncentrację wielko-
ści zamówień w tej grupie.
Zad. 26. Zasada Pareto głosi, że najkorzystniejszą sytuacją rynkową firmy jest gdy 20% klientów generu-
je 80% przychodów ze sprzedaży. Z jaką wartością współczynnika Giniego współwystępuje ta prawidło-
wość.
Numer
Odpowiedzi
zadania
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


Wyszukiwarka

Podobne podstrony:
Malarska A Statystyczna analiza danych wspomagana SPSS (rozdział 1, 2)
Analiza samobójstw w materiale sekcyjnym Zakładu Medycyny Sądowej AMB w latach 1990 2003
Praca mag Interaktywny system regułowej analizy danych marketingowych dotyczących satysfakcji klie
Excel Analiza danych biznesowych
wstepna analiza Rpp
Analiza danych
13 Analiza danych w podgrupach
07 Analiza danych
lab5 Analiza danych sprzedazowych
Komputerowe nośniki danych materialy
Analiza inicjujących materiałów wybuchowych
analiza danych przestrzennych
Wstępna analiza urządzeń nawigacyjnych z USA
Cw 5 Struktury Danych Materiały dodatkowe

więcej podobnych podstron