Statystyka opisowa.
Min to najmniejsza wartość z danego zakresu.
Max to największa wartość z danego zakresu.
Średnie wartość określona jest wzorem:
Średnia arytmetyczna jest miarą charakteryzującą rozkład cechy i dlatego jest miarą najczęściej używaną. Jedyną poważną jej wadą jest to, że duży wpływ na nią wywierają wartości skrajne badanego szeregu (największa i najmniejsza).
Odchylenie standardowe jest parametrem statystycznym o własnościach: wielkość obliczone na podstawie wszystkich obserwacji, można je poddawać przekształceniom algebraicznym, im zbiorowość jest bardziej zróżnicowana tym większe jest odchylenie standardowe. Wyraża się je wzorem:
Skośność (współczynnik asymetrii) który dany jest wzorem:
Skośność równa zero wskazuje na symetrię rozkładu zmiennej, wartość dodatnia oznacza symetrię prawostronną ( rozkład ma dłuższy prawy "ogon", natomiast wartość ujemna oznacza asymetrię lewostronną (rozkład ma dłuższy lewy "ogon".
Kurtoza jest miarą skupienia obserwacji wokół średniej. Im większa jest wartość kurtozy, tym bardziej wysmukła jest krzywa liczebności. Jeżeli kurtoza jest większa od zera to rozkład jest bardziej spłaszczony od normalnego, a jeżeli kurtoza jest większa od zera to rozkład jest bardziej wysmukły niż normalny.
Mediana (kwartyl drugi) to wartość jednostki położonej w zbiorowości w ten sposób, że dzieli zbiorowość na dwie równe części, i wyraża się wzorem:
Rozstęp jest najprostszą miarą zmienności i wyraża się wzorem: R=Xmax -Xmin
Zad 1 i 2
Do zadania 1 i 2 używałem danych z pliku "Pcinfo.xls" udostępnionego przez prowadzących zajęcia.
1a)
Histogram cen komputerów
|
od |
do |
1 |
446,92 |
1896,92 |
2 |
1896,92 |
2343,84 |
3 |
2343,84 |
2790,76 |
4 |
2790,76 |
3237,69 |
5 |
3237,69 |
3684,61 |
6 |
3684,61 |
4131,53 |
7 |
4131,53 |
4578,46 |
8 |
4578,46 |
5025,38 |
9 |
5025,38 |
5472,30 |
10 |
5472,30 |
5919,23 |
11 |
5919,23 |
6366,15 |
12 |
6366,15 |
6813,07 |
13 |
6813,07 |
7260 |
1b)
Obliczenia
|
Price |
Szybkość |
Min |
1450 |
25 |
Max |
7260 |
80 |
Średnia |
3159,92 |
49,24 |
Odchylenie standardowe |
828,87 |
16,19 |
Skośność |
1,76 |
-0,05 |
Kurtoza |
4,60 |
-1,76 |
Mediana |
2950 |
50 |
Kwantyl0.25 |
2600 |
33 |
Kwantyl0.75 |
3510 |
66 |
Rozstęp międzykwartylowy |
910 |
33 |
Kwanty0.05 |
2250 |
25 |
Kwantyl0.95 |
4875 |
66 |
1c) 90% cen komputerów mieści się na przedziale od 2250 do 4875.
Wnioski:
Średnia jest większa od mediany co znaczy, że jest dużo cen które zawyżają ta wartość. Rozkład o asymetrii prawostronnej co widać na histogramu i można stwierdzić odczytując skośność która jest większa od zera. Wykres jest dużo bardziej spłaszczony do normalnego rozkładu, a świadczy o ty kurtoza, która jest dużo większa od zera.
2a)
Histogram szybkości procesorów
|
od |
do |
|
1 |
4,23 |
29,23 |
|
2 |
29,23 |
33,46 |
|
3 |
33,46 |
37,69 |
|
4 |
37,69 |
41,92 |
|
5 |
41,92 |
46,15 |
|
6 |
46,15 |
50,38 |
|
7 |
50,38 |
54,61 |
|
8 |
54,61 |
58,84 |
|
9 |
58,84 |
63,07 |
|
10 |
63,07 |
67,30 |
|
11 |
67,30 |
71,53 |
|
12 |
71,53 |
75,76 |
|
13 |
75,76 |
80 |
2c) 90% szybkości procesorów mieści się na przedziale od 25 od 66.
Wnioski:
Średnia jest zbliżona od mediany co znaczy, że nie ma wartości, które by zaniżały bądź zawyżały tą średnią. Rozkład o asymetrii lewostronnej, można stwierdzić odczytując skośność która jest mniejsza od zera, ale bardzo zbliżona wiec Wykres jest dużo bardziej wysmukły do normalnego rozkładu, a świadczy o ty kurtoza, która jest mniejsza od zera.
Zad 3 i 4
Do zadania 3 i 4 używałem danych z pliku "Wbus.xls" udostępnionego przez prowadzących zajęcia.
3a)
Histogram liczby pracowników
|
od |
do |
||
1 |
197,71 |
213,71 |
||
2 |
213,71 |
411,42 |
||
3 |
411,42 |
609,14 |
||
4 |
609,14 |
806,85 |
||
5 |
806,85 |
1004,57 |
||
6 |
1004,57 |
1202,28 |
||
7 |
1202,28 |
1400 |
3b)
Obliczenia
|
x |
logX |
Min |
16 |
1,20 |
Max |
1400 |
3,14 |
Średnia |
135,54 |
1,83 |
Odchylenie standardowe |
256,08 |
0,43 |
Skośność |
4,11 |
1,10 |
Kurtoza |
17,52 |
1,31 |
Mediana |
51,5 |
1,71 |
kwantyl0,25 |
32,5 |
1,51 |
kwantyl0,75 |
125 |
2,09 |
Rozstęp międzykwartylowy |
92,5 |
0,58 |
4a)
Histogram zmiennej Y=logX
|
0,27 |
1 |
1,48 |
2 |
1,75 |
3 |
2,03 |
4 |
2,31 |
5 |
2,59 |
6 |
2,86 |
7 |
3,14 |
Wnioski:
Zmienna X: Dużą uwagę zwraca różnica między medianą a średnią, średnia jest prawie trzy razy większa od mediany, co wskazuje że są firmy o dużej liczbie pracowników, które zawyżają tą średnią. Skośność jest dużo większa od zera co wskazuje na asymetrię prawostronną. Kurtoza jest także dużo większa od zera, więc rozkład jest bardziej wysmukły od normalnego.
Zmienna "logX": jest bardziej zbliżona do rozkładu normalnego, ponieważ średnia jest bliska medianie oraz kurtoza i skośność są bliższe zeru niż w zmiennej X, również z histogramu wynika że jest bardziej symetryczny.
Zad 5
stopnie swobody |
Rozkład normalny |
Rozkład studenta |
||
|
-1 |
3 |
-1 |
3 |
1 |
0,1587 |
0,9987 |
0,25 |
0,10241638 |
2 |
0,1562 |
0,9987 |
0,2113249 |
0,04773298 |
10 |
|
|
0,1704466 |
0,00667183 |
20 |
|
|
0,1646283 |
0,00353795 |
30 |
|
|
0,1626543 |
0,00269498 |
50 |
|
|
0,1610628 |
0,00210085 |
100 |
|
|
0,1598621 |
0,00170396 |