STATYSTYKA
ĆWICZENIA
2000/2001
ROK: I
SEMESTR: II
WYŁADOWCA:
dr hab. ANDRZEJ BALICKI
SPIS TREŚCI
1 PLANOWANIE BADANIA
PLANOWANIE BADANIA
ELEMENTY
cel badania
określenie przedmiotu badania - zdefiniowanie zbiorowości i jednostki statystycznej
zbiorowość - celowo wyodrębniony zbiór obiektów pewnego rodzaju, w którym chcemy poznać prawidłowości jednostki przystające do siebie; zbiorowość to inaczej populacja; zbiorowość musi korelować z celem badania; zbiorowość to także zbiór pomiarów możliwych do wykonywania w określonych warunkach
zbiorowość definiujemy przez określenie tzw. cech stałych:
- rzeczowej (kto, co),
- przestrzennej (gdzie),
- czasowej (kiedy)
jednostka - element zbiorowości statystycznej
określenie zakresu badania poprzez cechy zmienne jednostek zbiorowości:
- mierzalne (ilościowe):
skokowe (tylko niektóre wartości liczbowe)
ciągłe (mogą przyjmować dowolne wartości)
- niemierzalne (jakościowe)
skale i cechy porządkowe - przyporządkowanie liczby jakiejś cechy niemierzalnej
wybór zakresu obserwacji
pełne (wyczerpujące, całkowite) - np. spis powszechny ludności, nie można pominąć żadnej jednostki statystycznej
częściowe (próbkowe) - losowanie np. warstwowe
PRZYKŁAD 1 - BADAMY CZYNNIKI DETERMINUJĄCE WYNIKI W NAUCE STUDENTÓW
Definiujemy zbiorowość
Studenci z Polski (kto),
z UG, wydział Zarządzania, studia zaoczne, wszystkie kierunki (gdzie),
rok akademicki 2000/2001 (kiedy)
Cechy zmienne
Płeć
Wiek
Aktywność zawodowa
Stan cywilny
Dzieci
Liczba osób na utrzymaniu
Sytuacja mieszkaniowa
Czas dojazdu do uczelni
Sytuacja finansowa (dochody)
Pochodzenie społeczne
Typ ukończonej szkoły średniej
Czas poświęcany na naukę
Zawód wykonywany
Studiowany kierunek lub specjalność
PRZYKŁAD 2 - KIEROWCA
W celach kontrolnych kierowca notuje co 350 km zużycie paliwa w l/100 w samochodzie o pojemności silnika 1.7, którym porusza się po mieście. Siedemnaście kolejnych notowań w ciągu jednego roku dało następujące wyniki:
10,0 10,6 10,2 9,8 9,3 9,2 9,9 10,0 9,1 9,6 8,8 8,5 8,2 10,9 9,1 11,8 11,5
Ten ciąg liczb to nieuporządkowany zbiór informacji, to ciąg monologiczny, trzeba mu nadać jakiś .porządek.
Tworzymy więc ciąg wartości od min do max
X - cecha mierzalna
x- wartość tej cechy
x1, x2,.....,xn - porządkujemy od min do max
x(1), x(2),....., x(n) - (1) oznacza że ciąg wartości jest uporządkowany
8,2 8,5 8,8 9,1 9,1 9,2 9,3 9,6 9,8 9,9 10,0 10,0 10,2 10,6 10,9 11,5 11,8
RODZAJE SZEREGÓW
Liczba obserwacja jest mała (kilka do kilkunastu):
szeregiem wyliczającym lub szczegółowym
liczba obserwacji jest duża
Szeregi rozdzielcze
- cecha skokowa - szeregi rozdzielcze jednostopniowe lub punktowe
- cecha która ma charakter ciągły - szeregi rozdzielcze wielostopniowe lub przedziałowe
PORZĄDKOWANIE - SZEREG SZCZEGÓŁOWY
ZADANIE
20 losowo wybranym osobom pokazano pewną reklamę i poproszono aby ja oceniły w skali od 0 do 100. Otrzymano wyniki:
89 75 59 96 88 71 43 62 80 92 76 72 67 60 79 85 77 83 87 53.
Uporządkować szereg
x(1) ≤ x(2) ≤....< x(n) - subsrypt w nawiasie oznacza, że ciąg jest uporządkowany
Szereg uporządkowany wg wartości rosnących:
43 53 59 60 62 67 71 72 75 76 77 79 80 83 85 87 88 89 92 96
SZEREG ROZDZIELCZY PRZEDZIAŁOWY DLA BADANEJ CECHY (GRUPOWANIE STATYSTYCZNE)
Staż pracy:
10 25 40 48 osób
0 2 4 6 8
Grupowanie powoduje utratę informacji i nie pokazuje szczegółów, lecz jednocześnie rozkład badanej cechy jest dzieki temu bardziej przejrzysty.
Zdefiniowanie przedziałów
Ile ma być przedziałów?
Jaka ma być rozpiętość przedziałów?
Ad a)
k - liczba przedziałów będąca jakąś funkcją liczby obserwacji k=f(n)
n - liczba obserwacji
Można wykorzystać następujące wzory:
k = 1 + 3.32 logn
k ≤ 5 logn
k = n1/2
Lub tabelę:
n |
k |
n |
k |
n |
k |
4-5 |
2 |
22-32 |
6 |
90-117 |
10 |
6-8 |
3 |
33-46 |
7 |
118-153 |
11 |
9-14 |
4 |
47-64 |
8 |
154-192 |
12 |
15-21 |
5 |
65-89 |
9 |
193-255 |
13 |
W przypadku naszego zadania:
k = 201/2 = 4.47
k ≤ 5 log20 = 6.5 k = 5
k = 1+3.32 log20 = 5.3
Ad b)
Proste rozdzielenie zakresu dla k przedziałów:
40 100
xmin xmax
43 96
Rozpiętość przedziału można otrzymać ze wzoru:
Ocena reklamy ( x0 , x1 > |
Liczba osób zapytanych ni |
40-52 |
1 |
52-64 |
4 |
64-76 |
5 |
76-88 |
7 |
88-100 |
3 |
Razem |
20 |
Jest to szereg rozdzielczy przedziałowy.
Histogram i wielobok to: graficzny obraz szeregu rozdzielczego (obraz cech mierzalnych).
ZADANIE
Badamy staż pracy członków pewnej 12-osobowej brygady w jednej z firm budowlanych. Otrzymano wyniki w latach:
5.1 12.3 4.8 7.0 6.8 13.6 6.7 9.5 3.9 5.2 8.8
Celem ogólnym jest scharakteryzować rozkład stażu w tej grupie osób.
Opracować dane
Nr obiektu |
Długość stażu |
i |
xi |
1 |
2.7 |
2 |
3.9 |
3 |
4.8 |
4 |
5.1 |
5 |
5.2 |
6 |
6.7 |
7 |
6.8 |
8 |
7.0 |
9 |
8.8 |
10 |
9.5 |
11 |
12.3 |
12 |
13.6 |
Razem |
86.4 |
Sporządzić wykres szeregu szczegółowego
Krzywa sigmoidalna - rozkład symetryczny, być może normalny, nie nakładanie się punktów na linie może oznaczać pewne szczególne własności.
CHARAKTERYSTYKI ROZKŁADÓW
Położenie
Rozkłady mogą się różnić co do położenia tzn. co do wartości zmiennej, wokół których rozkłady te się ześrodkowują - miary położenia
1 2
0
Trzy miary tendencji centralnej
Dominanata
Mediana
Średnia arytmetyczna
ŚREDNIA ARYTMETYCZNA (PROSTA)
lat
Średnia ma charakter abstrakcyjny i nie należy jej poprawiać jeśli wyjdą liczby po przecinku. Średnia to punkt ciężkości rozkładu.
MEDIANA - WARTOŚĆ ŚRODKOWA
Mediana dzieli zbiór obiektów na dwie liczebnie równe części. 50% jednostek ma wartości mniejsze od mediany lub równe a 50% większe.
Wyznaczamy pozycję mediany
Jeśli są dwa numery w środku nr 6 i nr 7:
Nr 6 = 6.7
Nr 7 = 6.8
lat
DOMINANTA - WARTOŚĆ MODALNA (MODA)
Jest to wartość najczęściej występująca w zbiorze obserwacji.
Jeżeli liczba obserwacji jest mała dominanty nie należy wyznaczać bo wskazania będą złe.
ZADANIE DOMOWE
Dla zadania o reklamie obliczyć średnią i medianę.
4
1
STATYSTYKA ĆWICZENIA opracowanie: Alicja i Wojciech Makowiec - grupa 101