Statystyka – kurs
podstawowy
Statystyka – kurs
podstawowy
Agnieszka KUJAWIŃSKA
Agnieszka KUJAWIŃSKA
2
Spotkanie 1
Spotkanie 1
• Statystyka opisowa
– miary tendencji centralnej
– miary zmienności
– wykresy (histogramy, pudełkowe)
• Zmienna losowa i rozkład
prawdopodobieństwa
– Prawdopodobieństwo
– Zmienna losowa
• skokowa
• ciągła
3
Zmienność procesu
Zmienność procesu
Wynik
zmienność
zidentyfikować
opisać
kontrolować
metody
statystyczne
4
Celem analiz statystycznych jest:
Celem analiz statystycznych jest:
• znalezienie prawidłowości kształtujących
zjawiska:
– badanie struktury kosztów produkcji
– badanie zmian w poziomie i strukturze
ludności na określonej przestrzeni i czasie
– badanie związku pomiędzy stażem pracy a
wydajnością pracowników
– reklamą a obrotami
– itd...
5
Zbiór danych może być rozpatrywany:
Zbiór danych może być rozpatrywany:
• z punktu widzenia:
– opisowego
– wnioskowania statystycznego
Statystyka opisowa
Wnioskowanie
statystyczne
Statystyka
6
Podział cech
statystycznych:
Podział cech
statystycznych:
Jednym z wielu podziałów cech jest:
mierzalne
niemierzalne
1) wartości
dają się
wyrazić za
pomocą
liczb
2) wyrażone
w różnych
jednostkac
h: zł,
tonach,
sztukach,
itd...
1) nie dają się
zmierzyć
2) np. płeć,
zawód,
kolor..
3) opisane na
skali
nominalnej
Skoko
we
Ciągłe
nominal
ne
porządk
owe
7
Opracowanie próby
Opracowanie próby
• Każdy zbiór obserwacji możemy
uporządkować według
wielkości/kryterium
8
Narzędzia statystyki opisowej:
Narzędzia statystyki opisowej:
1 2 1 2 2 2
2 3 3 3 1 2
3 2 1 2 3 3
3 2 3 1 2 3
4 3 2 1 2 3
2 4 3 2 1 2
3 4 3 4 4 4
4 4 4 4 3 1
1 1 1 2 3 1
2 3 2 1 2 4
3 2 4
1 2 3 4
miary statystyczne
9
Miary statystyczne:
Miary statystyczne:
• miary położenia
• miary rozproszenia
• miary asymetrii
• miary koncentracji
10
Miary położenia (tendencji centralnej)
Miary położenia (tendencji centralnej)
• miary położenia ze zbioru: percentyle
– mediana
– kwartyl I, III
• średnia arytmetyczna
• dominanta
11
Szczególne percentyle:
Szczególne percentyle:
• Mediana:
– leży w centrum zbioru w tym sensie, że
połowa wyników znajduje się powyżej, a
połowa poniżej jej wartości (
kwartyl 2
)
• Kwartyle:
– kwartyl 1:
ozn. Q
1
(25% wyników
leży poniżej tego percentyla)
– kwartyl 3:
Q
3
(75% wyników leży
poniżej jego wartości)
12
• Dominanta (wartość modalna, moda )
– jest wartość, która w tym zbiorze występuje
najczęściej
• Średnia arytmetyczna (średnia
klasyczna)
– zwaną także przeciętną jest to suma wartości
wszystkich wyników podzielona przez ich
liczbę
Pozostałe miary:
Pozostałe miary:
13
Średnia arytmetyczna
Średnia arytmetyczna
n
x
x
n
1
i
i
średnia w próbie:
średnia w populacji:
N
x
n
1
i
i
14
Mediana
Mediana
• dla zbioru o parzystej liczbie danych
• dla zbioru o nieparzystej liczbie danych
2
x
x
Me
1
2
n
2
n
2
1
n
x
Me
15
6, 9, 10, 12, 13, 14, 14, 15, 16, 16, 16, 17, 17, 18, 18, 19, 20, 21, 22, 24
Me=16
x
śr
=15,85
6, 9, 10, 12, 13, 14, 14, 15, 16, 16, 16, 17, 17, 18, 18, 19, 20, 21, 22, 100
Me=16
x
śr
=19,85
16
Rozpatrzmy dwa zbiory
danych:
Rozpatrzmy dwa zbiory
danych:
Z
1
: 1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11
Z
2
: 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
Wyznacz: średnią zbiorów, medianę i
dominantę
17
18
Miary zróżnicowania:
Miary zróżnicowania:
• rozstęp (obszar zmienności)
• odchylenie przeciętne
• wariancja
• odchylenie standardowe
19
Miary rozrzutu:
Rozstęp
Miary rozrzutu:
Rozstęp
• w zbiorze wyników obserwacji rozstępem
nazywamy różnicę pomiędzy wartością
największą i najmniejszą
min
max
x
x
R
20
Miary rozrzutu:
Odchylenie przeciętne
Miary rozrzutu:
Odchylenie przeciętne
• jest średnią arytmetyczną bezwzględnych
różnic pomiędzy poszczególnymi wartościami
cechy a wartością średnią
n
x
x
D
n
1
i
i
m
21
Miary rozrzutu:
Wariancja
Miary rozrzutu:
Wariancja
• w zbiorze wyników wariancją nazywamy
przeciętne kwadratowe odchylenie
poszczególnych wyników od ich średniej
n
)
x
x
(
2
n
1
i
2
i
s
N
)
x
x
(
2
N
1
i
2
i
próba
populacja
22
Miary rozrzutu:
Odchylenie
standardowe
Miary rozrzutu:
Odchylenie
standardowe
• pierwiastek kwadratowy z wariancji
n
)
x
x
(
n
1
i
2
i
s
23
Uwaga:
Uwaga:
• w przypadku prób o liczebności n<30
1
n
)
x
x
(
n
1
i
2
i
s
Grupowanie danych
Grupowanie danych
• Szereg pozycyjny:
sortujemy dane
rosnąco lub malejąco i zliczamy ile jest
elementów o tej samej wartości lub cesze
• Szereg rozdzielczy:
dane grupujemy w
klasy, czyli przedziały o ustalonej wielkości
Algorytm postępowania
Algorytm postępowania
krok 1:
zebrać dane
krok 2:
ustalić rozstęp wartości R=x
max
-x
min
krok 3:
ustalić liczbę przedziałów k lub ze wzoru
k =1+3,32*logN
krok 4:
podzielić rozstęp R przez liczbę przedziałów k
(uzyskamy szerokość przedziałów d)
krok 5:
wyznaczyć przedziały
(lewostronnie
domkniete lub
prawostronnie-bądź konsekwentny!)
krok 6:
przyporządkować dane do przedziałów
krok 7:
histogram
Jak dobrać liczbę klas?
Jak dobrać liczbę klas?
Liczność
próbki
n
Ilość
przedziałów
k
30 50
6 10
51 100
7 11
101 200
8 12
201 500
9 15
k
=1+3,32*l
ogN
Wykresy RAMKA-WĄSY
Wykresy RAMKA-WĄSY
Me
Q
3
Q
1
MAX
MIN
Rozstęp międzykwartylowy
Wykres R-W
Wykres R-W
asymetria prawostronna
symetria
asymetria lewostronna
duża wariancja
mała wariancja
Wykres R-W pozwala na wykrycie
obserwacji nietypowych!
Wykres R-W pozwala na wykrycie
obserwacji nietypowych!
Me
Q
3
Q
1
Q
3
+1,5*(Q
3
-Q
1
)
Q
3
+3*(Q
3
-Q
1
)
*
o
30
Prawdopodobieńst
wo
Prawdopodobieńst
wo
31
Co to jest prawdopodobieństwo?
Co to jest prawdopodobieństwo?
• intuicyjnie wiemy czym jest prawdopodobieństwo
• często myślimy: „małe prawdopodobieństwo aby
szef wrócił dzisiaj nagle z wakacji”
– prawdopodobieństwo
małe-duże
jakie jest
prawdopodobień
stwo, że
linoskoczek
spadnie?
jakie jest
prawdopodobie
ństwo, że będę
produkować
wyrób wadliwy?
ILE???
32
Podstawowe pojęcia:
Podstawowe pojęcia:
• Doświadczenie losowe to każdy proces,
którego wyniku nie jesteśmy w stanie
dokładnie przewidzieć
• Zdarzenie elementarne to każdy wynik
doświadczenia losowego
Przykładowo: selekcja i klasyfikacja wyrobów na I,
II i III gatunek
Przykładowo: wylosowanie z partii towarów
wyrobu pozagatunkowego
33
Metody szacowania
prawdopodobieństwa:
Metody szacowania
prawdopodobieństwa:
• oparta o klasyczną definicję
prawdopodobieństwa
• metoda empirycznej estymacji
prawdopodobieństwa
• metoda empirycznej estymacji
prawdopodobieństwa subiektywnego
34
Prawdopodobieństwo w ujęciu
klasycznym
Prawdopodobieństwo w ujęciu
klasycznym
Ω – zbiór wszystkich zdarzeń elementarnych
A – zdarzenie losowe (podzbiór zdarzeń
elementarnych)
k – liczba wyników, gdy zdarzenie A się pojawia
m – liczba wszystkich możliwych wyników
P(A) = k/m
prawdopodobieństwo „a priori”
35
Przykładowo:
Przykładowo:
Załóżmy, że w pewnym pensjonacie w okresie ferii
znajduje się 80 osób, w tym 20 kobiet.
Niech A – zdarzenie, że kobieta ulegnie wypadkowi na
nartach
Zatem P(A) = 20/80 = ¼
Dwie interpretacje:
1) prawdopodobieństwo, że w wyniku pojedynczego
wypadku ucierpi kobiet wynosi: ¼
2) w 100 wypadkach 25 razy ucierpi kobieta
Prawdopodobieństwo to
określane jest dedukcyjnie, na
podstawie konkretnej
przyczyny
36
Prawdopodobieństwo
„empiryczne”
Prawdopodobieństwo
„empiryczne”
• obserwacja zjawiska
• duża próba
• estymujemy prawdopodobieństwo
określonego zdarzenia na podstawie
częstości pojawiania się zdarzenia
• jest to tzw. prawdopodobieństwo
a
posteriori
prawdopodobieństwo „empiryczne” –
prawdopodobieństwo statystyczne
37
Przykładowo:
Przykładowo:
załóżmy, że chcemy oszacować odsetek osób dokonujących
zakupu w sklepie;
stosując zasadę prawd. a priori, prawdopodobieństwo
zakupu wynosi
½
ale obserwacje poczynione przez sprzedawców przez
dłuższy okres czasu dają wynik: na 100 odwiedzających
kupuje 30;
p=0,3
38
Prawdopodobieństwo empiryczne
subiektywne
Prawdopodobieństwo empiryczne
subiektywne
• nie opieramy się na naturze zjawiska ani na
danych empirycznych
• opieramy się na wiedzy i doświadczeniu osoby
wyznaczającej prawdopodobieństwo
• przedsiębiorstwo wprowadza na rynek nowy
produkt
• dział marketingu daje 30% szans na sprzedaż w
najbliższym roku
39
Podstawowe prawa rachunku
prawdopodobieństwa:
Podstawowe prawa rachunku
prawdopodobieństwa:
1) P(E
i
) ≥ 0
2
P(E
i
)= 1
3) Jeżeli A
-1
jest zdarzeniem przeciwnym do
A (dopełnieniem) to P(A) = 1 – P(A
-1
)
40
Przykład
Przykład
Ozdoba choinkowa składa się z 300 żarówek
połączonych szeregowo (tzn., że cała ozdoba działa,
jeśli wszystkie 300 żarówek jest dobrych).
Dostawca żarówek deklaruje ich wadliwość na
poziomie 1%.
a) jaka będzie spodziewana jakość produkcji ozdób?
b) jaka powinna być dopuszczalna wadliwość
żarówek, aby 99% ozdób było dobrych?
41
Zmienne losowe i ich
rozkłady
Zmienne losowe i ich
rozkłady
Zmienna losowa intuicyjnie -
to
zmienna, która przyjmuje wartości liczbowe z
pewnego zbioru z określonym
prawdopodobieństwem
Naukowo:
jest to funkcja, która przy zajściu
każdego zdarzenia losowego w przyjmuje
konkretną wartość x(w), co zapisujemy:
X: x() Є R
42
Przykładowo:
Przykładowo:
• jeśli doświadczenie polega na kontroli jakości 5
opon podlegających ocenie alternatywnej, to
zmienną losową może być liczba wadliwych
opon, która może przyjąć wartość od 0 do 5
• cecha, którą obserwujemy (mierzymy) jest
zmienną losową
Zmienna losowa
Zmienna losowa
dyskretna
ciągła
43
Rozkład gęstości
prawdopodobieństwa:
Rozkład gęstości
prawdopodobieństwa:
• zmienna losowa
dyskretna
• zmienna losowa
ciągła
tablica, wzór lub wykres,
który przyporządkowuje
prawdopodobieństwa
każdej możliwej wartości
zmiennej
funkcja ciągła
P(X=x)=P(x) 0 dla każdego x
P(x
i
) = 1
f(X=x)=f(x) 0 dla każdego x
1
dx
)
x
(
f
44
Dystrybuanta zmiennej losowej
Dystrybuanta zmiennej losowej
• Jest to funkcja określona wzorem
)
x
X
(
P
)
x
X
(
P
)
X
(
F
• dla zmiennej
losowej skokowej:
x
x
i
i
x
p
x
F
)
(
)
(
x
dx
)
x
(
f
)
x
(
F
• dla zmiennej
losowej ciągłej:
45
Związek pomiędzy F(x) a f(x)
Związek pomiędzy F(x) a f(x)
P(a<X<b) = F(b) –F(a)
46
Wartość oczekiwana zmiennej
losowej
Wartość oczekiwana zmiennej
losowej
W przypadku zmiennych losowych nie
mówimy o średniej arytmetycznej ale o
wartości oczekiwanej
k
,...
2
,
1
i
dla
p
x
)
X
(
E
k
1
i
i
i
• zmienna
losowa
dyskretna
• zmienna losowa
ciągła
dx
)
x
(
f
x
)
X
(
E
47
Wariancja zmiennej losowej
Wariancja zmiennej losowej
k
1
i
i
2
i
2
p
)
x
(
)
X
(
D
• zmienna losowa
dyskretna
• zmienna losowa
ciągła
dx
)
x
(
f
))
X
(
E
x
(
)
X
(
D
2
2
48
Rozkład dwumianowy
Rozkład dwumianowy
Rozkład dwumianowy zakłada przeprowadzenie
eksperymentu polegającego na wykonaniu ciągu
identycznych doświadczeń spełniających następujące
warunki:
– Są dwa możliwe wyniki każdego doświadczenia, nazywane
sukcesem i porażką
. Wyniki te wykluczają się i dopełniają
– Prawdopodobieństwo sukcesu oznaczane przez
p
, pozostaje
takie samo od doświadczenia do doświadczenia. Prawd.
porażki oznaczane przez
q
, jest równe
1-p
– Doświadczenia są niezależne od siebie
49
Dwumianowy rozkład
prawdopodobieństwa:
Dwumianowy rozkład
prawdopodobieństwa:
x
n
x
x
n
x
q
p
)!
x
n
(
!
x
!
n
q
p
x
n
)
x
X
(
P
np
)
X
(
E
npq
)
X
(
V
2
50
Rozkład dwumianowy przy różnych
wartościach n i p
Rozkład dwumianowy przy różnych
wartościach n i p
0 1 2 3 4
0,05
0,29
0,66
P(x)
n=4, p=0,1
0 1 2 3 4
0,07
0,37
0,25
P(x)
n=4, p=0,5
0 1 2 3 4
P(x)
n=10, p=0,3
5 6 7 8 9
51
Rozkład normalny (Gaussa)
Rozkład normalny (Gaussa)
• Rozkład normalny jest rozkładem, do którego dąży
m.in. rozkład dwumianowy gdy liczba doświadczeń
n wzrasta
• Okazuje się, że rozkład normalny jest rozkładem
granicznym wielu innych rozkładów, w sytuacjach
gdy
ujawniają się skutki różnych przypadkowych
czynników pochodzących z różnych źródeł
52
Rozkład N o różnych oraz
Rozkład N o różnych oraz
x
f(
x
)
1
40
x
f(
x
)
15
5
53
Funkcja gęstości rozkładu
normalnego
Funkcja gęstości rozkładu
normalnego
2
2
2
)
x
(
e
2
1
)
x
(
f
54
Standaryzowany rozkład
normalny
Standaryzowany rozkład
normalny
• oznaczany: Z lub U
• zapisywany często: N(0, 1)
2
z
2
e
π
2
1
)
z
(
f
55
Przekształcenie
Przekształcenie
= 0
= 1
0
= -0,042
0
= 1,91
GLT
DLT
x
2
=2,5
x
1
=2,5
u
1
u
2
P(X>x
2
)
P(X<x
1
)
transformacja: (x
2
-
)/
P(U>u
2
)
P(U>u
1
)
P(X<x
1
) = P(U<u
1
)
P(X>x
2
) = P(U>u
2
)
56
Tablice rozkładu standaryzowanego
Tablice rozkładu standaryzowanego
57
Właściwość rozkładu normalnego
Właściwość rozkładu normalnego
+/-1
+/-2
+/-3
~68,26
%
~95,44%
~99,73%
58
Przykład:
Przykład:
Stężenie zanieczyszczeń w półprzewodnikach
używanych do produkcji mikroprocesorów jest zmienną
losową normalną o średniej 127 pewnych jednostek i
odchyleniu standardowym 22 jednostki. Półprzewodnik
może być użyty do produkcji tylko wtedy, gdy stężenie
zanieczyszczeń jest mniejsze niż 150 jednostek. Jaka
część półprzewodników nadaje się do tego by ją użyć
produkcji mikroprocesorów?
59
Wskaźniki zdolności jakościowej
Wskaźniki zdolności jakościowej
dolna
granica
tolerancji
górna
granica
tolerancji
60
Wskaźnik c
p
Wskaźnik c
p
DLT
GLT
Rozrzut procesu (6)
Pole tolerancji
6
DLT
GLT
c
p
61
Wskaźnik c
p
Wskaźnik c
p
2
c
p
DLT
GLT
DLT
GLT
2
c
p
nomina
ł
średnia
62
Wskaźniki c
pk
Wskaźniki c
pk
3
DLT
x
c
pkd
DLT
GLT
C
pkd
średnia
C
pkg
3
x
GLT
c
pkg
C
pk
= min {c
pkd
, c
pkg
}
nomina
ł
63
Słabe strony wskaźników
Słabe strony wskaźników
• Założenie o symetrycznym rozkładzie
granic tolerancji
64
Wskaźnik c
pmk
Wskaźnik c
pmk
2
2
pm
)
LN
x
(
6
DLT
GLT
c
DLT
GLT
średnia
nomina
ł
LN
2
2
2
2
pmk
)
LN
x
(
3
x
GLT
;
)
LN
x
(
3
DLT
x
min
c
65
Karta kontrolna procesu
Karta kontrolna procesu
• „wizualizacja” miary położenia i rozrzutu
procesu
66
Tworzenie karty kontrolnej - granice
Tworzenie karty kontrolnej - granice
• Założenie modelu zmienności cechy –
funkcji rozkładu prawdopodobieństwa
• Rodzaj karty:
– Wartości pomiarowych
– Średniej arytmetycznej
– Średniej ruchomej
• Wyznaczenie obszaru zmienności naturalnej
przy założeniu, że proces jest stabilny
67
•Linia centralna:
wyznacza średnią statystyki
•Linie kontrolne (granice kontrolne):
swego
rodzaju przedział naturalnej zmienności
nadzorowanej statystyki
Linia kontrolna = średnia statystyki +/- połowa przedziału
naturalnej
zmienności
statystyki
68
Linie kontrolne a linie tolerancji
Linie kontrolne a linie tolerancji
• linie kontrolne różnią się zasadniczo od linii
tolerancji:
– linie tolerancji reprezentują wymagania stawiane
nadzorowanej właściwości, mogą być nawet
zmieniane; reprezentują stan oczekiwany,
– linie kontrolne są obliczane na podstawie
wyników pomiarów przeprowadzonych na
rzeczywistym procesie; opisują właściwości
statystyczne procesu.
69
Karta wartości średniej – rozkład
średnich
Karta wartości średniej – rozkład
średnich
70
Rozkład średnich – twierdzenie
graniczne
Rozkład średnich – twierdzenie
graniczne
71
Interpretacja kart kontrolnych
Interpretacja kart kontrolnych
P(X>GLK) = 0,0135
72
Interpretacja kart kontrolnych
Interpretacja kart kontrolnych
P(7 kolejnych powyżej LC) <(0,5)
7
=0,0078
P(7 kolejnych wzrasta) < 0,0078
zależy ono od położenia punktu I-ego
73
Inne symptomy
Inne symptomy
LC
DLK
- zużycie ostrza narzędzia,
zużycie maszyny,
nieodpowiedniej
konserwacji lub
niepoprawnej obsługi
maszyny, znużenia
operatora, pojawiających
się luzów
w maszynie, itd
-stosowanie materiału od różnego dostawcy
(na tej samej linii), informacje zbierane z
dwóch różnych linii, itd.
74
Inne symptomy
Inne symptomy
- wahania natężenia
prądu, zmiana
prędkości, znużenie
operatora, zmiany
temperatury, itd.
-wskazuje na
wystąpienie kilku
rozkładów cechy;
- zmienność
materiału, luzy w
instalacji, kilka
nawarstwiających się
przyczyn, itd.
LC
GLK
DLK
1) zła konstrukcja
granic
kontrolnych-
zmniejszenie
wariancji
procesu
2) niewystarczająca
dokładność
pomiarów
75
Karta wartości pomiarowych x
i
Karta wartości pomiarowych x
i
• Statystyka:
Wartość pomiarowa; Łatwość
prowadzenia; Mała precyzja - wrażliwa na zakłócenia
przypadkowe/pojedyncze zakłócenia
• Zastosowanie:
Stosowana, jeśli ze względu na
ilość danych oraz niską powtarzalność procesu nie można
stosować kart x-R oraz x-s lub Me-R:w produkcji
małoseryjnej, nierytmicznej, dla procesów ciągłych, w
których nie można pobierać próbek wieloelementowych
• Położenie linii kontrolnych:
R
A
x
3
76
Karta wartości średniej
Karta wartości średniej
• Statystyka:
Średnia arytmetyczna; liczność próbki
stosunkowo mała (zazwyczaj od 3 do 5)
• Zastosowanie:
W procesach, w których można wyróżnić
kolejne, powtarzalne jednostki produktu np.: obróbka części
maszyn, pakowanie produktów sztukowych, czasy oczekiwania
• Położenie linii kontrolnych:
R
A
x
2
77
Karta z ruchomą średnią
Karta z ruchomą średnią
• jest odmianą karty pojedynczych obserwacji
• punkt na karcie jest wartością średnią z n-ostatnich próbek
jednoelementowych
• Wartość n należy dobierać odpowiednio do procesu,
pamiętając przy tym, że im większe n, tym linia łącząca
wartości średnie jest bardziej wygładzona. Oznacza to, że
dla dużych n karta jest mało czuła na skokowe zmiany
średniej procesu
• Linie kontrolne na karcie średnich ruchomych obliczanych
jako średnia arytmetyczna są wyznaczane ze wzorów
identycznych, jak w przypadku karty
R
x
78
Inne karty
Inne karty
• Karty dla cech dyskretnych
• Karty akceptacji procesu
• Karty CUSUM
• Itd…
Dziękuję za uwagę
Dziękuję za uwagę
agnieszka.kujawinska@put.poznan.
pl
agnieszka.kujawinska@put.poznan.
pl