Błąd i niepewność
Błąd: różnica między "odpowiedzią" a wynikiem "dokładnym".
błąd systematyczny - problem z metodą. Wszystkie wyniki obarczone są tym samym błędem (co do wielkości i kierunku). Jeśli znany, nie stanowi problemu. Nie można go traktować statystycznie;
błąd przypadkowy - wynika z ograniczeń i dokładności pomiaru. Można go traktować statystycznie;
błąd gruby - coś się nie udało. Cały pomiar należy po prostu odrzucić.
Źródła błędów systematycznych
Błędy aparaturowe: wahania temperatury, zanieczyszczenie aparatu, wahania napięcia w sieci.
Błędy metody: zbyt wolna reakcja, nietrwała próbka, niespecyficzny odczynnik, reakcje uboczne.
Błędy operatora: błędny odczyt, niedokładna kalibracja, złe przygotowanie próbki, złe obliczenie wyniku.
i inne...
Źródła błędów przypadkowych
Każda wielkość mierzona jest właściwie pochodną wielu czynników i zmiennych. Wiele z nich nie daje się kontrolować.
Przykład: pomiar masy na wadze elektronicznej.
Masa próbki (na wyświetlaczu) wynosi 1.0023 g. Naprawdę zawiera się ona gdzieś w granicach, w najlepszym razie, 1.0022 - 1.0024 g. Nie znamy jej dokładnie. Minimalne zmiany, jakie przyrząd rejestruje to tzw. ziarno pomiarowe (tutaj 0.0001 g). Ziarno wcale nie musi mieć związku z faktyczną dokładnością!
Przykład: kalibracja pipety 100 ml. Etapy kalibracji:
Zważyć suche, czyste naczynie.
Napełnić pipetę do kreski.
Opróżnić pipetę do naczynia.
Ponownie zważyć to naczynie.
Obliczyć pojemność pipety z otrzymanej masy wody i stablicowanych gęstości.
Żródła błędu tego pomiaru:
Masa naczynia - ogranicza ją dokładność użytej wagi.
Napełnianie pipety - jak dokładnie można napełnić pipetę "do kreski"?
Wylewanie wody do naczynia - małe różnice może powodować lepkość cieczy, czystość ścianek pipety, sposób wylewania, kształt otworu w pipecie....
Ważenie naczynia z wodą - błąd wagi, parowanie wody podczas ustalania się równowagi....
Obliczanie wyniku - czy znamy dokładną gęstość wody? Czy jej temperatura jest znana i stała podczas pomiaru? Czy na pewno była to czysta woda? Czy zdołamy uwzględnić poprawkę na ważenie w próżni?
Pojawia się więc wiele źródeł błędów. Każdy może wynik powiększyć (+) lub zmniejszyć (-). Całkowity błąd popełniony w tym doświadczeniu jest
E = Eważenie1Eobj.Enapełn.Eważenie2Egęstość ....
Zidentyfikowanie źródeł błędów może pomóc w ich zredukowaniu. Nigdy nie usuniemy wszystkich błędów. Zazwyczaj mają one charakter przypadkowy, więc można nasze wyniki traktować statystycznie.
Badanie dużych zbiorów danych - analiza struktury danych
Szeregi rozdzielcze
Przy niezbyt wielkiej, ale mimo to sporej liczbie wyników (od kilkudziesięciu do kilku tysięcy) wygodnie jest niekiedy podzielić je na grupy (na zasadzie od-do). Elementy takiego podziału nazywamy szeregami rozdzielczymi.
Przykład (Rocznik Statystyczny 1993, str. 37):
Parki krajobrazowe i obszary chronionego krajobrazu w Polsce w r. 1992.
Lp. |
Obiekty wg wielkości (w ha) |
Liczba obiektów |
|
|
|
Parki |
Obszary chronione |
1 2 3 4 5 6 7 8 |
do 500 włącznie 501-1000 1001-3000 3001-5000 5001-10000 10001-20000 20001-50000 50001 i więcej |
- - 1 11 15 25 25 4 |
8 16 44 27 42 44 40 30 |
Takie przedstawienie wyników pozwala wykreśłić tzw. histogramy:
|
Rozkład normalny
Rozkład normalny (Gaussa) opisuje funkcja (wymagana jest jednak bardzo duża, najlepiej nieskończenie wielka liczba danych):
∞<x<+∞
gdzie σ - odchylenie standardowe, - średnia. Można je łatwo policzyć:
|
Powyższych wzorów można używać dla skończonych zbiorów danych (ale raczej gdy N>100), o ile zmiany są rzeczywiście przypadkowe. Gdy wyznaczamy σ to zakładamy, że rozkład jest normalny.
|
Duże zbiory danych
Krzywej rozkłady normalnego możemy użyć do przewidywania prawdopodobieństwa zajścia jakiegoś zdarzenia. Jest to możliwe tylko przy odpowiednio dużej liczbie danych.
Zmienna zredukowana
Zakładamy, że znamy i σ naszych danych. Można teraz policzyć zmienną zredukowaną u:
u=(x)/σ
Jest to po prostu przejście z normalnych jednostek (gramy, minuty...) do odchylenia standardowego. To właśnie w jednostkach σ wyskalowane są wykresy prawdopodobieństwa.
Jeśli dane podlegają rozkładowi normalnemu, możemy policzyć prawdopodobieństwo zdarzenia. całkujemy lub używamy gotowych tablic; której - to zależy od pytania, jakie zadajemy.
Tabela A: podaje powierzchnię pod krzywą Gaussa od u do .
|u| pole |u| pole 0.0 0.5000 2.0 0.0227 0.2 0.4207 2.2 0.0139 0.4 0.3446 2.4 0.0082 0.6 0.2743 2.6 0.0047 0.8 0.2119 2.8 0.0026 1.0 0.1587 3.0 1,3.10-3 1.2 0.1151 4.0 3.2.10-5 1.4 0.0808 6.0 9.9.10-10 1.6 0.0548 8.0 6.2.10-16 1.8 0.0359 10.0 7.6.10-24 |
|
Tabela B: podaje powierzchnię pod krzywą Gaussa od 0 do u. Pomnożona przez 2 pozwala oszacować prawdopodobieństwo, że kolejny pomiar zmieści się w zadanych granicach mierzonych w σ
|u| pole |u| pole 0.0 0.0000 1.6 0.4452 0.2 0.0793 1.8 0.4641 0.4 0.1554 2.0 0.4473 0.6 0.2258 2.2 0.4861 0.8 0.2881 2.4 0.4918 1.0 0.3413 2.6 0.4953 1.2 0.3849 2.8 0.4974 1.4 0.4192 3.0 0.4987 |
|
Przykład 1:
Opony samochodowe produkuje się tak, aby przejechały pewną ilość kilometrów bez zniszczenia, np. =58000 km , σ=10000 km. Ile km jazdy zagwarantujemy przy warunku, że wymienić trzeba będzie maksymalnie 5% opon?
Z tabeli A wynika, że powierzchnia 0.05 odpowiada około 1.6σ.
Użyjmy zmiennej zredukowanej, gdzie σ=1.6 (potrzebujemy wartości <średniej):
1.6=(x58000)/10000 x=42000 km
Przykład 2:
Instalujesz elektrodę pH do badania reakcji. Producent podaje następujące wartości dotyczące czasu życia elektrody: =8000 godzin, σ=200 godzin.
Jeśli elektroda przestała działać po 7200 godzinach, to czy znaczy to, że była wadliwa?
u=(72008000)/200=4.0σ
Z Tabeli A znajdujemy prawdopodobieństwo dla 4.0σ równe 3.2.10-5. Oznacza to, że tylko 0.0032% wszystkich elektrod powinno przestać działać po 7200 godzinach lub mniej. Mieliśmy więc wadliwą elektrodę.
Mniejsze zbiory danych
Dla małych zbiorów danych stosujemy następujące wzory:
wariancja
Mając niewiele punktów (danych) trzeba brać pod uwagę kilka spraw:
1. Czy próbka jest reprezentatywna dla całej populacji? Wartości muszą się rozkładać statystycznie.
2. Jeśli badamy układ nieprzypadkowy (np. wszystkie kobiety lub mężczyźni), to czy różnice są istotne?
|
Oto, co może się przydarzyć, jeśli w badaniach wybierzemy złą próbkę z populacji. Czerwona krzywa: próbka statystyczna Niebieska krzywa: próbka źle dobrana |
Dobór próby
|
Jeśli np. osobno badamy wzrost kobiet i mężczyzn, nasze wyniki (w odniesieniu do całej populacji) mogą rozkładać się jak na tym rysunku. |
Wybór próbki niereprezentatywnej niekoniecznie musi być błędem fatalnym.
Odchylenie próbki od średniej statystycznej może być spowodowane rzeczywistymi różnicami wewnątrz populacji. Potrzebne są nam więc narzędzia do badania tych różnic.
Narzędzia do badania różnic wewnątrz populacji dla rozkładu normalnego
Średnia (sx) - numeryczna średnia z wartości;
Mediana - tendencja centralna, środkowa wartość wśród danych - dla nieparzystej ich liczby jest to wartość środkowej danej, dla parzystej liczby danych jest to średnia z dwóch danych środkowych;
Moda - najczęściej powtarzająca się dana.
W idealnym, „gaussowskim” przypadku te trzy wielkości: średnia, mediana i moda, powinny być takie same lub bardzo bliskie sobie.
Skośność
To jest test, czy dana populacja jest opisywana rozkładem Gaussa. Znak parametru wskazuje, po której stronie krzywej rozkładu znajduje się „ogon”. |
|
Współczynnik skupienia (kurtoza) - Bada stopień skupienia (koncentracji) danych wokół średniej. Im K jest wyższy, tym bardziej „wysmukła” jest gaussiana:
Często przyjmuje się, że jeśli zbiór danych ma rozkład normalny, to K=3, jeśli jest spłaszczony to K<3, a jeśli jest bardziej niż normalnie wysmukły, to K>3. Dlatego niekiedy używa się innej postaci współczynnika koncentracji:
: wtedy ujemne wartości K' oznaczają spłaszczony rozkład, zaś dodatnie - wysmukły.
Badanie różnic wewnątrz populacji dla rozkładu normalnego przy małej liczbie danych
Dla mniejszych ilości danych stosujemy następujące wielkości:
stopnie swobody =df=n# (# zazwyczaj jest równy 1)
Inne wielkości:
odchylenie standardowe średniej:
(za chwilę użyjemy jej w tzw. teście Studenta)
współczynnik zmienności :CV =
względne odchyl. standardowe: RSD =
[%]
Stopnie swobody
df = n # wymaganych parametrów (tzn. opisujących ten zbiór danych)
Przykład 1:
Jeśli mamy 10 pomiarów, można ich użyć grupami, uzyskując 9 różnych pomiarów średniej.
Próbując wyznaczyć dziesiątą średnią okazuje się, że zawsze jedna z poprzednich grup już była użyta (z tym samym odchyleniem standardowym).
Przykład 2:
Próbując wykonać dopasowanie liniowej regresji prostej za pomocą par danych X, Y, nasz model (Y=mX+b) daje dwa parametry.
Tutaj liczba stopni swobody jest n2 (wyznaczamy dwa parametry).
Statystyka sumaryczna
W wielu wypadkach konieczne jest połączenie w jedną całość wyników:
z różnych laboratoriów;
otrzymanych w różnych seriach pomiarowych (np. w różnym czasie);
zmierzonych różnymi aparatami;
zmierzonych różnymi metodami;
itd.
Traktowanie takich nierównocennych danych razem jest opisywane przez statystykę sumaryczną.
Nie można po prostu połączyć wszystkich takich wyników w jeden zbiór i liczyć średnią oraz inne parametry statystyczne. Różnią się one liczbą danych, ich dokładnością i błędami systematycznymi.
Potrzebne jest zwłaszcza narzędzie do sprawdzenia, czy między seriami pomiarowymi istnieją istotne różnice.
Sumaryczne odchylenie standardowe
Jest ono średnią ważoną po stopniach swobody. Uwzględnia więc także liczbę danych w poszczególnych seriach. Tak naprawdę sumujemy (z ważeniem) wariancję.
Przykład:
seria |
s |
n |
df |
s2 |
df.s2 |
1 |
1.35 |
10 |
9 |
1.82 |
16.4 |
2 |
2.00 |
7 |
6 |
4.00 |
24.0 |
3 |
2.45 |
6 |
5 |
6.00 |
30.0 |
4 |
1.55 |
12 |
11 |
2.40 |
26.4 |
Prosta analiza wariancji
Jak dotąd zakładaliśmy, że obserwowana zmienność jest czysto przypadkowa:
nie musi tak być - może ona być też nieprzypadkowa;
może być wiele źródeł wariancji.
Wprowadźmy więc analizę wariancji w zespołach danych.
Ogólnie, jeżeli źródła wariancji są liniowo związane (niezależne od siebie i nieskorelowane), wariancje są addytywne:
s2S = s21 + s22 + s23 + ... + s2k
Często musimy badać wielkość i źródła wariancji.
Parametry, jakie należy brać pod uwagę - zakres ufności średniej (Confidence Level of the mean). CL mówi, w jakim zakresie powinna się mieścić większość wyników.
Dla dużej liczby danych
Z - współczynnik prawdopodobieństwa, jest odczytywany z tabeli przy założonym prawdopodobieństwie:
prawdopodobieństwo [%] |
Z (dwustronny) |
90 |
1.645 |
95 |
1.960 |
99 |
2.575 |
99.99995 |
5.000 |
Rzadko mamy nieskończenie wiele danych. Jeśli nie ma ich dużo, opieramy się na teście t (test Studenta).
Wyrażenie w nawiasie jest odchyleniem standardowym średniej.
Wartości współczynnika t uwzględniają błędy zależne od wielkości próby, liczby stopni swobody i skośności rozkładu.
Tabela współczynników t
liczba stopni swobody |
|
poziom ufności |
|
|||
|
90% |
95% |
99% |
|||
1 |
6.31 |
12.7 |
63.7 |
|||
2 |
2.92 |
4.30 |
9.92 |
|||
3 |
2.35 |
3.18 |
5.84 |
|||
4 |
2.13 |
2.78 |
4.60 |
|||
5 |
2.02 |
2.57 |
4.03 |
|||
6 |
1.94 |
2.45 |
3.71 |
|||
7 |
1.90 |
2.36 |
3.50 |
|||
8 |
1.86 |
2.31 |
3.36 |
|||
9 |
1.83 |
2.26 |
3.25 |
|||
10 |
1.81 |
2.23 |
3.17 |
Przykład:
Dane: 1.01, 1.02, 1.10, 0.95, 1.00
średnia = 1.016 ; sx = 0.0541 ;
Wartości t dla 4 stopni swobody:
dla ufności 90% = 2.13 dla ufności 95% = 2.78
(zwróćmy uwagę na liczbę cyfr znaczących wyniku)
Test 2 (chi kwadrat)
Bardzo często używa się tzw. testu jednorodności rozkładu 2 (chi kwadrat):
Pozwala to na oszacowanie wariancji całej populacji na podstawie wariancji próbki.
(Współczynnik t testu Studenta także zawiera to oszacowanie.)
Inaczej mówiąc sprawdzamy, czy rozkład jest taki, jak sądzimy (np. normalny). Niestety, także tutaj potrzebujemy tabeli wartości granicznych testu, aby porównać z testem obliczonym i wydać werdykt.
Porównanie średnich
Jak sprawdzić, czy dwie średnie (np. dwóch serii wyników tej samej wielkości, otrzymane w dwóch różnych laboratoriach) różnią się znacząco?
Jeśli mamy dwie serie danych:
otrzymane z różnych próbek
otrzymane różnymi metodami
itp.
to powinny one być różne. Jeśli średnie okażą się identyczne, to może to być przypadek, nie reguła.
Możemy łatwo sprawdzić czy wyniki (jednakowe lub nie) są takie same statystycznie.
Dla sprawdzenia zgodności dwóch średnich musimy policzyć obie średnie i oba odchylenia standardowe (osobno dla każdej próby).
Następnie rozważamy dwa możliwe przypadki:
Przypadek 1 - A i B nie różnią się znacząco;
Przypadek 1 - A i B różnią się znacząco.
To, które założenie przyjmiemy, wpływa na procedurę.
Przypadek 1 - A i B nie różnią się znacząco
Etapy:
1. Połącz wartości s, otrzymując sp
2. Oblicz wariancje średnich dla obu prób:
3. Wybierz poziom prawdopodobieństwa decyzji (95%, 99%, ...).
4. Oblicz niepewność różnicy dwóch średnich:
stosując wartość współczynnika t jaka wynika z przyjętego poziomu prawdopodobieństwa i liczby stopni swobody:
df = nA + nB 2
Jeżeli |xA-xB|>V , wtedy średnie są różne.
Przypadek 1 - A i B różnią się znacząco
Etapy:
1. Oblicz wariancje średnich dla obu prób:
2. Oblicz efektywną liczbę stopni swobody. Nie możemy po prostu dodać dfA do dfB, jeżeli serie danych są różne!
4. Oblicz niepewność różnicy między dwiema średnimi:
stosując wartość współczynnika t jaka wynika z przyjętego poziomu prawdopodobieństwa i liczby stopni swobody obliczonych w poprzednim etapie.
Jeżeli |xA-xB|>V , wtedy średnie są różne.
Porównanie przypadków 1 i 2
Obie metody dają w zasadzie podobny wynik.
Przykład:
A: średnia = 50 mg/l; s = 2.0 mg/l, n=5
B: średnia = 45 mg/l; s = 1.5 mg/l, n=6
Przypadek 1:
1.
2. VA = 1.742/5 = 0.6056 ; VB = 1.742/6 = 0.5047
3. Stosujemy poziom ufności 95% (t=2.262)
4.
, a więc
(5>2.38) tzn. średnie są różne na poziomie ufności 95%.
Przypadek 2:
1. VA = 22/5 = 0.800, VB = 1.52/6 = 0.375
2. Stosujemy poziom ufności 95% (t=2.262)
3.
4.
; x>V (5>2.6) tzn. średnie są różne na poziomie ufności 95%.
Bywa i tak, że próbki są zupełnie różne, ale mają nadal tę samą średnią:
|
W obu wypadkach populacje są różne, chociaż w przykładzie z prawej strony średnie, mediany i mody są identyczne! |
Test F
Test F jest stosowany wtedy, gdy na podstawie wariancji chcemy wiedzieć, czy dwie populacje są różne.
Przykłady zastosowań:
Czy zmieniła się precyzja pomiaru?
Czy dwie metody pomiaru są porównywalne?
Czy dwa różne laboratoria (lub różni laboranci) dają różne wyniki, choć stosują tę samą metodę?
Procedura:
Liczymy współczynnik F:
i porównujemy z jego wartością graniczną FC. Zarówno FC jak i F są zawsze 1. FC zależą od poziomu ufności oraz stopni swobody i są stablicowane.
Przykład: (dane z poprzedniego przykładu)
A: średnia = 50 mg/l; s = 2.0 mg/l, n=5
B: średnia = 45 mg/l; s = 1.5 mg/l, n=6
F = 22/1.52 = 1.78
Fc = 7.39 (dla poziomu ufności 95% i df=9, z tablicy takiej jak poniżej)
Zatem wariancje są takie same, zaś średnie się różnią.
Tabela współczynników Fc (częściowa, dla poziomu ufności 95%):
df |
2 |
4 |
6 |
8 |
10 |
12 |
14 |
16 |
20 |
30 |
Fc |
38.5 |
12.22 |
8.81 |
7.57 |
6.94 |
6.55 |
6.30 |
6.12 |
5.87 |
5.57 |
Małe zbiory danych
Odrzucenie niepewnej danej
Czasem widzimy, że niektóre wyniki wyglądają nieszczególnie. Nie można ich odrzucić ot tak sobie. Musimy mieć podstawę matematyczną (kryterium) dla ich odrzucenia. Są nimi m.in.:
Prawo grubego błędu
Test Dixona (test Q)
Test 3d
Każdy z nich ma swoje wady i zalety.
Prawo grubego błędu
Jeżeli wiemy (spodziewamy się), jakie powinno być odchylenie standardowe lub umiemy je policzyć, wtedy wielkość
powinna być większa od 4, aby "podejrzany" punkt odrzucić.
Jest to w istocie bardzo uproszczony test t. Pozwala odrzucać jedynie bardzo błędne punkty.
Test Dixona (test Q) Uproszczona wersja opisana jest w zbiorze zadań p. red. Z. Galusa.
Zakłada się, że:
i sx nie są znane
dane mają rozkład normalny.
Procedura:
1. Uszereguj dane: x1<x2< ... <xn.
2. Wybierz poziom ufności. (tylko w wersji pełnej)
3. Oblicz stosunek Q (zależny od n): Q=│xniepewny-xsąsiedni│/rozstęp
4. Znajdź wartość tablicową (graniczną) Qgran..
5. Jeśli Q> Qgran., wtedy odrzuć punkt.
Tabela współczynników Qgran. (częściowa):
N |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
∞ |
Qgran. |
0.94 |
0.76 |
0.64 |
0.56 |
0.51 |
0.47 |
0.44 |
0.41 |
0.00 |
Odrzucenie niepewnej danej: Test 3d
Test 3d to właściwie test t na poziomie ufności około 90%. Pozwala łatwo (i bez tablic) zdecydować o odrzuceniu lub pozostawieniu wątpliwego punktu.
Obliczamy średnie odchylenie punktów
od średniej
, bez uwzględniania punktu wątpliwego. Jeśli ów wątpliwy nie mieści się w przedziale
, to należy go odrzucić.
Przykład: cztery miareczkowania jednakowych próbek dały wyniki (w mililitrach): 20.1, 20.2, 20.6, 20.2. Czy odrzucić trzeci wynik?
Kolejne odchylenia wynoszą: 0.067, 0.033, 0.033
Widać, że liczba 20.6 nie mieści się w przedziale 20.034x20.300, a więc należy ją odrzucić.
J.Gliński, wykład w12, p. 1