Uniwersytet Medyczny w Łodzi
Wydział fizjoterapii (licencjat dzienny)
Temat: Statystyka
Dominika Gozdera, zespół 1
19.02.20081. Klasyfikacja i typy błędów pomiarowych.
♦błąd systematyczny - błąd wynikający z zastosowanej metody pomiaru lub innych przyczyn (np. nie dających się wykluczyć, ale znanych zjawisk mających wpływ na pomiar), zwykle zmieniający wyniki pomiaru "w jedna stronę"
♦ błąd przypadkowy -występuje tylko w przypadku serii pomiarowej, to znaczy przy wykonaniu kilku (co najmniej dwóch) pomiarów tej samej wielkości. Źródłem błędów przypadkowych jest natura mierzonego obiektu (niedokładność wykonania, zmieniające się warunki pomiarowe) oraz niedoskonałość naszych zmysłów.
♦błąd gruby - ma miejsce, gdy któryś z wyników pomiaru odbiega znacznie od pozostałych, możemy przypuszczać, że zaszło jakieś zdarzenie, które spowodowało wypaczenia eksperymentu. Wyniki takie często są odrzucane podczas analizy statystycznej. Błędy grube wynikają najczęściej z jakiegoś poważnego przeoczenia, pomyłki - np. złego odczytania skali miernika, z pomylenia miejsca zapisu przecinka podczas przetwarzania pomiarów, zmierzenie nie tego obiektu itp.
♦ błąd bezwzględny - wartość błędu liczona adekwatną do danej sytuacji metodą (jako błąd maksymalny lub jako błąd statystyczny)
♦ błąd względny - wartość błędu podana jako procent mierzonej wielkości. W niektórych przypadkach działanie przyrządu pomiarowego (np. pomiar energii elektrycznej) wymusza takie określenie błędu maksymalnego, to znaczy, dla tych metod pomiaru błąd maksymalny pomiaru jest podawany jako błąd względny. Jednak samo pojęcie błędu względnego jest tak wygodne w użyciu, że stosuje się je także i tam, gdzie nie ma to czysto technicznego uzasadnienia. Błąd względny charakteryzuje użytą metodę pomiaru, a w mniejszym stopniu sam wynik pomiaru
2. Rozkład normalny błędów przypadkowych.
Podstawowym teoretycznym rozkładem zmiennych losowych ciągłych XC jest rozkład normalny, zwany rozkładem Gaussa - Laplace'a. Jego znaczenie metodologiczne i analityczne wynika z trzech jego najważniejszych właściwości:
♦Przy nieograniczonym wzroście liczby niezależnych doświadczeń statystycznych, wszystkie znane teoretyczne rozkłady zmiennych losowych ciągłych i skokowych są szybko zbieżne do rozkładu normalnego. Stanowi on zatem najbardziej ogólne odniesienie do rozumienia sensu działania prawa wielkich liczb,
♦W statystycznym wnioskowaniu o parametrach i rozkładach w populacjach generalnych na podstawie wyników badań prób losowych popełniane są błędy przypadkowe, kórych rozkład jest normalny lub granicznie normalny. Zawiera się w tym merytoryczny sens statystycznej indukcji, czyli wnioskowania. Na podstawie tej prawidłowości, skonstruowane zostały wszystkie metody estymacji parametrów oraz metody weryfikacji hipotez,
♦W niektórych sytuacjach badawczych ale w badaniach zjawisk ekonomicznych raczej rzadko, rozkłady empiryczne obserwowanych zmiennych mogą być zbliżone swoim kształtem do rozkładu normalnego. Wtedy też prawidłowości statystyczne ujawniają się w swojej najczystszej postaci, ale może mieć to miejsce tylko wtedy, kiedy badane zjawisko podlega wpływowi bardzo wielu czynników, działających mniej więcej równomierni, przyczyn głównych, a także i w tym zjawisk losowych, Dlatego właśnie stwierdzono, że badane zjawiska ekonomiczna, a także społeczne i demograficzne mają na ogół rozkłady empiryczne znacząco odkształcone od rozkładu normalnego.
3. Histogram.
Rozważamy próbę: x1, x2, ..., xn, która zależy od jednej zmiennej x. Możemy ją przedstawić jako wykres 1D - punkty na osi x - będzie to wtedy jednowymiarowy wykres punktowy. Zwykle stosujemy wykres 2D - tzw. histogram:
♦Dzielimy przedział zmienności x (lub jego część) na r przedziałów o jednakowej szerokości Δx: ξ1, ξ2, ..., ξn
♦Środki przedziałów znajdują się w punktach: x1, x2, ..., xr
♦Na osi y odkładamy liczbę elementów próby przypadającą na dany przedział: Otrzymujemy wykres częstości: n1, n2, ..., nr
♦ Otrzymujemy wykres częstości:
Szerokość przedziału:
♦ Im więcej przedziałów tym informacja o próbie dokładniejsza
♦Większa ilość przedziałów powoduje jednak większe wahania statystyczne od punktu do punktu
♦Pole pod krzywą schodkową jest proporcjonalne do wielkości próby (przeskalowując przez 1/n otrzymujemy częstość).
Parametry obliczone z próby celem uzyskania informacji o populacji generalnej nazywa się estymatorami. Estymatory są tym lepszym przybliżeniem parametrów z populacji, im są obliczone z próby o coraz większej liczebności. Należy podkreślić, że estymatory obliczone z próby, nie są identyczne z parametrami populacji ogólnej i same podlegają prawom statystyki.
4. Statystyka opisowa próby
Statystyka opisowa zajmuje się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
Statystykę opisową stosujemy zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.
Średnia arytmetyczna jest miarą położenia. Informuje o przeciętnym poziomie badanej cechy w całej zbiorowości.
Wzór dla szeregu szczegółowego prostego:
gdzie:
- średnia arytmetyczna
- i-ta wartość zmiennej X (i = 1, 2, ..., n)
n - liczba jednostek statystycznych badanej zbiorowości
Odchylenie standardowe - (s) jest miarą stopnia zmienności najpowszechniej stosowaną i najbardziej rzetelną. To znaczy zmienia się ono najmniej między próbami pobranymi losowo z tej samej populacji. Jest rodzajem przeciętnej wszystkich odchyleń od średniej w próbie. Informuje jaka jest średnia wartość odchyleń, a zatem o ile średnio jednostki danej zbiorowości różnią się od średniej arytmetycznej badanej zmiennej.
Wariancja - średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od ich średniej arytmetycznej. Jest to miara zmienności. Wzór dla szeregu szczegółowego prostego:
Estymacja to dział wnioskowania statystycznego będący zbiorem metod pozwalających na uogólnianie wyników badania próby losowej na nieznaną postać i parametry rozkładu zmiennej losowej całej populacji oraz szacowanie błędów wynikających z tego uogólnienia. Wyrażenie nieznana postać jest kluczem do odróżnienia estymacji od drugiego działu wnioskowania statystycznego, jakim jest weryfikacja hipotez statystycznych, w którym najpierw stawiamy przypuszczenia na temat rozkładu, a następnie sprawdzamy ich poprawność.
Przedział ufności (CI) odzwierciedla zarówno wielkość badanej grupy jak i zmienność analizowanej cechy wewnątrz tej grupy. Średnia będąca wynikiem przeprowadzonych badań nie jest równa rzeczywistej średniej populacyjnej. Rozbieżność między uzyskanym wynikiem a rzeczywistą średnią populacji zależy od wielkości badanej grupy oraz zmienności badanej cechy w jej obrębie. Jeśli badana grupa jest niewielka i ma dużą zmienność analizowanej cechy wówczas rozbieżność między średnią uzyskaną a rzeczywistą może być znaczna. Natomiast, jeśli badana grupa jest dużą z niewielką zmiennością danych wówczas uzyskana średnia będzie prawdopodobnie bardzo bliska średniej populacyjnej. Przedział ufności jest wskaźnikiem precyzji wykonanych pomiarów.
Rozkład Studenta zwany rozkładem t lub rozkładem t-Studenta to ciągły rozkład prawdopodobieństwa często stosowany w statystyce podczas testowania hipotez i przy ocenie błędów pomiaru. Rozkład t jest symetryczny względem prostej x=0 oraz bardzo zbliżony kształtem do rozkładu normalnego standaryzowanego.
gdzie
U - zmienna losowa zestandaryzowana, czyli mająca standardowy rozkład normalny
Z - zmienna losowa o rozkładzie chi kwadrat i V stopniach swobody
U i Z - zmienne losowe niezależne
Korelacja - występowanie zależności jest warunkiem koniecznym występowania związku przyczynowo-skutkowego. Gdy zależność zostanie ustalona, możemy poszukiwać kierunku związku przyczynowo-skutkowego między zmiennymi.
Sposobem na ustalenie kierunku związku jest ustalenie następstwa czasowego. Jeżeli jedna zmienna zmienia się wcześniej niż druga, to możemy przypuszczać że 1 jest przyczyną 2 zmiennej. Jeżeli nie istnieje możliwość określenia, która zmienna jest przyczyną a która skutkiem, najlepiej pozostać przy stwierdzeniu ich zależności.
Jeśli pomiędzy dwiema wielkościami fizycznymi występuje zależność liniowa (a niemal zawsze może tak być, wystarczy tylko odpowiednio dobrać osie wykresu) regresja liniowa jest prostą (choć pracochłonną ) metodą wyznaczenia parametrów najlepiej dopasowanej prostej. Uzyskane parametry dopasowania mogą następnie służyć do wyznaczenia szukanej wielkości fizycznej.
Parametry prostej określonej równaniem y = ax + b można wyznaczyć przy użyciu wzorów:
gdzie i = 1,2,3,...,n, czyli n jest ilością par punktów (xi, yi).
Na odchylenie standardowe Sa i Sb, będące miarą niepewności pomiarowych współczynników regresji a i b otrzymuje się następujące równania:
1