Kurtoza
jedna z miar spłaszczenia rozkładu wartości cechy
kutroza rozkładu normalnego wynosi 0
jeżeli kurtoza jest doadtnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym
jeżeli kurtoza jest ujemmna, wartość cechy mnie skoncetrowane niż przy rozkładzie normalnym.
Wprowadzenie
Wyniki doświadczeń naukowych zbiera się zawsze i opracowuje z myślą udowodnieniem postawionej wcześniej hipotezy.
Statystyka - z łacińskiego STATUS ozn. stan rzeczy
Jako nauka posiada określony przedmiot badań oraz własne metody badania różnych zjawisk.
Schemat postępowania
1. Określenie problemu badawczego
2. Sprecyzowanie hipotezy badawczej
3. Wybór właściwego testu statystycznego
4. Właściwy wybór próby badawczej
5. Zebranie danych
6. Zastosowanie właściwego testu statystycznego
7. Decyzja o wyniku doświadczenie
Sprecyzowanie hipotezy badawczej
Zbadano stężęnie fibrynogenu w osoczu krwi u pacjentów z chorobą wieńcvową oraz u ludzi zdrowych w tym samym przedziale wieku.
Czy chorobie wieńcowej towarzyszy podwyższone stężenie fibrynogenu w osoczu krwi?
Właściwy wybór/dobór próby badanej
jakie cechy powinna mieć właściwa dobrana grupa kontrolna?
jaki ma być skład grupy kontrolnej by była ona reprezentatywna ?
jakie są kryteria nazwania grupy kontrolną?
ile pomiarów należy wykonać, aby udowodnić słuszność hipotezy statystycznej?
ocena wystarczającej wielkości grupy
środki finansowe vs. ściśle określona liczba pomiarów
estymacja a privi czy a pastericari?
Zebranie danych
Ochotnicy do badania powinni być dobrani w sposób losowy
czy jest możliwe dobranie ochotników do grupy kontrolnej w sposób całkowicie losowy?
jak dobrać grupy równo cenne?
występowanie innych czynników w grupie kontrolnej i ich wpływ na mierzone przez nas parametry
problem randomizacji (przydzielanie w sposób losowy) pacjentów występujących sporadycznie w materiale klinicznym
jak przeprowadzać właściwe testowanie wpływu preparatu?
pojedyncza i podwójna ślepa próba
Zastosowanie właściwego testu statystycznego
O wyborze testu czy metody statystycznej analiz danych decyduje wiele czynników i często niewłaściwe przeprowadzenie doświadczenia - wg. niewłaściwego schematu badania różnic czy zależności - może dyskwalifikować wnioski badania naukowego.
Algorytmy wyboru właściwego testy/metody analizy statystycznej
Ocena statystyczna nie może być dokonana dla danych zebranych w sposób arbitralny i przypadkowy, ponieważ każdy test statystyczny ma swoje wymagania, i ich niespełnienie dyskwalifikuje często wiarygodność tego testu.
Rozkłady danych (ciągłe)
Zjawisko losowe- zjawisko, które może zajść lub nie (np. rzut monetą - nie wiemy czy wypadnie orzeł czy reszka).
Wyniku losowania nie da się z góry dokładnie przewidzieć. Rezultaty losowania będziemy nazywać zmiennymi losowymi.
Prawdopodobieństwo zdarzenia A - jest to stosunek liczby przypadków sprzyjających zajściu tego zdarzenia do ogólnej liczby przypadków (sprzyjających i nie sprzyjających) przy założeniu, że wszystkie przypadki są jednakowo możliwe (klasyczna definicja Laplace'a).
0<= P(A) <= 1
Zmienna losowe przyjmują swoje wartości z określonym prawdopodobieństwami.
Funkcja przyporządkowująca określonym wartościom zmiennej losowej odpowiednie prawdopodobieństwo nosi nazwę rozkładu zmiennej losowej.
Rozkład normalny Gaussa - Laplace'a
Teoretycznie rozkłady zmiennych losowych ciągłych charakteryzuje się za pomocą tzw. funkcji gęstości prawdopodobieństwa
Parametrami rozkładu są średnia arytmetyczna i
Rozkład normalny
Lewe i prawe ramię wykresu zbliżają się asymptotycznie do osi odciętych, co jest spowodowane tym, że zmienna losowa o rozkładzie normalnym przyjmuje wartości od minus nieskończoności do plus nieskończoności
Średnia przesuwa "w lewo" lub "w prawo" krzywą normalną.
Parametr odchylenia standardowego powoduje, że krzywa jest bardziej płaska lub bardziej wysmuklona.
Rozkład normalny ze średnią 0 oraz odchyleniem standardowym 1 nazywamy standardowym rozkładem normalnym i oznaczamy przez N(0,1).
Reguła 3 sigm
Reguła 3 sigm odchylenia standardowego otrzymanie wartości dowolnej zmiennej losowej poza przedziałem jest mało prawdopodobne (P = 0,27%).
Rozkład T-Studenta
stosowany jest głównie do testowania małych prób
krzywa gęstości rozkładu t-Studenta jest podobna do krzywej standardowego rozkładu normalnego N(0,1). Jest ona symetryczna ( z osią symetrii t = 0) i tylko bardziej spłaszczona
Rozkład Fishera - Sindecora (nie obowiązuje NAS, HA,HA)
rozkład ten często spotykany w analizie wariancji
Rozkład CHI 2
dla małych wartości parametru jest to rozkład silnie asymetryczny, jednak w miarę wzrostu staje się coraz bardziej symetryczny i podobny do rozkładu normalnego
Weryfikacja normalności rozkładu
Test Shapiro - Willka - jest on najbardziej zalecanym testem normalności rozkładu. Jednak wskazane jest, aby liczebność próby była poniżej 2000, gdyż w przeciwnym wypadku daje mylne wyniki. Test ten wymaga, aby cecha miała rozkład ciągły.
Test Kołmogorowa-Smirowa (K-S) - wymaga znajomości średniej i odchylenia standardowego dla populacji. W sytuacji gdy nie znamy wyżej wymienionych parametrów stosujemy test K-S z poprawką Lileforsa. Test K-S wymaga, aby cecha była ciągła.
Jeżeli jest p > 0,01 można stosować te 2 testy !
Histogram
to jeden z graficznych sposobów przedstawienia rozkładu empirycznego cechy
składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są z jednej strony wyznaczone przez przedziały klasowe wartości cechy,
Box - Plot
wykres ten jest doskonałym narzędziem przedstawiającym informacje o lokalizacji i zmienności w zbiorach danych, zwłaszcza do wykrywania zmian pomiędzy różnymi grupami danych obraz oceny występowania danych odstających
wykres pudełkowy umożliwia w sposób znormalizowany przedstawienie rozkładu danych w oparciu o pięć miar:
wartości minimalnej
pierwszego kwartyla
mediany
trzeciego kwartyla
wartości maksymalnej
RYSUNEK WYKRESU BOX - PLOT
Elementy odstające
Dane odstające (ekstremalne) są:
3x IQR powyżej wartości górnego kwartyla
3xIQR poniżej dolnego kwartyla
Dane odstające znajdują się w przedziale:
1,5xIQR powyżej wartości górnego kwartyla
1,5xIQR poniżej wartości dolnego kwartyla
Jeżeli dane posiadają rozkład normalny, to IQR - 1,35 odchylenie standardowe, gdzie odchylenie jest odchyleniem standardowym populacji.
Wykres Kwantyl - Kwantyl
służy do sprawdzenia podobieństwa rozkładów
dwóch zmiennych losowych X i Y
na wykresie tego typu zaobserwowane wartości zmiennej są wykreślane w funkcji kwantyli rozkładu teoretycznego. Wykres ten będzie wskazywał na dobre dopasowanie rozkładu teoretycznego do zaobserwowanych wartości w przypadku gdy wykreślane wartości będą tworzyły linię prostą
szczególny przypadek - badamy normalność rozkładu zmiennej losowej X. Sprawdzamy, że jest on zbliżony do rozkładu normalnego