I. METODY STATYSTYCZNE W BIOLOGII
- planowanie badań
- zbieranie danych
- analiza (wizualizacja wyników)
- interpretacja
Zakres ćwiczenia:
Stworzenie bazy danych oraz wprowadzenie do programu STATISTICA
Statystyki opisowe i histogramy (charakteryzowanie próby za pomocą różnych statystyk; badanie zgodności rozkładu z rozkładem normalnym)
Testowanie hipotez statystycznych (hipoteza zerowa i hipoteza alternatywna)
Testy parametryczne i nieparametryczne dla dwóch prób niezależnych - porównywanie średnich dwóch prób; histogramy skategoryzowane; wykresy ramka-wąsy
Analiza wariancji (ANOVA) i jej nieparametryczne odpowiedniki (test Kruskala-Wallisa) dla wielu prób - histogramy skategoryzowane; wykresy ramka-wąsy
Analizy wielowymiarowe (metoda średnich połączeń UPGMA; analiza kanoniczna)
Komputerowe programy do analiz statystycznych:
- STATISTICA
- SPSS
- SYSTAT
- SAS
- BMDP
- NCSS
- Statgraphics
- Minitab
- Stata
- Origin
- MVSP
- Simstat
- OpenStat
STATYSTYKI OPISOWE
Zakres ćwiczenia:
- Charakteryzowanie próby za pomocą różnych statystyk opisowych.
- Wyodrębnianie podgrup za pomocą zmiennej grupującej.
- Interpretacja uzyskanych wartości.
- Badanie zgodności rozkładu z rozkładem normalnym.
Statystyka opisowa jest zwykle pierwszym etapem analiza danych. W jej zakres wchodzi opis, uporządkowanie i zestawienie danych liczbowych oraz ich prezentacja w postaci tabel i wykresów, a także charakterystyka zmiennych za pomocą statystyk opisowych, takich jak:
- średnia arytmetyczna
- mediana
- odchylenie standardowe
- kwartyle
Badaną próbę możemy scharakteryzować za pomocą następujących statystyk:
Miary położenia (miary tendencji centralnej) wskazują położenie wartości, która najlepiej charakteryzuje wszystkie elementy naszej próby:
Miary centralne - charakteryzują średni lub typowy poziom wartości, wokół której skupiają się wszystkie pozostałe wartości analizowanej cechy.
- modalna (inaczej moda lub dominanta)
- wartości średnie: średnia arytmetyczna, geometryczna, harmoniczna
(suma wszystkich wartości zbioru danych podzielona przez liczebność próby; wartości skrajne; liczebność próby)
b. Kwantyle (kwartyle i mediana) - wartości, które dzielą uporządkowany zbiór danych na części o jednakowej liczbie elementów
2. Miary rozproszenia oceniające rozrzut wartości zmiennej:
a. Rozstęp - (wartość minimalna i maksymalna) jest to różnica między największą i najmniejszą wartością zmiennej w zbiorze danych; całkowity obszar zmienności badanej cechy
b. Odchylenie ćwiartkowe (kwartylne)
c. Odchylenie standardowe i wariancja - są najważniejszymi miarami rozproszenia danych wokół średniej arytmetycznej; wzór; SD informuje nas, o ile przeciętnie poszczególne pomiary różnią się od średniej, czyli wskazuje na wielkość błędu pojedynczego pomiaru; im mniejsza wartość odchylenia, tym obserwacje są bardziej skupione wokół średniej
3. Miary zmienności:
a. Współczynnik zmienności - umożliwia porównanie zmienności zbiorów danych różniących się znacznie wartością średniej lub zawierających pomiary wykonane w różnych jednostkach (np. kg i mm)
b. Wskaźnik różnorodności (wskaźnik Shannona-Wienera) - wskaźnik różnorodności biologicznej; jego wartość określa prawdopodobieństwo, że dwa wylosowane z próbki osobniki będą należały do różnych gatunków
4. Miary symetrii i spłaszczenia rozkładu:
a. Kurtoza - wskaźnik spłaszczenia/wskaźnik smukłości; wskazuje na koncentrację danych wokół średniej; < 0 - rozkład spłaszczony; > 0 - rozkład wysmukły
b. Wskaźnik symetrii rozkładu - wskaźnik skośności; jego znak mówi o kierunku asymetrii; rozkład symetryczny, prawoskośny i lewo skośny
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Większość pomiarów w biologii ma rozkład zbliżony do rozkładu normalnego. Rozkład normalny o średniej arytmetycznej 0 i odchyleniu standardowym 1 nazywa się rozkładem normalnym standaryzowanym.
Każdy test statystyczny rozpoczyna się od sformułowania hipotez:
H0 - Hipoteza zerowa - zakłada brak różnicy (nieistotność różnicy)
HA - Hipoteza alternatywna jest przeciwieństwem hipotezy zerowej
H0: długość skrzydła schwytanego brodźca piskliwego nie różni się istotnie od średniej z populacji
HA: długość skrzydła schwytanego brodźca piskliwego różni się istotnie od średniej z populacji
Następnie przyjmujemy poziom istotności (prawdopodobieństwo graniczne) = 0,05
TESTY STATYSTYCZNE DLA 2 PRÓB NIEZALEŻNYCH
Podczas analizy danych często zachodzi potrzeba porównania wartości statystyk pochodzących z dwóch prób oraz weryfikacji postawionych hipotez. Testy dla dwóch prób przedstawia tabela poniżej:
|
Testy dla prób niezależnych |
Testy dla prób zależnych |
TESTY PARAMETRYCZNE |
t-Studenta dla par niezależnych, Cochrana-Coxa |
t-Studenta dla par zależnych |
TESTY NIEPARAMETRYCZNE |
Manna-Whitneya, serii Walda-Wolfowitza, Kołmogorowa-Smirnowa |
Wilcoxona, test znaków |
Gdy pod uwagę weźmiemy rodzaj hipotezy statystycznej, która podlega weryfikacji, to wyróżniamy:
Testy parametryczne, dotyczące parametrów populacji, najczęściej weryfikujące hipotezy o średniej arytmetycznej i wariancji.
Testy nieparametryczne, dotyczące przede wszystkim rozkładu badanej cechy. Na ich podstawie wnioskujemy najczęściej o postaci rozkładu, a nie o jego parametrach.
- histogramy skategoryzowane
- wykresy ramka-wąsy
- zmienna zależna i niezależna
- zmienna grupująca
Analiza wariancji (ANOVA)
Jest to metoda porównywania średnich z więcej niż dwóch prób zależnych.
|
Testy dla prób niezależnych |
Testy dla prób zależnych |
TESTY PARAMETRYCZNE |
Analiza wariancji (ANOVA) |
|
TESTY NIEPARAMETRYCZNE |
Kruskala-Wallisa, test mediany dla wielu prób |
Friedmana (ANOVA Friedmana) |
- ANOVA jednoczynnikowa
- ANOVA dwuczynnikowa
- histogramy skategoryzowane
- wykresy ramka-wąsy
- wykresy przedstawiające zależność średnich od odchyleń standardowych
Dziękuję za uwagę
Kolokwium I odbędzie się dnia 26.11 i będzie obejmowało zakresem ćwiczenia dr T. Olszewskiego, mgr M. Kolanowskiej oraz mgr A. Naczk - w sumie test będzie składał się z 10 pytań. Powodzenia !!!