1. Odrzucamy Ho gdy wyliczone t jest większe od tablicowego bo wtedy nasze t osiąga wartość krytyczna i znajduje się w obszarze krytycznym, gdzie odrzucamy Ho
2. Wykres zmienności w populacji
3. z 95% ufnością w tym przedziale oczekujemy średniej z populacji generalnej.
4. Statystycznie istotne różnice łatwiej jest wyznaczyć gdy próby sa większe bo średnie z większej próby sa bliżej średniej z populacji generalnej.
Wartośc t jest mniejsza im wieksza próba.
przy większych próbach błąd staje się większy i więcej wartości skrajnych eliminujemy.
5. Bład standardowy – odchylenie standardowe ze średnich z prób
- odchylenie średnich z grup n-elementowych od średnich z prób w populacji generalnej.
6. Założenia testy chi2 : losowość, niezależność grup , min liczebnośc grupy =5
7. Wartośc F mniejsza od 1 : s2 niewyjaśniona ( wewnątrzgrupowa) > s2 wyjaśniona (międzygrupowa)
więc Ho przyjmujemy bo nie możemy udowodnić że Ho jest nieprawdziwa.
8. regresja – opis związku w postaci funkcji y=a+bx, korelacja – jak silny jest związek między zmiennymi.
9. błąd I rodzaju – ryzyko odrzucenia prawdziwej Ho
10. *błąd I rodzaju to ryzyko odrzucenia prawdziwej Ho
*błąd standardowy to odchylenie średnich z prób n-elementowych od średnich z prób w populacji generalnej
Błąd standardowy określa zmienność, a błąd I rodz to ryzyko odrzucenia prawdziwej Ho przy testowaniu hipotez.
11. *Test t dla danych niezależnych: ocena różnic między średnimi w dwóch grupach np. lek i placebo
* Test t dla prób zależnych: zmienność wewnątrzgrupowa: różnice pom. poszczególnymi parami wyników np. przed i po zabiegu
12. Test t dla par wiązanych jest silniejszy ponieważ możemy tu wyeliminować wariancje pochodząca od indywidualnych różnic poszczególnych obiektów, która jest w teście dla danych niezależnych.
W teście dla par wiązanych analizujemy wiec czyste różnice, ponieważ stosując ten test wyeliminowaliśmy tą część wariancji w naszym zbiorze danych która pochodzi od różnic w wartościach bezwzględnych poszcz. obiektów pomiarowych.
13. Obszar krytyczny – wyznaczany przez tzw. wartości krytyczne obliczanej statystyki dla danego poziomu istotności przy których odrzucamy bądź przyjmujemy Ho
14. Transformacja – przekształcenie danych, aby z danych nieaddytywnych otrzymać addytywne. Pozwala na przeskalowanie zmiennych tak aby były one porównywalne, np., potęgowanie, obliczanie odwrotności, antylogarytm, logarytm.
15. Obszar krytyczny: wyznaczany przez tzw. wartości krytyczne obliczanej statystyki dla danego poziomu istotności przy których odrzucamy bądź przyjmujemy Ho
Wyznaczanie: obliczenie D= x-Sx*t , G=x+Sx*t
16. testowanie hipotez o braku różnic między próbami:
testy parametryczne:
-test t dla prób niezależnych
(zał: losowość, niezależność, normalnośc rozkładu pomiarów, homogeniczność wariancji)
-test t dla prób zależnych
(zał: losowość, niezależność, normalność rozkładu różnic między parami pomiarów)
??? testy nieparametryczne gdy brak rozkł normalnego: Test serii Walda Wolfowitza, U Manna Whitneya, Test Kołmogorowa Smirnowa( rangi wiązane)
17. wartości t w teście t-studenta
18. trudniej wykazac różnice gdy próby róznia się wielkością wyjda inne przedzialy ufnosci, dla wiekszej wezszy dla mniejszej szerszy i trudniej nam bedzie porownac
19. średnia –
odchylenie -
20. ANOVA. zmienność między-grupowa (wariancja wyjaśniona) =2 zmienność wewnątrzgrupowa (wariancja niewyjaśniona) = 1 i porównałam F=wyjaśnioną/niewyjaśnionej czyli 2/1 F=2 więc ho odrzucamy bo F jest większe od 1
21. test chi2 do analizy frekwencji ; porównywania ze sobą rozkładu zaobserwowanego z rozkładem teoretycznym. Sprawdzamy: równoliczność grupy, porównujemy wyst obserw z ich teoretycznym wyst. Przykład: testowanie równowagi H-W
22. Poziom istotności określa maksymalne prawdopodobieństwo popełnienia błedu I rodzaju. W biologii 0,05 ( w 5 na 100 testów przyjmujemy Ho), w medycynie 0,01
23. Zależność między wielkością samicy a ciężarem jaj: zał. losowość, niezależność rozkład normalny, homogeniczność wariancji.
kilka samic o różnej wielkości, które składają jajka. ważymy jajka, sprawdzamy czy rozkład pomiarów wagi jajek jest normalny. Przeprowadzamy analizę: regresja I model ….
24. *test jednostronny – zwykle w badaniach jakości, zakłada obszar krytyczny z 1 strony, zal. od badacza od której. Łatwiej odrzucić tu Ho
*test 2 stronny – badanie proporcji; do odrzucenia Ho, zakłada obszar krytyczny z obu stron
25. Testy nieparametryczne, wielkości prób różne, wariancje dla prób różnią się
26. znajomość parametrów prostej regresji:
a – punkt w którym linia regresji przecina oś Y przy X=0
b- nachylenie osi (siła związku)
27. 95 i 99% przedział ufności: większy zakres ma 99% przedział ufności. przy 95% przedziale ufności zmniejszamy prawdopodobieństwo tym samym zawężamy przedział, wiec 95% jest węższy
28. zależność wzrostu siewek buka a st ołowiu w podłożu
grupa kontrolna – brak ołowiu w podłożu, grupy badawcze: różne stężenia ołowiu w podłożu. Siewki na tym samym etapie rozwoju.
Ho – brak zależności między wzrostem siewek a stężeniem ołowiu w podłożu. założenia: losowość, niezależność pobierania prób, normalność rozkładu zmiennej zależnej, homogeniczność wariancji
29. Można z góry przewidzieć różnicę między przedziałami ufności 95% w grupie 10 i 100 osobników.
Przedział ufności w grupie 100 osobników będzie węższy, niż w grupie 10 osobników. ( symulacja)
uzasadnienie: Im większa próba tym średnia z tej próby jest bliższa średniej z populacji generalnej. ……
30. oblicze F=3,240, F kryt= 3,070
Ho brak różnic, F obliczone> F kryt więc odrzucamy Ho o braku różnic, więc różnice są - s2 wyjaśniona jest duża więc można Ho odrzucić
31. Test t studenta jest testem mocniejszym, ponieważ jest to test parametryczny i mamy tutaj większe prawdopodobieństwo odrzucenia Ho+ założenie normalności rozkładu. W przypadku testu UManna – nieparametryczny, nie ma zał normalności rozkładu: łatwiej jest popełnić błąd II rodzaju czyli przyjąć fałszywą Ho. Do odrzucenia Ho w t. niepar. potrzebne sa zwykle próby o większej liczebności niż w t. parametrycznym = trudniej odrzucić Ho.
*) test t studenta: gdy dane maja rozkład normalny
*) test UManna: gdy dane nie maja rozkładu normalnego
32. metoda najmniejszych kwadratów polega na podniesieniu odchyleń punktów od prostej regresji do kwadratu, co sprawia , że suma odchyleń kwadratów będzie jak najmniejsza = minimalizacja sumy kwadratów odchyleń. Co pozwala na takie dopasowanie prostej regresji do punktów aby suma kwadratów odchyleń pkt od wartości oczekiwanej z regresji była jak najmniejsza.
33. Wpływ ołowiu na wzrost siewek buka
założenia: losowość, niezależność pomiarów, normalność rozkładu
próba kontrolna-siewki bez ołowiu
próba badawcza: siewki + zwiększane st. ołowiu i pomiary ich wzrostu po każdym zwiększeniu st. ołowiu.
jeśli zebrane pomiary będą miały rozkład normalny to test t dla prób zależnych. ( lepiej zrobić tak niż różne siewki i różne stężenia bo eliminujemy zmienność między pomiędzy indywidualnymi różnicami tych różnych siewek)
jeśli nie ma rozkładu normalnego to test nieparametryczny
34. Przedział ufności: wyznaczany aby określić maksymalne prawdopodobieństwo odrzucenia prawdziwej Ho
przy 99% bardziej jesteśmy ostrożni odrzucając Ho, obszar krytyczny tu węższy niż przy 95%
35. 10 i 100 rozwielitek
a) większa średnia tam gdzie mamy 100 rozwielitek bo mamy tu większą zmienność
b) większy błąd standardowy tam gdzie mamy N=10 bo błąd standardowy to odchylenie standardowe/ pierw. N
36. Testy badające zależność między zmiennymi:
1. regresja (zał. skala interwałowa, losowość, niezależność pomiarów, rozkład normalny zmiennej zależnej, homogeniczność wariancji)
2. korelacja: miara siły związku
3. analiza wariancji ANOVA I i II czynnikowa
zał.
a) addytywność: relacje między pomiarami/grupami pomiarów mają charakter liniowy: wynikają z +lub-
b)losowość, rozkład normalny ( w. resztkowe nie odbiegają od r. normalnego)
c) homogeniczność wariancji( wariancje nie różnią się między grupami)
37. zasady zaokrąglania liczb
ostatnia cyfra w zaokrąglanej liczbie nie zmienia się jeśli po niej znajd się cyfra mniejsza niż 5, jeśli większa od 5 a dalsze miejsca są niezerowe to się zwiększa o jedna jednostkę.
Ostatnia cyfra zwieksza się o jedną jednostke jeśli po niej mamy 5, dalsze miejsca są zerowe lub nieokreślone a ta ostatnia liczba jest nieparzysta np. 1,35 lub 1,3500 to mamy 1,4.
38.a) skala interwałowa w nominalną: wyniki pomiarów: np. liczba jaj w gniazdach, podzielić można te gniazda na dwie kategorię o małej liczbie jaj i dużej(nominalna) z określeniem progu.
b) skala interwałowa w porządkową: przypisujemy pomiarom rangi w skali porządkowej np. największa rangę gniazdu o największej liczbie jaj dajemy itd.
39. model I analizy wariancji: Y zależy od X
a) wielkość plonu pszenicy a poziom nawożenia azotem,
b) zagęszczenie kom. drożdży a czas jaki upłyną od zał hodowli
40. Ranga wiązana: W przypadku występowania obserwacji o równej wartości rangowanej zmiennej.
np. dwa gniazda o tej samej liczbie jaj, lub nie wiem który samiec pierwszy zajął gniazdo.
41. testu chi2
42. Dwie próby w których znamy 95% przedziały ufności i dla których te przedziały nie nachodzą na siebie – można powiedzieć że mamy małą zmienność danych więc rozkłady się nie nachodzą.
43. Skala nominalna: test Fishera i chi2… tyle było na wykładzie
44. ……..
45 i 46 z forum
45. N=120
S(odchylenie st)= pierwiastek (suma x2/N-1)
Sx (błąd st)= S/pierwiastek(N)
p z sukcesem= 120/200=0,6
p z brakiem sukcesu= 80/200=0,4
wariancja:s2= [p(1-p)]/N= [0,6* (1-0,6)]/200= 0,24=0,0012
odchylenie standardowe proporcji: pierwiastek z wariancji: 0,03464
D= x-Sx*t
G=x+Sx*t
D= 0,6-0,03464*1,960
G= 0,6+0,03464*1,960
D=0,6- 0,06790=0,5321
G=0,6+0,06790= 0,6679
46. Zadanie 46 - szyszki z Puszczy Knyszyńskiej
Żeby mieć informację na temat średniej długości szyszek z populacji generalnej najpierw trzeba obliczyć 95% przedział ufności
N=25
średnia=9
odch.standardowe=1,5
Wzór na przedział ufności
PU=średnia+-t*błąd standardowy
t bierzemy z tablic dla wartości 0,05 i 24 (bo df=25-1=24) dla testu dwustronnego
Tutaj wynosi ono 2,064
Wzór na błąd standardowy:
BS=odch.standardowe/pierwiastek z N
Tutaj błąd standardowy wyniósł 0,3
błąd standardowy * t = 0,6192
Liczymy teraz górną i dolną granicę przedziału ufności:
Górna: 9+0,6192=9,6192
Dolna: 9-0,6192=8,3808
Wniosek: Średnia długość szyszek z Puszczy Knyszyńskiej mieści się w przedziale między 8,3808 a 9,6192cm z ufnością na poziomie 95%.
Założenia do spełnienia: Próby muszą zostać pobrane losowo i niezależnie, próby muszą być repreze.