Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?
modeluje pewne zjawiska
pozwala modelować zjawiska deterministyczno - losowe
pozwala zwiększać wiarygodność wyników
daje kontrolowaną szansę poprawności wyników
możemy ja stosować gdy: chcemy badać 2 czynniki
wśród jednostek doświadczenia występuje zmienność systematyczna
Kiedy stosujemy analizę wariancji, regresji, korelacji
Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi
zmienna X - przyczynowa (determnistyczna/losowa)
zmienna Y - skutkowa (losowa o rozkładzie normalnym
np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu
y - zawartość cukru w winogronach
wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.
np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu
Analiza korelacji - do badania współzależności między 2 losowymi zmiennymi ilościowymi
- obie zmienne mają rozkład normalny
- żadna ze zmiennych nie jest przyczyną drugiej
np: 1. Zależność między masą owoców w kg a zawartością suchej masy w %
2. Zależność miedzy zaw s.m a zawart skrobi w ziemniakach
Przykłady zastosowania analizy korelacji prostej:
- masa owoców w kg a zawartość s.m w %
- czas nauki na egzamin a wynik egzaminu
Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne niż jednoczynnikowe?
- lepiej oddają istotę doświadczenia
- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną
Zasada metody najmniejszych kwadratów
- podstawa teorii błędów pomiarów
- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów
Metoda służy do szacowania parametrów strukturalnych funkcji regresji w postaci f(X)=α+βX=β0+β. Zasada metody polega na znalezieniu takiej funkcji, dla której suma kwadratów odchyleń powinna być minimalna. Do oszacowania parametrów służą estymatory: estymator stałej regresji (α) i estymator współczynnika kierunkowego (β).
Zasada: wartością najbardziej prawdopodobną ( otrzymaną z tak samo dokładnych pomiarów) jest taka wartość, której odchylenia od wyników, podniesione do kwadratu i zsumowane dają najmniejszą z możliwych wartość
Najbardziej prawdopodobną wartość z szeregu jednakowych dokładnych pomiarów jest ich wartość średnia
Przy pomiarach niejednakowo dokładnych najbardziej prawdopodobna wartość jest średnia ważona.
Dwa przykłady doświadczeń dwuczynnikowych w technologii żywności
Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny
Zawartość cukru, zawartość tłuszczu - kaloryczność produktu
Działy statystyki :
Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X
Testowanie (weryfikacja) hipotez statystycznych
ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.
Estymacja punktowa - szacowanie punktowe szukanego parametru rozkładu
Estymacja przedziałowa - szacowanie parametrów w populacji (oszacowanie pewnego przedziału wartości rozkładu)
ad b) obejmuje:
Hipotezę statystyczną (to każde przypuszczenie dotyczące rozkładu (rozkładów) prawdopodobieństwa badanej zmiennej losowej (zmiennych losowych))
Test statystyczny (pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie)
Poziom istotności testu
Co to jest estymator parametru zmiennej losowej, jakie powinien posiadac właściwości?
Estymator - konkretna wartość uzyskana z próby - ocena wartości szukanego parametru ( w estymacji prostej)
Określona funkcja elementów próby g(x1,x2,xn) spełniająca pewne kryteria optymalności
estymator średniej u (średnia arytmetyczna)
estymator wariancji δ2
estymator odchylenia standardowego δ δ = S = pierwiastek z δ2
Właściwości dobrego estymatora:
Nieobciążalność - nie popełnia błędu statystycznego) wart. oczekiwana = wart. parametru
Zgodność
Efektywność (dokładny)
Dostateczność
Dokładność ( najmniejsza średnia wartość błędu)
Poziom istotności, moc testu statystycznego
Poziom istotności - liczba α ε (0,1) będąca max dopuszczalnym przez eksperymentatora prawdopodobieństwem popełnienia błędów I rodzaju
Określa max ryzyko błędu jakie badacz jest w stanie zaobserwować
- najczęściej oznaczamy symbolem „d”
- d = 0,1 ; 0, 05; 0,01; 0,001
- jeżeli d się zmniejsza to przedział się rozszerza i precyzja oceny spada.
Moc testu statystycznego -prawdopodobieństwo nie odrzucenia hipotezy alternatywnej H1 gdy jest ona w rzeczywistości prawdziwa
- test mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą H0
- test słaby - istnieje duża szansa na to, że nie odrzucamy H0 pomimo jej fałszywości
Moc testu statystycznego pozwala na określenie kryterium wyboru procedury testowej przy weryfikacji H0
Do czego służy analiza korelacji i analiza wariancji?
Analiza korelacji:
Jest metodą statystyczną (jedną z najstarszych) pozwalającą na zbadanie związku pomiędzy dwiema zmiennymi ilościowymi ciągłymi, przy założeniu, że obie zmienne są losowe i mają rozkład normalny. Powinniśmy unikać stosowania analizy korelacji, gdy zmienne są nieciągłe. Wyznaczamy współczynnik korelacji r, który jest oszacowaniem ζ. Na podstawie współczynnika korelacji obliczonego z danych można sformułować 2 rodzaje wniosków: *nie stwierdzono korelacji między zmiennymi, *stwierdzono korelację między zmiennymi
Współczynnik ujemny - korelacja jest ujemna - jedna zmienna rośnie a druga ma skłonność o malejących wartości,
Współczynnik dodatni - korelacja jest dodatnia - związek proporcjonalny, jedna zmienna rośnie, druga wykazuje tendencje do rosnących wartości.
Im wartość bezwzględna r jest bliższa 0 tym słabsza korelacja, im bliższa 1 tym silniejsza korelacja.
Analiza wariancji.
Jest to metoda statystyczna odrębna od analizy korelacji. Tą metodę statystyczną stworzył angielski badacz Fisher na początku lat 20. XX w na użytek badań eksperymentalnych. Analiza wariancji służy do oceny wpływu poziomu badanego czynnika na zmienna o rozkładzie normalnym. Badamy wpływ czynników na wartość pewnej zmiennej (nawet kilku), bo istnieje zmienność losowa w każdym doświadczeniu (jest nieuchronna).
Do czego służy analiza regresji?
Analiza regresji - jest narzędziem do badania mechanizmu powiązań między zmiennymi. Przyporządkowując wartości zmiennej przyczynowej X średnie wartości zmiennej skutkowej Y otrzymujemy funkcję. Jeżeli ta funkcja jest liniowa to mówimy o liniowej funkcji regresji.
W przypadku, gdy zmienna skutkowa Y zależy od dużej liczby zmiennych przyczynowych X i powstała z takiego przyporządkowania funkcja jest funkcją liniową, to mówimy o analizie regresji wielokrotnej (liniowej). Na podstawie danych eksperymentalnych i k zmiennych można określić, które zmienne przyczynowe wpływają na zmienną skutkową Y i jeżeli wpływają to z jaką siłą.
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji
Jednoczynnikowa - czy rodzaj opakowania wpływa na trwałość mleka.
Wieloczynnikowa - rodzaj środka konserwującego oraz stężenie tego środka a trwałość produktu.
Zawartość wit.C w warzywach w zależności od sposobu uprawy.
Zawartość wody w zależności o rodzaju chłodni (warunków przechowywania).
Ubytek suchej masy w zależności od sposobu przechowywania warzyw
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy korelacji.
Zawartość suchej masy i zawartość skrobi w bulwach ziemniaków.
Zawartość wit.C i zawartość suchej masy w owocach papryki
Długość przedziału ufności dla średniej rozkładu normalnego - od czego i w jaki sposób zależy?
Zależy od wielkości próby n, im n większe tym przedział jest bardziej zawężony. Zależy również od przyjętej wartości α, im α większe tym przedział bardziej zawężony.
(1 - α) współczynnik ufności. Prawdopodobieństwo, że rzeczywista wartość parametru β w populacji znajduje się w wyraźnym przedziale ufności
Większy przedział, gdy większa wartość współczynnika ufności (a więc mniejsza dokładność estymacji przedziałowej) tym samym większe prawdopodobieństwo popełnienia błędu.
Przedział ufności - przedział z dużym prawdopodobieństwem wystąpienia w nim prawdziwej wartości parametru.
Dwa przykłady, w których może być zastosowana analiza liniowej regresji prostej.
Liczba prosiąt a wiek świni.
Wielkość plonu a wielkość nawożenia azotem
Czym wyróżniają się metody statystyczne spośród innych metod analizy danych?
Każde wnioskowanie na podstawie próby
Próby są wybierane losowo
Statystyka opiera się na rachunku prawdopodobieństwa
Wnioski - z danych zbieranych w empirycznych badaniach zjawisk
Dane są reprezentatywne
Opis określonych prawidłowości zjawisk w sposób fragmentaryczny
Dane są obciążone efektami przyczyn losowych
Inne metody nie wykorzystują prób do wnioskowania
Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzone przy ich pomocy.
Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:
*H0: m=m0 ;
*Hipotezy alternatywne: a)H1: m≠m0 b)H1: m>m0 c)H1: m<m0 dla jednej populacji.
Test t-Studenta może być też wykorzystany do porównania dwóch populacji (dwóch rozkładów normalnych). Służy do porównania średnich obu populacji: *H0: m1=m2; *H1: m1≠m2
Test f-Fischera wzór służy do porównania wariancji z różnych populacji
*Hi: m1=m2=……=ma
Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta
*H0ii': mi≠mi' dla i,i'= 1,2,…..,a; i<i'
Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= nit= npi
Czym zajmuje się statystyka matematyczna?
Statystyka matematyczna zajmuje się modelowaniem matematycznych zjawisk badawczych i empirycznych oraz wnioskowaniem z danych reprezentatywnych zbieranych w empirycznych badaniach zjawisk masowych.
Co to jest poziom ufności?
Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.
Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).
Statystyka - opracowane pytania 2
3