Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń czynnikowych i innych badań empirycznych oraz wnioskowania na podstawie wyników z tych badań?
Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.
Możemy wyciągać wnioski z danych zbieranych w zjawiskach masowych, biologicznych, technologicznych i zastosować metody statystyczne do planowania czynnikowych zjawisk technologicznych oraz ilustrować metody na rzeczywistych przykładach z badań naukowych. Statystyka modeluje nam pewne zjawiska deterministyczno - losowe; zwiększamy wiarygodność wniosków. Przydatna tam gdzie wnioskujemy z danych.
Działy badawcze (naukowcy)opis nieznanych prawidłowości
Można wnioskować z danych o pogodzie.
Inaczej
modeluje pewne zjawiska
pozwala modelować zjawiska deterministyczno - losowe
pozwala zwiększać wiarygodność wyników
daje kontrolowaną szansę poprawności wyników
możemy ja stosować gdy: chcemy badać 2 czynniki
wśród jednostek doświadczenia występuje zmienność systematyczna
Kiedy stosujemy analizę wariancji, a kiedy analizę regresji przy opracowaniu danych i wnioskowaniu?
Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi
zmienna X - przyczynowa (determnistyczna/losowa)
zmienna Y - skutkowa (losowa o rozkładzie normalnym
np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu
y - zawartość cukru w winogronach
wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.
np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza korelacji prostej.
Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne w badaniach naukowych, niż jednoczynnikowe?
- lepiej oddają istotę doświadczenia
- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną
Wyjaśnij zasadę metody najmniejszych kwadratów stosowanej w analizie regresji.
- podstawa teorii błędów pomiarów
- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów
Metoda służy do szacowania parametrów strukturalnych funkcji regresji w postaci f(X)=α+βX=β0+β. Zasada metody polega na znalezieniu takiej funkcji, dla której suma kwadratów odchyleń powinna być minimalna. Do oszacowania parametrów służą estymatory: estymator stałej regresji (α) i estymator współczynnika kierunkowego (β).
Zasada: wartością najbardziej prawdopodobną ( otrzymaną z tak samo dokładnych pomiarów) jest taka wartość, której odchylenia od wyników, podniesione do kwadratu i zsumowane dają najmniejszą z możliwych wartość
Estymatorem Θ. wg najmniejszych □ parametru Θ, jest funkcja Θ = g(X1,X2…Xn), dla której zachodzi warunek E{(0.-0)2}=min., przy czym wartość oczekiwaną oblicza się wg wszystkich dopuszczalnych wartości różnic
Θ.-Θ przy przyjętym a priori ich rozkładzie. Powyższy warunek można sformułować za pomocą funkcji strat i za pomocą funkcji ryzyka. Wyznaczyć minimum w metodzie najmniejszych □ może być sformułowane jako minimum funkcji ryzyka R(Θ){[R(0)=E{(σ)}] przy kwadratowej funkcji strat. Polega na znalezieniu sumy najmniejszych kwadratów odchyleń standardowych znalezienie funkcji najdokładniej opisujących uzyskane wyniki.
CHOLESTEROL Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.
Podać dwa przykłady doświadczeń dwuczynnikowych technologii żywności.
Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny
Zawartość cukru, zawartość tłuszczu - kaloryczność produktu
Wymienić dwa główne działy statystyki matematycznej i podać, co one obejmują.
Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X
Testowanie (weryfikacja) hipotez statystycznych
ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.
Estymacja punktowa - szacowanie punktowe szukanego parametru rozkładu
Estymacja przedziałowa - szacowanie parametrów w populacji (oszacowanie pewnego przedziału wartości rozkładu)
ad b) obejmuje:
Hipotezę statystyczną (to każde przypuszczenie dotyczące rozkładu (rozkładów) prawdopodobieństwa badanej zmiennej losowej (zmiennych losowych))
Test statystyczny (pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie)
Poziom istotności testu
Co to jest estymator parametru zmiennej losowej w populacji i jakie własności powinien on posiadać?
Estymator - przybliżenie pewnej wartości, wartość średnia z próby. Estymatorem danego parametru populacji nazywamy określoną funkcję elementów próby g (x1, x2, …xn), spełniającą pewne kryteria optymalności. Postać estymatora zależy od tych elementów.
Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.
Nieobciażoność - przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony = wartość szacowanego parametru. Wtedy odchylenia + i - nawzajem się niwelują (nie maja tendencyjnego charakteru). Obciążenie estymatora - różnica miedzy wartością oczekiwaną rozkładu estymatora, a wartością szacowanego parametru jest zależna funkcyjnie od estymatora. E(Ǿ)=0
Zależność - jeśli Tn jest zgodny, to jest asymptotycznie nie obciążony, twierdzenie odwrotne jest nieprawdziwe. Jeśli Tn jest nieobciążony i jego wariancja spełnia zależność Lim D2(Tn)=0, n∞, to Tn jest estymatorem zgodnym.
Asymptotyczna nieobciążoność - estymator nazywamy asymptotycznie nie obciążonym, jeżeli obciążenie estymatora dąży do 0, przy rosnącej liczebności próby. Każdy estymator nie obciążony jest estymatorem asymptotycznie nie obciążonym.
Zgodność - estymator jest zbieżny, gdy jest stachostycznie zbieżny do szacowanego parametru. Wtedy przez zwiększenie liczebności próby uzyskuje się coraz większe prawdopodobieństwo, że estymator będzie przyjmował wartości coraz bliższe wartości parametru ryzyko popełnienia dużego błędu jest niewielkie.
Efektywność (dokładność) - dla najbardziej efektywnego estymatora =1, 0<e<1. Estymator najefektywniejszy ma najmniejszą wariancję D2(Ǿ)=min
Dostateczność (wystarczalność) - dostateczny, gdy zawiera wszystkie informacje na temat parametru, jakie występują w próbie i żaden inny estymator nie może dać dodatkowych informacji. Estymator ten nie zawsze istnieje.
Co to jest poziom istotności i moc testu statystycznego?
- prawdopodobieństwo odrzucenia prawdy, prawdziwej H, dobrze gdy jest jak najmniejsze. Ryzyko błędu I rodzaju, że przedział ufności nie zawiera szacowanego parametru. Określa max ryzyko błędu, jakie badacz jest w stanie zaakceptować. Wybór wartości zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się =0,05; =0,01. Im niższe , tym niższa precyzja oceny, a większy przedział ufności.
Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:
Słaby - gdy istnieje duż szansa na to, że nie odrzucimy hipotezy zerowej, mimo jej nieprawdziwości.
Mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową.
Do czego służy analiza korelacji i analiza wariancji?
Analiza korelacji
Do badania współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.
Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.
Korelacja silna - zmienna ściśle współzależna.
Korelacja dodatnia - jedno rośnie i drugie rośnie.
Korelacja ujemna - jedno rośnie, a drugie maleje.
Zmienna deterministyczna - kontrolowana.
Zmienna losowa - niekontrolowana.
Przykłady:
Zależność między czasem nauki do egzaminy (X), a oceną z egzaminu (Y).
Masa jabłka w kg (X), a zawartość s.m.(Y)
Zawartość s.m.w bulwach ziemniaka (X), a zawartość skrobi(Y)
Badanie współzależności zmiennych
Związek liniowy Nie ma związku Obserwacje rozmyte Układ wskazuje na
między zmiennymi Brak istotnej współzależności korelację „+”
*
* * * * *
* * * * *
* ** * * * * * * * * * * *
* *
Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.
Współczynnik korelacji prostej jest miara kierunku i stopnia ścisłości związku liniowego miedzy losowymi zmiennymi X i Y.
Wariancja - Miara rozrzutu, mówi o rozproszeniu wszystkich wartości zmiennej losowej wokół wartości średniej (jak bardzo od niej odbiegają).
Do obserwowania analizy danych z obserwacji pewnej zmiennej, planowanych, kontrolowanych, doświadczenia czynnikowego. Za jej pomocą można zweryfikować hipotezy zerowe. Opracowana przez Fishera, wymaga formalnego traktowania wyników doświadczeń czynnikowych. Traktowanie wyrażone jest w postaci równania - liniowego modelu ANOVA. Model ten traktuje każdą obserwację doświadczenia czynnikowego jako realizację zmiennej losowej o rozkładzie normalnym z jednakową wariancją σ2 określająca zmienna losową cechy przy danym poziomie czynnika. Umożliwia opracowanie danych statystycznych z doświadczeń czynnikowych.
Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.
Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: yij=mi+eij ; i=1, 2, …a; j=1, 2, …n
Przykłady:
Przyczyna A-stopień wstępnego odwodnienia owoców; Przyczyna B - sposób suszenia owoców; Zmienna - cechy jakościowe produktu
Czynnik A -metoda peklowania szynki; Czynnik B -sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku
Inaczej
Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza korelacji - do badania współzależności między 2 losowymi zmiennymi ilościowymi
- obie zmienne mają rozkład normalny
- żadna ze zmiennych nie jest przyczyną drugiej
np: 1. Zależność między masą owoców w kg a zawartością suchej masy w %
2. Zależność miedzy zaw s.m a zawart skrobi w ziemniakach
Inaczej
Analiza korelacji:
Jest metodą statystyczną (jedną z najstarszych) pozwalającą na zbadanie związku pomiędzy dwiema zmiennymi ilościowymi ciągłymi, przy założeniu, że obie zmienne są losowe i mają rozkład normalny. Powinniśmy unikać stosowania analizy korelacji, gdy zmienne są nieciągłe. Wyznaczamy współczynnik korelacji r, który jest oszacowaniem ζ. Na podstawie współczynnika korelacji obliczonego z danych można sformułować 2 rodzaje wniosków: *nie stwierdzono korelacji między zmiennymi, *stwierdzono korelację między zmiennymi
Współczynnik ujemny - korelacja jest ujemna - jedna zmienna rośnie a druga ma skłonność o malejących wartości,
Współczynnik dodatni - korelacja jest dodatnia - związek proporcjonalny, jedna zmienna rośnie, druga wykazuje tendencje do rosnących wartości.
Im wartość bezwzględna r jest bliższa 0 tym słabsza korelacja, im bliższa 1 tym silniejsza korelacja.
Analiza wariancji.
Jest to metoda statystyczna odrębna od analizy korelacji. Tą metodę statystyczną stworzył angielski badacz Fisher na początku lat 20. XX w na użytek badań eksperymentalnych. Analiza wariancji służy do oceny wpływu poziomu badanego czynnika na zmienna o rozkładzie normalnym. Badamy wpływ czynników na wartość pewnej zmiennej (nawet kilku), bo istnieje zmienność losowa w każdym doświadczeniu (jest nieuchronna).
Do czego służy analiza regresji?
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi
zmienna X - przyczynowa (determnistyczna/losowa)
zmienna Y - skutkowa (losowa o rozkładzie normalnym
np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu
y - zawartość cukru w winogronach
wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.
np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu
Inaczej:
Analiza regresji - jest narzędziem do badania mechanizmu powiązań między zmiennymi. Przyporządkowując wartości zmiennej przyczynowej X średnie wartości zmiennej skutkowej Y otrzymujemy funkcję. Jeżeli ta funkcja jest liniowa to mówimy o liniowej funkcji regresji.
W przypadku, gdy zmienna skutkowa Y zależy od dużej liczby zmiennych przyczynowych X i powstała z takiego przyporządkowania funkcja jest funkcją liniową, to mówimy o analizie regresji wielokrotnej (liniowej). Na podstawie danych eksperymentalnych i k zmiennych można określić, które zmienne przyczynowe wpływają na zmienną skutkową Y i jeżeli wpływają to z jaką siłą.
Zobrazować obszar dopuszczalny i dwustronny obszar krytyczny przy testowaniu hipotezy H0:m1=m2 za pomocą testu t-Studenta.
Obszar krytyczny - jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H0 przyjmujemy (nie odrzucamy).
Wielkość obszaru zależy od wielkości wartości krytycznej (Uα), a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej.
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznawstwa, w których może być zastosowana analiza wariancji.
Jednoczynnikowa - czy rodzaj opakowania wpływa na trwałość mleka.
Wieloczynnikowa - rodzaj środka konserwującego oraz stężenie tego środka a trwałość produktu.
Zawartość wit.C w warzywach w zależności od sposobu uprawy.
Zawartość wody w zależności o rodzaju chłodni (warunków przechowywania).
Ubytek suchej masy w zależności od sposobu przechowywania warzyw
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznawstwa, w których może być zastosowana analiza korelacji.
Zawartość suchej masy i zawartość skrobi w bulwach ziemniaków.
Zawartość wit.C i zawartość suchej masy w owocach papryki
Od czego i w jaki sposób zależy długość przedziału ufności dla średniej rozkładu normalnego?
Zależy od wielkości próby n, im n większe tym przedział jest bardziej zawężony. Zależy również od przyjętej wartości α, im α większe tym przedział bardziej zawężony.
(1 - α) poziom ufności. Prawdopodobieństwo, że rzeczywista wartość parametru β w populacji znajduje się w wyraźnym przedziale ufności
Większy przedział, gdy większa wartość współczynnika ufności (a więc mniejsza dokładność estymacji przedziałowej) tym samym większe prawdopodobieństwo popełnienia błędu.
Przedział ufności - przedział z dużym prawdopodobieństwem wystąpienia w nim prawdziwej wartości parametru.
Zależy od poziomu istotności α, odchylenia standardowego δ i liczebności próby N. Od α i δ zależy wprost proporcjonalnie, czyli wraz ze wzrostem parametru rośnie długość przedziału ufności, od N zależy odwrotnie proporcjonalnie ze wzrostem liczebności maleje długość przedziału. Dt=2µαS/√N
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza liniowej regresji prostej.
Liczba prosiąt a wiek świni.
Wielkość plonu a wielkość nawożenia azotem
Czym wyróżniają się metody statystyczne spośród wszystkich metod analizy danych?
Każde wnioskowanie na podstawie próby
Pobieranie próby losowo
Metody oparte na rachunku prawdopodobieństwa
Wnioskowanie z danych zbieranych w empirycznych badaniach zjawisk masowych.
Inne metody nie wykorzystują prób do wnioskowania
Dane są reprezentatywne,
Opis określonych prawidłowości zjawisk w sposób fragmentaryczny
Dane obarczone efektami przyczyn losowych
Trzeba wykonać dużą liczbę doświadczeń z różnymi czynnikami i w różnych warunkach
Wnioski i prawa wyprowadzono z analizy danych
Prawidłowość tych wniosków jest tylko kwestią prawdopodobieństwa-bardzo dużego (0,95), ale nie pewności.
Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzane przy ich pomocy.
Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:
*H0: m=m0 ;
*Hipotezy alternatywne: a)H1: m≠m0 b)H1: m>m0 c)H1: m<m0 dla jednej populacji.
Test t-Studenta może być też wykorzystany do porównania dwóch populacji (dwóch rozkładów normalnych). Służy do porównania średnich obu populacji: *H0: m1=m2; *H1: m1≠m2
Test f-Fischera wzór służy do porównania wariancji z różnych populacji
*Hi: m1=m2=……=ma
Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta
*H0ii': mi≠mi' dla i,i'= 1,2,…..,a; i<i'
Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= nit= npi
Czym zajmuje się statystyka matematyczna?
Statystyka matematyczna zajmuje się modelowaniem matematycznych zjawisk badawczych i empirycznych oraz wnioskowaniem z danych reprezentatywnych zbieranych w empirycznych badaniach zjawisk masowych.
Co to jest poziom ufności?
Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.
Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).
Wszystkie kropki przy parametrach oznaczają daszki, ew.przy x- wartość średnią.
Statystyka - Pytania 2006/2007
5
Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).
Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji
Analiza wariancji - analiza zmiennej;
Analiza korelacji - analiza współzależności między 2 zmiennymi
Gęstość
Obszar krytyczny
Obszar dopuszczalny
Obszar krytyczny
-tvα
-tvα
½ α
½ α
1-α