Dlaczego statystyka matematyczna ma różne zastosowanie w różnych dziedzinach działalności praktycznej i naukowej?
Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.
Możemy wyciągać wnioski z danych zbieranych w zjawiskach masowych, biologicznych, technologicznych i zastosować metody statystyczne do planowania czynnikowych zjawisk technologicznych oraz ilustrować metody na rzeczywistych przykładach z badań naukowych. Statystyka modeluje nam pewne zjawiska deterministyczno - losowe; zwiększamy wiarygodność wniosków. Przydatna tam gdzie wnioskujemy z danych.
Działy badawcze (naukowcy)opis nieznanych prawidłowości
Można wnioskować z danych o pogodzie.
Czym zajmuje się statystyka matematyczna i dlaczego ma zastosowanie w badaniach experymentalnych?
Modelowanie matematycznych zjawisk badawczych, empirycznych
Zasadami wnioskowania o prawidłowości zjawisk przy użyciu rachunku prawdopodobieństwa na podstawie danych obserwacyjnych
Ułatwia prace badawcze i obiektywne wnioskowanie z danych.
Jakie znaczenie mają zmienne losowe w statystyce matematycznej?
Opis wniosków zjawisk masowych, które z natury rzeczy nie są w pełni kontrolowane.
Zmienna losowa - niekontrolowana wielkość, której wartość pojawia się poza naszą wolą z określonym prawdopodobieństwem. Zmienna losowa powstaje w wyniku przyporządkowania każdemu zdarzeniu elementarnemu liczby rzeczywistej. Rozróżniamy:
Zmienne jakościowe (np. kategorie surowca do sprzedaży)
Zmienne ilościowe, skokowe (np. liczba bakterii w próbce surowca)
Zmienne ilościowe, ciągłe (np. zaw. wit. C w mrożonce)
Sposoby wnioskowania statystycznego
Związane z analizą regresji. Wnioskowanie odbywa się 1 z 2grup metod:
Estymacja, szacowanie parametrów rozkładów prawdopodobieństw zmiennych losowych w populacji
Stawianie i weryfikacja hipotez statystycznych.
Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?
Pobieranie próby losowo
Metody oparte na rachunku prawdopodobieństwa - wnioskowanie z danych zbieranych w empirycznych badaniach zjawisk masowych.
Dane reprezentatywne, na których opierają się pewne prawidłowości zjawisk w sposób fragmentaryczny.
Dane obarczone efektami przyczyn losowych
Trzeba wykonać dużą liczbę doświadczeń z różnymi czynnikami i w różnych warunkach
Wnioski i prawa wyprowadzono z analizy danych
Prawidłowość tych wniosków jest tylko kwestią prawdopodobieństwa-bardzo dużego (0,95), ale nie pewności.
Do czego służy analiza regresji wielokrotnej?
Służy do statystycznego badania zależności przyczynowo-skutkowej, do oceny wpływu, jaki mają n zmienne przyczynowe, ilościowe X na zmienną skutkową, cechę Y.
Analiza regresji wielokrotnej jest oparta na funkcji regresji, która jest funkcją wielu zmiennych. Zmienne przyczynowe są od siebie zależne.
Cel analizy regresjiczy wszystkie uwzględnione zmienne faktycznie wpływają na analizie i w jaki sposób.
Analizę regresji dzielimy na 2 etapy:
Estymacja parametrów
Weryfikacja cząstkowych hipotez
W analizie tej weryfikuje się następującą hipotezęHo:b1=….bk=0.Wszystkie cząstkowe współczynniki regresji=0
Gdy Ho prawdziwa - funkcja regresji stała, zmienna X nie ma wpływu na funkcję
Gdy Ho odrzucamy - minimum 1 ze zmiennych przyczynowych wpływa na funkcję.
Dane obserwacyjne są podstawą do zastosowania metody najmniejszych kwadratów.
Współczynnik determinacji R2 - oszacowanie regresji, wykazuje struktury całkowitej zmienności.
Przyjmuje wartość przedziału (0,1),im bliższe 1,tym w większym stopniu zmienność zależy od zależności X od Y.
Współczynnik determinacji prostej określa 0-100% wyjaśnionej zmienności zmiennej zależnej Y przez liniowy model regresji prostej. Jest to miarą zależności zmiennych losowych X i Y. Jeżeli funkcja regresji jest liniowa, to współczynnik determinacji = kwadratowi współczynnika korelacji.
Podać 2 przykłady problemów, w których może być zastosowana analiza liniowej regresji wielokrotnej.
Xi - liczba zmiennych przyczynowych niezależnych
Y- zmienna zależna skutkowa
Ilość skrobi (X1), oleju (X2), temp. wytwarzania (X3)gęstość majonezy (Y)
Ilość koncentratu(X1), ilość papryki (X2), stężenie CO2 (X3)gęstość ketchupu(Y)
Czas(X1), temp. przechowywania (X2), stężenie CO2(X3) ubytek s.m.(Y)
Funkcja: E(Y/ X1…Xk)=my(X1…Xk)=o+1X1+kXk
Podać 2 przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda analizy regresji wielokrotnej.
Regresja - związek ukierunkowany
Zależność średniej masy jaj od masy nioski i ilość jaj zniesionych rocznie.
Zależność zawartości skrobi w ziemniakach od pola i rodzaju użytego nawozu.
Przykład prób naukowo-badawczych, w których można zastosować analizę regresji prostej.
Służy do oceny zależności przyczynowo-skutkowej między 1 zmienną przyczynową i 2 zmienną skutkową. 2 zmienne mają charakter losowy oraz ilościowy.
Ocena zależności- zmienny skład tłuszczu w mleku =Y. Zmienna przyczynowa (ilościowa)-odmiana bydła =X
Dawka nawożenia azotem =X. Twardość ziarna pszenicy =Y
Ocena zależności między czasem zbioru truskawek, a momentem rozpoczęcia technologii ( np.5h), 1 zmienna, to czas zbioru, a 2 zmienna, to T, transport, metody składowania.
Ilość skrobi w dżemie-1 zmienna, zawartość cukru-2 zmienna.
Napisać ogólną postać liniowej regresji wielokrotnej, dla 4 zmiennych przyczynowych.
E(Y/X1, X2, X3, X4)= bo+b1X1+b2X2+b3X3+b4X4
bo - stała regresji
bi - cząstkowy współczynnik regresji, jest miarą wpływu każdej zmiennej przyczynowej na zmienną skutkową. Wartość współczynnika regresji mówi o ile zmieni się Y, jeżeli X1zwiększymy o jednostkę.
Czym się zajmuje doświadczalnictwo?
Jest to dziedzina interdyscyplinarna, obejmująca przede wszystkim problemy czysto statystyczne. Jest często traktowane jako gałąź statystyki matematycznej (np. nauki przyrodnicze).
Przedmiotem zainteresowań doświadczalnictwa są:
Statystyczne planowanie doświadczeń w różnych warunkach przyrodniczych oraz sposób poza doświadczalnego pozyskiwania danych o przyczynach i przebiegu zjawisk doświadczalnych.
Sprawdzanie oryginalnych metod statystycznych oraz dokonanie upowszechnienia ich zastosowania w analizie i interpretacja wyników doświadczalnych i innych danych reprezentatywnych dla badanej prawidłowości
Klasyczny rozwój doświadczalnictwa został skierowany na opracowywanie coraz lepszych metod umożliwiających badanie wpływu czynników z minimalnym błędem losowym.
Co to jest próba reprezentatywna?
Losowe pobranie z populacji jednostek doświadczalnych dla każdego poziomu badanego czynnika i zaobserwowanie na tych jednostkach wartości rozważanej cechy ilościowej.
Co to jest jednostka doświadczalna i hipoteza?
Jednostka doświadczalna - element rzeczywisty doświadczenia czynnikowego, do którego odnosimy zastosowanie danego poziomu czynnika i obserwację reagującej na ten poziom cechy ilościowej.
Przykład:
Partia surowca dostarczonego przez konkretnego dostawcę
Próbka surowca pobrana ze składu badanej tuszki
Próbka produktu końcowego wyprodukowanego wg danej technologii.
Hipoteza - rozpatrując pewną populację generalną, której rozkład i parametry nie są znane, każde przypuszczenie określające ten rozkład lub jego parametry będziemy nazywali hipotezą statystyczną. Hipoteza statystyczna może się odnosić do kilku populacji generalnych. Hipoteza traktuje, że średnia zmiennej losowej w rozkładzie normalnym jest jakąś rozsądną liczbą.
Do czego służy analiza wariancji, przykłady zastosowania?
Wariancja - Miara rozrzutu, mówi o rozproszeniu wszystkich wartości zmiennej losowej wokół wartości średniej (jak bardzo od niej odbiegają).
Do obserwowania analizy danych z obserwacji pewnej zmiennej, planowanych, kontrolowanych, doświadczenia czynnikowego. Za jej pomocą można zweryfikować hipotezy zerowe. Opracowana przez Fishera, wymaga formalnego traktowania wyników doświadczeń czynnikowych. Traktowanie wyrażone jest w postaci równania - liniowego modelu ANOVA. Model ten traktuje każdą obserwację doświadczenia czynnikowego jako realizację zmiennej losowej o rozkładzie normalnym z jednakową wariancją σ2 określająca zmienna losową cechy przy danym poziomie czynnika. Umożliwia opracowanie danych statystycznych z doświadczeń czynnikowych.
Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.
Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: yij=mi+eij ; i=1, 2, …a; j=1, 2, …n
Przykłady:
Przyczyna A-stopień wstępnego odwodnienia owoców; Przyczyna B - sposób suszenia owoców; Zmienna - cechy jakościowe produktu
Czynnik A -metoda peklowania szynki; Czynnik B -sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku.
Kiedy stosujemy układ całkowicie losowy, a kiedy układ losowanych bloków?
Układ całkowicie losowy - gdy jednostki doświadczalne są jednorodne (nie podlegają zmienności systematycznej warunków badanego zjawiska-warunków wegetacji roślin, chowu zwierząt). W doświadczeniu 1no czynnikowym liczba wszystkich jednostek wynosi an (poziomów - liczba poziomów czynnika, n- liczba powtórzeń). Układ polega na rozmieszczeniu wszystkich jednostek w doświadczeniu w sposób całkowicie losowy na obszarze doświadczalnym. W doświadczeniach technologicznych układ całkowicie losowy polega na wyborze i przygotowaniu jednostek doświadczalnych oraz poddaniu ich działaniu poziomów czynnika w taki sposób, aby został wykluczony błąd systematyczny (jednostki doświadczalne mogą być obciążone błędem systematycznym, gdy występują efekty brzegowe).
Losowanych bloków - stosuje się, gdy niejednorodność jednostek doświadczalnych wynika z występowania 1nokierunkowej zmienności systematycznej warunków wegetacji. Tu zmienność występuje zarówno na polu jak i w innych sytuacjach doświadczalnych. Zadaniem jest eliminacja wpływu zmienności systematycznej warunków doświadczenia na badaną cechę. Układ losowych bloków jest najprostszym układem blokowym, który pozwala eliminować efekty niejednorodności na badaną cechę. Polega on na takim grupowaniu jednostek w bloki, aby między blokami zaistniało zróżnicowanie systematyczne warunków (ujawniła się niejednorodność), zaś w obrębie bloków zmienność warunków na jednostkach była losowa.
Bloki - jednostki doświadczalne pogrupowane w zbiory, w każdym bloku jest a jednostek, każda jest losowo prezypożądkowana innemu poziomowi badanego czynnika.
Wyjaśnić zasady metody najmniejszych kwadratów, stosowanej w statystyce matematycznej.
Estymatorem Θ. wg najmniejszych □ parametru Θ, jest funkcja Θ = g(X1,X2…Xn), dla której zachodzi warunek E{(0.-0)2}=min., przy czym wartość oczekiwaną oblicza się wg wszystkich dopuszczalnych wartości różnic
Θ.-Θ przy przyjętym a priori ich rozkładzie. Powyższy warunek można sformułować za pomocą funkcji strat i za pomocą funkcji ryzyka. Wyznaczyć minimum w metodzie najmniejszych □ może być sformułowane jako minimum funkcji ryzyka R(Θ){[R(0)=E{(σ)}] przy kwadratowej funkcji strat. Polega na znalezieniu sumy najmniejszych kwadratów odchyleń standardowych znalezienie funkcji najdokładniej opisujących uzyskane wyniki.
CHOLESTEROL Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.
Do czego służy analiza korelacji?
Do badanie współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.
Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.
Korelacja silna - zmienna ściśle współzależna.
Korelacja dodatnia - jedno rośnie i drugie rośnie.
Korelacja ujemna - jedno rośnie, a drugie maleje.
Zmienna deterministyczna - kontrolowana.
Zmienna losowa - niekontrolowana.
Przykłady:
Zależność między czasem nauki do egzaminy (X), a oceną z egzaminu (Y).
Masa jabłka w kg (X), a zawartość s.m.(Y)
Zawartość s.m.w bulwach ziemniaka (X), a zawartość skrobi(Y)
Badanie współzależności zmiennych
Związek liniowy Nie ma związku Obserwacje rozmyte Układ wskazuje na
między zmiennymi Brak istotnej współzależności korelację „+”
*
* * * * *
* * * * *
* ** * * * * * * * * * * *
* *
Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.
Współczynnik korelacji prostej jest miara kierunku i stopnia ścisłości związku liniowego miedzy losowymi zmiennymi X i Y.
Co to jest współczynnik ufności?
Mierzy stopień zaufania do poprawności wnioskówprawdopodobieństwo poprawnego wniosku. Prawdopodobieństwo, z jakim przedział ufności jakiegoś parametru pokrywa nieznana wartość parametru.
1- jest bliski 1 (0,9; 0,95; 0,99). Im wyższy współczynnik ufności, tym szerszy przedział ufności i mniejsza dokładność estymacji.
Przedział ufności - aby dokonać estymacji z jakimś przyjętym z góry dodatnim prawdopodobieństwem, należy w przestrzeni parametrów wyznaczyć pewien obszar, będzie to przedział ufności. Granice przedziału ufności są zmienne od próby do próby oraz 1- jest prawdopodobieństwem pokrycia przez przedział szacowanego parametru. Konstruując przedział ufności przy danym stałym poziomie ufności możemy sądzić, że dla ok. 100 (1-) % przypadków uzyskamy przedziały zawierające szacowany parametr.
Co to jest poziom istotności?
- prawdopodobieństwo odrzucenia prawdy, prawdziwej H, dobrze gdy jest jak najmniejsze. Ryzyko błędu I rodzaju, że przedział ufności nie zawiera szacowanego parametru. Określa max ryzyko błędu, jakie badacz jest w stanie zaakceptować. Wybór wartości zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się =0,05; =0,01. Im niższe , tym niższa precyzja oceny, a większy przedział ufności.
Co to jest test statystyczny i moc testu statystycznego?
Test statystyczny - pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie.
Hipoteza statystyczna - model matematyczny hipotezy merytorycznej.
Jeśli nie odrzucamy, nie stwierdzona zależności między badaną cechą a poziomem tego czynnika.
Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:
Słaby - gdy istnieje duż szansa na to, że nie odrzucimy hipotezy zerowej, mimo jej nieprawdziwości.
Mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową.
Do czego używamy test t-Studenta, 2 przykłady
Sprawdzenie hipotezy o różnicy dwóch populacji generalnych, o rozkładach normalnych
X1~N ( σ)
X2~N ( σ)
Sprawdzenie, że średnia populacja równa się z góry przyjętej liczbie (=0, najczęściej)
Postawmy hipotezę Ho: , taką hipotezę sprawdza się zazwyczaj w badaniach przyrostu pewnych populacji w czasie,
np.przyrost masy zwierząt od hodowli t1, do hodowli t2
Założenie X1~N( σ)
Stawiamy hipotezę Ho: i określamy poziom istotności
Wyznaczamy statystykę temp = x.-/Sx.
Rozkład t-Studenta ~Normalny, zależy od liczby stopni swobody, liczebności prób.
Jaka jest różnica między hipotezami parametrycznymi, a nieparametrycznymi?
H. parametrycznymi nazywamy hipotezy dotyczące takich parametrów populacji generalnej (jednej lub kilku), jak średnie, wariancja, wskaźnik struktury oraz parametrów populacji wielocechowych.
H. nieparametryczne, to hipotezy przy których stosuje się testy hipotez dotyczących rozkładów bez precyzowania lub bez parametrów. Rozróżniamy tu:
Hipotetyczny rozkład populacji generalnej jest przez hipotezę całkowicie określony
Hipoteza dotyczy tego rozkładu, ale parametry należy szacować z próby
Hipoteza dotyczy zgodności rozkładów dwóch lub kilku populacji generalnych
Hipoteza dotyczy niezależności elementów próby
Czym zajmuje się dział statystyki zwany estymacją?
Estymacja parametrów - opiera się na estymacji parametrów rozkładu normalnego, punktowy estymator daje oszacowanie w postaci 1 liczby.
Estymacja przedziałowa - tu stosujemy przedział ufności.
Zajmuje się oszacowaniem parametrów statystycznych (pewna charakterystyka zmiennej losowej
np.x € N (m,σ2) - parametry zmiennej losowej. Estymacja parametrów próby generalnej na podstawie elementów próby. Ocena rozkładu populacji wg danych z próby, przez szacowanie jej parametrów, pozwala na rozwiązywanie matematycznych problemów analizy, porównań i przewidywań wyników procesów masowych.
Przykład: Ocena mleka dostarczonego
Mamy jednostkowe dostawy do pewnej mleczarni - dostawcy stanowią pewna zbiorowość, interesuje nas zawartość tłuszczu zmienna X.
Ocena średniej zawartości tłuszczu - bierzemy daną reprezentatywną i na tej podstawie szacujemy średnią arytmetyczną. Błąd standardowy średniej arytmetycznej Sx.=√s2/n.
Założenie: n= 50, liczba dostawców obserwowanych
x.= 3,25%, zawartość tłuszczu w mleku
Sx.= 0,15%
Średnią populacją szacujemy z próby 50 elementów, z przeciętnym błędem pomiaru 0,15%. Jest to dość dokładny pomiar. Średnia zawarta jest bliska 3, a raczej >3.
Własności estymatorów
Estymator - przybliżenie pewnej wartości, wartość średnia z próby. Estymatorem danego parametru populacji nazywamy określoną funkcję elementów próby g (x1, x2, …xn), spełniającą pewne kryteria optymalności. Postać estymatora zależy od tych elementów.
Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.
Nieobciażoność - przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony = wartość szacowanego parametru. Wtedy odchylenia + i - nawzajem się niwelują ( nie maja tendencyjnego charakteru). Obciążenie estymatora - różnica miedzy wartością oczekiwaną rozkładu estymatora, a wartością szacowanego parametru jest zależna funkcyjnie od estymatora.
Zależność - jeśli Tn jest zgodny, to jest asymptotycznie nie obciążony, twierdzenie odwrotne jest nieprawdziwe. Jeśli Tn jest nieobciążony i jego wariancja spełnia zależność Lim D2(Tn)=0, n∞, to Tn jest estymatorem zgodnym.
Asymptotyczna nieobciążoność - estymator nazywamy asymptotycznie nie obciążonym, jeżeli obciążenie estymatora dąży do 0, przy rosnącej liczebności próby. Każdy estymator nie obciążony jest estymatorem asymptotycznie nie obciążonym.
Zgodność - estymator jest zbieżny, gdy jest stachostycznie zbieżny do szacowanego parametru. Wtedy przez zwiększenie liczebności próby uzyskuje się coraz większe prawdopodobieństwo, że estymator będzie przyjmował wartości coraz bliższe wartości parametru ryzyko popełnienia dużego błędu jest niewielkie.
Efektywność - dla najbardziej efektywnego estymatora =1, 0<e<1. Estymator najefektywniejszy ma najmniejszą wariancję.
Dostateczność (wystarczalność) - dostateczny, gdy zawiera wszystkie informacje na temat parametru, jakie występują w próbie i żaden inny estymator nie może dać dodatkowych informacji. Estymator ten nie zawsze istnieje.
Jakie właściwości powinien mieć dobry estymator dla parametrów rozkładu zmiennej losowej?
Nieobciążony - wartość oczekiwana wartości średniej powinna dać średnią arytmetyczną
Zgodny - różnica dąży do 0
Efektywny - im niższa wariancja, tym estymator powinien być bardziej efektywny.
Dostateczny
Zależny
Definicja błędu I i II rodzaju przy testowaniu hipotezy za pomocą testu statystycznego.
I. Rodzaju = poziom istotności testu = moc testu. Odrzucenie prawdziwej hipotezy, przy czym prawdopodobieństwo popełnienia błędu I rodzaju jest nazywane poziomem istotności.
II. Rodzaju polega na przyjęciu hipotezy zerowej, która jest fałszywa. Prawdopodobieństwo popełnienia błędu II, oznaczamy symbolem
Do czego służą procedury porównań wielokrotnych i które z nich są preferowane?
Porównania wielokrotne - problem wyznaczania grup jednorodnych. Grupy jednorodne i podzbiór
(mi1, mi2,…mim) zbioru wszystkich średnich obiektowych {m1, m2,…mn}, tak, że m1= m2=…=mn oraz żadne z pozostałych średnich nie jest równe mi1.
3 rodzaje procedur porównań wielokrotnych:
Jednoczesne przedziały ufności (Tukey, Scheffego)
Testy wielokrotne (Ducana, Neumana -Keulsa)
Metody analizy skupień (Carsterna, Colińskiego)
Każda procedura umożliwia uzyskanie podziału prawdziwych średnich obiektowych na grupy jednorodne opierając się tylko na ocenach tych średnich z próby (wyników doświadczenia). Procedura ta ma dawać podziały najbliższe rzeczywistym podziałom na grupy jednorodne.
Służą do badań szczegółowych, umożliwiają uzyskanie podziału prawdziwości średnich obiektowych na grupy jednorodne opierając się tylko na ocenach tych średnich z próby. Powinny dawać podziały najbliższe rzeczywistym podziałom na grupy jednorodne.
Najczęściej stosowane w doświadczalnictwie - grupy porównań wielokrotnych:Ducana (najprostsze), Tukeya, Newmana (najlepsze). Wszystkie są rozwinięciem procedury opracowanej przez Fishera, a opartej na teście
t-Studenta.
Kryterium skuteczności - prawdopodobieństwo dokonywania prawidłowego -zg.z rzeczywistością podziału na grupy jednorodne.
Jak posługujemy się regresją krokową?
Badanie zależności wpływu zmiennych X1, X2, …Xi na cechę Y:
Wykorzystujemy 2 opcje Backward i Forward
Y X1, X2,X3 - wybieramy zmienną która ma wpływ na Y
(Y,X1) (X2,X3) - z pozostałych wybieramy tą która najlepiej pasuje do Y,X1
(Y,X1,X2) X3 - jeśli X3 pasuje do Y,X1,X2, to dołączamy, jeśli nie, to usuwamy.
Doświadczenie czynnikowe
Wykonanie pewnego zjawiska w warunkach kontrolowanych oraz obserwowanie tego zjawiska pod wpływem poziomów badanego czynnika lub wielu czynników.
Przykład:
nawóz azotowy zbóż (czynnik) wpływa na twardość ziarna, zawartość białka.
Test istotności - test skonstruowany w ten sposób, że pomijamy problem błędu II, a jedynie ustalamy poziom istotności, czyli prawdopodobieństwo błędu I rodzaju.
Charakterystyka liczb zmiennych:
Średnia (wartość oczekiwana, czasem nie jest realizowana) - jest średnią z nieskończenie wielu możliwych realizacji zmiennych losowych, można ją oszacować na podstawie danych eksperymentalnych.
Średnia arytmetyczna z wyników arytmetycznych jest oszacowaniem średniej populacyjnej. Wartością oczekiwaną średniej arytmetycznej jest średnia populacji.
Błąd standardowy średniej z próby - miara szacowania dokładności średniej z populacji. Im mniejsza wariancja, tym dokładność szacowania rośnie.
Wariancja (zakres zmienności) zmiennej losowej, liczba charakteryzująca zmienność zbioru, jej wartość wokół wartości średniej. D2X - średni kwadrat odchyleń średniej wartości liczb.
Im większa liczebność próby, tym wariancja średniej arytmetycznej zmniejsza się.
Odchylenie standardowe (do oceny zmienności zmiennej) - pierwiastek z wariancji. Średnie odchylenie wartości zmiennej losowej od jej średniej. Liczba charakteryzująca rozrzut zbioru wokół średniej.
Elementy filozofii statystycznej
Czynnik - przyczyna
Cecha ilościowa - zmienna zależna obrazuje wyniki doświadczenia
Poziom czynnika (obiekt) - trzeba ustalić konkretne parametry
Doświadczenie - postępowanie zmierzające do zaistnienia pewnego zjawiska w warunkach kontrolowanych oraz zebranie danych o jego przebiegu i wynikach końcowych.
Jednostka doświadczalna - umówiony element materialny, ustalona liczba surowca. Nie są one identyczne.
Rozkład normalny - przekształcenie liniowe zmiennej o rozkładzie normalnym
Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?
modeluje pewne zjawiska
pozwala modelować zjawiska deterministyczno - losowe
pozwala zwiększać wiarygodność wyników
daje kontrolowaną szansę poprawności wyników
możemy ja stosować gdy: chcemy badać 2 czynniki
wśród jednostek doświadczenia występuje zmienność systematyczna
Kiedy stosujemy analizę wariancji, regresji, korelacji
Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi
zmienna X - przyczynowa (determnistyczna/losowa)
zmienna Y - skutkowa (losowa o rozkładzie normalnym
np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu
y - zawartość cukru w winogronach
wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.
np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu
Analiza korelacji - do badania współzależności między 2 losowymi zmiennymi ilościowymi
- obie zmienne mają rozkład normalny
- żadna ze zmiennych nie jest przyczyną drugiej
np: 1. Zależność między masą owoców w kg a zawartością suchej masy w %
2. Zależność miedzy zaw s.m a zawart skrobi w ziemniakach
Przykłady zastosowania analizy korelacji prostej:
- masa owoców w kg a zawartość s.m w %
- czas nauki na egzamin a wynik egzaminu
Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne niż jednoczynnikowe?
- lepiej oddają istotę doświadczenia
- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną
Zasada metody najmniejszych kwadratów
- podstawa teorii błędów pomiarów
- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów
Metoda służy do szacowania parametrów strukturalnych funkcji regresji w postaci f(X)=α+βX=β0+β. Zasada metody polega na znalezieniu takiej funkcji, dla której suma kwadratów odchyleń powinna być minimalna. Do oszacowania parametrów służą estymatory: estymator stałej regresji (α) i estymator współczynnika kierunkowego (β).
Zasada: wartością najbardziej prawdopodobną ( otrzymaną z tak samo dokładnych pomiarów) jest taka wartość, której odchylenia od wyników, podniesione do kwadratu i zsumowane dają najmniejszą z możliwych wartość
Najbardziej prawdopodobną wartość z szeregu jednakowych dokładnych pomiarów jest ich wartość średnia
Przy pomiarach niejednakowo dokładnych najbardziej prawdopodobna wartość jest średnia ważona.
Dwa przykłady doświadczeń dwuczynnikowych w technologii żywności
Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny
Zawartość cukru, zawartość tłuszczu - kaloryczność produktu
Działy statystyki :
Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X
Testowanie (weryfikacja) hipotez statystycznych
ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.
Estymacja punktowa - szacowanie punktowe szukanego parametru rozkładu
Estymacja przedziałowa - szacowanie parametrów w populacji (oszacowanie pewnego przedziału wartości rozkładu)
ad b) obejmuje:
Hipotezę statystyczną (to każde przypuszczenie dotyczące rozkładu (rozkładów) prawdopodobieństwa badanej zmiennej losowej (zmiennych losowych))
Test statystyczny (pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie)
Poziom istotności testu
Co to jest estymator parametru zmiennej losowej, jakie powinien posiadac właściwości?
Estymator - konkretna wartość uzyskana z próby - ocena wartości szukanego parametru ( w estymacji prostej)
Określona funkcja elementów próby g(x1,x2,xn) spełniająca pewne kryteria optymalności
estymator średniej u (średnia arytmetyczna)
estymator wariancji δ2
estymator odchylenia standardowego δ δ = S = pierwiastek z δ2
Właściwości dobrego estymatora:
Nieobciążalność - nie popełnia błędu statystycznego) wart. oczekiwana = wart. parametru
Zgodność
Efektywność (dokładny)
Dostateczność
Dokładność ( najmniejsza średnia wartość błędu)
Poziom istotności, moc testu statystycznego
Poziom istotności - liczba α ε (0,1) będąca max dopuszczalnym przez eksperymentatora prawdopodobieństwem popełnienia błędów I rodzaju
Określa max ryzyko błędu jakie badacz jest w stanie zaobserwować
- najczęściej oznaczamy symbolem „d”
- d = 0,1 ; 0, 05; 0,01; 0,001
- jeżeli d się zmniejsza to przedział się rozszerza i precyzja oceny spada.
Moc testu statystycznego -prawdopodobieństwo nie odrzucenia hipotezy alternatywnej H1 gdy jest ona w rzeczywistości prawdziwa
- test mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą H0
- test słaby - istnieje duża szansa na to, że nie odrzucamy H0 pomimo jej fałszywości
Moc testu statystycznego pozwala na określenie kryterium wyboru procedury testowej przy weryfikacji H0
Do czego służy analiza korelacji i analiza wariancji?
Analiza korelacji:
Jest metodą statystyczną (jedną z najstarszych) pozwalającą na zbadanie związku pomiędzy dwiema zmiennymi ilościowymi ciągłymi, przy założeniu, że obie zmienne są losowe i mają rozkład normalny. Powinniśmy unikać stosowania analizy korelacji, gdy zmienne są nieciągłe. Wyznaczamy współczynnik korelacji r, który jest oszacowaniem ζ. Na podstawie współczynnika korelacji obliczonego z danych można sformułować 2 rodzaje wniosków: *nie stwierdzono korelacji między zmiennymi, *stwierdzono korelację między zmiennymi
Współczynnik ujemny - korelacja jest ujemna - jedna zmienna rośnie a druga ma skłonność o malejących wartości,
Współczynnik dodatni - korelacja jest dodatnia - związek proporcjonalny, jedna zmienna rośnie, druga wykazuje tendencje do rosnących wartości.
Im wartość bezwzględna r jest bliższa 0 tym słabsza korelacja, im bliższa 1 tym silniejsza korelacja.
Analiza wariancji.
Jest to metoda statystyczna odrębna od analizy korelacji. Tą metodę statystyczną stworzył angielski badacz Fisher na początku lat 20. XX w na użytek badań eksperymentalnych. Analiza wariancji służy do oceny wpływu poziomu badanego czynnika na zmienna o rozkładzie normalnym. Badamy wpływ czynników na wartość pewnej zmiennej (nawet kilku), bo istnieje zmienność losowa w każdym doświadczeniu (jest nieuchronna).
Do czego służy analiza regresji?
Analiza regresji - jest narzędziem do badania mechanizmu powiązań między zmiennymi. Przyporządkowując wartości zmiennej przyczynowej X średnie wartości zmiennej skutkowej Y otrzymujemy funkcję. Jeżeli ta funkcja jest liniowa to mówimy o liniowej funkcji regresji.
W przypadku, gdy zmienna skutkowa Y zależy od dużej liczby zmiennych przyczynowych X i powstała z takiego przyporządkowania funkcja jest funkcją liniową, to mówimy o analizie regresji wielokrotnej (liniowej). Na podstawie danych eksperymentalnych i k zmiennych można określić, które zmienne przyczynowe wpływają na zmienną skutkową Y i jeżeli wpływają to z jaką siłą.
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji
Jednoczynnikowa - czy rodzaj opakowania wpływa na trwałość mleka.
Wieloczynnikowa - rodzaj środka konserwującego oraz stężenie tego środka a trwałość produktu.
Zawartość wit.C w warzywach w zależności od sposobu uprawy.
Zawartość wody w zależności o rodzaju chłodni (warunków przechowywania).
Ubytek suchej masy w zależności od sposobu przechowywania warzyw
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy korelacji.
Zawartość suchej masy i zawartość skrobi w bulwach ziemniaków.
Zawartość wit.C i zawartość suchej masy w owocach papryki
Długość przedziału ufności dla średniej rozkładu normalnego - od czego i w jaki sposób zależy?
Zależy od wielkości próby n, im n większe tym przedział jest bardziej zawężony. Zależy również od przyjętej wartości α, im α większe tym przedział bardziej zawężony.
(1 - α) współczynnik ufności. Prawdopodobieństwo, że rzeczywista wartość parametru β w populacji znajduje się w wyraźnym przedziale ufności
Większy przedział, gdy większa wartość współczynnika ufności (a więc mniejsza dokładność estymacji przedziałowej) tym samym większe prawdopodobieństwo popełnienia błędu.
Przedział ufności - przedział z dużym prawdopodobieństwem wystąpienia w nim prawdziwej wartości parametru.
Dwa przykłady, w których może być zastosowana analiza liniowej regresji prostej.
Liczba prosiąt a wiek świni.
Wielkość plonu a wielkość nawożenia azotem
Czym wyróżniają się metody statystyczne spośród innych metod analizy danych?
Każde wnioskowanie na podstawie próby
Próby są wybierane losowo
Statystyka opiera się na rachunku prawdopodobieństwa
Wnioski - z danych zbieranych w empirycznych badaniach zjawisk
Dane są reprezentatywne
Opis określonych prawidłowości zjawisk w sposób fragmentaryczny
Dane są obciążone efektami przyczyn losowych
Inne metody nie wykorzystują prób do wnioskowania
Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzone przy ich pomocy.
Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:
*H0: m=m0 ;
*Hipotezy alternatywne: a)H1: m≠m0 b)H1: m>m0 c)H1: m<m0 dla jednej populacji.
Test t-Studenta może być też wykorzystany do porównania dwóch populacji (dwóch rozkładów normalnych). Służy do porównania średnich obu populacji: *H0: m1=m2; *H1: m1≠m2
Test f-Fischera wzór służy do porównania wariancji z różnych populacji
*Hi: m1=m2=……=ma
Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta
*H0ii': mi≠mi' dla i,i'= 1,2,…..,a; i<i'
Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= nit= npi
Czym zajmuje się statystyka matematyczna?
Statystyka matematyczna zajmuje się modelowaniem matematycznych zjawisk badawczych i empirycznych oraz wnioskowaniem z danych reprezentatywnych zbieranych w empirycznych badaniach zjawisk masowych.
Co to jest poziom ufności?
Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.
Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).
Do czego służy test statystyczny?
Weryfikacji hipotezy, wnioskowanie o H0 na podstawie danych, które prowadzi do 1 z 2 wniosków: H0 odrzucamy odpowiednie wnioski i H0 nie odrzucamy i uznajemy je za prawdziwe.
Co to jest moc testu?
Prawdopodobieństwo odrzucenia hipotezy stat. w sytuacji, gdy jest ona fałszywa, czyli prawdopod. nie popełnienia błędu 2 rodzaju (1-B)=P
Od czego zależy moc testu?
Od liczebności próby im > tym moc >. H0=uoX-N(u,b2) im u jest dalsze tym test jest mocniejszy. Wariancji jej wartości.
Analiza wariancji.
Porównanie wartości oczekiwanej wielu populacji, gdzie obserwowane są cechy o rozkładzie normalnym, a dokładnie do weryfikacji hipotezy H0=µ1=µ2=...µk
µi dla i=1,...,k - oznacza wartość oczekiwaną w tej populacji np. porównanie przeciętnych plonów pszenicy pewnych odmian. Dzięki weryfikacji tej hipotezy możemy uzyskać odp. na pytanie istnienia związku między cechą jakościową, który posłuży do podziału na populacje a badaną cechę ilościową. Stosuje się w doświadczalnictwie, badanie różnych czynników na określoną cechę.
Analiza regresji.
Służy 1 do sprawdzenia, czy istnieje zależność między dwiema cechami ilościowymi jak i 2 do podania opisu ilościowego zależności, np. badając zależność między dawką nawozu a efektywnością nawożenia łąk. X - dawka N deterministyczna Y - efektywność E (Y/X=x) = B0 + B1x oszacowanie B1 i B0 opis ilościowy zależności; Weryfikacja H0:B1=0 - stwierdzenie zależności. Czyli analiza regresji opisuje zależność średniej wartości zmiennej Y od wartości zmiennej niezależnej X.
Analiza korelacji.
Badanie istnienia związku między (wł. jego siły) prostoliniowego pomiaru dwiema zmiennymi losowymi o normalnych rozkładach prawdopodobieństwa np. zależność między wzrostem i ciężarem człowieka, zawartością białka i tłuszczu w mleku. Zmienne losowe ciągłe. Analiza korelacji pozwala wykazać bądź nie istnienie związku między X i Y.
Estymacja parametru rozkładu prawdopodobieństwa.
Szacowanie na podstawie próby nieznanych wartości parametru rozkładu prawdopodobieństwa, np. X-wzrost X-N (u,b2) estymator u na podstawie próby jest X=u - estymator nieobciążony
Własności dobrego estymatora.
nieobciążony - wart. oczekiwana estymatora = wart. parametru szacowanego, estymator jest też zmienną losową
zgodność - z im większej próby wyznaczymy estymator tym będzie bardziej zgodny z rzeczywistym u.
efektywność - losowy błąd estymatora najmniejsza wariancja najefektywniejszy estymator
Przedział ufności.
Wyznaczony na podstawie próby zakres liczbowy pokrywający z góry zadanym prawdopodobieństwem (znanym poziomem istotności) szacowaną nieznaną wartość parametru *dystrybuanta określa P(X<x)F(x) Formalnie jest to całka z funkcji gęstości par. X na podstawie (-nieskończoności, x).
Rozkład empiryczny cechy.
Podstawą do jakichkolwiek analiz statystycznych badanej cechy jest określenie tzw. empirycznego rozkładu cechy. Polega ono na uporządkowanym, uszeregowanym rosnąco wartościom, przyjmowanym przez tę cechę odpowiednio zdefiniowanych częstości ich występowania.
Podać definicję i opisać właściwości funkcji rozkładu zmiennej losowej oraz dystrybuanty.
Funkcje rozkładu zmiennej losowej: przyporządkowuje wartościom tej zmiennej losowej wartości prawdopodobieństw, z jakimi one występują, suma tych prawd. równa się 1. Własności D=R; f=<0;1> jest ograniczona. Zmienna losowa X jest typu skokowego, jeśli może przyjmować skończoną lub nieskończoną, ale przeliczoną liczbę wartości. Zmienna losowa X jest typu ciągłego, jeśli możliwe wartości należą do przedziału ze zbioru liczb rzeczywistych.
F. dystrybuanty: przyporządkowuje wartościom zmiennej losowej wartości prawdopodobieństwa tego ze wartości zmiennej losowej. Przyjmuje wartość nie większą od wartości argumentu, własność jest ograniczona 0<=F(x)
Co to jest standaryzowany układ normalny i jak przeprowadza się proces standaryzacji?
Jest to rozkład normalny, który uległ przekształceniu a po którym ma parametr E(U)=o; DZ(U)=1. Jego dystrybuanta jest stablicowana. Standaryzacja jest to przekształcenie, którego celem może być prowadzenie różnych rozkładów zmiennej o różnym przeciętnym poziomie i stopniu zróżnicowania dla porównywalności. Standaryzację przeprowadza się w następujący sposób: od wartości zmiennej odejmuje się jej wartość oczekiwaną i otrzymaną różnicę dzieli się przez odchylenie standardowe.
Jakie testy są używane do weryfikacji hipotezy H0=µ1=µ2 i jakie są kryteria wyboru?
- test T-studenta, jeżeli populacja ma rozkład normalny o nieznanych parametrach;
- test U, jeżeli populacja generalna ma dowolny rozkład o nie znanych parametrach (duża próba) lub gdy populacja generalna ma rozkład normalny o nieznanym u, ale znanym δ (mała próba).
Co to jest hipoteza? Omów rodzaje weryfikowanych hipotez.
Przez hipotezę statystyczną rozumie się dowolne przypuszczenie, co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na podstawie wyników próby losowej. Do weryfikacji hipotez służą testy istotności. Postać tych testów a w szczególności statystyk będących sprawdzianami Ho zależy od tego, jakiego parametru dotyczy hipoteza oraz jakimi informacjami o populacji generalnej dysponujemy.
Jakie czynniki i w jaki sposób wpływają na długość przedziału ufności dla wartości oczekiwanej?
Zależy od poziomu istotności α, odchylenia standardowego δ i liczebności próby N. Od α i δ zależy wprost proporcjonalnie, czyli wraz ze wzrostem parametru rośnie długość przedziału ufności, od N zależy odwrotnie proporcjonalnie ze wzrostem liczebności maleje długość przedziału. Dt=2µαS/√N
Omówić dowolnie wybrany rozkład zmiennej losowej skokowej, przedstawić na wykresie.
f(x), F(x)
Zmienna losowa przyjmuje dwie wartości 1, 2 każda z wartości przyjmuje z prawdopodobieństwem ½.
Od czego zależy wartość i położenie obszaru krytycznego?
Wielkość od wielkości wartości krytycznej (Uα), a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej.
Wypisz hipotezy, które można weryfikować testem T-studenta. Jakie założenia należy przyjąć o populacjach generalnych?
Ho: µ = µ0 - populacja ma rozkład normalny o nieznanych parametrach, mała próba
Ho: µ1 = µ2 - mała próba, wariancje jednakowe
Podać cechy dobrego estymatora.
Nieobciążony - przy wielokrotnym losowaniu próby średnie z wartości przyjmowanych przez estymator nieobciążony równa jest wartości szacowanego parametru;
Efektywny - najefektywniejszy jest ten, który ma najmniejszą wariancję;
Dostateczny (wystarczający) - jeżeli do jego konstrukcji użyto wszystkie elementy próby;
Zgodny - jeśli wraz ze wzrostem wartości próby wartość estymatora jest bliższa wartości estymowanego parametru. Jeżeli dla każdego ε > 0 lim P{<θα z daszkiem - θ>≤ε}=1 to θ jest estymatorem zgodnym. Jeżeli rozpatrujemy próby (n > rośnie) Es zgodny - jego wartość pokrywa się z wartością nieznaną.
Jaka jest interpretacja współczynnika korelacji i regresji jakie wartości mogą przyjmować te parametry?
Współczynnik korelacji określa siłę zależności między zmiennymi. Współczynnik regresji mówi o ile wzrośnie zmiana zależności, jeżeli zmienna niezależna zmieni się o 1.
xy∈(-1,1)
Jeżeli rozkład ma częstość empiryczną sukcesu w dużych próbach, jakie są parametry tego rozkładu?
Ma rozkład normalny o parametrach: μ - wartość oczekiwana i σ - odchylenie standardowe.
Omówić definicję prawdopodobieństwa.
klasyczna - prawdopodobieństwo zdarzenia A jest to stosunek zdarzeń sprzyjających temu zdarzeniu, do ilości wszystkich zdarzeń elementarnych.
aksjomatyczna - niech Ω będzie daną przestrzenią zdarzeń elementarnych. Jeżeli każdemu zdarzeniu A przestrzeni Ω zostanie przyporządkowana dokładnie jedna liczba P(A) spełniająca warunki P(A)≥0; P(Ω)=1 dla każdej pary wyłączających się zdarzeń A,B P(AB)=P(A)+P(B) to mówimy, że na zdarzeniach przestrzeni Ω zostało określone prawdopodobieństwo zdarzenia A, warunki nazywamy aksjomatami
statystyczna - jeżeli przy wielorakiej realizacji doświadczeń w wyniku których może wystąpić zdarzenie A, częstość tego zdarzenia wyraża wyraźnie prawidłowość, oscyluje wokół pewnej nieznanej liczby, jeżeli wahania częstotliwości przejawiają tendencję malejącą w miarę wzrostu liczby doświadczeń, to liczba P nazywa się prawdopodobieństwem zdarzenia A.
Cechy rozkładu normalnego.
Symetryczny względem prostej x=µ; osiąga jedno maximum w punkcie, ma dwa punkty przecięcia dla x=µ - σ i µ + σ; EX=µ=H0. Dowód na jego symetryczność jest określony do zera dla x do +∞ i -∞. Przekształcenie standaryzacja prowadzi do powstania innego rozkładu normalnego.
O czym informują kwantyle i mediany w próbie?
Kwantyle dzielą uporządkowaną rosnąco zbiorowość na 4 części liczące po 25% obserwacji środkowej. Dla zmiennej losowej ciągłej mediana dzieli pole pod wykresem na dwie równe części.
Co to jest obszar krytyczny, od czego zależy jego wielkość i położenie pod krzywą rozkładu statystyki testowej?
Jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H0 przyjmujemy (nie odrzucamy).
Podaj interpretację parametru współzmienności zmiennej losowej, dwuwymiarowej.
Współczynnik determinacji exy mówi nam, w jakiej części wartości jednej zmiennej jest zdeterminowana wartość drugiej zmiennej.
Współczynnik regresji βxy mówi o ile wzrośnie zmiana zależności, jeżeli zmienna niezależna zmieni się o 1.
Co można powiedzieć o zmiennej w próbie, jeśli wszystkie miary przyjmują tę samą wartość?
Jeżeli wszystkie miary przyjmują tę samą wartość to znaczy, że brak jest zróżnicowania w próbie, czyli wszystkie wartości cechy są jednakowe.
Dlaczego w testach istotności nie przyjmujemy H0?
W testach istotności uwzględnia się tylko prawdopodobieństwo α popełnienia błędu 1 rodzaju. Pomija się przyjęcie hipotezy fałszywej(błędu II rodzaju β) nie mówi się o przyjęciu tej hipotezy, ale o tym, że wyniki danej próby nie dają podstaw do jej odrzucenia. Jeżeli wynik znajduje się na obszarze krytycznym odrzuca się H0, a prawdziwa jest H1, bo w pewnych testach możliwe jest określenie prawdopodobieństwa β popełnienia błędu II rodzaju. Można, zatem w pewnych przypadkach, po określeniu obszaru krytycznego dla wartości α wyznaczyć prawdopodobieństwo takiego błędu.
Rozkład normalny.
Określony jest przez swoje parametry: μ i σ; funkcja jest zbieżna do 0 dla -∞; +∞; podlega prawu trzech sigm; symetryczny względem prostej przechodzącej przez μ; funkcja rozkładu posiada jedno maximum lokalne μ0, które pokrywa się z wartością oczekiwaną (EX); każdy rozkład normalny X : N (μ,σ) można sprowadzić do postaci tzw. standaryzowanego rozkładu normalnego, którego funkcja gęstości i dystrybuanta została stablicowana (μ=0 σ=1)⇒ N(0,1); wykresem funkcji gęstości rozkładu normalnego jest krzywa Grensa symetryczna względem prostej o równaniu x=μ z dwoma punktami przegięcia μ-σ i μ+σ
Podać interpretację parametrów współzależności zmiennej losowej.
Kowariancja cos(xy) - moment centralny II rzędu jest równa zeru, jeśli zmienne x, y niezależne - wartość liczbowa jest nieistotna
CXY = EXY - EX - EY
Jeśli jest różna od zera, jest zależność; kiedy jej wartość jest dodatnia to jedna zmienna wpływa na drugą pozytywnie, (jeśli I rośnie to II też); kiedy jest ujemna: jedna wpływa na drugą i jej wzrost powoduje malenie II i na odwrót.
Współczynnik korelacji δxy: przyjmuje wartość z przedziału <-1,1>; jest ujemna, kiedy korelacja δxy=cos(x,y)/DXDY; określa natężenie zależności między dwiema zmiennymi lub jej brak; im bliżej -1 lub 1, tym większe natężenie zależności; kiedy równe 0, to brak zależności.
Jak zmienia się długość przedziału ufności dla prawdopodobieństwa sukcesu, gdy liczebność próby wzrośnie o...?
Kiedy n (liczebność próby) rośnie, to długość przedziału maleje o tyle samo.
Jaki rozkład ma średnia arytmetyczna próby? Czy jej rozkład zależy od rozkładu cechy w populacji?
W pewnej próbie δ=0,5 a stosunki korelacji są równe 0,7 i 0,8 (e=x,y) jak można zinterpretować ich wartość?
δ=0,5 - zależności pozytywne i słabe; exy=0,7 i exy=0,8 zmienna X i Y wpływają na siebie nieznacznie (słabo).
weryfikalne - zerowe
nie weryfikalne - alternatywne
Zmienna losowa
Funkcja, która przyporządkowuje wartości liczbowe zdarzeniom elementarnym, Xi:Pi; X-wartości zmiennej losowej, i-kolejność, P-prawdopodobieństwo wystąpienia. Funkcja rozkładu prawdopodobieństw - przypisanie p kolejnym zmiennym losowym - rozkład zmiennej losowej.
Zmienna losowa skokowa
Cechy jakościowe, zbiór przeliczalny (skończony lub nie)
Zmienna losowa ciągła
Cechy ilościowe, zbiór liczb rzeczywistych
Wartość oczekiwana
Mówi, czego możemy się spodziewać po danym rozkładzie; moment zwykły I - rzędu m1=EX, m1=∑x1p1. Odchylenie standardowe - rzeczywiste odchylenia od wartości oczekiwanej.
Rozkład Bernoulliego
Zmienna losowa ma rozkład dwumianowy, jeśli przyjmuje wartości k = 0,1,2...n z prawdopodobieństwem określonym wzorem. Parametrem tego rozkładu jest n - liczba doświadczeń, p - prawdopodobieństwo sukcesu. Rezultatem doświadczenia może być A - sukces lub A' - porażka. Doświadczenie to powtarzamy wielokrotnie (n) tak, że prawdopodobieństwo sukcesu pozostaje w pojedynczych próbach stałe i równe p. Liczba zaobserwowanych sukcesów to k=0,1,2,...,n EX - np. D2X - np.(1-p)
H0 o niezależności
Dotyczy dwóch cech w jednej próbie, kiedy między zmiennymi jest brak zależności.
Ho o zgodności
Zmienna ma rozkład zgodny z określonym rozkładem teoretycznym. Wtedy Ho: x - rozkład normalny, Bernouliego, Possona. Zmienna ma jednakowy rozkład w dwóch populacjach. Wtedy Ho; Xα ma rozkład jak X. Do weryfikacji używa się testu tylko χ2 I - rozkład empiryczny, II - rozkład teoretyczny (zakładamy, że H0 jest prawdziwe). Test χ2 o niezależności.
Test χ2 o zgodności. Próba z jednej populacji musi być dwuwymiarowa. Przy odrzuceniu hipotezy - dwie zmienne mogą być zależne istotne lub wysokoistotne.
Do czego służą testy statystyczne?
Służą do weryfikacji hipotez, czyli do wnioskowania o postawionej hipotezie statystycznej (H0) na podstawie danych, które prowadzą do jednego z dwóch wniosków:
Wniosek H0 kwestionujemy, czyli odrzucamy
H0 nie odrzucamy a tym samym uznajemy za prawdziwe.
Jakie dwa rodzaje błędów grożą przy weryfikacji hipotezy?
Jeśli H0 odrzucamy, jesteśmy narażeni na błąd I - go rodzaju polegający na odrzuceniu hipotezy prawdziwej wyrażony przez α poziom istotności
Jeśli H0 nie odrzucamy, narażeni jesteśmy na błąd II - go rodzaju, który polega na nie odrzuceniu hipotezy fałszywej
Próba reprezentatywna - zdefiniować i podać przykłady
To próba spełniająca następujące warunki:
- elementy populacji są pobierane do próby w sposób losowy
- próba musi być dostatecznie liczna
Próba jest reprezentatywna, gdy jej struktura ze względu na interesujące nas cech statystyczne jest zbliżona do struktury populacji, z której ona pochodzi. Czyli wnioski wyciągnięte z próby można uogólnić na całą populację
- wymyślcie sobie przykłady
Do czego używamy testu t-studenta, 2 przykłady
- test t-studenta służy do testowania hipotez dotyczących średniej przy założeniu, że rozkład zmiennej w populacji jest normalny
Przykłady:…
Dlaczego i po co używamy metod statystycznych?
Omówić α i (1-β)
- Alfa - poziom istotności (prawdopodobieństwo błędu pierwszego rodzaju- odrzucenie hipotezy 0, gdy jest ona prawdziwa): przyjmuje wartość dowolną, ale nie powinien być większy od 0,05
- (1- beta) - moc testu - jest to prawdopodobieństwo odrzucenia hipotezy fałszywej
Cechy estymatora punktowego
- estymator punktowy to parametr określony (oszacowany) na podstawie statystyk w n elementowej próbie
- cechy:
Metoda najmniejszych kwadratów-opisać
Regresja wielokrotna - 2 przykłady
- analiza regresji wielokrotnej służy do badania ilościowej zależności między zmiennymi przyczynowymi (Xi) a średnią zmiennej skutkowej (Y)
- np. badanie zależności mleczności krów od rodzaju paszy i masy krów, itp.
Czym zajmuje się doświadczalnictwo?
Zajmuje się dwoma podstawowymi zagadnieniami:
Statystycznym planowaniem doświadczeń w różnych warunkach przyrodniczych oraz pozadoświadczalnym pozyskiwaniem danych reprezentatywnych o przyczynach i przebiegu zjawisk przyrodniczych, rolniczych itp.
Opracowaniem oryginalnych metod statystycznych oraz doskonaleniem i upowszechnianiem ich zastosowań w analizie i interpretacji wyników doświadczalnych i innych danych reprezentatywnych dla badanej prawidłowości
Do czego służą procedury porównań wielokrotnych? Jakie z nich są preferowane?
Do stwierdzenia, który z poziomów czynnika wpływa na cechę inaczej niż pozostałe, czyli które średnie obiektowe są odpowiedzialne za odrzucenie hipotezy H0 (o równości średnich m1=m2=...=mi) i które ze średnich można uznać za jednakowe
Preferowane: Tuckeya, Duncana, Newmana- Kuelsa
Do czego służy analiza regresji wielokrotnej
odp. w pytaniu 7
Jak posługujemy się regresją krokową?
- stosujemy do wybrania najbardziej dopasowanego równania regresji wielokrotnej
- usuwamy z modelu krokowo te czynniki, których wartość temp. Jest najbliższa 0
- wybieramy model, dla którego wartość poprawionego współczynnika determinacji jest największa (to równanie regresji najlepiej opisuje zależność cech Y od czynników Xi)
Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?
Podać definicje błędu I i II rodzaju przy testowaniu hipotezy
Błąd I rodzaju - alfa - to prawdopodobieństwo przyjęcia fałszywej hipotezy zerowej- nie powinno być większe od 0,05
Błąd II rodzaju - beta - to prawdopodobieństwo nie odrzucenia hipotezy fałszywej - nieznana wartość. Beta tym mniejsze im liczniejsza próba
Do czego służy analiza wariancji
- służy do zbadania wpływu źródeł zmienności na cech Y
- uwzględnia matematyczny podział obserwowanej na jednostkach doświadczalnych zmienności cechy Y na składowe odpowiadające wyodrębnionym w doświadczeniu przyczynom, zwanym źródłami zmienność
Napisać ogólną postać liniowej funkcji regresji wielokrotnej dla 4 zmiennych przyczynowych
Y= β0+β1X1+β2X2+β3X3+β4X4 - dla populacji
y= b0+b1x1+b2x2+b3x3+b4x4 - dla próby
Podać 2 przykłady zastosowań analizy korelacji
- to metoda statystyczna pozwalająca na zbadanie współzależności pomiędzy zmiennymi (obie zmienne o rozkładzie normalnym lub bliskim normalnemu)
- np. związek między wzrostem człowieka w populacji a długością jego nogi
Podać 2 przykłady zastosowań liniowej regresji prostej
Analiza regresji wielokrotnej służy do badania ilościowej zależności między zmienną przyczynową (X) a średnią zmiennej skutkowej (Y)
- np. badanie zależności mleczności krów od rodzaju paszy
Kiedy stosujemy układ całkowicie losowy, a kiedy losowanych bloków?
Układ całkowicie losowy - stosujemy, kiedy jednostki doświadczalne są jednorodne, czyli nie podlegają zmienności systematycznej warunków badanego zjawiska (np. warunki wegetacji- nasłonecznienie) wszystkie jednostki an w doświadczeniu są rozmieszczone w sposób całkowicie losowy na obszarze doświadczalnym np.: fitotron
Układ losowanych bloków - stosujemy, gdy niejednorodność jednostek doświadczalnych wynika z występowania jednokierunkowej zmienności systematycznej np. warunków wegetacji- występuje na polu( zmienność glebowa) Polega na takim ugrupowaniu a jednostek doświadczalnych w bloki, aby pomiędzy blokami zaistniało zróżnicowanie systematyczne warunków, zaś w obrębie bloków zmienność warunków była losowa.
1.Podaj postać funkcji testowej dla weryfikacji hipotezy Ho:p1=p2. Wyjaśnij symbole.
2.Podaj postać funkcji testowej dla weryfikacji hipotezy Ho:p=p0
3.podaj postać funkcji testowej dla weryfikacji hipotezy Ho:m1=m2
4.podaj postac funkcji testowej dla weryfikacji hipotezy Ho:m=m0
5.podaj postać funkcji testowej dla weryfikacji hipotezy
6.Co to jest test statystyczny, przykład, do czego jest wykorzystywany
7.Na podstawie badań otrzymano przedział ufności dla różnicy dwu średnich postaci(2,25;2,45) Czy można uznać, że średnie różnią się i dlaczego.
8.Jak zmieni sie długość przedziału oszacowania średniej populacji jeśli zwiększymy poziom istotności
9.Jak zmieni sie długość przedziału średniej populacji jeśli zwiększymy poziom ufności
10.Jakim testem można zweryfikować hipotezę równości wariancji w dwóch populacjach
11.Co to jest tablica asocjacji?
12.Jakim testem- podaj postać i warunki jakie powinny być spełnione przy weryfikacji Ho:m1=m2. Podaj postać funkcji testowej.
13.Estymatory punktowe i przedziałowe- przykłady
14.Prawo 3 sigm.
15.Co to jest indeks jednopodstawowy?
16.Miarą rozrzutu wartości zmiennej losowej wokół jaj wartości oczekiwanej jest:
17.jaka jest różnica miedzy zmienna skokowa , a ciągłą. podaj przykłady
18 Jaki rozkład ma średnia arytmetyczna z 10-elementowej próby z populacji o rozkładzie N(10,4) =
19.Co to jest przyrost względny łancuchowy
20.Co to jest próba reprezentatywna?
21.Co to jest poziom ufności i poziom istotności?
22.Jakim testem można zweryfikowac hipotezę Ho:m=m0
23.blad 1 i 2 rodzaju
24. Jak zmieni się przedział ufności dla średniej, jeśli zwiększymy liczebność próby?
25.Co to jest wsplczynnik korelacji
26.Co to jest tablica kontyngencji i jakie ma zastosowanie?\
27. Jakie warunki muszą być spełnione, by można było stosować test t-Studenta do weryfikacji H0: m1=m2?
28.co to jest przyrost absolutny łańcuchowy
29.Co to jest przyrost względny jednodnopodstawowy
30.Co to jest próba losowa?
31.Jak zmieni sie długość przedziału ufności dla średniej, jeśli zmniejszy sie liczebności próby
32.Co to jest współczynnik determinacji
Odpowiedzi:
1. 3.
4.
2.
5.
6.Test statystyczny-funkcja służąca weryfikacji hipotezy, sprawdzenia przypuszczeń wysuniętych w stosunku do parametrów lub rozkładu populacji generalnej.
7.Średnie się różnią Ponieważ w przedziale ufności nie zawiera się 0
8.to poziom ufności się zmieniejszy i prawdopodobieństwo sie zmniejszy
9.to zmniejszy się poziom istotności i zwiększy prawdopodobieństwo
(im większa liczebności próby tym mniejszy przedział ufności)
10.rozklad F Fishera
11.
12.t Studenta Wariancje sa jednakowe dla obu populacji, musi być rozkład normalny, i nie wiemy jakie sa parametry dla obu populacji.
13.Estymacja punktowa: przyjmujemy ze wartość dla próby jest taka sama jak dla całej populacji przykład: Średnia arytmetyczna
Estymacja przedziałowa: to wyznaczenie przedziału , który z określonym prawdopo. będzie zawierał nieznaną wartość szacowanego parametru populacji
Przykład
14.Prawo sigm:
15.wartosci odnoszą sie do wartości z roku podstawowego
16.wariancja,odchylenie standardowe i przeciętne, rozstęp , współczynnik zmienności
17.Skokowa-przyjmuje określone wartości Zbiór wartość jest przeliczalny i skończony np liczba dzieci na wycieczce
Ciągła przyjmuje wartości z pewnego przedziału. Zbiór jest nieprzeliczalny i nieskończony. Przykład: Wzrost, waga
18.
19.Przyrost absolutny podzielony przez wielkość zjawiska z okresu poprzedniego
20.To taka próba która oddaje cechy populacji, pod względem badanej cechy odzwierciedla populacje
21.Poziom ufności to prawdopodobieństwo z jakim przedział ufności zawiera szacowana wartość 1-α
Poziom istotności to prawdopodobieństwo z jakim przedział ufności nie zawiera szacowanej wartości. Czyli prawdopodobieństwo z jakim przedział nie jest właściwy.
22.t Studenta
23.
24.Poziom ufności zmniejszy sie
25Wspolczynnik korelacji - określa poziom zależności miedzy jedna cecha a druga. Przyjmuje wartość od -1 do 1
26 przedstawia zestawienie dwóch wartości jakościowych bądź ujakościowionych
Przykład test niezależności
Ukazuje niezależność 2 cech jakościowych lub ujakosciowinonych
27.Rozkałd normalny, Wariancje musza być równe, parametry tych populacji musza byc nieznane
28.Roznica miedzy wartością z roku badanego a wartością roku poprzedniego
29. Jest to różnica miedzy wartością w roku badanym a wartości w roku podstawowym podzielona przez wartość roku podstawowego
30.Tzn ze została otrzymana w wyniku losowania prostego
31.Przedzial zwiększy sie
32.Wspolczynnik determinacji-to poziom jaki zmiana jednej cechy wpływa na zmianę drugiej cechy zawiera sie w przedziale od 0 do 1
Pytania ze statystyki na I pierwszym terminie, jaki się odbył dla studentów 5 roku dnia 14.06.2007:
Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?
Czym się kierujemy przy wyborze stosowania analizy korelacji oraz wariancji?
Test statystyczny i jego moc
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji (dokładnie opisać próbę, całe zdarzenie)
Przykłady stosowania analizy trójczynnikowej w technologii żywności
Kiedy stosujemy układ całkowicie losowy , a kiedy losowanych bloków (podać po przykładzie)
Pytania 21.06.2007 (dla 3 roku WTŻ)
Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?
Co to jest test statystyczny i dlaczego powinien być mocny?
Dlaczego lepsza jest analiza wieloczynnikowa niż jednoczynnikowa?
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji (dokładnie opisać próbę, całe zdarzenie)
2 Przykłady stosowania analizy trójczynnikowej w technologii żywności
2 Przykłady analizy regresji i analizy korelacji.
Inne:
Czym zajmuje się doświadczalnictwo?
Do czego służą procedury porównań wielokrotnych? Jakie z nich są preferowane?
Do czego służą analiza regresji wielokrotnej?
Jak posługujemy się regresją krokową?
Czym wyróżniają się metody statystyczne spośród wszystkich metod analizy danych?
Podać dwa przykłady problemów naukowo badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda regresji.
Jakie właściwości powinien mieć dobry estymator dla parametru rozkładu zmiennej losowej?
Co to jest poziom istotności i moc testu statystycznego?
Podać definicję błędu I oraz błędu II rodzaju przy testowaniu hipotezy za pomocą testu istotności.
Do czego służy analiza wariancji?
Napisać ogólną postać liniowej funkcji regresji wielokrotnej dla 4 zmiennych przyczynowych.
Podać dwa przykłady zastosowań analizy liniowej regresji wielokrotnej.
Podać 2 przykłady zastosowań analizy korelacji.
Podać dwa przykłady zastosowań liniowej regresji prostej.
Kiedy stosujemy układ całkowicie losowy, a kiedy losowanych bloków?
Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń czynnikowych i innych badań empirycznych na podstawie wyników z tych badań?
Pytania z 2004
Kiedy stosujemy układ całkowicie losowy a kiedy układ losowanych bloków?
Podać dwa przykłady problemów naukowo-badawczych wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza regresji wielokrotnej.
Podać dwa przykłady doświadczeń trójczynnikowych z technologii żywności.
Co to jest poziom istotności i moc testu statystycznego?
Kiedy stosujemy analizę wariancji a kiedy analizę regresji?
Co to jest estymator parametru zmiennej losowej w populacji i jakie własności powinien on posiadać?
Pytania z Rolnictwa z dn 3.02.2005
Próba reprezentatywna - zdefiniować i podać przykłady.
Do czego używamy testu t-studenta? Podać 2 przykłady.
Dlaczego i po co używamy metod statystycznych?
Omówić α i (1-β).
Cechy estymatora punktowego.
Metoda najmniejszych kwadratów - opisać.
Regresja wielokrotna - 2 przykłady.
Pytania z Rolnictwa z wcześniejszych lat:
Omówić definicje prawdopodobieństwa.
Dlaczego w testach istotności nie wolno przyjmować H zerowej?
Omówić cechy charakteryzujące rozkład normalny.
O czym informują kwantyle i mediana w próbie, jeśli 95% przedział ufności dla prawdopodobieństwa sukcesu ma końce równe 0,2 i 0,4 to, jakie końce będzie miał przedział ufności dla tego parametru przy α=0.01?
O czym mówią twierdzenia graniczne?
Co to jest obszar krytyczny, od czego zależy jego wielkość i położenie pod krzywą rozkładu statystyki testowej?
Jaka jest różnica między regresją I i II rodzaju zmiennej losowej dwuwymiarowej?
Weryfikując H0: p=p0 przy dwustronnej hipotezie alternatywnej otrzymano u emp.=1,83. Dla jakiego najmniejszego poziomu istotności można w tych warunkach odrzucić Ho.
Omówić cechy, którymi powinien charakteryzować się estymator.
Podać interpretacje parametrów, współzmienności zmiennej losowej dwuwymiarowej.
Co można powiedzieć o zmienności w próbie, jeśli wszystkie miary rozrzutu przyjmują te samą wartość?
Jaki rozkład ma częstość empiryczna sukcesu w dużych próbach?
Omówić zasady i cele procesu standaryzacji zmiennej losowej.
Jakie czynniki wpływają na dł. przedział ufności dla wartości oczekiwanej?
Jakie testy używane są do weryfikacji Ho μ=μo i jakie są kryteria wyboru?
Jaka jest interpretacja współczynników regresji i korelacji w próbie i w jaki sposób sprawdza się ich istotność?
Podać definicje i opisać właściwości funkcji rozkładu zmiennej losowej oraz dystrybuanty
Co to jest standaryzowany rozkład normalny i jak przeprowadza się proces standaryzacji?
O czym informuje współczynnik asymetrii cechy w próbie?
Omówić rodzaje weryfikowanych hipotez.
W pewnej próbie o liczebności 11 szt. Obliczono średnią arytmetyczną i medianę. Oba parametry mogą być estymatorami średniej populacji. Który z nich jest lepszy i dlaczego?
Na czym polega zależność stochastyczna a na czym korelacyjna zmiennych losowych?
Jaki rozkład ma średnia arytmetyczna z próby?. Czy rozkład średniej zależy od rozkładu cechy w populacji?
Jaki rozkład normalny nazywamy standaryzowanym? Czy można i w jaki sposób standaryzować inne rozkłady?
Co to jest hipoteza? Podać 2 przykłady weryfikowalnych i nie weryfikowalnych hipotez.
Jak zmieni się długość przedziału ufności dla prawdopodobieństwa sukcesu, gdy liczebność próby wzrośnie o 21%?
Co to jest prawdopodobieństwo całkowite zdarzenia A? Przy wyjaśnieniu posłużyć się przykładem.
Jaka jest różnica między hipotezami parametrycznymi i nieparametrycznymi? Podać przykłady.
Omów 2 wybrane rozkłady zmiennych losowych skokowych.
Omówić cechy charakterystyczne rozkładu normalnego.
Wyjaśnić pojęcie prawdopodobieństwa.
Pytania z WTŻ - też niektóre powtórzyły się na Rolnictwie
Czym zajmuje się doświadczalnictwo?
Do czego służą procedury porównań wielokrotnych? Jakie z nich są preferowane?
Do czego służy analiza regresji wielokrotnej?
Jak posługujemy się regresją krokową?
Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?
Podać po 2 przykłady problemów naukowo - badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda regresji.
Jakie własności powinien mieć dobry estymator dla parametru rozkładu zmiennej losowej?
Co to jest poziom istotności i moc testu statystycznego?
Podać definicje błędu I i II rodzaju przy testowaniu hipotezy.
Do czego służy analiza wariancji?
Napisać ogólną postać liniowej funkcji regresji, wielokrotnej dla 4 zmiennych przyczynowych.
Podać 2 przykłady zastosowań analizy regresji wielokrotnej.
Podać 2 przykłady zastosowań analizy korelacji.
Podać 2 przykłady zastosowań liniowej regresji prostej.
Kiedy stosujemy układ całkowicie losowy, a kiedy losowanych bloków?
Na podstawie danych dla próby reprezentatywnej 50 pól produkcyjnych otrzymano następującą ocenę funkcji regresji między plonem ziemniaków w dt/ha(X), a zawartością suchej masy w bulwach w % (Y): Ê(Y/X)=34.5- 0.05x; R²=68.5%; błąd standardowy, współczynnik regresji = 0.08. Czy ta zależność jest istotna? Zinterpretować uzyskane wyniki.
Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń czynnikowych i innych badań empirycznych oraz wnioskowania na podstawie wyników z tych badań?
Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.
Możemy wyciągać wnioski z danych zbieranych w zjawiskach masowych, biologicznych, technologicznych i zastosować metody statystyczne do planowania czynnikowych zjawisk technologicznych oraz ilustrować metody na rzeczywistych przykładach z badań naukowych. Statystyka modeluje nam pewne zjawiska deterministyczno - losowe; zwiększamy wiarygodność wniosków. Przydatna tam gdzie wnioskujemy z danych.
Działy badawcze (naukowcy)opis nieznanych prawidłowości
Można wnioskować z danych o pogodzie.
Inaczej
modeluje pewne zjawiska
pozwala modelować zjawiska deterministyczno - losowe
pozwala zwiększać wiarygodność wyników
daje kontrolowaną szansę poprawności wyników
możemy ja stosować gdy: chcemy badać 2 czynniki
wśród jednostek doświadczenia występuje zmienność systematyczna
Kiedy stosujemy analizę wariancji, a kiedy analizę regresji przy opracowaniu danych i wnioskowaniu?
Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi
zmienna X - przyczynowa (determnistyczna/losowa)
zmienna Y - skutkowa (losowa o rozkładzie normalnym
np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu
y - zawartość cukru w winogronach
wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.
np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza korelacji prostej.
Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne w badaniach naukowych, niż jednoczynnikowe?
- lepiej oddają istotę doświadczenia
- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną
Wyjaśnij zasadę metody najmniejszych kwadratów stosowanej w analizie regresji.
- podstawa teorii błędów pomiarów
- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów
Metoda służy do szacowania parametrów strukturalnych funkcji regresji w postaci f(X)=α+βX=β0+β. Zasada metody polega na znalezieniu takiej funkcji, dla której suma kwadratów odchyleń powinna być minimalna. Do oszacowania parametrów służą estymatory: estymator stałej regresji (α) i estymator współczynnika kierunkowego (β).
Zasada: wartością najbardziej prawdopodobną ( otrzymaną z tak samo dokładnych pomiarów) jest taka wartość, której odchylenia od wyników, podniesione do kwadratu i zsumowane dają najmniejszą z możliwych wartość
Estymatorem Θ. wg najmniejszych □ parametru Θ, jest funkcja Θ = g(X1,X2…Xn), dla której zachodzi warunek E{(0.-0)2}=min., przy czym wartość oczekiwaną oblicza się wg wszystkich dopuszczalnych wartości różnic
Θ.-Θ przy przyjętym a priori ich rozkładzie. Powyższy warunek można sformułować za pomocą funkcji strat i za pomocą funkcji ryzyka. Wyznaczyć minimum w metodzie najmniejszych □ może być sformułowane jako minimum funkcji ryzyka R(Θ){[R(0)=E{(σ)}] przy kwadratowej funkcji strat. Polega na znalezieniu sumy najmniejszych kwadratów odchyleń standardowych znalezienie funkcji najdokładniej opisujących uzyskane wyniki.
CHOLESTEROL Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.
Podać dwa przykłady doświadczeń dwuczynnikowych technologii żywności.
Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny
Zawartość cukru, zawartość tłuszczu - kaloryczność produktu
Wymienić dwa główne działy statystyki matematycznej i podać, co one obejmują.
Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X
Testowanie (weryfikacja) hipotez statystycznych
ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.
Estymacja punktowa - szacowanie punktowe szukanego parametru rozkładu
Estymacja przedziałowa - szacowanie parametrów w populacji (oszacowanie pewnego przedziału wartości rozkładu)
ad b) obejmuje:
Hipotezę statystyczną (to każde przypuszczenie dotyczące rozkładu (rozkładów) prawdopodobieństwa badanej zmiennej losowej (zmiennych losowych))
Test statystyczny (pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie)
Poziom istotności testu
Co to jest estymator parametru zmiennej losowej w populacji i jakie własności powinien on posiadać?
Estymator - przybliżenie pewnej wartości, wartość średnia z próby. Estymatorem danego parametru populacji nazywamy określoną funkcję elementów próby g (x1, x2, …xn), spełniającą pewne kryteria optymalności. Postać estymatora zależy od tych elementów.
Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.
Nieobciażoność - przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony = wartość szacowanego parametru. Wtedy odchylenia + i - nawzajem się niwelują (nie maja tendencyjnego charakteru). Obciążenie estymatora - różnica miedzy wartością oczekiwaną rozkładu estymatora, a wartością szacowanego parametru jest zależna funkcyjnie od estymatora. E(Ǿ)=0
Zależność - jeśli Tn jest zgodny, to jest asymptotycznie nie obciążony, twierdzenie odwrotne jest nieprawdziwe. Jeśli Tn jest nieobciążony i jego wariancja spełnia zależność Lim D2(Tn)=0, n∞, to Tn jest estymatorem zgodnym.
Asymptotyczna nieobciążoność - estymator nazywamy asymptotycznie nie obciążonym, jeżeli obciążenie estymatora dąży do 0, przy rosnącej liczebności próby. Każdy estymator nie obciążony jest estymatorem asymptotycznie nie obciążonym.
Zgodność - estymator jest zbieżny, gdy jest stachostycznie zbieżny do szacowanego parametru. Wtedy przez zwiększenie liczebności próby uzyskuje się coraz większe prawdopodobieństwo, że estymator będzie przyjmował wartości coraz bliższe wartości parametru ryzyko popełnienia dużego błędu jest niewielkie.
Efektywność (dokładność) - dla najbardziej efektywnego estymatora =1, 0<e<1. Estymator najefektywniejszy ma najmniejszą wariancję D2(Ǿ)=min
Dostateczność (wystarczalność) - dostateczny, gdy zawiera wszystkie informacje na temat parametru, jakie występują w próbie i żaden inny estymator nie może dać dodatkowych informacji. Estymator ten nie zawsze istnieje.
Co to jest poziom istotności i moc testu statystycznego?
- prawdopodobieństwo odrzucenia prawdy, prawdziwej H, dobrze gdy jest jak najmniejsze. Ryzyko błędu I rodzaju, że przedział ufności nie zawiera szacowanego parametru. Określa max ryzyko błędu, jakie badacz jest w stanie zaakceptować. Wybór wartości zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się =0,05; =0,01. Im niższe , tym niższa precyzja oceny, a większy przedział ufności.
Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:
Słaby - gdy istnieje duż szansa na to, że nie odrzucimy hipotezy zerowej, mimo jej nieprawdziwości.
Mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową.
Do czego służy analiza korelacji i analiza wariancji?
Analiza korelacji
Do badania współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.
Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.
Korelacja silna - zmienna ściśle współzależna.
Korelacja dodatnia - jedno rośnie i drugie rośnie.
Korelacja ujemna - jedno rośnie, a drugie maleje.
Zmienna deterministyczna - kontrolowana.
Zmienna losowa - niekontrolowana.
Przykłady:
Zależność między czasem nauki do egzaminy (X), a oceną z egzaminu (Y).
Masa jabłka w kg (X), a zawartość s.m.(Y)
Zawartość s.m.w bulwach ziemniaka (X), a zawartość skrobi(Y)
Badanie współzależności zmiennych
Związek liniowy Nie ma związku Obserwacje rozmyte Układ wskazuje na
między zmiennymi Brak istotnej współzależności korelację „+”
*
* * * * *
* * * * *
* ** * * * * * * * * * * *
* *
Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.
Współczynnik korelacji prostej jest miara kierunku i stopnia ścisłości związku liniowego miedzy losowymi zmiennymi X i Y.
Wariancja - Miara rozrzutu, mówi o rozproszeniu wszystkich wartości zmiennej losowej wokół wartości średniej (jak bardzo od niej odbiegają).
Do obserwowania analizy danych z obserwacji pewnej zmiennej, planowanych, kontrolowanych, doświadczenia czynnikowego. Za jej pomocą można zweryfikować hipotezy zerowe. Opracowana przez Fishera, wymaga formalnego traktowania wyników doświadczeń czynnikowych. Traktowanie wyrażone jest w postaci równania - liniowego modelu ANOVA. Model ten traktuje każdą obserwację doświadczenia czynnikowego jako realizację zmiennej losowej o rozkładzie normalnym z jednakową wariancją σ2 określająca zmienna losową cechy przy danym poziomie czynnika. Umożliwia opracowanie danych statystycznych z doświadczeń czynnikowych.
Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.
Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: yij=mi+eij ; i=1, 2, …a; j=1, 2, …n
Przykłady:
Przyczyna A-stopień wstępnego odwodnienia owoców; Przyczyna B - sposób suszenia owoców; Zmienna - cechy jakościowe produktu
Czynnik A -metoda peklowania szynki; Czynnik B -sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku
Inaczej
Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza korelacji - do badania współzależności między 2 losowymi zmiennymi ilościowymi
- obie zmienne mają rozkład normalny
- żadna ze zmiennych nie jest przyczyną drugiej
np: 1. Zależność między masą owoców w kg a zawartością suchej masy w %
2. Zależność miedzy zaw s.m a zawart skrobi w ziemniakach
Inaczej
Analiza korelacji:
Jest metodą statystyczną (jedną z najstarszych) pozwalającą na zbadanie związku pomiędzy dwiema zmiennymi ilościowymi ciągłymi, przy założeniu, że obie zmienne są losowe i mają rozkład normalny. Powinniśmy unikać stosowania analizy korelacji, gdy zmienne są nieciągłe. Wyznaczamy współczynnik korelacji r, który jest oszacowaniem ζ. Na podstawie współczynnika korelacji obliczonego z danych można sformułować 2 rodzaje wniosków: *nie stwierdzono korelacji między zmiennymi, *stwierdzono korelację między zmiennymi
Współczynnik ujemny - korelacja jest ujemna - jedna zmienna rośnie a druga ma skłonność o malejących wartości,
Współczynnik dodatni - korelacja jest dodatnia - związek proporcjonalny, jedna zmienna rośnie, druga wykazuje tendencje do rosnących wartości.
Im wartość bezwzględna r jest bliższa 0 tym słabsza korelacja, im bliższa 1 tym silniejsza korelacja.
Analiza wariancji.
Jest to metoda statystyczna odrębna od analizy korelacji. Tą metodę statystyczną stworzył angielski badacz Fisher na początku lat 20. XX w na użytek badań eksperymentalnych. Analiza wariancji służy do oceny wpływu poziomu badanego czynnika na zmienna o rozkładzie normalnym. Badamy wpływ czynników na wartość pewnej zmiennej (nawet kilku), bo istnieje zmienność losowa w każdym doświadczeniu (jest nieuchronna).
Do czego służy analiza regresji?
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi
zmienna X - przyczynowa (determnistyczna/losowa)
zmienna Y - skutkowa (losowa o rozkładzie normalnym
np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu
y - zawartość cukru w winogronach
wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.
np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu
Inaczej:
Analiza regresji - jest narzędziem do badania mechanizmu powiązań między zmiennymi. Przyporządkowując wartości zmiennej przyczynowej X średnie wartości zmiennej skutkowej Y otrzymujemy funkcję. Jeżeli ta funkcja jest liniowa to mówimy o liniowej funkcji regresji.
W przypadku, gdy zmienna skutkowa Y zależy od dużej liczby zmiennych przyczynowych X i powstała z takiego przyporządkowania funkcja jest funkcją liniową, to mówimy o analizie regresji wielokrotnej (liniowej). Na podstawie danych eksperymentalnych i k zmiennych można określić, które zmienne przyczynowe wpływają na zmienną skutkową Y i jeżeli wpływają to z jaką siłą.
Zobrazować obszar dopuszczalny i dwustronny obszar krytyczny przy testowaniu hipotezy H0:m1=m2 za pomocą testu t-Studenta.
Obszar krytyczny - jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H0 przyjmujemy (nie odrzucamy).
Wielkość obszaru zależy od wielkości wartości krytycznej (Uα), a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej.
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznawstwa, w których może być zastosowana analiza wariancji.
Jednoczynnikowa - czy rodzaj opakowania wpływa na trwałość mleka.
Wieloczynnikowa - rodzaj środka konserwującego oraz stężenie tego środka a trwałość produktu.
Zawartość wit.C w warzywach w zależności od sposobu uprawy.
Zawartość wody w zależności o rodzaju chłodni (warunków przechowywania).
Ubytek suchej masy w zależności od sposobu przechowywania warzyw
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznawstwa, w których może być zastosowana analiza korelacji.
Zawartość suchej masy i zawartość skrobi w bulwach ziemniaków.
Zawartość wit.C i zawartość suchej masy w owocach papryki
Od czego i w jaki sposób zależy długość przedziału ufności dla średniej rozkładu normalnego?
Zależy od wielkości próby n, im n większe tym przedział jest bardziej zawężony. Zależy również od przyjętej wartości α, im α większe tym przedział bardziej zawężony.
(1 - α) poziom ufności. Prawdopodobieństwo, że rzeczywista wartość parametru β w populacji znajduje się w wyraźnym przedziale ufności
Większy przedział, gdy większa wartość współczynnika ufności (a więc mniejsza dokładność estymacji przedziałowej) tym samym większe prawdopodobieństwo popełnienia błędu.
Przedział ufności - przedział z dużym prawdopodobieństwem wystąpienia w nim prawdziwej wartości parametru.
Zależy od poziomu istotności α, odchylenia standardowego δ i liczebności próby N. Od α i δ zależy wprost proporcjonalnie, czyli wraz ze wzrostem parametru rośnie długość przedziału ufności, od N zależy odwrotnie proporcjonalnie ze wzrostem liczebności maleje długość przedziału. Dt=2µαS/√N
Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza liniowej regresji prostej.
Liczba prosiąt a wiek świni.
Wielkość plonu a wielkość nawożenia azotem
Czym wyróżniają się metody statystyczne spośród wszystkich metod analizy danych?
Każde wnioskowanie na podstawie próby
Pobieranie próby losowo
Metody oparte na rachunku prawdopodobieństwa
Wnioskowanie z danych zbieranych w empirycznych badaniach zjawisk masowych.
Inne metody nie wykorzystują prób do wnioskowania
Dane są reprezentatywne,
Opis określonych prawidłowości zjawisk w sposób fragmentaryczny
Dane obarczone efektami przyczyn losowych
Trzeba wykonać dużą liczbę doświadczeń z różnymi czynnikami i w różnych warunkach
Wnioski i prawa wyprowadzono z analizy danych
Prawidłowość tych wniosków jest tylko kwestią prawdopodobieństwa-bardzo dużego (0,95), ale nie pewności.
Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzane przy ich pomocy.
Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:
*H0: m=m0 ;
*Hipotezy alternatywne: a)H1: m≠m0 b)H1: m>m0 c)H1: m<m0 dla jednej populacji.
Test t-Studenta może być też wykorzystany do porównania dwóch populacji (dwóch rozkładów normalnych). Służy do porównania średnich obu populacji: *H0: m1=m2; *H1: m1≠m2
Test f-Fischera wzór służy do porównania wariancji z różnych populacji
*Hi: m1=m2=……=ma
Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta
*H0ii': mi≠mi' dla i,i'= 1,2,…..,a; i<i'
Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= nit= npi
Czym zajmuje się statystyka matematyczna?
Statystyka matematyczna zajmuje się modelowaniem matematycznych zjawisk badawczych i empirycznych oraz wnioskowaniem z danych reprezentatywnych zbieranych w empirycznych badaniach zjawisk masowych.
Co to jest poziom ufności?
Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.
Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).
To co podkreślone-taką odpowiedź Mądry podawał na wykładzie.
Wszystkie kropki przy parametrach oznaczają daszki, ew.przy x- wartość średnią.
Mądry powiedział, że na egzaminie nie trzeba przy takim pytaniu pisać przykładu, podał go „tak sobie”, ale kto wie…
Wszystkie kropki przy parametrach oznaczają daszki, ew.przy x- wartość średnią.
Statystyka - opracowane pytania 1
- 1 -
Analiza wariancji - analiza zmiennej;
Analiza korelacji - analiza współzależności między 2 zmiennymi
Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji
Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).
Postawimy H0: , przy poziomie istotności ,
Jeżeli |temp|>tHo odrzucamy (różnica miedzy średnimi jest istotna)
Jeżeli |temp|<tHo nie odrzucamy
(weryfikując hipotezę musimy sformułować hipotezę alternatywną, która jest uznana za prawdziwą, gdy odrzucimy Ho)
Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji
Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).
Analiza wariancji - analiza zmiennej;
Analiza korelacji - analiza współzależności między 2 zmiennymi
1-α
½ α
½ α
-tvα
-tvα
Obszar krytyczny
Obszar dopuszczalny
Obszar krytyczny
Gęstość