Statystyka - ściąga 2007, Statystyka


  1. Dlaczego statystyka matemat. ma zastosowanie w planowaniu doświadczeń czynnikowych i innych badań empirycznych oraz wnioskowania na podstawie wyników z tych badań?

Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.

Możemy wyciągać wnioski z danych zbieranych w zjawiskach masowych, biologicznych, technologicznych i zastosować metody statystyczne do planowania czynnikowych zjawisk technologicznych oraz ilustrować metody na rzeczywistych przykładach z badań naukowych. Statystyka modeluje nam pewne zjawiska deterministyczno - losowe; zwiększamy wiarygodność wniosków. Przydatna tam gdzie wnioskujemy z danych.

Inaczej

  1. modeluje pewne zjawiska

  2. pozwala modelować zjawiska deterministyczno - losowe

  3. pozwala zwiększać wiarygodność wyników

  4. daje kontrolowaną szansę poprawności wyników

  5. możemy ja stosować gdy: chcemy badać 2 czynniki

Wśród jednostek doświadczenia występuje zmienność systematyczna

  1. Czym zajmuje się statystyka matematyczna?

Statystyka matematyczna zajmuje się modelowaniem matematycznych zjawisk badawczych i empirycznych oraz wnioskowaniem z danych reprezentatywnych zbieranych w empirycznych badaniach zjawisk masowych.

  1. Sposoby wnioskowania statyst.

Związane z analizą regresji. Wnioskowanie odbywa się 1 z 2grup metod:

  1. Estymacja, szacowanie parametr. rozkładów prawdop. zmiennych losowych w populacji

  2. Stawianie i weryfikacja hipotez statystycznych.

4. Czym się zajmuje doświadczalnictwo?

Jest to dziedzina interdyscyplinarna, obejmująca przede wszystkim problemy czysto statystyczne. Jest często traktowane jako gałąź statystyki matematycznej (np. nauki przyrodnicze).

Przedmiotem zainteresowań doświadczalnictwa są:

Klasyczny rozwój doświadczalnictwa został skierowany na opracowywanie coraz lepszych metod umożliwiających badanie wpływu czynników z minimalnym błędem losowym.

  1. Wymienić 2 gł działy statystyki matematycznej i podać, co one obejmują.

  1. Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X

  2. Testowanie (weryfikacja) hipotez statystycznych

ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.

ad b) obejmuje:

  1. Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza korelacji prostej.

  1. Podać 2 przykłady doświadczeń dwuczynnikowych .

Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny

Zawartość cukru, zawartość tłuszczu - kaloryczność produktu

  1. Podać 2 przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznaw, w których może być zastosowana analiza wariancji.

  1. Podać 2 przykłady problemów naukowo-badaw, wdrożeniowych lub praktycznych z towaroznaw., w których może być zastosowana analiza korelacji.

  1. Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza liniowej regresji prostej.

Służy do oceny zależności przyczynowo-skutkowej między 1 zmienną przyczynową i 2 zmienną skutkową. 2 zmienne mają charakter losowy oraz ilościowy.

  1. Podać 2 przykłady problemów, w których może być zastosowana analiza liniowej regresji wielokrotnej.

Xi - liczba zmiennych przyczynowych niezależnych

Y- zmienna zależna skutkowa

  1. Podać 2 przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z , w których może być zastosowana metoda analizy regresji wielokrotnej.

Regresja - związek ukierunkowany

    1. Zależność średniej masy jaj od masy nioski i ilość jaj zniesionych rocznie.

    2. Zależność zawartości skrobi w ziemniakach od pola i rodzaju użytego nawozu.

  1. Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne w badaniach naukowych, niż jednoczynnikowe?

- lepiej oddają istotę doświadczenia

- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną

  1. Wyjaśnij zasadę metody najmniejszych kwadratów stosowanej w analizie regresji.

- podstawa teorii błędów pomiarów

- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów

Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji

Metoda służy do szacowania parametrów strukturalnych funkcji regresji w postaci f(X)=α+βX=β0+β. Zasada metody polega na znalezieniu takiej funkcji, dla której suma kwadratów odchyleń powinna być minimalna. Do oszacowania parametrów służą estymatory: estymator stałej regresji (α) i estymator współczynnika kierunkowego (β).

Zasada: wartością najbardziej prawdopodobną ( otrzymaną z tak samo dokładnych pomiarów) jest taka wartość, której odchylenia od wyników, podniesione do kwadratu i zsumowane dają najmniejszą z możliwych wartość

Estymatorem Θ. wg najmniejszych □ parametru Θ, jest funkcja Θ = g(X1,X2…Xn), dla której zachodzi warunek E{(0.-0)2}=min., przy czym wartość oczekiwaną oblicza się wg wszystkich dopuszczalnych wartości różnic

Θ.-Θ przy przyjętym a priori ich rozkładzie. Powyższy warunek można sformułować za pomocą funkcji strat i za pomocą funkcji ryzyka. Wyznaczyć minimum w metodzie najmniejszych □ może być sformułowane jako minimum funkcji ryzyka R(Θ){[R(0)=E{(σ)}] przy kwadratowej funkcji strat. Polega na znalezieniu sumy najmniejszych kwadratów odchyleń standardowych znalezienie funkcji najdokładniej opisujących uzyskane wyniki.

Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.

  1. Co to jest estymator parametru zmiennej losowej w populacji i jakie własności powinien on posiadać?

Estymator - przybliżenie pewnej wartości, wartość średnia z próby. Estymatorem danego parametru populacji nazywamy określoną funkcję elementów próby g (x1, x2, …xn), spełniającą pewne kryteria optymalności. Postać estymatora zależy od tych elementów.

Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.

  1. Kiedy stosujemy analizę wariancji, a kiedy analizę regresji przy opracowaniu danych i wnioskowaniu?

do zbadania czy jest wpływ czynników i jak duży jest ten wpływ

- Analiza regresji -

  1. Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi

Zmienna X - przyczynowa (determnistyczna/losowa)

zmienna Y - skutkowa (losowa o rozkładzie normalnym

np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu

y - zawartość cukru w winogronach

  1. wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.

np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu

  1. Do czego służy analiza korelacji i analiza wariancji?

Analiza korelacji

Do badania współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.

Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.

0x08 graphic
Korelacja silna - zmienna ściśle współzależna.

Korelacja dodatnia - 1 i drugie .

Korelacja ujemna - 1 e, a drugie .

Zmienna deterministyczna - kontrolowana.

Zmienna losowa - niekontrolowana.

Przykłady:

Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.

Analiza wariancji

do zbadania czy jest wpływ czynników i jak duży jest ten wpływ

Do obserwowania analizy danych z obserwacji pewnej zmiennej, planowanych, kontrolowanych, doświadczenia czynnikowego. Za jej pomocą można zweryfikować hipotezy zerowe. Opracowana przez Fishera, wymaga formalnego traktowania wyników doświadczeń czynnikowych. Traktowanie wyrażone jest w postaci równania - liniowego modelu ANOVA. Model ten traktuje każdą obserwację doświadczenia czynnikowego jako realizację zmiennej losowej o rozkładzie normalnym z jednakową wariancją σ2 określająca zmienna losową cechy przy danym poziomie czynnika. Umożliwia opracowanie danych statystycznych z doświadczeń czynnikowych.

Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.

Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: yij=mi+eij ; i=1, 2, …a; j=1, 2, …n

Przykłady:

Czynnik A - metoda peklowania szynki; Czynnik B - sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku

  1. Do czego służy analiza regresji?

Analiza regresji

      1. Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi

zmienna X - przyczynowa (determnistyczna/losowa)

zmienna Y - skutkowa (losowa o rozkładzie normalnym

np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu

y - zawartość cukru w winogronach

      1. wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.

np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu

  1. Do czego służy analiza regresji wielokrotnej?

Służy do statystycznego badania zależności przyczynowo-skutkowej, do oceny wpływu, jaki mają n zmienne przyczynowe, ilościowe X na zmienną skutkową, cechę Y.

Analiza regresji wielokrotnej jest oparta na funkcji regresji, która jest funkcją wielu zmiennych. Zmienne przyczynowe są od siebie zależne.

Cel analizy regresjiczy wszystkie uwzględnione zmienne faktycznie wpływają na analizie i w jaki sposób.

Analizę regresji dzielimy na 2 etapy:

  1. Estymacja parametrów

  2. Weryfikacja cząstkowych hipotez

W analizie tej weryfikuje się następującą hipotezęHo:b1=….bk=0.Wszystkie cząstkowe współczynniki regresji=0

Gdy Ho prawdziwa - funkcja regresji stała, zmienna X nie ma wpływu na funkcję

Gdy Ho odrzucamy - minimum 1 ze zmiennych przyczynowych wpływa na funkcję.

Dane obserwacyjne są podstawą do zastosowania metody najmniejszych kwadratów.

Współczynnik determinacji R2 - oszacowanie regresji, wykazuje struktury całkowitej zmienności.

Przyjmuje wartość przedziału (0,1),im bliższe 1, tym w większym stopniu zmienność zależy od zależności X od Y.

Współczynnik determinacji prostej określa 0-100% wyjaśnionej zmienności zmiennej zależnej Y przez liniowy model regresji prostej. Jest to miarą zależności zmiennych losowych X i Y. Jeżeli funkcja regresji jest liniowa, to współczynnik determinacji = kwadratowi współczynnika korelacji.

  1. Napisać ogólną postać liniowej regresji wielokrotnej, dla 4 zmiennych przyczynowych.

E (Y/X1, X2, X3, X4) = bo+b1X1+b2X2+b3X3+b4X4

bo - stała regresji

bi - cząstkowy współczynnik regresji, jest miarą wpływu każdej zmiennej przyczynowej na zmienną skutkową. Wartość współczynnika regresji mówi o ile zmieni się Y, jeżeli X1zwiększymy o jednostkę.

  1. Zobrazować obszar dopuszcz. i dwustronny obszar krytyczny przy testowaniu hipotezy H0:m1=m2 za pomocą testu t-Studenta.

Obszar krytyczny - jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H0 przyjmujemy (nie odrzucamy).

Wielkość zależy od wielkości wartości krytycznej (Uα), a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej. 0x08 graphic
0x01 graphic

  1. Od czego i w jaki sposób zależy długość przedziału ufności dla średniej rozkładu normalnego?

Zależy od poziomu istotności α, odchylenia standardowego δ i liczebności próby N. Od 1-α i δ zależy wprost proporcjonalnie, czyli wraz ze wzrostem parametru rośnie długość przedziału ufności, od N i α zależy odwrotnie proporcjonalnie ze wzrostem liczebności maleje długość przedziału.

  1. Czym wyróżniają się metody statystyczne spośród wszystkich metod analizy danych?

  1. Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzane przy ich pomocy.

Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:

*H0: m=m0 ;

*Hipotezy alternatywne:

a) H1: m≠m0 b) H1: m>m0

c) H1: m<m0 dla jednej populacji.

Test t-Studenta może być też wykorzystany do porównania dwóch populacji (dwóch rozkładów normalnych). Służy do porównania średnich obu populacji: *H0: m1=m2; *H1: m1≠m2

Test f-Fischera wzór służy do porównania wariancji z różnych populacji

*Hi: m1=m2=……=ma

Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta

*H0ii': mi≠mi' dla i,i'= 1,2,…..,a; i<i'

Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= nit= npi

  1. Co to jest poziom ufności?

Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.

Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji)

  1. Co to jest współczynnik ufności?

Mierzy stopień zaufania do poprawności wniosków prawdopodobieństwo poprawnego wniosku. Prawdopodobieństwo, z jakim przedział ufności jakiegoś parametru pokrywa nieznana wartość parametru.

1- jest bliski 1 (0,9; 0,95; 0,99). Im wyższy współczynnik ufności, tym szerszy przedział ufności i mniejsza dokładność estymacji.

  1. Co to jest poziom istotności i moc testu statystycznego?

- prawdopodobieństwo odrzucenia prawdy, prawdziwej H, dobrze gdy jest jak najmniejsze. Ryzyko błędu I rodzaju, że przedział ufności nie zawiera szacowanego parametru. Określa max ryzyko błędu, jakie badacz jest w stanie zaakceptować. Wybór wartości  zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się =0,05; =0,01. Im niższe , tym niższa precyzja oceny, a większy przedział ufności.

Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:

  1. Jakie znaczenie mają zmienne losowe w statystyce matematycznej?

Opis wniosków zjawisk masowych, które z natury rzeczy nie są w pełni kontrolowane.

Zmienna losowa - niekontrolowana wielkość, której wartość pojawia się poza naszą wolą z określonym prawdopodobieństwem. Zmienna losowa powstaje w wyniku przyporządkowania każdemu zdarzeniu elementarnemu liczby rzeczywistej. Rozróżniamy:

  1. Kiedy stosujemy układ całkowicie losowy, a kiedy układ losowanych bloków?

Układ całkowicie losowy - gdy jednostki doświadczalne są jednorodne (nie podlegają zmienności systematycznej warunków badanego zjawiska-warunków wegetacji roślin, chowu zwierząt). W doświadczeniu 1no czynnikowym liczba wszystkich jednostek wynosi an (poziomów - liczba poziomów czynnika, n- liczba powtórzeń). Układ polega na rozmieszczeniu wszystkich jednostek w doświadczeniu w sposób całkowicie losowy na obszarze doświadczalnym. W doświadczeniach technologicznych układ całkowicie losowy polega na wyborze i przygotowaniu jednostek doświadczalnych oraz poddaniu ich działaniu poziomów czynnika w taki sposób, aby został wykluczony błąd systematyczny (jednostki doświadczalne mogą być obciążone błędem systematycznym, gdy występują efekty brzegowe).

Losowanych bloków - stosuje się, gdy niejednorodność jednostek doświadczalnych wynika z występowania 1nokierunkowej zmienności systematycznej warunków wegetacji. Tu zmienność występuje zarówno na polu jak i w innych sytuacjach doświadczalnych. Zadaniem jest eliminacja wpływu zmienności systematycznej warunków doświadczenia na badaną cechę. Układ losowych bloków jest najprostszym układem blokowym, który pozwala eliminować efekty niejednorodności na badaną cechę. Polega on na takim grupowaniu jednostek w bloki, aby między blokami zaistniało zróżnicowanie systematyczne warunków (ujawniła się niejednorodność), zaś w obrębie bloków zmienność warunków na jednostkach była losowa.

Bloki - jednostki doświadczalne pogrupowane w zbiory, w każdym bloku jest a jednostek, każda jest losowo prezypożądkowana innemu poziomowi badanego czynnika.

  1. Jaka jest różnica między hipotezami parametrycznymi, a nieparametrycznymi?

H. parametrycznymi nazywamy hipotezy dotyczące takich parametrów populacji generalnej (jednej lub kilku), jak średnie, wariancja, wskaźnik struktury oraz parametrów populacji wielocechowych.

H. nieparametryczne, to hipotezy przy których stosuje się testy hipotez dotyczących rozkładów bez precyzowania lub bez parametrów. Rozróżniamy tu:

  1. Hipotetyczny rozkład populacji generalnej jest przez hipotezę całkowicie określony

  2. Hipoteza dotyczy tego rozkładu, ale parametry należy szacować z próby

  3. Hipoteza dotyczy zgodności rozkładów dwóch lub kilku populacji generalnych

  4. Hipoteza dotyczy niezależności elementów próby

  1. Definicja błędu I i II rodzaju przy testowaniu hipotezy za pomocą testu statystycznego.

I. Rodzaju = poziom istotności testu = moc testu. Odrzucenie prawdziwej hipotezy, przy czym prawdopodobieństwo popełnienia błędu I rodzaju jest nazywane poziomem istotności.

II. Rodzaju polega na przyjęciu hipotezy zerowej, która jest fałszywa. Prawdopodobieństwo popełnienia błędu II, oznaczamy symbolem 

  1. Co to jest próba reprezentatywna?

Losowe pobranie z populacji jednostek doświadczalnych dla każdego poziomu badanego czynnika i zaobserwowanie na tych jednostkach wartości rozważanej cechy ilościowej.

  1. Co to jest jednostka doświadczalna i hipoteza?

Jednostka doświadczalna - element rzeczywisty doświadczenia czynnikowego, do którego odnosimy zastosowanie danego poziomu czynnika i obserwację reagującej na ten poziom cechy ilościowej.

Przykład:

Hipoteza - rozpatrując pewną populację generalną, której rozkład i parametry nie są znane, każde przypuszczenie określające ten rozkład lub jego parametry będziemy nazywali hipotezą statystyczną. Hipoteza statystyczna może się odnosić do kilku populacji generalnych. Hipoteza traktuje, że średnia zmiennej losowej w rozkładzie normalnym jest jakąś rozsądną liczbą.


2

Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).

Gęstość

Obszar krytyczny

Obszar dopuszczalny

Obszar krytyczny

-tvα

-tvα

½ α

½ α

1-α



Wyszukiwarka

Podobne podstrony:
Statystyka - ściąga 2007 2, Statystyka
Statystyka - ściąga, Ochrona Środowiska studia, 2 rok (2007-2008), Semestr III (Rok 2), Statystyka
Egzamin II ze statystyki luty 2007
ściąga statystyka, MEDYCYNA - ŚUM Katowice, I ROK, Biofizyka
statystyka matematyczna - ściąga z teorii na egzamin, Zootechnika (UR Kraków) - materiały, MGR, Stat
wybrane zagadnienia na exam - sciaga - mac, Studia, Zastosowanie statystyki w zarzadzaniu
statystyka ściąga wzory
Wnioskowanie statystyczne ściąga D6B4JQ75G5T3M73CHPOI7P6EFHU5KSVYOKQFV3Q
Statystyka ściąga (6 stron) IEFXT4WWBA2VXFI3K6XJIWGYHKPVE6NOWBPMRYA
2007 12 03 prawdopodobie stwo i statystykaid 25662
Statystyka - egzamin - ściąga - Kuszewski, Statystyka - wykłady - T.Kuszewski
STATYSTYKA- ściąga, statystyka z demografią
statystyka sciąga
ściąga statystyka
Test ze statystyki z zima 2007 grupa A[1], 1)
Test ze statystyki 2007 (z wykładu), 1)
ststyst sciaga, Szkoła WSTiH, szkola4semetr, statystyka 2 rok
statystyka ściąga
ststystyka sciaga, Statystyka

więcej podobnych podstron