1. W jakim celu przeprowadzamy badania statystyczne?
W celu poznania właściwości całości (określanej jako populacja) na podstawie jej części.
2.Zdefiniuj następujące pojęcia:
-populacja statystyczna, to zbiór elementów- jednostek statystycznych, wyróżnionych ze względu na jedną charakterystykę - cechę, lub na wiele cech. Liczebność populacji oznaczamy literą N
-populacja jednowymiarowa, taka w której badana jest jedna cecha
- populacja wielowymiarowa, badanych jest w niej wiele cech
-próba, to podzbiór jednostek statystycznych lub - wykonanych na jednostkach statystycznych tego podzbioru. Liczebność próby oznacza się literą n.
-próba reprezentatywna, to próba która została wybrana z populacji aby ją reprezentować, inaczej mówiąc, "próba reprezentatywna, to miniatura populacji"
-prosta próba losowa, jest sposobem pobrania próby reprezentatywnej(???? Próbę losową uzyskujemy wtedy, gdy:
* losowanie jednostek statystycznych do próby dokonywane jest z całej populacji ( losowanie nieograniczone);
*każda jednostka ma jednakowe prawdopodobieństwo dostania się do próby (losowanie indywidualne)
* prawdopodobieństwo to nie zmienia się w trakcie losowania.
3. Wyjaśnij, co to jest:
Statystyka: charakterystyka próby, statystyka zmienia się od próby do próby, więc jest zmienną losową. Statystyki określa się ogólnie jako miary statystyczne. Najczęściej stosowane to miary: położenia, rozproszenia, korelacji, asymetrii i kurtozy.
Parametr: charakterystyka populacji. Parametr jest wielkością stała.
Estymator: statystyka, która służy do oceny nieznanej wartości parametru. Proces oceny, to estymacja. Estymacja może być punktowa, lub przedziałowa.
4. Jakie rodzaje cech wyróżniamy w statystyce?
cecha niemierzalna (jakościowa)
cecha mierzalna (ilościowa)
- zmienna skokowa (dyskretna)
- zmienna ciągła
5. Na czym polega pomiar:
- nominalny - ma zastosowanie w przypadku badania cech niemierzalnych (jakościowych). Pomiar polega na tym, że dane grupuje się (klasyfikuje) według arbitralnie przyjętych kategorii danej cechy jakościowej. Np. dla cechy „płeć” można wyróżnić dwie kategorie: samce i samice. Dla cechy „kolor włosów” można wyróżnić trzy kategorie: blondyni, bruneci i rudzi.
- porządkowy - pomiar bardziej precyzyjny niż w przypadku skali nominalnej. Dlsa cech mierzalnych ciągłych polegający na: (1) ocenie natężenia poziomu badanej cechy, (2) uporządkowaniu jednostek według wzrostu/malenia natężenia poziomu tej cechy, np. uporządkowaniu uczniów według wzrostu, (3) przypisaniu uporządkowanym jednostkom numerów, czyli rang.
- przedziałowy - (zwana inaczej interwałową). Dla cech mierzalnych ciągłych; pomiar umożliwia nie tylko rangowanie jednostek próby pod względem natężenia danej cechy, ale też określenie odległości (interwału) między tymi jednostkami. arbitralny początek skali, np. pomiar temperatury w skali Celsjusza, Fahrenheita, kalendarz, skala ocen.
- ilorazowy - dla cech mierzalnych ciągłych; niearbitralny lecz absolutny punkt zerowy np. długość, gęstość, pomiar temperatury w skali Kelwina, pomiar masy, wzrostu itp.
6. Określ asymetrię rozkładu na podstawie relacji między wartościami średniej arytmetycznej (x), medialnej (me) i modalnej (mo):
x ≈ me ≈ mo rozkład symetryczny
x > me > mo rozkład asymetryczny prawostronny
x < me < mo rozkład asymetryczny lewostronny
7. Określ asymetrię rozkładu na podstawie wartości współczynnika asymetrii, A:
A = -0,238 - asymetria lewostronna
A = 0,003 - gdy A = 0 rozkład jest symetryczny, a gdy większe od 0 to jest asymetria prawostronna to nie wiem jak jest tak blisko 0 to może symetryczny;p
A = 0, 568 - asymetria prawostronna
8. Kurtoza jest miarą spłaszczenia wykresu rozkładu.
K= 0,342 leptokurtyczny
K= 0,011 w przybliżeniu mezokurtyczny
K= -0,432 platokurtyczne
10 O czym informuje odchylenie standardowe?
Odchylenie standardowe informuje o zmienności badanej cechy.
12. Podaj przykład cechy o rozkładzie dwumianowym.
Zmienna losowa skokowa ,,liczba sukcesów w rozkładzie dwumianowym” przy rzucie monetą.?
12a. Które parametry trzeba znać, aby opisać rozkład dwumianowy.
- długość serii, n
- prawdopodobieństwo sukcesu.
12b. Kiedy mamy do czynienia z rozkładem dwumianowym.
Gdy:
- przeprowadza się n niezależnych, równoczesnych doświadczeń losowych, n>1;
- przestrzeń wyników pojedynczego doświadczenia jest dwuelementowa (0, 1):
- prawdopodobieństwo zaistnienia danego zdarzenia ( sukces) w pojedynczym doświadczeniu jest stałe i równe p:
- długość serii jest znana i wynosi n.
13. Podaj przykład cechy o rozkładzie Poissona.
- Które parametry trzeba znać, by opisać rozkład Poissona?
Rozkład Poissona jest określany przez jeden parametr λ, który ma interpretację wartości oczekiwanej. Parametr ten jest równy prawdopodobieństwu uzyskania sukcesu w pojedynczej próbie pomnożony przez liczbę prób.
- Kiedy mamy do czynienia z rozkładem Poissona?
Rozkład ma zastosowanie do obliczenia przybliżonej wartości prawdopodobieństwa w rozkładzie dwumianowym przy dużej liczbie prób i niskim prawdopodobieństwie sukcesu.
14. Czy w przypadku zmiennej skokowej można mówić o prawdopodobieństwie realizacji?
TAK… NIE … (zakreśl właściwą odpowiedź); DLACZEGO? …………………………..
Prawdopodobieństwo P odnosi się do poszczególnych realizacji zmiennej skokowej.
15. Czy w przypadku zmiennej ciągłej można mówić o prawdopodobieństwie realizacji?
TAK … NIE … (zakreśl właściwą odpowiedź); DLACZEGO? …………………………..
Tak, ale dlaczego nie potrafię wytłumaczyć
16. Czy każdy rozkład normalny jest rozkładem symetrycznym?
Nie , dlaczego...ponieważ rozkład normalny może mieć różną wartość średniej, mi i odchylenia standardowego a w rozkładzie symetrycznym mają zawsze taką samą wartość
17. Czy każdy rozkład symetryczny jest rozkładem normalnym?
Tak. Każdy rozkład symetryczny jest rozkładem normalnym
18. Jaki procent obserwacji mieści się w rozkładzie normalnym w przedziale:
μ ± 1б = 68,27%
μ ± 2б = 95,45%
μ ± 1,96б = 95,45%
19. O czym mówi reguła trzech sigm (odchyleń standardowych)?
Odchylenie standardowe jest miarą rozproszenia wyników wokół wartości średniej μ. Im wartość σ jest większa tym większy jest rozrzut wyników wokół średniej.
W przedziale [μ-1σ, μ+1σ] mieści się 68,26% wszystkich wyników.
W przedziale [μ-2σ, μ+2σ] mieści się 99,73% wszystkich wyników.
W przedziale [μ-3σ, μ+3σ] mieści się aż 99,73% wszystkich wyników.
Za pomocą tej reguły można ocenić prawdopodobieństwo tego, że określona realizacja zmiennej losowej wystąpi w przedziale [μ-3σ, μ+3σ] lub też znajdzie się poza nim. W pierwszym przypadku prawdopodobieństwo wynosi 0,9973, w drugim tylko 0,0027. Czyli jest praktycznie niemożliwe, żeby wylosowana wartość trafiła poza granice tego przedziału.
Ta reguła jest wykorzystywana do ustalania wyników nietypowych.
20. Kiedy mamy do czynienia z rozkładem normalnym?
Z rozkładem normalnym mamy do czynienia wówczas gdy na zmienną oddziałuje wiele niezależnych (addytywnych) czynników, z których każdy ma niewielki, mało znaczący wpływ na tą zmianę.
- Które parametry trzeba znać, by opisać rozkład normalny?
By obliczy rozkład normalny należy znać dwa parametry: µ i q
Nadzieja matematyczna (średnia)=µ
Wariancja = σ²
Odchylenie standardowe =σ
- Podaj symboliczny zapis rozkładu normalnego N(σ,µ)
- Podaj symboliczny zapis rozkładu normalnego standaryzowanego. N (0,1)
- Podaj symboliczny zapis rozkładu estymatora. N﴾µ,σ ⁄ √n)
21. Na czym polega różnica między rozkładem w próbie i rozkładem z próby?
Rozkład w próbie to rozkład cechy skonstruowany na podstawie próby
danych; jest to rozkład empiryczny.
Rozkład z próby (z prób) to rozkład estymatora (np. rozkład wielu średnich
arytmetycznych obliczonych dla wielu równolicznych prób pobranych z tej
samej populacji statystycznej); jest to rozkład teoretyczny
22. Co to jest i o czym informuje błąd standardowy?
Błąd standardowy - jest miarą zmienności estymatora. Mówi jak szeroko wartości estymatora są rozrzucone wokół jego średniej. Im mniejsza wartość błędu standardowego tym wartości estymatora są bardziej skupione wokół jego średniej.
Pyt. 24
Podaj przykład doświadczenia założonego według metody zmiennych (prób) niepołączonych.
W metodzie zmiennych niepołączonych zakłada się, że materiał doświadczalny jest jednorodny - że jednostki eksperymentalne są podobne do siebie w tym sensie, że na ten sam zabieg reagują podobnie, a ewentualne różnice są dziełem przypadku.
W tej metodzie, różne zabiegi przeprowadza się na grupach (próbach) różnych jednostek eksperymentalnych, a wyniki pomiarów nie są skorelowane. Kontrolę stanowi próba jednostek, wobec których stosuje się zabieg o natężeniu zero.
Uogólnieniem metody zmiennych niepołączonych na więcej niż dwie próby jest schemat kompletnej randomizacji (schemat całkowicie losowy).
PRZYKŁAD 1:
Siedemnaście jednakowych wazonów, wypełnionych jednakową glebą, do której wysiano jednakową liczbę ziarniaków tej samej odmiany żyta, podzielono losowo na dwie grupy (próby) złożone, odpowiednio z 8 i 9 wazonów (jednostek eksperymentalnych). Wobec tych prób zastosowano 2 różne zabiegi, odpowiadające dwóm poziomom badanego czynnika.
PRZYKŁAD 2:
Badano efektywność 2 metod nauczania na tym samym kursie (materiał jednorodny ze względu na przeprowadzoną wstępną selekcję słuchaczy). Wszystkich słuchaczy uczestniczących w kursie, ponumerowano i potem jedną z ich części losowo przyporządkowano wykładowcy stosującemu metodę A, a drugą część wykładowcy stosującemu metodę B.
26. podaj przykład doświadczenia z pomiarami powtarzanymi.
Eksperyment wazonowy- badamy wpływ nawożenia azotowego (1 czynnik) na plon żyta. Jednostką eksperymentalną jest 1 wazon z 10 roślinami i wobec niego stosujemy nawożenie. Uzyskujemy 1 wynik. Identyczny eksperyment przeprowadzamy w następnym roku=powtórzenie.
( doświadczenie powtarzane- to samo dośw. Wykonywane w kolejnych latachlub w różnych miejscowościach).
27. Scharakteryzuj sposoby weryfikacji hipotez badawczych.
1. Sformułowanie hipotezy zerowej (H0) oraz odpowiadającej jej hipotezy alternatywnej (H1)
2. Dobranie odpowiedniego dla hipotezy zerowej testu i obliczenie jego wartości na podstawie danych pochodzących z próby
3. Przyjęcie odpowiedniego poziomu istotności
4. Przy ustalonym poziomie istotności znajdujemy obszary krytyczne i w oparciu o nie podejmujemy decyzję o odrzuceniu lub nie hipotezy zerowej
28. Który sposób weryfikacji hipotezy stosowany jest w statystyce? ………………………….
W statystyce stosuje się falsyfikację hipotez. Aby można było to zrobić, weryfikowana hipoteza statystyczna powinna być sformułowana w postaci hipotezy, która stwierdza, że nie ma różnicy między porównywanymi próbami. Taką hipotezę o braku różnicy nazywa się hipotezą zerową i oznacza symbolem H0.
HIPOTEZĘ ZEROWĄ STAWIA SIĘ PO TO, ABY JĄ OBALIĆ!
29. Kiedy można stosować testy parametryczne?
Można je stosować gdy znany jest rozkład badanej cechy (określonej w hipotezie parametrycznej). Służy do weryfikowania hipotezy parametrycznej
30. Sformułuj statystyczne hipotezy parametryczne dla testu t Studenta dla dwóch prób niezależnych:
- hipoteza zerowa:
Ho: mi1 =mi2
- hipoteza alternatywna:
H1: mi1 nie równa się mi2
--- bezkierunkowa dwustronna:
--- kierunkowa jednostronna, lewostronna:
H1:mi1 <mi2
--- kierunkowa jednostronna, prawostronna:
H1: mi1>mi2
32. Kiedy stosuje się testy nieparametryczne?
Test nieparametryczny stosuje się aby zweryfikować hipotezę nieparametryczną, która dotyczy rozkładu badanej cechy. Najczęściej hipoteza ta głosi, że rozkład ten jest rozkładem normalnym, dwumianowym, Poissona, równomiernym lub, że rozkłady są jednorodne.
Jednym z najczęściej stosowanych testów nieparametrycznych jest test chi-kwadrat.
33. Podaj przykład hipotezy nieparametrycznej, zerowej i alternatywnej, dla testu: (1) istotności (np. test U Manna-Whitneya), (2) zgodności (np. test chi-kwadrat), (3) jednorodności (np. test chi-kwadrat).
(1) H0: Obie próby zostały wylosowane z tej samej populacji.
H1: Obie próby zostały wylosowane z różnych populacji.
(2) H0: Prawdopodobieństwo wyklucia się z jaja kury lub koguta jest takie samo.
H1: Prawdopodobieństwo wyklucia się z jaja kury lub koguta nie jest takie samo.
(3) H0: Frakcje roślin, reprezentujące dany typ pokroju (prosty, rozłożysty, krzaczasty), są takie same w porównywanych próbach.
H1: Frakcje roślin, reprezentujące dany typ pokroju (prosty, rozłożysty, krzaczasty), nie są takie same w porównywanych próbach.
34. Na które pytania trzeba odpowiedzieć, by wybrać właściwy test statystyczny?
1 Ile prób będzie porównywanych?
2. Jaka skale zastosować przy pomiarach?
3. Czy cecha populacji ma rozkład normalny czy nie?
4.Czy mamy do czynienia z zmiennymi zależnymi czy nie zależnymi?
5. Jaka hipotezę badawcza będziemy weryfikować?
35. Jakie warunki muszą być spełnione, by można było zastosować test t Studenta dla dwóch prób niezależnych?
- materiał doświadczalny jest jednorodny tzn., że jednostki eksperymentalne są podobne do siebie w tym sensie, że na ten sam zabieg reagują podobnie, a ewentualne różnice są dziełem przypadku
- wyniki pomiarów nie są skorelowane (różne zabiegi można przyporządkować różnym jednostkom eksperymentalnym, a kontrolę stanowi próba jednostek, wobec których stosuje się zabieg o natężeniu zero)
36. Czy wówczas, gdy pobierzemy dużą próbę możemy stosować test parametryczny nawet wtedy, gdy rozkład cechy w populacji nie jest normalny? TAK … NIE … (zakreśl właściwą odpowiedź); DLACZEGO? …………
TAK. Gdyż w przypadku wykonaniu wielu prób ich rozkład normalizuje się (zbliża się do normalnego).
Pyt.38
Wymień nieparametryczne alternatywy testu t-Studenta dla dwóch prób zależnych.
Test znaków.
Test kolejności par Wilcoxona
40. sformułuj hipotezę zerową i alternatywną dla parametrycznej ANOVA.
H0: Porównywane populacje nie różnią się między sobą ze względu na wartość średnią.
H1: Przynajmniej dwie populacje różnią się ze względu na wartość średnią (Przynajmniej jedna para porównywanych populacji różni się istotnie).
41. Po przeprowadzeniu ANOVA, odrzucono H0 i przyjęto H1. Jak należy interpretować ten wynik?
H0 - porównywane populacje nie różnią się ze względu na wartość średnią; próby zostały wylosowane z tej samej populacji
H1 - przynajmniej 2 populacje różnią się ze względu na wartość średnią
42. Kiedy należy stosować testy wielokrotnych porównań?
Testy wielokrotnych porównań wykonujemy wtedy, gdy na podstawie analizy
wariancji stwierdzimy, iż czynnik wpływa istotnie na badaną cechę.
43. Który z testów post hoc jest najbardziej polecany do porównań wielu par średnich?
Schefego lub Turkeya ale nie jestem pewna
44. Czy można wykorzystywać do wielokrotnych porównań testy dla dwóch prób, np. test t Studenta dla dwóch prób niezależnych lub jego nieparametryczną alternatywę, test U Manna-Whitneya? NIE ( nie jestem pewna :/ )
46. Wymień nieparametryczną wersje ANOVA dla jednoczynnikowej analizy wariancji
z powtarzanymi pomiarami - klasyfikacja podwójna (próby połączone):
1) dla skali porządkowej - test Anova rang Kruskala - Wallisa
2) dla skali nominalnej (zmienna dychotomiczna) - dwukierunkowa analiza wariancji Friedmana
47. Jakie trzy rodzaje hipotez zerowych można weryfikować za pomocą testu chi-kwadrat?
1. hipotezę zerową testu zgodności rozkładu empirycznego z rozkładem teoretycznym
2. hipotezę zerową testu zgodności dwu lub więcej rozkładów empirycznych (test jednorodności)
3. hipotezę zerową testu niezależności cech
48. Jakie warunki muszą być spełnione, by można było zastosować test chi-kwadrat?
Test chi-kwadrat jest testem nieparametrycznym.
Stosowanie testu wymaga, by:
1)pomiar wykonany został w skali nominalnej
2)liczebność próby była na tyle duża, aby w każdej podklasie oczekiwana liczebność była równa lub większa niż 5 - jeżeli liczebności te sa mniejsze, należy sumować sąsiednie podklasy tak, by warunek ten był spełniony.
49. Za pomocą której metody można ustalić kształt związku między cechami oraz siłę tego związku?
Kształt i siłę związku między zmiennymi badają dwie różne metody statystyczne, odpowiednio regresja i korelacja.
50. Kiedy można liczyć współczynnik korelacji liniowej r Pearsona
Współczynnik korelacji r Pearsona można liczyć tylko w przypadku gdy: skrajne wyniki nie są mocno odchylone od średniej i tylko dla prób o rozkładzie normalnym.
Pyt.52
Wymień najczęściej stosowane współczynniki korelacji rang:
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Kendalla (
);
Współczynnik konkordancji Kendalla (
);
54. wymień najczęściej stosowane współczynniki siły związku.
- w. Pearsona,
- Cramera,
- Czuprowa,
- Yule'a,
- Bykowskiego.
Współczynnik siły związku ( wsp. asocjacji lub zbieżności). Służą do pomiaru korelacji cech jakościowych, zgrupowanych w postaci tzw. Cztero- lub wielopolowej tabeli kontyngencji.
55. Czy istotna korelacja między cechami świadczy o istnieniu związku przyczynowo-skutkowego? TAK … NIE … (zakreśl właściwą odpowiedź)
Wartość współczynnika korelacji mieści się w przedziale domkniętym [-1, 1]. Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi
56. Na czym polega estymacja punktowa?
Estymacja punktowa to grupa metod statystycznych, służąca do punktowego oszacowania wartości szukanego parametru rozkładu. Punktowe oszacowanie oznacza tutaj, że uzyskujemy konkretną wartość liczbową, nie zaś przedział liczbowy, jak dzieje się to w przypadku estymacji przedziałowej.
Metody estymacji punktowej sprowadzają się do wyznaczenia odpowiednią metodą estymatora szacowanego parametru.
57 Estymacja przedziałowa to grupa metod statystycznych służących do oszacowania parametrów rozkładu zmiennej losowej w populacji generalnej. Wynikiem oszacowania nie jest tutaj ocena punktowa, tak jak w przypadku metod estymacji punktowej. Można zauważyć, że w przypadku rozkładu ciągłego, prawdopodobieństwo, że ocena punktowa parametru przyjmie wartość równą wartości szacowanego parametru wynosi zero. W metodach estymacji przedziałowej oceną parametru nie jest konkretna wartość, ale pewien przedział, do którego z określonym prawdopodobieństwem należy szacowana wartość parametru.
Podstawowym pojęciem estymacji przedziałowej jest przedział ufności.
58. Co to jest błąd I rodzaju? to błąd polegający na odrzuceniu PRAWDZIWEJ hipotezy zerowej i przyjęciu FAŁSZYWEJ hipotezy alternatywnej
59. Co to jest test liberalny?
Test liberalny- test konserwatywny - w odniesieniu do błędu pierwszego i drugiego. W przypadku błędu pierwszego rodzaju, test liberalny odrzuca hipotezę zerową, częściej niż wynika to z przyjętego poziomu istotności L. W tej sytuacji częściej będziemy orzekali różnicę istotną, a więc, faktycznie, prawdopodobieństwo popełnienia błędu pierwszego rodzaju będzie większe niż założone L. Przy L= 0,05, błąd ten będzie większy, niż 5%.
60. Co to jest test konserwatywny?
Test konserwatywny jest to test którego używa się w odniesieniu do błędu drugiego
i pierwszego rodzaju. Rzadziej odrzuca hipotezę zerową aniżeli test liberalny, więc
w rzeczywistości prawdopodobieństwo popełnienia błędu pierwszego rodzaju jest małe.
Dla poziomu istotności ά = 0,05 będzie ono mniejsze niż 5%. W kontekście błędu drugiego rodzaju prawdopodobieństwo popełnienia tego błędu jest mniejsze, gdy stosujemy test konserwatywny, a większe gdy stosujemy test liberalny.
W efekcie : test konserwatywny ma większą moc.