PODSTAWY STATYSTYKI
Rozkład brzegowy zmiennej losowej X to rozkład prawdopodobieństwa, z jakimi zmienna X przyjmuje swoje wartości bez względu na to jakie wartości przyjmuje zmienna losowa Y.
Błąd przypadkowy możemy zaniedbać jeśli: jest dużo mniejszy od błędu systematycznego
Błędem bezwzględnym nazywamy różnicę pomiędzy wartością rzeczywistą a wynikiem pomiaru.
Populacja to : skończony lub nieskończony zbiór elementów (np. doświadczeń) wszystkich możliwych, z którego pobierana jest próba.
Wszystkie dane - wyniki pomiarów można uważać za jeden zbiór w przypadku, gdy wystąpienie każdej danej jest jednakowo prawdopodobne. Tworzą więc one: szereg szczegółowy, nieuporządkowany
Odchylenie standardowe zmiennej losowej X opisuje: „szerokość" rozkładu
Czy na podstawie otrzymanego histogramu zazwyczaj można rozpoznać typ rozkładu: TAK
Współczynnik koncentracji (kurtoza) rozkładu zmiennej losowej X używa się najczęściej zamiast czwartego momentu centralnego
Dystrybuantą dwuwymiarowej zmiennej losowej Z nazywamy funkcję F(x,y):
Związek pomiędzy błędem względnym i bezwzględnym to:
Aby sprawdzić niezależność dwóch zmiennych losowych X i Y wystarczy sprawdzić, czy zachodzi związek
Jeżeli jest prawdziwy to zmienne są: niezależne
Skończony zbiór (elementów) doświadczeń wykonanych w celu określenia kształtu lub parametrów poszukiwanego rozkładu to: próba
Funkcją gęstości prawdopodobieństwa ciągłej zmiennej losowej X, nazywamy funkcję f(x) wyrażającą się wzorem:
Zmienną losową jednowymiarową nazywa się funkcję rzeczywistą X = x(), taką, że należy do zbioru zdarzeń elementarnych. Funkcja ta przyporządkowuje wartości liczbowe zdarzeniom losowym. Musi spełniać warunek, że dla każdych dwóch liczb a i b takich, że a < b istnieje określone prawdopodobieństwo, że zmienna X przybierze wartość z przedziału (a, b).
Dla jakich typów zmiennych losowych budowane są szeregi rozdzielcze: zmiennych losowych nieciągłych, zmiennych losowych skokowych, zmiennych losowych dyskretnych, zmiennych losowych ciągłych
Współczynnik asymetrii rozkładu zmiennej losowej X to inaczej: skośność
Dwuwymiarową zmienną losową Z (ciągłą) nazywamy wektor Z (wektor losowy) o współrzędnych Z(X,Y) taki, że dla dowolnych a<b oraz c<d istnieje funkcja f(x,y), taka, że prawdopodobieństwo, iż zmienna losowa X przyjmie wartości z przedziału (a,b) i równocześnie zmienna losowa Y przyjmie wartości z przedziału (c,d).
Należy dopasować pojęcie do definicji:
Błąd gruby - błąd wynikający z ewidentnej pomyłki eksperymentatora lub wyraźnej niesprawności sprzętu
Błąd systematyczny - błąd polegający na systematycznym odchyleniu wyniku pomiaru względem rzeczywistej wartości wielkości mierzonej
Błąd przypadkowy - (błąd statystyczny) jest miarą rozrzutu otrzymywanych wyników wokół wartości najbardziej prawdopodobnej. Błąd taki wynika albo z metody wykonywania albo z samej natury
Błąd procentowy to błąd względny pomnożony przez: 100%
Przed przystąpieniem do badań statystycznych należy pozbawić dane błędów: grubych
Werfikując hipotezę H0 testem t-Studenta (test jednostronny) otrzymaliśmy wyniki t = 3 dla 6 pomiarów. Dla jakiego najmniejszego poziomu istotności hipotezę H0 należy przyjąć: 0,01
Najprostszym sposobem weryfikacji losowości próby jest algorytm realizowany w siedmiu krokach. Po wyznaczeniu jakiej wartości następuje przekształcenie ciągu wyników w ciąg symboli: Mediany
Dopasuj definicję do odpowiedniego typu zmiennej losowej:
Zmienna losowa dyskretna - to taka zmienna losowa, która może przyjmować wartości wyrażające się tylko niektórymi liczbami rzeczywistymi z określonego przedziału, najczęściej liczbami całkowitymi nieujemnymi.
Zmienna losowa ciągła - jest jeśli może przyjmować wartości wyrażające się dowolnymi liczbami rzeczywistymi z określonych przedziałów.
Miary statystyczne dla szeregów szczegółowych. [dopasować]:
Średnia arytmetyczna
Mediana (n nieparzyste)
Mediana (n parzyste)
Współczynnik spłaszczenia (eksces),rozkładu zmiennej losowej X jest opisem jej płaskości ("szczytowości").
Dopasuj:
kwantyl x0.25 - jest nazywany pierwszym (dolnym) kwartylem
kwantyl x0.5 - jest po prostu medianą (ale nazywany też bywa drugim kwartylem)
kwantyl x0.75 - to oczywiście trzeci (albo górny) kwartyl rozkładu zmiennej losowej X
Najbardziej wiarygodne estymatory dla p i q mają postać:
Błąd przypadkowy: nie da się wyeliminować
Pewne dane pomiarowe będą się pojawiać częściej, a inne rzadziej, a więc będą się pojawiać z określonym prawdopodobieństwem. Takie dane można przedstawić w postaci: szeregu rozdzielczego
Z histogramu można odczytać częstość względną pojawiania się poszczególnych wartości zmiennej losowej.
Wariancją jest nazywany: Drugi moment centralny
Błąd przypadkowy to inaczej błąd: statystyczny
Błędem względnym nazywamy stosunek błędu bezwzględnego do rzeczywistej wartości wielkości mierzonej.
Miary statystyczne dla szeregów rozdzielczych:
Modalna (najczęstsza)
Odchylenie standardowe
Kurtoza
Co rozpatruje się jako zdarzenia losowe?: podzbiory przestrzeni zdarzeń elementarnych
Jeżeli zmienna losowa może przyjmować wartości dążące do - lub + nieskończoności to ustalenie rozstępu jest niemożliwe.
Histogram jest obrazem graficznym: szeregu rozdzielczego
Najdokładniejszym i jednoznacznym sposobem opisu zmiennej losowej X jest podanie jej: funkcji gęstości prawdopodobieństwa, dystrybuanty
Modą albo wartością modalną rozkładu zmiennej losowej X nazywamy wartość zmiennej losowej, dla której rozkład prawdopodobieństwa przyjmuje lokalne: maksimum
Przed przystąpieniem do badań statystycznych należy sprawdzić czy próba jest: losowa
Rozstępem zmiennej losowej X nazywamy różnicę pomiędzy największą a najmniejszą wartością przyjmowaną przez zmienną losową
HIPOTEZY STATYSTYCZNE
Jeżeli odrzucamy hipotezę prawdziwą, to popełniamy błąd: I rodzaju
Jeżeli wartość statystyki nie znajduje się w obszarze krytycznym, to: brak podstaw do odrzucenia hipotezy zerowej
Weryfikując hipotezę H0 testem t-Studenta (test jednostronny) otrzymaliśmy wyniki t = 3 dla 6 pomiarów. Dla jakiego najmniejszego poziomu istotności hipotezę H0 należy przyjąć: 0,01
Producent proszku do prania twierdzi, że zróżnicowanie wagi mierzonej wariancją statystyki wynosi 2. W celu sprawdzenia tej opinii wylosowano 6 produktów z dostawy. Wiedząc, że S2 = 2, obliczono wartość statystyki, która wynosi: 6
Stwierdzenie „Test ten może być stosowany tylko w przypadku ciągłej dystrybuanty empirycznej” dotyczy testu: Kołmogorowa
Wartości parametrów statystycznych populacji weryfikuje się za pomocą hipotez parametrycznych
Hipotezy nieparametryczne dotyczą postaci rozkładu zmiennej lub losowości próby.
Do grupy testów parametrycznych nie należy test: Kołmogorowa, chi-kwadrat,
Do grupy testów nieparametrycznych nie należy test: Bartletta, Fishera
Weryfikując hipotezę za pomocą testu χ 2 otrzymaliśmy następujące parametry χ 2 =6,5, r=4, k=1. Dla jakiego najmniejszego poziomu istotności należy przyjąć H0: 0,02 (sprawdzamy w tablicach szukając dla danego k wartości bliskiej χ 2 , często ma tą samą pierwszą cyfrę, patrzymy jaki jej odpowiada poziom istotności i wybieramy poziom jeden wcześniej)
Werfikująć hipotezę za pomocą testu χ 2 otrzymaliśmy następujące parametry χ 2 =5, r=4, k=1. Dla jakiego najmniejszego poziomu istotności należy przyjąć H0: 0,05
Test zgodności χ2 stosujemy: jeśli rozkład hipotetyczny (sprecyzowany w H0) może być zarówno rozkładu ciągłego jak i skokowego, jeśli dane pochodzą z dużej n-elementowej próby wylosowanej w sposób niezależny
Badana cecha X populacji generalnej ma rozkład N(μ,σ) o obu parametrach nieznanych. Weryfikujemy hipotezę H0: μ1=μ0 wobec H1: μ1 ≠ μ0. Do weryfikacji tej hipotezy należy zastosować test oparty na statystyce: t
Mając dane
oraz n1=8,n2=9 weryfikujemy hipotezę testem Fishera. H0:σ12 = σ22; H1: σ12 > σ22. Dla α=0,05. Wyniku obliczeń podejmujemy decyzję, że: nie ma podstaw do odrzucenia H0
Dwustronny obszar krytyczny stosujemy w przypadku, gdy: H0: m=m0; H1: m1¹m0,
Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona prawdziwa nie określamy symbolem: β, 1-β, 1-α
Producent proszku do prania twierdzi, że zróżnicowanie wagi mierzonej wariancją statystyki wynosi 2. W celu sprawdzenia tej opinii wylosowano 6 produktów z dostawy. Wiedząc, że S2 = 6, obliczono wartość statystyki, która wynosi: 18
Do odpowiednich modeli dopasuj wzory ( ???? prawdopodobnie c i d mają być odwrotnie)
Test wartości przeciętnej przy znanej σ2
Test wartości przeciętnej przy nie znanej σ2
Test dla wariancji rozkładu przy n > 50
Test dla wariancji rozkładu przy n ≤ 50
Jeżeli przyjmujemy hipotezę, która w rzeczywistości jest fałszywa, to popełniamy błąd: II rodzaju
Jeżeli wartość statystyki trafi do obszaru krytycznego, to: hipotezę zerową należy odrzucić,
Z populacji, w której badana cecha ma rozkład N(μ,4) wylosowano próbę złożoną z 16 obserwacji i wyznaczono xśr = 1. Zweryfikować hipotezę H0: μ0 = 2 przy H1: μ1 < 2. Wiedząc, że zbiór krytyczny wynosi Z: (-∞, -1,64]. Zaznacz, które stwierdzenie jest słuszne: nie ma podstaw do odrzucenia H0, (patrz pytanie wyżej i pytanie nr 2)
Test Bartletta jest testem na jednorodność wariancji. Stosujemy go dla sprawdzenia założenia o jednakowych wariancjach we wszystkich badanych grupach, przy stosowaniu testu analizy wariancji dla hipotezy o równości wielu średnich.
Połącz wyrażenia w logiczną całość:
Test t-Studenta zmiennych zależnych - służy do porównywania wyników parami, gdy mamy dwie serie wyników dla tych samych elementów w różnym czasie.
Test χ2 - służy do weryfikacji, że obserwowana cecha X w zbiorze generalnej ma określony typ rozkładu np. dwumianowy.
Test t-Studenta zmiennych niezależnych - służy do sprawdzenia, czy dwie próby pochodzą ze zbiorowości o tej samej wartości oczekiwanej.
Badana cecha X populacji generalnej ma rozkład N(μ,σ) przy nieznanym µ i znanym σ. Weryfikujemy hipotezę H0: μ1=μ0 wobec H1: μ1 ≠ μ0. Do weryfikacji tej hipotezy należy zastosować test oparty na statystyce: u
Mając dane: współczynnik determinacji R2 = 0,5 , n = 22 oraz dwie zmienne objaśniające (k = 2). Otrzymujemy wynik test F= 20 liczone ze wzoru
Mając dane: współczynnik determinacji R2 = 0,2 , n = 12 oraz dwie zmienne objaśniające (k = 2). Otrzymujemy wynik test F= 2,5
Które zbiory krytyczne są prawidłowe dla hipotezy dotyczącej wariancji rozkładu i n≥50.:
H1: σ2 = σ21 > σ20 - Z:[u(1-α),+∞)
H1: σ2 = σ21 ≠ σ20 - Z: (-∞,-u(1-α/2)] U [u(1-α/2),∞)
Weryfikując hipotezę za pomocą testu χ 2 otrzymaliśmy następujące parametry χ 2 =5, r=4, k=1. Dla jakiego najmniejszego poziomu istotności należy przyjąć H0: 0,05 (na podstawie tablic)
Z populacji, w której badana cecha ma rozkład N(μ,4) wylosowano próbę złożoną z 16 obserwacji i wyznaczono xśr = 1. Zweryfikować hipotezę H0: μ0 = 2 przy H1: μ1 < 2. Wiedząc, że zbiór krytyczny wynosi Z: (-∞, -1,64]. Zaznacz, które stwierdzenie jest słuszne: nie ma podstaw do odrzucenia H0,
W teście zgodności Kołmogorowa wykorzystuje się statystykę: lambda (Λ lub λ)
Które zbiory krytyczne są prawidłowe dla hipotezy dotyczącej wariancji rozkładu i n<50.
H1: σ2 = σ21 > σ20 - Z:[χ2(1-α, n-1),∞)
H1: σ2 = σ21 ≠ σ20 - Z: (0,χ2(α/2,n-1)] U [χ2(1-α/2,n-1),∞)
REGRESJA MATEMATYCZNA
Zależność w której jednej wartości zmiennej niezależnej może odpowiadać kilka różnych wartości zmiennej zależnej nazywamy: zależnością regresyjną
Zależność w której jednej wartości zmiennej niezależnej odpowiada jedna i tylko jedna wartość zmiennej zależnej nazywamy: zależnością liniową
Algorytm obliczania parametrów a i b. Punkt doświadczalnie zmierzony (xd , yd) i odpowiadający mu punkt teoretyczny (xt , yt) mają: takie same wartości współrzędnej x
Podczas wyznaczani współczynników równania regresji liniowej jako pierwszy wyznaczamy współczynnik: b
Właściwą miarą siły powiązania dwóch badanych zmiennych (masy próbki i czasu) jest współczynnik korelacji prostoliniowej r
Literą r oznaczamy: współczynnik korelacji
Prostą o równaniu y= a+bx nazywa się: prostą regresji zmiennej y względnej x.
Czy wzór na wyznaczenie współczynnika a linii regresji jest prawidłowy ?
: nie
Odmiany regresji krokowej: regresja postępująca, regresja wsteczna, (w egzaminatorze jest jeszcze addytywna i ona chyba też)
Odmianą regresji krokowej nie jest: regresja aktywna.
Dopasuj kroki. Regresja krokowa:
Krok 1. - Oceniane są wszystkie zmienne niezależne i wybrana, oraz wprowadzona do równania zostaje ta, która zapewnia największą wartość F (F - parametr służący do testowania hipotezy o istotności równania regresji wielokrotnej)
Krok 2. - W tym i w każdym następnym kroku jakaś zmienna jest dodawana do modelu, program sprawdza zmienne już do modelu włączone i określa, czy któraś z nich nie powinna być usunięta z równania w oparciu o wyliczoną wartość F
Krok 3. - W tym kroku następuje zakończenie procedury regresyjnej i wyprowadzenie równania regresji oraz jego ocena.
Co oznacza jednostka G ? : oznacza funkcję Gamma.
W myśl metody najmniejszych kwadratów żądamy by: Σ(rzędna empiryczna - rzędna obliczona)2=minimum,
Rozkład normalny jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji, gdy: Występuje silna tendencja do przyjmowania wartości położonych blisko środka rozkładu, Liczność odchyleń gwałtownie spada wraz ze wzrostem ich wielkości.
Linearyzacja funkcji. Połącz wyrażenia w logiczną całość:
:
:
:
Rozkład F Snedecora jest wykorzystywany najpowszechniej do oceny wariancji
Dopasuj modele regresyjne do odpowiednich wzorów:
Model kwadratowy :
Model liniowy z interakcjami (m=2) : y = b0+b1x1+b2x2+b12x1x2+e
Model liniowy : h=β0+β1x1+β2x2+...+βmxm
Korzystając z zamieszczonej tabeli, sprawdź które z równań regresji liniowej jest prawidłowe (najbardziej zbliżone ze względu na stosowane przybliżenia). (W tabeli podane m.in. xi=40 i yi=106,48 ; w podanych wzorach funkcji pod x wstawiamy wartość xi i obliczmy y które ma być jak najbliższe wartości yi) : y=100,8+0,1257x
Rozkład t-Studenta jest symetryczny względem zera a jego ogólny kształt jest podobny do kształtu standardowego rozkładu normalnego
Wyznaczając zależność regresyjną (liniową) y=a+bx i x=a+by uzyskujemy taki sam przebieg funkcji ? : Nie
ANALIZA WARIANCJI
W modelu teoretycznym jednoczynnikowej analizy wariancji xij = µ + ηi + eij odchylenie losowe oznaczone jest przez: eij,
Replikacja to: powtórzenie
Interakcja to: Współdziałanie,
W jednoczynnikowej analizie wariancji każda obserwacja w zbiorowości generalnej jest sumą: Średniej ogólnej µ, Efektu ηi. Składnika losowego eij, (zwrócić uwagę na indeksy dolne nie może być nich trzeciego składnika np. p czyli eipj )
W dwuczynnikowej analizie wariancji każda obserwacja w zbiorowości generalnej jest sumą: Średniej ogólnej µ, Efektów
Hipotezę H0: ση2=0 nie odrzuca się jeśli: F0≤Fgr;k-1;k(n-1);α
Hipotezę zerową H0: ση2=0 odrzuca się jeśli: F0>Fgr;k-1;k(n-1);α
Przedstawione wyrażenie
przedstawia: Średni kwadrat dla obiektów.
Przyporządkuj objaśnienia do odpowiadającego mu wzoru obliczeniowego
: Suma kwadratów sum obserwacji w każdym obiekcie.
: Kwadrat sumy wszystkich obserwacji,
: Suma sum kwadratów wszystkich obserwacji,
W dwuczynnikowej analizie wariancji wartości oczekiwane średnich kwadratów dla kolumn oblicza się z wzoru:
W dwuczynnikowej analizie wariancji wartości oczekiwane średnich kwadratów dla rzędów oblicza się z wzoru:
Wzór stosowany do obliczania ilości stopni swobody dla zmienności wewnątrz-obiektowej przy jednakowej ilości obserwacji w każdym obiekcie: k(n-1),
Wzór stosowany do obliczania ilości stopni swobody dla zmienności między-obiektowej przy jednakowej ilości obserwacji w każdym obiekcie: k-1,
Wzór stosowany do obliczania ilości stopni swobody dla zmienności ogólnej przy jednakowej ilości obserwacji w każdym obiekcie: nk-1.
W modelu teoretycznym dwuczynnikowej analizy wariancji
odchylenie losowe oznaczone jest przez: eipj,
Poziom istotności oznacza się przez: α (alfa)
Suma kwadratów wewnątrz obiektów wyraża się wzorem:
Przedstawione wyrażenie
przedstawia: Średni kwadrat dla błędu,
Średnie kwadratów oblicza się: Dzieląc sumy kwadratów przez odpowiadające im liczbę stopni swobody,
Który z poniższych wzorów przedstawia sumę kwadratów sum obserwacji w każdym obiekcie:
Interakcja polega na tym, że rezultat oddziaływania na zmienną zależną zmiany poziomu jednego czynnika klasyfikującego zależy od poziomu drugiego czynnika.
Ogólna suma kwadratów wyraża się wzorem:
W modelu teoretycznym jednoczynnikowej analizy wariancji xij = µ + ηi + eij średnia ogólna oznaczona jest przez: µ.
Przyporządkuj wzory do ich określeń:
: Model teoretyczny dwuczynnikowej analizy wariancji,
: Suma kwadratów dla obiektów przy jednakowej ilości powtórzeń w każdym obiekcie.
: Suma kwadratów dla obiektów przy niejednakowej ilości powtórzeń w każdym obiekcie,
: Model teoretyczny jednoczynnikowej analizy wariancji,
Przyjmując jako definicję modelu teoretycznego dwuczynnikowej analizy wariancji zależność
przyporządkuj odpowiadające sobie oznaczenia i określenia:
: Składnik losowy.
: Efekty kolumn, rzędów, interakcji,
: Obserwacja,
: Średnia ogólna,
Przyporządkuj wzory do ich określeń:
: Suma kr kwadratów sumy n obserwacji w i-tej kolumny p-tego rzędu,
: Suma kwadratów wszystkich (tj. krn) obserwacji,
: Suma r kwadratów sumy kn obserwacji w p-tym rzędzie,
: Suma k kwadratów sumy rn obserwacji w i-tej kolumnie,
: Kwadrat sumy wszystkich (tj. krn) obserwacji.