STATA 2

1)Korelacja jest to związek, zależność między zmiennymi mierzalnymi.Jeśli obie wartości się zmieniają w tym samym kierunku to rośnie wprost proporcjonalnie. Jeśli jedna rośnie, druga maleje to odwrotnie proporcjonalnie.Im większy zakres wspólny dla zależności tym silniejsza siła związku. Miarą zmienności zakresu dwóch zmiennych jest współczynnik determinacji. Tą korelacją ujawniamy jedynie zależności liniowe. "0" w wyniku oznacza brak zależności w linii prostej a nie brak zależności w ogóle. Jest niezmiennikiem przekształceń liniowych.
2) Współczynnik korelacji liniowej r-Pearsona przyjmuje wartości z przedziału <-1,1>

3) Wartość współczynnika korelacji r-Pearsona -1 należy uznać za korelację maksymalnie ujemną.
4) Wartość współczynnika korelacji r-Pearsona +1 należy uznać za maksymalnie dodatnią.
5) Ilość stopni swobody dla współczynnika korelacji r-Pearsona wynosi n-2
6) Kowariancja jest to współzależność, współzmienność. Kowariancja przyjmuje wartości <-1,1> Kowariancja Y z Y to wariancja Y. Wzorek.
7) Miary rozproszenia: rozstęp, wariancja i odchylenie standardowe.
rozstęp - v=xmax-xmin - po uciągleniu liczba jednostek, na której rozłożyły się wartości.
wariancja - przeciętna kwadratowa odległość pomiarów od średniej arytmetycznej
odchylenie standardowe - przeciętna odległość wyników od średniej arytmetycznej s=pierwiastek z s2

8. Co to jest współczynnik determinacji?

Współczynnik determinacji

Informuje o tym, jaka część zmienności zmiennej objaśnianej została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Można również powiedzieć, że współczynnik determinacji opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających. Współczynnik determinacji przyjmuje wartości z przedziału [0;1]. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R2 jest bliższa jedności.

Wartość współczynnika determinacji r2 stanowi informację o zakresie zmienności wspólnej obu zmiennych: ile całkowitej zmienności jednej zmiennej (Y) jest wyjaśniane przez zmienność drugiej zmiennej (X).

wyraża się on wzorem:

, (zamiast tego t powinno być i)

gdzie:

- rzeczywista wartość zmiennej Y w momencie t,

- wartość teoretyczna zmiennej objaśnianej (na podstawie modelu),

- średnia arytmetyczna empirycznych wartości zmiennej objaśnianej.

9. Jakie wartości przyjmuje współczynnik determinacji?

0  r2 1

10. Zinterpretuj wartość współczynnika determinacji między zmiennymi X i Y równą

0.81.

Oznacza to, że 0,81 x 100% = 81% całkowitej zmienności zmiennej Y wyjaśnia zmienność zmiennej X.

Niewyjaśnione zostało 1 – r2 = 1 – 0,81 = 0,19 a zatem zaledwie 1,9% całkowitej zmienności zmiennej Y stanowi zmienność niewyjaśnioną zmiennej X.

1 – r2 to współczynnik alienacji, który stanowi miarę tej części całkowitej zmienności zmiennej Y, której zmienność zmiennej X nie wyjaśnia.

11. Podaj przykład problemu badawczego i zaprojektuj proste badanie, którego wyniki

należałoby poddać analizie za pomocą współczynnika korelacji r-Pearsona.

12. Omów założenia których spełnienia wymaga stosowanie modelu regresji.

13. Przedstaw postać równania regresji prostej jednokrotnej.

Regresja jednokrotna: jeden predyktor przewidujemy wartości Y przy pomocy wartości X.

Y jest zmienną objaśnianą, zależną, kryterium.

X jest zmienną objaśniającą, niezależną, predyktorem.

Y jest definiowana jako funkcja od X. W szczególności – funkcja linowa, dana wzorem:

Y = βX + α

Na poziomie próby zależność tę szacujemy jako:

Y z daszkiem = bx + a

Graficznie, ilustracją tej funkcji będzie prosta regresji.

a - jest stałą, która mówi o „wysokości”, na jakiej prosta regresji przetnie oś Y. Innymi słowy

mówi o tym, ile będzie wynosiła wartość Y, jeżeli wartość X wyniesie zero (np. ile wyniesie

przewidywana średnia ocen przy motywacji równej zero lub ile wyniesie pensja, jeżeli osoba

zaczyna pierwszą pracę – czyli gdy jej doświadczenie zawodowe wynosi zero).

b - jest natomiast współczynnikiem kierunkowym, informuje nas o nachyleniu prostej regresji do

osi X i o tym, o ile zmieni się Y, jeżeli X zmieni się o jednostkę (np. o ile zmieni się nasza pensja,

gdy nasz staż pracy zwiększy się o rok).

Kiedy nasze równanie regresji będzie równaniem dokładnie przewidującym zmienną Y?

Kiedy wyniki prawdziwe będą równe wynikom przewidywanym z równania (y = y ). Dążymy do

tego, aby różnice pomiędzy wynikami prawdziwymi a przewidywanymi były jak najmniejsze.

Różnice te nazywamy resztą regresji.

$\sum_{\mathbf{i}\mathbf{=}\mathbf{1}}^{\mathbf{n}}{\mathbf{(}\mathbf{y}_{\mathbf{1}}\mathbf{-}\mathbf{\ }\mathbf{y}_{\mathbf{1}}\mathbf{z}\mathbf{\ }\mathbf{\text{daszkiem}}\mathbf{)}}$2 = min

Reszta regresji – ta część zmienności Y, która nie jest wyjaśniona przez X, czyli suma

kwadratowych odległości pomiędzy wynikami prawdziwymi a przewidywanymi na podstawie

równania regresji.

Aby zminimalizować ten błąd, musimy dopasować prostą regresji jak najlepiej do danych.

Musi być ona „środkiem ciężkości” tych danych, czyli musi być tak ułożona, aby odległości

pomiędzy prostą a wszystkimi wynikami były jak najmniejsze ( PROSTA NAJMNIEJSZYCH

KWADRATÓW).

Aby prosta była prosta najmniejszych kwadratów, należy szacować współczynniki a i b według

podanych wzorów:

b = rX,Y x $\frac{\mathbf{S}_{\mathbf{y}}}{\mathbf{S}_{\mathbf{x}}}$

a = y – b x x

14. Przedstaw postać równania regresji prostej wielokrotnej.

Założenia:

Zmienne X1, X2, … , Xk, mierzalne – mają wielowymiarowy rozkład normalny (spełnione jest wtedy założenie o średnich tych rozkładów leżących na jednej hiperpowierzchni (k – 1) wymiarowej.]

Szuka się:

X1 = β2X2 + β3X3 + … + βkXk + α,

Czyli

Oszacowanie: X1.23…k = b12.3…kX2 + b13.24…kX3 + … + a

(*) oszacowanie X1.23 = b12.3X2 + b13.2X3 + a

Rozwinięciem jest płaszczyzna w przestrzeni trójwymiarowej; (*) przedstawia równanie płasz. (płaszczyzny?)

a – wyraz wolny, „błąd”, odległość płaszczyzny od początku układu współrzędnych

b12.3

współczynniki kierunkowe odpowiednich prostych.

b13.2

~

b12.3 = $\frac{S_{1}}{S_{2}}$ x β12.3 β12.3 = $\frac{r_{12} - \ r_{13}\ x\ r_{23}}{1 - \ r_{23}^{2}}$

b13.2 = $\frac{S_{1}}{S_{3}}$ x β13.3 β13.2 = $\frac{r_{13} - \ r_{12}\ x\ r_{23}}{1 - \ r_{23}^{2}}$

a1.23 = x1 – b12.3 x x2 – b13.2 x x3

β – współczynnik korelacji semi – cząstkowej („pseudo – cząstkowej”)

(nie wiem czy to to. Jak coś to temat ogarnięty na kalkach 7-9 z tych nowych ;*)

15. Jaka jest definicja współczynnika korelacji cząstkowej i jakie przyjmuje on wartości?

Korelacja cząstkowa jest to korelacja między dwoma dowolnymi zmiennymi (mierzalnymi), gdy wpływ pozostałych zmiennych (mierzalnych) jest kontrolowany.- np. korelacja cząstkowa pomiędzy zmiennymi X1 i X2 przy kontrolowaniu trzeciej zmiennej X3 jest to korelacja pomiędzy resztami regresji, gdy przewidujemy X1 na podstawie X2 oraz na podstawie X3. przyjmuje wartości z takiego samego przedziału jak korelacja całkowita-

<-1,+1> (nie mam co do tego 100% pewności, więc jeśli palnęłam głupotę proszę o sprostowanie)

16. Zinterpretuj termin „reszta regresji”.

Reszta regresji – ta część zmienności Y, która nie jest wyjaśniona przez X, czyli suma kwadratowych odległości pomiędzy wynikami prawdziwymi a przewidywanymi na podstawie równania regresji.

W przypadku korelacji cząstkowej: Reszty regresji stanowią informację o tym, jakiej części zmienności zmiennych X1 i X2 nie wyjaśnia zmienność zmiennej X3.

17. Co to jest prosta najmniejszych kwadratów?

Prostą regresji budujemy tak, aby była jak najlepiej dopasowana do danych, czyli musi być ułożona tak, aby była „środkiem ciężkości” tych danych. Odległości pomiędzy prostą a wszystkimi wynikami powinny być jak najmniejsze wtedy prosta jest prostą najmniejszych kwadratów.

Aby prosta była prostą najmniejszych kwadratów, należy szacować współczynniki a i b według podanych wzorów:

b= rxy * sy/sx

a= y (z kreseczką) – b * x (z kreseczką)

18. Co to jest kryterium najmniejszych kwadratów?

Chcemy, aby reszta regresji była jak najmniejsza

Σ( yi – y (z daszkiem))do kwadratu = min

Prosta wyznaczana na podstawie tego kryterium minimalizuje błąd naszego przewidywania, resztę regresji

19. Podaj definicję współczynnika alienacji. Współczynnik alienacji- 1 – r2 , stanowi on miarę tej części całkowitej zmienności zmiennej Y, której zmienność zmiennej X nie wyjaśnia.

20. Co to są wagi beta?

Współczynniki noszące nazwę wag beta są to współczynniki b podzielone przez iloraz odchyleń standardowych.

Betai= bi * si/ sy

Nie zależą one od jednostek w których mierzona była zmienna, dlatego dopiero wagi beta możemy porównywać ze sobą. Najlepszymi predykatorami są te o najwyższym beta.

21. Czy dodając do modelu regresji wielokrotnej nową zmienną możemy zmniejszyć

wartość R2 ?

wydaje mi się, że nie, ponieważ z tego co kojarzę, R2 jest to współczynnik determinacji, który mówi o tym jaka część zmienności zmiennej jest wyjaśniona przez wszystkie inne zmienne uwzględnione przy liczeniu współczynnik korelacji, więc jeśli dojdzie jakaś nowa zmienna to raczej nie ma opcji, żeby zmniejszyć R2 , ale to tylko moje rozważania… i od razu przepraszam jeśli to herezja jest, gdyby mnie jeszcze jutro oświeciło dam znać ;).

22.Test dla małych prób shapiro-wilka n<130 i dla dużych prób Kołomogorowa-smirnowa n>130

23. Levena, Bartletta, Harley, Cohrana

24. chi-kwadrat –przy badaniu zgodności 2 rozkładów empirycznych, badanie zgodności zmiennej empirycznej z teoretyczną, badanie niezależności zmiennych nominalnych

25. Potrzebuje tutaj burzy mózgów niestety sama nic nie wymyśle :/

26. no bez jaj :/ takiego nie będzie !

27.

Zmienne ilościowe Zmienne porządkowe Zmienne jakościowe
Miary zależności Korelacja Korelacja rang,
symetryczne Współczynnik Kendalla

28. Zmienna nominalna :

http://www.if.pwr.wroc.pl/~zajac/MATERIALY/STATYSTYKA/B8.htm

30. Jak określona jest miara siły zależności dla dwóch skal porządkowych? Jakie przyjmuje wartości? Zinterpretuj je.

Miara zależności dwu zmiennych porządkowych określona jest wzorem:

τ = S empir/ S max = S empir/ [ n ( n – 1) / 2 ] = 2 x S / n ( n – 1)

Przyjmuje wartości: -1 ≤ τ ≤ +1

31. Narysuj rozkład prawdopodobieństwa τ- Kendalla, gdy hipoteza zerowa jest prawdziwa: dla dużej i małej próby. Kiedy moc testu jest większa?

kalka 71 ( rysunek rozkładu prawdopodobieństwa)

32. Jaki rozkład ma statystyka chi- kwadrat w teście chi- kwadrat i ile ma stopni swobody? Uzasadnij.

Rozkład chi- kwadrat jest rozkładem asymptotycznym wielu statystyk różnych od statystyki chi- kwadrat, toteż służy do wyznaczania wartości krytycznych różnych testów.

Stopnie swobody tego rozkładu są równe: df= (k-1)(l-1)

33. Którą z miar kontyngencji należy używać w wersji skorygowanej, a której nie trzeba korygować?

34. Do czego służy test chi- kwadrat?

Test chi- kwadrat służy do:

- badania zgodności rozkładu empirycznego zmiennej z teoretycznym,

-badania zgodności dwóch rozkładów empirycznych zmiennej,

-badania niezależności zmiennych nominalnych.

35. Podaj przykład problemu badawczego i zaprojektuj proste badanie, którego wyniki należałoby poddać analizie za pomocą testu chi- kwadrat.

36. Testy parametryczne cechuje:

* większa ilość założeń do spełnienia

* większa moc testów

* dokładniejszy pomiar

* lepsza interpretowalność uzyskiwanych wyników

Testy nieparametryczne natomiast cechuje:

* mniejsza ilość założeń do spełnienia

* mniejsza moc testów

* mniej dokładny pomiar

* gorsza interpretowalność uzyskiwanych wyników

Z reguły jest tak, że mniej wymogów muszą spełniać zebrane dane, aby przeprowadzić testy nieparametryczne, ale za to dają one mniejszą liczbę informacji, mniej są one "warte", są słabsze w porównaniu do testów parametrycznych. Testy parametryczne wymagają spełnienia założeń ale za to wyniki są bardziej dokładne i na ich podstawie można dokonać lepszych interpretacji.

Testami parametrycznymi są np.:

*testy t-Studenta

* analiza wariancji

* korelacja r-Pearsona

* analiza regresji

Testami nieparametrycznymi są np.:

* test U Manna-Whitneya

* test niezależności chi-kwadrat

* korelacja tau-b Kendalla

37. Kształt rozkładu prawdopodobieństwa statystyki zależy od stopni swobody. Im więcej df, tym rozkład coraz bardziej zbliża się do rozkładu normalnego.

38. Próby są wobec siebie niezależne, kiedy badamy grupy wzajemnie na siebie nie wpływające (np. stres fortepianistów i skrzypków przed występem- stres fortepianistów w żaden sposób nie determinuje stresu skrzypków). Z kolei próby zależne są wtedy, kiedy mamy grupę, którą chcemy zbadać i np. badamy ją przed i po wprowadzeniu bodźca. Fakt ten wpływa na założenia jakie trzeba rozpatrzeć podczas przeprowadzania badania- w przypadku prób niezależnych należy sprawdzić homogeniczność wariancji, natomiast w próbach zależnych nie trzeba.

39. Kiedy wariancje są coraz bardziej heterogeniczne, to liczba stopni swobody dla statystyki t-studenta się zmniejsza.

40. Statystyka t- wystudentyzowana wartość- ilość odchyleń standardowych, o które wynik jest odległy od średniej swojego rozkładu; odległość między wartością estymatora, a średnią jego rozkładu

Np. t=4,24 tzn, że jest to 4,24 odchylenia standardowego w rozkładzie różnicy średnich z podpopulacji

42. Wartość korelacji cząstkowej może być zarówno mniejsza, jak i większa od korelacji całkowitej. Wynika to z tego, że korelacja całkowita jest miarą korygującą związek całkowity 2 zmiennych.

44. Efekt katalizy polega na tym, że zmienne objaśniające, które są słabo skorelowane ze zmienną zależną, powodują zawyżenie wartości współczynnika determinacji R2, czyli jest katalizatorem. Skoro R2 jest jednym ze wskaźników uwzględnianych przy ocenie jakości modelu, może to spowodować błędną ocenę.

45.

46. Współczynnik zm. wyst. i niewyst. jest taki sam, bo jest niezmiennikiem przekształceń liniowych, przekształcenia te nie zmieniają jego wartości.

Związek liniowy zmiennych wystandaryzowanych ma taką sarną wartość jak związek zmiennych nie wystandaryzowanych.

47. metoda krokowa postępująca : posiadając pewien zbiór k zmiennych X na początek tworzymy model Y= bX +a wykorzystując zmienną Xj najbardziej korelującą z Y. Następnie tworzymy model regresji wielorakiej przyłączając kolejne zmienne X tak długo, dopóki R2 rośnie, jak przestaje wzrastać, nie dołączamy dalszych zmiennych X.

metoda krokowa wsteczna: posiadając pewien zbiór k zmiennych X na początek tworzymy model regresji wielorakiej ze wszystkich k zmiennych: Y= b1X1 + b2X2 + ...+ bkXk +a. Następnie tworzymy model regresji wielorakiej wyrzucając kolejne zmienne X po jednej, zaczynając od takiej, której wyrzucenie najbardziej zwiększy R2. Postępowanie kontynuujemy tak długo, jak R2 rośnie, jak przestaje wzrastać, nie wyrzucamy dalszych zmiennych X, pozostając przy modelu złożonym z tych co pozostały.

48. Nie, jakakolwiek transformacja danych, nawet przesunięcie o stałą zmienia postać równania regresji. Regresja jest jednokierunkowa, przy interpretacji krzywej regresji trzeba dokładnie wiedzieć „co” z „czego” jest przewidywane. Współczynnik korelacji r-Pearsona jest niezmiennikiem przekształceń liniowych. ( nie jestem pewna, czy to o to chodzi)

49. Podstawowy postulat:

a) dostateczna zmienność zmiennych:

wprowadzić do modelu te zmienne, których współczynniki zmienności, Vj, są większe od E gdzie E- dowolnie mała stała dodatnia. Kryterium ma sens dla długich skal.

b) maksymalizacja współczynnika korelacji wielokrotnej:

Wiadomo, że R2 jest tym większe im więcej zmiennych wprowadzi się do równania regresji,

R2 może być bardzo duze, gdy zmienne objaśniające zmienną zależna nie korelują z nią nawet przeciętnie. Ze zmienną objaśnianą skorelowane są błędy losowe zmiennych objaśniających. ( efekt katalizy)

c) zmienne objaśniające powinny być niezależne.


Wyszukiwarka