Statystyka KOLOKWIUM II


WZORY

Test X2 zgodności:

H0: zgodność

H1: brak zgodności

Statystyka testowa: .( )


Zbiór krytyczny: C = [X2(1-., k-1), .)



Test X2 niezależności:

H0: niezależność

H1: zależność

Statystyka testowa: ..( )


Zbiór krytyczny: C = [X2(1-., (k-1)(l-1)), .)


gdzie:

n - liczba wszystkich obserwacji,

k - liczba klas,

Ni - liczba obserwacji w i-tej klasie.



gdzie:

l - liczba klas dla cechy pierwszej (liczba wierszy),

k - liczba klas dla cechy drugiej (liczba kolumn),

n - liczba wszystkich obserwacji,

Nij - liczba obserwacji w ij-tej komórce tablicy dwudzielnej,

.
- suma obserwacji w i-tym wierszu,

.
- suma obserwacji w j-tym wierszu.



KOMENDY DO PAKIETU "R"

Wczytać dane z pliku:

> dane=read.csv(file.choose(),header=T,sep=";")

Zaproponować model regresji liniowej:

> model<-lm(srednie.cisnienie~dane[,3]+dane[,4]+dane[,5]+dane[,6])

> summary(model)

Wybrać model z najlepszą wartością współczynnika R2:

> step(model, direction='both')

> colnames(dane) #sprawdzanie nazw kolumn

Zaproponować model z najlepszą wartością kryterium AIC:

> model1<-lm(srednie.cisnienie~dane[,3]+dane[,4]+dane[,5])

> model2<-lm(srednie.cisnienie~dane[,3]+dane[,4])

> best_model<-lm(srednie.cisnienie~dane[,3]+dane[,6]) #najlepszy model wybrany w poprzednim kroku

> AIC(model1)

> AIC(model2)

> AIC(best_model)

Im mniejsza wartość AIC, tym lepiej dopasowany jest model (tzw. model optymalny).

Dla optymalnego modelu przeprowadzić testy istotności dla otrzymanych estymatorów:

> summary(best_model)

Istotność interpretujemy na podstawie ilości * oraz p-volue (Pr(>|t|)). Jeśli p-volue jest mniejsza od 0.05, to przyjmujemy H1, jeśli jest
wiÄ™ksza, to przyjmujemy H0. Np. 2e-16, to inaczej 2×10-16 czyli bardzo maÅ‚o (0,0000000000000002).

H0: reszty nie mają rozkładu normalnego

H1: reszty mają rozkład normalny

Dla optymalnego modelu sprawdzić czy testy mają rozkład normlany:

> reszty<-model_best$residuals

> shapiro.test(reszty)

Lub graficznie:

> qqnorm(reszty) #rysuje wykres (jeśli wszystkie reszty układają się w linii prostej, to mają rozkład normalny)

> qqline(reszty) #rysuje linie prostą do porównania.



Utworzyć nową kolumnę nadciśnienie, w której człowiek mający problem z ciśnieniem skurczowym lub rozkurczowym będzie
przyjmował wartość 1, a człowiek zdrowy wartość 0:

> dane=read.csv(file.choose(),header=T,sep=";")

> n=dim(dane)[1]

> n

> nadciśnienie=rep(0,n)

> dane2=cbind(dane,nadciśnienie)

> dane2[dane2[,1]>140,7]=1

> dane2[dane2[,2]>100,7]=1

> dane2

> head(dane2) #pokazuje nagłówki

Utworzyć model regresji logistycznej i sprawdzić jakie jest prawdopodobieństwo, że nadciśnienie ma mężczyzna w wieku 45 lat
nadużywający alkoholu i papierosów:

> model<-glm(dane2[,7]~dane2[,3]+dane2[,4]+dane2[,5]+dane2[,6],family="binomial")

> model

> c1=model$coef

> t=exp(c1[1]+c1[2]*1+c1[3]*45+c1[4]*1+c1[5]*1)

> t

> p=t/(1+t)

> p #mnożymy razy 100 i wychodzi wynik w %

Gdzie: [1]-wyraz wolny, [2]-płeć (0-kobieta, 1-mężczyzna), [3]-wiek (liczba), [4]-alkohol (0-nie, 1-tak), [5]-papierosy (0-nie, 1-tak).




Wczytać plik tekstowy:

> dane=read.table(file.choose(),header=T,sep="\t")

Zaproponować model regresji logistycznej opisujący zachorowalność na grypę i wyznaczyć, które czynniki mają istotny wpływ na
chorobÄ™:

> dane<-as.matrix(dane)

> dane[dane[,6] == "slaskie" ,6]<-"1"

> dane[dane[,6] =="dolnoslaskie" ,6]<-"2"

> dane[dane[,6] =="mazowieckie" ,6]<-"3"

> head(dane)

> storage.mode(dane)<- "numeric" #usuwanie " "

> head(dane)



> model<-glm(dane[,2]~dane[,3]+dane[,4]+dane[,5]+dane[,6],family="binomial")

> model

> summary(model)

> step(model,direction="both") #najniższe AIC wskazuje czynnik o najistotniejszym wpływie na zachorowalność.



Wybrać najlepszy model opisujący zachorowalność na grypę:

> best_model<-glm(dane[,2]~dane[,4])



Przewidzieć prawdopodobieństwa zachorowania dla:
a). 3-latka z woj. dolnośląskiego

> model2<-glm(dane[,2]~dane[,3]+ dane[,6])

> model2

> c1=model2$coef

> t=exp(c1[1]+c1[2]*3+c1[3]*2)

> t

> p=t/(1+t)

> p

b). 71-latka z woj. mazowieckiego

> model3<-glm(dane[,2]~dane[,3]+ dane[,6])

> model3

> c1=model3$coef

> t=exp(c1[1]+c1[2]*71+c1[3]*3)

> p=t/(1+t)

> p



Współzależność liniowa (lista 6)

X

6

4

7

3

5

Y

5

4

5

3

4




Å»
( )
Å»
( )


y = ax +b
( Å») ( Å») ( Å») ( Å»)
( Å») ( Å»)
a = 0,5


Å» Å»

b = 4,2 - 0,5 × 5 = 1,79



y = ax +b

y = 0,5x + 1,79

Odp. Wartość produkcji (y) zależy od poziomu zatrudnienia (x).



O ile wzrośnie wartość produkcji jeśli zatrudnienie wzrośnie o 100 pracowników?

y = 0,5(x+1) + 1,79 bo 1 jednostka to 100 pracowników!

y = 0,5x + 0,5 + 1,79

y = 0,5x + 2,29

Odp. Wartość produkcji wzrośnie o 0,5 mln.



?O ile wzrośnie zatrudnienie jeśli wartość produkcji wzrośnie o 1mln zł?

x=cy+d
( Å») ( Å») ( Å») ( Å»)

c = 5


Å» Å»

d = 5 - 5 × 4,2 = -16

x = 5y - 16

x = 5(1+y) - 16

x = 5 + 5y - 16 = 5y -11

Odp. Zatrudnienie wzrośnie o 500 osób.



Wyznaczyć spodziewany poziom wartości produkcji przy zatrudnieniu wynoszącym 240 pracowników , w jakich granicach
będzie zawarty ten szacunek poziomu wielkości produkcji:

y = 0,5 × 2,4 + 1,79 bo x = 2,4

y = 2,99 . 3,0 ml

Odp. Spodziewany poziom produkcji to ok. 3mln zł.



?Wyznaczyć spodziewaną wielkość zatrudnienia jeśli poziom wartości produkcji wyniesie 2 mln, w jakich granicach będzie
zawarty ten szacunek poziomu zatrudnienia:

x = 0,5 × 2 - 16

x =

Odp. Spodziewana wielkość zatrudnienia wynosi ?





Współczynnik Spearmana:
.
( )




> x<-c(1,2,3,1,2,3,1,3)

> y<-c(2,5,2,4,1,1,5,4)

> di=rank(x)-rank(y)

> sum(di^2)

> 1-((6*107.5)/(8*63))

LUB:

> cor(x,y,method="spearman")



Współczynnik Pearsona:
.( Å»)( Å»)
..( Å»)
.( Å»)


> x<-c(1,2,3,1,2,3,1,3)

> y<-c(2,5,2,4,1,1,5,4)

> mean(x)

> mean(y)

LUB:

> cor(x,y,method="pearson")





Obliczanie współczynników korealcji dla danych w pliku:

> dane=read.table(file.choose(),header=T,sep=";")

> cor(dane[,1],dane[,2], method="pearson")

> cor(dane[,1],dane[,2], method="spearman")



Wykres:

plot(x,y)

1. czy zmienne sÄ… skorelowane

2. czy jest to korelacja dodatnia czy ujemna (kierunek korelacji)

3. im bliżej 1 lub -1 to zależność jest silniejsza



Jeśli korelacja = 0,5 to robimy test istotności współczynnika korelacji, gdzie:

H0: współczynnik korelacji nie jest istotny

H1: jest istotny

> cor.test(x,y)

np. . = 0,01 t= -5,73 p-value= 0,00013

gdzie: p-value < . więc odrzucamy H0








Wyszukiwarka

Podobne podstrony:
Kolokwium II semestr I rok II
poprawa kolokwium I i II E i EN rozwiÄ…zania
Przykładowe kolokwium II semestr I
kolokwium II
Materiały na kolokwium II
Kolokwium II przemiany część 1
Kolokwium II
Analiza matematyczna II Kolokwium II (e notatka)
SOP Kolokwium II Poprawkowe 2011 gr B
Kolokwium II
02 01 11V e notatka analiza matematyczna I kolokwium II
KOLOKWIUM II
,algorytmy przetwarzania sygnałów, opracowanie kolokwium II
PYTANIA DO KOLOKWIUM II GR
kolokwium ii
kolokwium II

więcej podobnych podstron