WZORY
Test X2 zgodności:
H0: zgodność
H1: brak zgodności
Statystyka testowa: .( )
Zbiór krytyczny: C = [X2(1-., k-1), .)
Test X2 niezależności:
H0: niezależność
H1: zależność
Statystyka testowa: ..( )
Zbiór krytyczny: C = [X2(1-., (k-1)(l-1)), .)
gdzie:
n - liczba wszystkich obserwacji,
k - liczba klas,
Ni - liczba obserwacji w i-tej klasie.
gdzie:
l - liczba klas dla cechy pierwszej (liczba wierszy),
k - liczba klas dla cechy drugiej (liczba kolumn),
n - liczba wszystkich obserwacji,
Nij - liczba obserwacji w ij-tej komórce tablicy dwudzielnej,
.
- suma obserwacji w i-tym wierszu,
.
- suma obserwacji w j-tym wierszu.
KOMENDY DO PAKIETU "R"
Wczytać dane z pliku:
> dane=read.csv(file.choose(),header=T,sep=";")
Zaproponować model regresji liniowej:
> model<-lm(srednie.cisnienie~dane[,3]+dane[,4]+dane[,5]+dane[,6])
> summary(model)
Wybrać model z najlepszą wartością współczynnika R2:
> step(model, direction='both')
> colnames(dane) #sprawdzanie nazw kolumn
Zaproponować model z najlepszą wartością kryterium AIC:
> model1<-lm(srednie.cisnienie~dane[,3]+dane[,4]+dane[,5])
> model2<-lm(srednie.cisnienie~dane[,3]+dane[,4])
> best_model<-lm(srednie.cisnienie~dane[,3]+dane[,6]) #najlepszy model wybrany w poprzednim kroku
> AIC(model1)
> AIC(model2)
> AIC(best_model)
Im mniejsza wartość AIC, tym lepiej dopasowany jest model (tzw. model optymalny).
Dla optymalnego modelu przeprowadzić testy istotności dla otrzymanych estymatorów:
> summary(best_model)
Istotność interpretujemy na podstawie ilości * oraz p-volue (Pr(>|t|)). Jeśli p-volue jest mniejsza od 0.05, to przyjmujemy H1, jeśli jest
wiÄ™ksza, to przyjmujemy H0. Np. 2e-16, to inaczej 2×10-16 czyli bardzo maÅ‚o (0,0000000000000002).
H0: reszty nie mają rozkładu normalnego
H1: reszty mają rozkład normalny
Dla optymalnego modelu sprawdzić czy testy mają rozkład normlany:
> reszty<-model_best$residuals
> shapiro.test(reszty)
Lub graficznie:
> qqnorm(reszty) #rysuje wykres (jeśli wszystkie reszty układają się w linii prostej, to mają rozkład normalny)
> qqline(reszty) #rysuje linie prostą do porównania.
Utworzyć nową kolumnę nadciśnienie, w której człowiek mający problem z ciśnieniem skurczowym lub rozkurczowym będzie
przyjmował wartość 1, a człowiek zdrowy wartość 0:
> dane=read.csv(file.choose(),header=T,sep=";")
> n=dim(dane)[1]
> n
> nadciśnienie=rep(0,n)
> dane2=cbind(dane,nadciśnienie)
> dane2[dane2[,1]>140,7]=1
> dane2[dane2[,2]>100,7]=1
> dane2
> head(dane2) #pokazuje nagłówki
Utworzyć model regresji logistycznej i sprawdzić jakie jest prawdopodobieństwo, że nadciśnienie ma mężczyzna w wieku 45 lat
nadużywający alkoholu i papierosów:
> model<-glm(dane2[,7]~dane2[,3]+dane2[,4]+dane2[,5]+dane2[,6],family="binomial")
> model
> c1=model$coef
> t=exp(c1[1]+c1[2]*1+c1[3]*45+c1[4]*1+c1[5]*1)
> t
> p=t/(1+t)
> p #mnożymy razy 100 i wychodzi wynik w %
Gdzie: [1]-wyraz wolny, [2]-płeć (0-kobieta, 1-mężczyzna), [3]-wiek (liczba), [4]-alkohol (0-nie, 1-tak), [5]-papierosy (0-nie, 1-tak).
Wczytać plik tekstowy:
> dane=read.table(file.choose(),header=T,sep="\t")
Zaproponować model regresji logistycznej opisujący zachorowalność na grypę i wyznaczyć, które czynniki mają istotny wpływ na
chorobÄ™:
> dane<-as.matrix(dane)
> dane[dane[,6] == "slaskie" ,6]<-"1"
> dane[dane[,6] =="dolnoslaskie" ,6]<-"2"
> dane[dane[,6] =="mazowieckie" ,6]<-"3"
> head(dane)
> storage.mode(dane)<- "numeric" #usuwanie " "
> head(dane)
> model<-glm(dane[,2]~dane[,3]+dane[,4]+dane[,5]+dane[,6],family="binomial")
> model
> summary(model)
> step(model,direction="both") #najniższe AIC wskazuje czynnik o najistotniejszym wpływie na zachorowalność.
Wybrać najlepszy model opisujący zachorowalność na grypę:
> best_model<-glm(dane[,2]~dane[,4])
Przewidzieć prawdopodobieństwa zachorowania dla:
a). 3-latka z woj. dolnośląskiego
> model2<-glm(dane[,2]~dane[,3]+ dane[,6])
> model2
> c1=model2$coef
> t=exp(c1[1]+c1[2]*3+c1[3]*2)
> t
> p=t/(1+t)
> p
b). 71-latka z woj. mazowieckiego
> model3<-glm(dane[,2]~dane[,3]+ dane[,6])
> model3
> c1=model3$coef
> t=exp(c1[1]+c1[2]*71+c1[3]*3)
> p=t/(1+t)
> p
Współzależność liniowa (lista 6)
X
6
4
7
3
5
Y
5
4
5
3
4
Å»
( )
Å»
( )
y = ax +b
( Å») ( Å») ( Å») ( Å»)
( Å») ( Å»)
a = 0,5
Å» Å»
b = 4,2 - 0,5 × 5 = 1,79
y = ax +b
y = 0,5x + 1,79
Odp. Wartość produkcji (y) zależy od poziomu zatrudnienia (x).
O ile wzrośnie wartość produkcji jeśli zatrudnienie wzrośnie o 100 pracowników?
y = 0,5(x+1) + 1,79 bo 1 jednostka to 100 pracowników!
y = 0,5x + 0,5 + 1,79
y = 0,5x + 2,29
Odp. Wartość produkcji wzrośnie o 0,5 mln.
?O ile wzrośnie zatrudnienie jeśli wartość produkcji wzrośnie o 1mln zł?
x=cy+d
( Å») ( Å») ( Å») ( Å»)
c = 5
Å» Å»
d = 5 - 5 × 4,2 = -16
x = 5y - 16
x = 5(1+y) - 16
x = 5 + 5y - 16 = 5y -11
Odp. Zatrudnienie wzrośnie o 500 osób.
Wyznaczyć spodziewany poziom wartości produkcji przy zatrudnieniu wynoszącym 240 pracowników , w jakich granicach
będzie zawarty ten szacunek poziomu wielkości produkcji:
y = 0,5 × 2,4 + 1,79 bo x = 2,4
y = 2,99 . 3,0 ml
Odp. Spodziewany poziom produkcji to ok. 3mln zł.
?Wyznaczyć spodziewaną wielkość zatrudnienia jeśli poziom wartości produkcji wyniesie 2 mln, w jakich granicach będzie
zawarty ten szacunek poziomu zatrudnienia:
x = 0,5 × 2 - 16
x =
Odp. Spodziewana wielkość zatrudnienia wynosi ?
Współczynnik Spearmana:
.
( )
> x<-c(1,2,3,1,2,3,1,3)
> y<-c(2,5,2,4,1,1,5,4)
> di=rank(x)-rank(y)
> sum(di^2)
> 1-((6*107.5)/(8*63))
LUB:
> cor(x,y,method="spearman")
Współczynnik Pearsona:
.( Å»)( Å»)
..( Å»)
.( Å»)
> x<-c(1,2,3,1,2,3,1,3)
> y<-c(2,5,2,4,1,1,5,4)
> mean(x)
> mean(y)
LUB:
> cor(x,y,method="pearson")
Obliczanie współczynników korealcji dla danych w pliku:
> dane=read.table(file.choose(),header=T,sep=";")
> cor(dane[,1],dane[,2], method="pearson")
> cor(dane[,1],dane[,2], method="spearman")
Wykres:
plot(x,y)
1. czy zmienne sÄ… skorelowane
2. czy jest to korelacja dodatnia czy ujemna (kierunek korelacji)
3. im bliżej 1 lub -1 to zależność jest silniejsza
Jeśli korelacja = 0,5 to robimy test istotności współczynnika korelacji, gdzie:
H0: współczynnik korelacji nie jest istotny
H1: jest istotny
> cor.test(x,y)
np. . = 0,01 t= -5,73 p-value= 0,00013
gdzie: p-value < . więc odrzucamy H0
Wyszukiwarka
Podobne podstrony:
Kolokwium II semestr I rok IIpoprawa kolokwium I i II E i EN rozwiązaniaPrzykładowe kolokwium II semestr Ikolokwium IIMateriały na kolokwium IIKolokwium II przemiany część 1Kolokwium IIAnaliza matematyczna II Kolokwium II (e notatka)SOP Kolokwium II Poprawkowe 2011 gr BKolokwium II02 01 11V e notatka analiza matematyczna I kolokwium IIKOLOKWIUM II,algorytmy przetwarzania sygnałów, opracowanie kolokwium IIPYTANIA DO KOLOKWIUM II GRkolokwium iikolokwium IIwięcej podobnych podstron