1. Narysować histogram o 15 klasach dla zmiennej x dla danych z pliku
dane_perla2.csv (z wyłączeniem klasy 3-ciej). Przetestować hipotezę, że
pochodzą one z rozkładu jednostajnego na przedziale [-1,38; 1,385].
2. Pogrupować dane z pliku dane_perla2.csv według pól x i y na 4 klasy
metodą k-średnich. Następnie przeanalizować częstości występowania
elementów z różnych klas (pole klasa) w wybranych skupiskach.
Policzyć jaka cześć elementów "odstaje" od najczęstszych wyborów
w swoich skupiskach.
Uwaga: przed wykonaniem zadania proponuję ustawić generator liczb
pseudolosowych poleceniem set.seed(2011).
3. Dla danych z pliku czas_wykonania2.csv przetestować hipotezę, że wśród osób
na 3-cim poziomie kwalifikacji kobiety wykonują badaną czynność tak samo szybko
jak mężczyźni, przeciwko temu, że robią to wolniej na poziomie istotności 0,95.
Zadanie 2
dane=read.csv2("dane_perla2.csv")
dane
attach(dane)
#metoda k-srednich
#podzial danych (kolumna x i kolumna y) na 4 klasy
podzial=kmeans(dane[,1:2],4)
podzial
plot(dane[,1:2],pch=podzial$cluster,col=podzial$cluster)
kolor=c("red","orange","yellow","green")
plot(dane$x,dane$y,col="white",xlab="x",ylab"y")
text(dane$x,dane$y,dane$klasa,col=kolor[podzial$cluster])
(tabl=table(podzial=podzial$cluster,klasa=dane$klasa))
print("Blad na zbiorze uczacym:",quote=F)
sum(tabl)
1-sum(diag(tabl))/sum(tabl)
points(podzial$centers,cex=2,pch=19)
#policzyc jaka czesc elementow "odstaje"od najczęstszych wyborów w swoich skupiskach
(tabl[1,3]+tabl[2,3]+tabl[3,3]+tabl[4,3])/sum(tabl)
Zadanie 1
dane=read.csv2("dane_perla2.csv",head=T)
attach(dane)
dane1=data.frame(x=dane$x[klasa!=3])
dane1
k=15
w=1:k
w
dl=(1.385-(-1.38))
dl
#tworzymy podzial
podzial=w*dl/k
podzial
length(podzial)
szereg=table(cut(dane1$x,podzial))
szereg
barplot(szereg)
#policzymy stat.test
(teor=length(dane1$x)/k)
stat.test=sum(((szereg-teor)^2)/teor)
stat.test
qchisq(0.95,k-3)
Zadanie 3
dane=read.csv2("czas_wykonania2.csv")
dane
attach(dane)
poziom3=subset(dane1,kwalifikacje==3)
poziom3
t.test(czas[plec=="K"],czas[plec=="M"], alternative = c("greater"))
#Ponieważ wartość statystyki t wpada w przedział odrzucenia na poziomie istotności 0,95
#to odrzucamy hipotezę zerową, że kobiety i mężczyźni wykonują badaną czynność
#tak samo szybko, na rzecz hipotezy, że kobiety wykonują ją wolniej.
detach(dane)