Podstawy statystyki i ekonometrii 2014 część 1

background image

1

PODSTAWY STATYSTYKI I EKONOMETRII

CZ. 1

DR INŻ. TOMASZ BUDZYŃSKI

SPIS TREŚCI

Spis treści

1. Wstęp

2. Podstawowe pojęcia statystyczne

3. Elementy teorii badania zbiorów statystycznych

3.1. Statystyki opisowe

3.2. Badanie współzależności cech

3.3. Badanie zmian cen w czasie

3.4. Wprowadzenie do wnioskowania statystycznego

3.5. Rozkłady prawdopodobieństwa zmiennej losowej

3.6. Przedziały ufności dla średniej i wariancji

3.7. Elementy weryfikacji hipotez statystycznych

2

2

4

4

12

13

15

16

18

23

background image

2

1. Wstęp

Niniejsze opracowanie zostało sporządzone zgodnie z minimalnymi wymogami
programowymi na studiach podyplomowych w zakresie wyceny nieruchomości, określonymi
przez Ministra Infrastruktury w rozporządzeniu z dnia 7 czerwca 2010 r. Zawiera ono
zgodnie z ww. wymogami jedynie podstawy statystyki niezbędne rzeczoznawcom
majątkowym w procesie wyceny nieruchomości.

2. Podstawowe pojęcia statystyczne

Zbiorowością statystyczną nazywamy taki zbiór jednostek, który podlega obserwacji
statystycznej oraz który charakteryzuje się takimi samymi wariantami przynajmniej jednej
cechy stałej oraz różnymi wariantami przynajmniej jednej cechy zmiennej.

Przykładem zbiorowości statystycznej są nieruchomości. Gdy obserwujemy nieruchomości
lokalowe – lokale mieszkalne znajdujące się w dzielnicy Praga Południe w Warszawie
sprzedane w roku 2013 r. to jednostką zbiorowości statystycznej jest jedna nieruchomość przy
czym ich stałymi cechami są: jednakowy rodzaj – lokalowe – lokale mieszkalne, jednakowa
lokalizacja ogólna – dzielnica Praga Południe w Warszawie oraz jednakowy czas obserwacji
– 2013 r. Różnią się one jednak: cenami transakcyjnymi, lokalizacją szczegółową,
powierzchnią, położeniem na piętrze, stanem technicznym budynku w którym się znajdują,
standardem wykończenia i funkcjonalnością pomieszczeń.

Jeżeli obserwowane są wszystkie jednostki ze zbiorowości statystycznej to ten typ zbioru
jednostek określamy jako statystyczne zbiorowości generalne lub z kolei jako statystyczne
zbiorowości próbne, gdy obserwowane są tylko wybrane losowo jednostki.

Na podstawie opisu prób losowych możemy wnioskować o zbiorowościach generalnych na
określonym poziomie prawdopodobieństwa. Oznacza to, że na podstawie nieruchomości,
które były przedmiotem sprzedaży możemy wnioskować o możliwej do osiągnięcia cenie za
nieruchomości, które nie były sprzedane.

Cechy zmienne są kryteriami podziału jednostek zbiorowości statystycznych i przyjmują
określone warianty.

Cechy zmienne można podzielić na cechy:

mierzalne (ilościowe) – ich warianty wyrażane są liczbowo i przyjmują postać
skokową lub ciągłą.

o Cechy skokowe to takie, których warianty mogą być wyrażone wyłącznie

przez określone wartości bez przejść pośrednich między nimi. Przykładami
cech skokowych są: liczba pokoi w lokalu mieszkalnym, czy położenie
lokalu na piętrze.

background image

3

o Cechy ciągłe to takie, których warianty mogą przyjąć każdą wartość

z określonego skończonego przedziału liczbowego. Przykładami cech
ciągłych są: cena transakcyjna czy powierzchnia lokalu.

niemierzalne (jakościowe) – ich warianty są wyrażane słownie lub przyjmują
postać zero-jedynkową. Przykładami cech niemierzalnych są: sąsiedztwo, standard
lokalu czy funkcjonalność pomieszczeń.

Pytanie

Podaj przykłady cech mierzalnych: skokowych i ciągłych oraz cech niemierzalnych dla
nieruchomości gruntowej niezabudowanej przeznaczonej pod zabudowę mieszkaniową
jednorodzinną.

background image

4

Zebrany materiał statystyczny np. w postaci informacji z konkretnego rynku nieruchomości
musi być poddany grupowaniu. Polega ono na usystematyzowaniu tj. zestawieniu materiału
tak, aby ułatwiało to osiągnięcie celu badania. Grupowanie obejmuje czynności związane
z wyodrębnieniem jednorodnych lub prawie jednorodnych grup w ramach większej
zbiorowości statystycznej. Dokonując grupowania materiału statystycznego rezygnuje się
ze szczegółów, a podkreśla się wspólne właściwości jednostek tworzących podzbiory badanej
zbiorowości statystycznej.

Można wyróżnić 2 rodzaje grupowania:

grupowanie typologiczne (jakościowe). Polega ono na wyodrębnieniu ze zbiorowości

statystycznej jednorodnych grup na podstawie wariantów cechy jakościowej
np. podział transakcji według lokalizacji;

grupowanie wariancyjne. Polega ono na wydzieleniu ze zbiorowości statystycznej

jednorodnych grup dla cechy ilościowej np. podział nieruchomości według ich
powierzchni na grupy.

W wyniku grupowania powstaje szereg statystyczny. Stanowi on uporządkowany zbiór
wartości lub wariantów określonej cechy zgodnie z przyjętymi kryteriami porządkowania.
Szeregi statystyczne można przedstawić w formie tablic i wykresów statystycznych.

Pogrupowany materiał statystyczny w postaci szeregów może być przedmiotem badania
statystycznego. Obszarem badania statystycznego może być badanie:

struktury tj. składu,

współzależności tj. powiązań,

dynamiki tj. zmian w czasie,

zjawisk masowych np. na rynku nieruchomości.

3. Elementy teorii badania zbiorów statystycznych

3.1. Statystyki opisowe

W procesie badania struktury zjawisk masowych wykorzystuje się trzy główne grupy miar
statystycznych - statystyk opisowych tj. miary:

położenia tj. tendencji centralnej wariantów mierzalnej cechy zmiennej: średnią

arytmetyczną, medianę, kwartyle i dominantę,

zróżnicowania tj. przeciętnej zmienności wariantów mierzalnej cechy zmiennej:

wariancję, odchylenie standardowe, odchylenie ćwiartkowe, współczynnik zmienności
i inne,

background image

5

asymetrii tj. skośności oraz kurtozy tj. spłaszczenia lub spiczastości empirycznego
rozkładu mierzalnych wariantów cechy zmiennej: współczynnik asymetrii (skośności)
oraz kurtozy.

3.1.1. Miary położenia

Określając tendencję centralną - poziom przeciętny wariantów cechy zmiennej można
zastosować statystyką klasyczną – średnią arytmetyczną oraz statystyki pozycyjne medianę
i dominantę.

Średnia arytmetyczna – suma wariantów obserwowanej mierzalnej cechy zmiennej
w przeliczeniu na jedną jednostkę zbiorowości statystycznej

n

j

j

x

n

x

1

1

(1)

Mediana (M

x

) – wariant liczbowy cechy mierzalnej w zbiorze uporządkowanych wszystkich

wariantów, poniżej którego znajduje się połowa jednostek badanej zbiorowości statystycznej.

Mediana stanowi zatem wartość środkową. Warunkiem wyznaczenia mediany jest
wcześniejsze uporządkowanie szczegółowego rozkładu cechy zmiennej – uporządkowanie
poszczególnych jednostek zbiorowości według kryterium od x

min

do x

max

.

Odległość liczbowa średniej arytmetycznej od mediany może określać stopień
niejednorodności zbioru badanych jednostek zbiorowości statystycznej wskazując
jednocześnie na użyteczność posługiwania się średnią arytmetyczną w opisie zbiorowości.
Znacząca liczbowo różnica pomiędzy tymi statystykami opisowymi stanowi informację, że
badana zbiorowość statystyczna jest niejednorodna i wówczas dla opisu struktury badanej
zbiorowości należy posługiwać się raczej statystykami pozycyjnymi.

W przypadku empirycznego rozkładu mierzalnej cechy zmiennej mogą występować
następujące 3 sytuacje.

liczebna przewaga jednostek zbiorowości o względnie wysokich wariantach
obserwowanej cechy – wówczas

x

M

x

co oznacza asymetrię lewostronną (ujemną)

asymetrię;

liczebna przewaga jednostek zbiorowości o względnie niskich wariantach

obserwowanej cechy – wówczas

x

M

x

co oznacza asymetrię prawostronną

(dodatnią) asymetrię;

liczebną równowagę jednostek zbiorowości mających niskie i wysokie warianty

obserwowanej cechy – wówczas

x

M

x

, co oznacza symetrię rozkładu, która

w praktyce obserwacji zjawisk ekonomicznych np. na rynku nieruchomości nie
występuje.

background image

6

Dominanta (D

x

) – wariant cechy mierzalnej lub niemierzalnej, któremu odpowiada

największa liczba jednostek z całego ich obserwowanego zbioru.

Dominanta stanowi zatem wartość występującą najczęściej i nie jest to jednak wówczas miara
tendencji centralnej tylko wskazanie wariantu o największej liczbie powtórzeń.

Wśród kwartyli można wyróżnić kwartyl pierwszy (Q

1

) zwany dolnym, kwartyl drugi (Q

2

)

będący medianą i kwartyl trzeci (Q

3

) zwany górnym.

Kwartyl pierwszy i kwartyl trzeci to warianty cechy mierzalnej w zbiorze uporządkowanych
wariantów, które dzielą badaną zbiorowość na 25% i 75% (Q

1

) lub na 75% i 25% (Q

3

). Ich

obliczenie następuje poprzez wskazanie wariantów obserwowanej cechy, które odpowiadają
numerom jednostek. W tabeli 1 zawarto algorytm określenia kwartyla pierwszego i trzeciego.

Tabela 1

Kwartyle

Zbiorowości statystyczne

Warianty

Pierwszy Q

1

parzyste n

x

(n+2):4

n=3; 7, 11, …

x

(n+1):4

n=5, 9, 13, …

x

(n+3):4

Trzeci Q

3

parzyste n

x

(3n+2):4

n=3; 7, 11, …

x

(3n+3):4

n=5, 9, 13, …

x

(3n+1):4

3.1.2 Miary zróżnicowania

Miary zróżnicowania są to statystyki opisowe, służące do mierzenia przeciętnego
zróżnicowania wariantów mierzalnej cechy zmiennej. Punktem odniesienia dla ich obliczenia
jest albo średnia arytmetyczna – są to klasyczne miary zróżnicowania albo mediana – są to
pozycyjne miary zróżnicowania.

Do klasycznych miar zróżnicowania należą: wariancja (

2

x

S

), odchylenie standardowe (S

x

),

oraz procentowy współczynnik zmienności (V

x

). Z kolei do pozycyjnych miar zróżnicowania

zalicza się odchylenie ćwiartkowe (Q

x

) oraz pozycyjny procentowy współczynnik zmienności

(V’

x

). Pozycyjne miary zróżnicowania powinno się stosować, gdy jednostki zbiorowości

statystycznej są nadmiernie zróżnicowane - V

x

widocznie wyższy od 50% oraz gdy

empiryczne rozkłady cech są bardzo nieregularne tj. posiadają bardzo silną i krańcową
asymetrię lub kilka dominant.

background image

7

Podstawową klasyczną miarą zróżnicowania jest wariancja (

2

x

S

), stanowiąca drugi moment

centralny (m

2

), obliczana jako średnia kwadratowa z odchyleń od średniej arytmetycznej

według poniższego wzoru:

n

j

j

x

x

x

n

S

1

2

2

)

(

1

(2)

Wariancja stanowi podstawę do obliczenia odchylenia standardowego będącego bezwzględną
miarą przeciętnego zróżnicowania oraz procentowego współczynnika zmienności
stanowiącego względną miarę przeciętnego zróżnicowania. Powyższe statystyki opisowe
określane są na podstawie poniższych wzorów:

2

x

x

S

S

(3)

)

:

(

100

x

S

V

x

x

(4)

Należy zauważyć, że w pakietach komputerowych wariancja obliczana jest nieco inaczej tzn.
jako wariancja nieobciążona (

2

ˆ

x

S ) według następującego wzoru:

n

j

j

x

x

x

n

S

1

2

2

)

(

1

1

ˆ

(5)

Zatem również odchylenie standardowe oraz procentowy współczynnik zmienności obliczane
są odmiennie niż podane w powyższych wzorach (3) i (4) tzn. jako

2

ˆ

ˆ

x

x

S

S

(6)

)

:

ˆ

(

100

ˆ

x

S

V

x

x

(7)

W przypadku nie komputerowego przetwarzania danych statystycznych można stosować
algorytm wariancji obciążonej (

2

x

S ) pod warunkiem, że n>120, przy czym należy o tym

pamiętać przy późniejszym stosowaniu metod wnioskowania statystycznego.

Pozycyjne miary zróżnicowania tj. odchylenie ćwiartkowe oraz pozycyjny procentowy
współczynnik zmienności wyznaczane są w oparciu o kwartale – pierwszy, drugi (medianę)
oraz trzeci na podstawie poniższych wzorów:

2

:

)

(

1

3

Q

Q

Q

x

(8)

)

:

(

100

2

'

Q

Q

V

x

x

(9)

background image

8

3.1.3. Miary asymetrii i kurtozy

Obliczając miarę asymetrii – współczynnik asymetrii (A

x

) można odpowiedzieć na pytanie

przy jakich poziomach wariantów cechy tj. relatywnie niskich czy wysokich znajduje się
stosunkowo największa liczba jednostek danej zbiorowości statystycznej. Jeżeli średnia
arytmetyczna jest wyższa od mediany (A

x

>0) wówczas występuje asymetria prawostronna, z

kolei jeśli jest odwrotnie (A

x

<0) to występuje asymetria lewostronna.

Współczynnik asymetrii (obciążony) (A

x

) oparty jest na trzecim momencie centralnym (m

3

)

w przeliczeniu na sześcian odchylenia standardowego (

3

x

S

) i obliczany jest na podstawie

następującego wzoru:

n

j

x

j

x

x

S

x

x

n

S

m

A

1

3

3

3

3

:

]

)

(

1

[

:

(10)

Współczynnik asymetrii obliczany z wykorzystaniem pakietów komputerowych na podstawie
poniższego wzoru jest miarą nieobciążoną:

3

1

3

ˆ

)

2

)(

1

(

)

(

ˆ

x

n

j

j

x

S

n

n

x

x

n

A

(11)

W przypadku gdy współczynnik asymetrii przyjmuje wartości liczbowe z przedziału niskich
liczb ujemnych lub dodatnich wówczas siła asymetrii jest umiarkowana.

Obliczając miarę kurtozy – współczynnik kurtozy (C

x

) można odpowiedzieć na pytanie jaki

jest stopień skupienia wariantów cechy względem ich średnio arytmetycznego poziomu.
Punkt odniesienia w tym przypadku stanowi standardowy rozkład normalny, którego stopień
skupienia definiuje się jako zerową kurtozę. Jeśli stopień skupienia tj. spiczastość rozkładu
danych jest wyższy niż dla rozkładu normalnego wówczas występuje kurtoza dodatnia, a jeśli
jest odwrotnie wówczas kurtoza jest ujemna tzn. rozkład empiryczny jest bardziej płaski.

Współczynnik kurtozy oparty jest na czwartym momencie centralnym (m

4

) w przeliczeniu na

odchylenie standardowe podniesione do potęgi czwartej (

4

x

S ) i obliczany jest na podstawie

poniższego wzoru:

n

j

x

j

x

x

S

x

x

n

S

m

C

1

4

4

4

4

:

]

)

(

1

[

:

(12)

Współczynnik kurtozy obliczany z wykorzystaniem pakietów komputerowych jest miarą
nieobciążoną i ze względu na bardziej skomplikowaną kalkulację nie został zawarty
w opracowaniu.

background image

9

3.1.4. Przykład

Poniżej przedstawiono wyniki analizy struktury jednostkowych cen transakcyjnych
nieruchomości lokalowych – lokali mieszkalnych na rynku lokalnym dzielnicy Żoliborz
w Warszawie w I połowie 2013 roku.

Z informacji o 62 zanotowanych wartościach badanej zmiennej (cenie 1m

2

lokalu) jednostek

statystycznych (nieruchomości lokalowych) można utworzyć szereg szczegółowy podając
kolejno ceny 1 m

2

lokali. Posługiwanie się jednak takim szeregiem w przypadku dużej liczby

danych jest uciążliwe. Lepiej jest utworzyć szereg rozdzielczy, w którym jednostki
statystyczne ujmuje się w przedziałach klasowych. Poniżej zaprezentowano szereg
rozdzielczy cen 1 m

2

nieruchomości lokalowych w tabeli 2.

Tabela 2. Szereg rozdzielczy cen 1 m

2

nieruchomości lokalowych

Cena 1m

2

nieruchomości

Liczebność przedziału

5000 - 6000

3

6000 - 7000

9

7000 - 8000

16

8000 - 9000

14

9000 - 10000

8

10000 - 11000

8

11000 - 12000

2

12000 - 13000

2

Tak zbudowany szereg może posłużyć do podstawa do stworzenia histogramu częstotliwości
– rys. 1.

background image

10

Histogram cena 1m2

Żoliborz - lokale mieszkalne

cena 1m2 = 62*1000*normal(x; 8391,7258; 1671,9366)

5000

6000

7000

8000

9000

10000

11000

12000

13000

14000

cena 1m2

0

2

4

6

8

10

12

14

16

18

L

ic

z

b

a

o

b

s

.

Rys. 1. Rozkład (histogram częstotliwości) cen 1 m

2

nieruchomości lokalowych

Szereg rozdzielczy i histogram częstotliwości pozwalają na szybką, ale niezbyt precyzyjną
ocenę struktury badanej zbiorowości.

Aby dokładniej zbadać strukturę należy obliczyć statystyki opisowe.

Obliczone miary położenia są następujące:

średnia arytmetyczna 8392 zł/m

2

mediana 8088 zł/m

2

pierwszy kwartyl 7119 zł/m

2

trzeci kwartyl 9516 zł/m

2

Obliczone miary zróżnicowania są następujące:

wariancja 2795372

odchylenie standardowe 1672 zł/m

2

procentowy współczynnik zmienności 19,92 %

background image

11

Obliczone miary asymetrii i kurtozy są następujące:

współczynnik asymetrii 0,5498

współczynnik kurtozy - 0,1635

Zadanie

Oblicz miary położenia – średnią arytmetyczną, medianę, pierwszy i trzeci kwartyl oraz miary
zróżnicowania (nieobciążone i obciążone) – wariancję, odchylenie standardowe oraz
procentowy współczynnik zmienności dla następującego szeregu szczegółowego – cen 1 m

2

działek budowlanych

169, 164, 195, 138, 144, 162, 168, 163, 200, 165, 171, 197, 152, 139, 165, 184, 163, 168, 181

background image

12

3.2. Badanie współzależności cech

Analiza współzależności – związków służy określeniu:

siły i kierunku związku poprzez badanie korelacji,

kształtu zależności poprzez badanie regresji.

Siłę i kierunek związku (zależności) pomiędzy dwoma cechami (zmiennymi) x – zmienną
niezależną, y- zmienną zależną) można określić poprzez obliczenie współczynnika korelacji.
Najczęściej stosuje się współczynnik korelacji liniowej Pearsona, który obliczany jest według
poniższego wzoru:

y

x

n

j

j

j

xy

S

S

y

y

x

x

n

r

1

)

)(

(

1

(13)

Współczynnik korelacji liniowej Pearsona przyjmuje wartości z przedziału <-1;1>. Im
wartość tego współczynnika jest bliższa 1 lub -1 to zależność ta jest silniejsza. Przyjmuje się,
że korelacja jest:

 słaba (niski współczynnik korelacji) gdy |r|<=0.3
 silna (wysoki współczynnik korelacji) gdy |r|>0.6.

Znak współczynnika wskazuje na kierunek związku. Jeśli współczynnik jest dodatni to
oznacza, że wzrost jednej zmiennej powoduje wzrost drugiej, a jeśli jest ujemny to wzrost
jednej powoduje spadek drugiej.

Przykłady obliczonych współczynników korelacji liniowej zawiera tabela 3.

Tabela 3 Macierz współczynników korelacji liniowej

CENA LOK

POW

UZBR DK

SĄS

ZAG

CENA

1,00

0,85

0,30

0,69

0,75

-0,11

0,46

LOK

0,85

1,00

-0,00

0,62

0,67

-0,28

0,22

POW

0,30

-0,00

1,00

0,13

0,21

0,27

0,31

UZBR

0,69

0,62

0,13

1,00

0,76

-0,29

0,41

DK

0,75

0,67

0,21

0,76

1,00

-0,37

0,32

SĄS

-0,11

-0,28

0,27

-0,29

-0,37

1,00

0,09

ZAG

0,46

0,22

0,31

0,41

0,32

0,09

1,00

LOK – lokalizacja, POW - powierzchnia działki, UZBR – uzbrojenie techniczne,
DK – dostęp komunikacyjny, SĄS – sąsiedztwo, ZAG – stan zagospodarowania

Kształt zależności między 2 zmiennymi może przyjmować postać liniową lub nieliniową.

W przypadku postaci liniowej badaną zależność można przedstawić w postaci poniższego
równania:

b

aX

Y

i

i

(14)

background image

13

Parametry a i b takiej funkcji są szacowane z wykorzystaniem metody najmniejszych
kwadratów, zgodnie z którą suma kwadratów odległości między wartościami
zaobserwowanymi a wartościami teoretycznymi tj. leżącymi na poszukiwanej prostej ma być
jak najmniejsza.

W przypadku zależności nieliniowej między 2 zmiennymi można stosować funkcje o postaci
nieliniowej np. wielomianowej, wykładniczej, logarytmicznej czy potęgowej.

3.3. Badanie zmian cen w czasie

Rzeczoznawca majątkowy określając wartość nieruchomości zobowiązany jest do aktualizacji
cen transakcyjnych na datę wyceny. Aby to uczynić musi wcześniej zbadać zmiany cen
w czasie.

W przypadku bazy liczącej co najwyżej kilkanaście cen transakcyjnych często stosowaną
przez rzeczoznawców majątkowych metodą określenia wpływu czasu na poziom cen jest
metoda porównania cen nieruchomości podobnych w parach. Polega ona na porównaniu cen
transakcyjnych nieruchomości ocenionych pod kątem cech rynkowych identycznie lub bardzo
podobnie a będących przedmiotem sprzedaży w różnych okresach czasu.

Zagadnienie aktualizacji cen z wykorzystaniem tej metody można opisać z wykorzystaniem
wzorów (15), (16) i (17):

t

C

C

C

W

i

w

i

w

i

p

i

z

%

100

,

,

,

,

(15)

n

W

W

n

i

z

c

z

1

,

,

(16)

)

%

100

1

(

,

m

W

C

C

c

z

nom

a

(17)

gdzie:

i

z

W

,

- jednostkowy współczynnik zmiany cen obliczony dla jednej i-tej pary

nieruchomości podobnych,

i

w

C

,

,

i

p

C

,

- cena nieruchomości sprzedanej wcześniej oraz później w i-tej parze,

t

- liczba jednostek czasu pomiędzy datami sprzedaży nieruchomości w i-tej
parze,

n

- liczba par porównawczych – co najmniej kilka,

c

z

W

,

- współczynnik zmian cen na danym rynku,

background image

14

nom

C

,

a

C

- cena nominalna (transakcyjna) i zaktualizowana na datę wyceny,

m

- liczba jednostek czasu od daty transakcji do daty wyceny.

Jeśli lokalny rynek nieruchomości jest dobrze rozwinięty to możliwym jest utworzenie bazy
zawierającej co najmniej kilkadziesiąt transakcji. Wówczas wpływ czasu na poziom cen
możemy z dużym powodzeniem oszacować z wykorzystaniem modeli statystycznych,
wyznaczając trend czasowy. Budując model statystyczny zakładamy, że inne czynniki
wpływające na poziom cen nie są istotne dla ogólnej tendencji.

Jeśli zmiany cen w czasie są w przybliżeniu liniowe stosuje się model liniowej regresji:

t

b

a

c

(18)

gdzie:

c

- jednostkowa cena nieruchomości

a, b

- parametry modelu

t

- data transakcji (kolejna jednostka czasu wyrażona liczbą)

Estymacja parametrów modelu opisanego równaniem (18) (oszacowanie współczynnika
kierunkowego i stałej) odbywa się najczęściej metodą najmniejszych kwadratów.
Współczynnik kierunkowy wyraża zmianę cen przypadającą na jednostkę czasu np. miesiąc
(ŹRÓBEK 2007).

y = -27,794x + 9208,2

0

2000

4000

6000

8000

10000

12000

0

5

10

15

20

25

ce

na

[z

ł/m

2

]

kolejne miesiące

Rys.2. Trend czasowy – funkcja liniowa

Aktualizację cen można przeprowadzić na podstawie obliczonych wartości dla początku
i końca okresu badania zmian cen z równania funkcji liniowej, wykorzystując wzór (15) i (17)
przy czym W

z,c

= W

z

. Dla trendu czasowego o równaniu y = - 27,794 x + 9208,2 (rys.2)

W

z,c

= - 0,0030.

background image

15

Modele liniowej regresji można próbować stosować również dla zbiorów niezbyt licznych,
zawierających kilkanaście transakcji.

W przypadku, gdy zmiany cen w czasie nie są wyraźnie liniowe, wówczas należy zastosować
model regresji nieliniowej. Najczęściej wykorzystywane funkcje nieliniowe to: potęgowa,
wykładnicza, logarytmiczna oraz wielomian n-stopnia. Estymacja parametrów modelu
nieliniowego może odbywać się nieliniową metodą najmniejszych kwadratów.

y = 0,0342x

3

- 2,2534x

2

+ 47,188x + 1118,8

0

500

1000

1500

2000

2500

3000

3500

0

10

20

30

40

50

60

ce

na

[z

ł/m

2

]

kolejne miesiące

Rys.3. Trend czasowy – funkcja nieliniowa, wielomian 3 stopnia.

Właściwy dobór funkcji nie jest prosty. Pomocnym może być analiza sporządzonego wykresu
– zależności cen od daty transakcji, a także obliczenie współczynnika determinacji R

2

.

W przypadku funkcji nieliniowych aktualizację cen na datę wyceny dokonuje się
współczynnikami dla poszczególnych jednostek czasu w których zawarto transakcję,
obliczonymi na podstawie funkcji nieliniowej.

3.4. Wprowadzenie do wnioskowania statystycznego

Obok opisu statystycznego, który prezentowany był w pierwszej części konspektu
a właściwie w jego rezultacie powstaje zagadnienie wnioskowania statystycznego
tj. podejmowania decyzji na określonym poziomie prawdopodobieństwa. Występująca
niepewność spowodowana jest brakiem informacji liczbowych o zbiorowości generalnej,
a dysponowaniem jedynie danymi z próby losowej.

Po dokonaniu opisu próby losowej tj. obliczenia miar położenia, zróżnicowania, asymetrii
i kurtozy rozpoczyna się wnioskowanie statystyczne. Obejmuje ona dwie podstawowe
procedury statystyczne tj.

procedurę estymacji nieznanych parametrów czyli szacowania statystyk opisowych

w zbiorowości generalnej z wykorzystaniem metody przedziałów ufności przy
deklarowanym prawdopodobieństwie zwanym poziomem ufności;

background image

16

procedurę weryfikacji hipotez statystycznych czyli sprawdzenie założeń o poziomie

nieznanych parametrów (hipotezy parametryczne) lub kształcie nieznanych rozkładów
(hipotezy nieparametryczne) w zbiorowości generalnej, przy czym weryfikacje te są
przeprowadzane odpowiednio testami istotności lub zgodności przy deklarowanym
prawdopodobieństwie zwanym poziomie istotności.

Przejście od opisu statystycznego do wnioskowania statystycznego wymaga zapoznania się
z podstawowymi terminami stosowanymi we wnioskowaniu.

Odpowiednikiem mierzalnej lub niemierzalnej cechy statystycznej jest zmienna losowa X,
przy czym cecha zmienna przyjmuje swoje warianty, a w przypadku zmiennej losowej
występują realizacje. Warianty cech są zawsze skończonym zbiorem informacji liczbowych,
które występują z określonymi częstościami empirycznymi, podczas gdy realizacje
zmiennych losowych mogą być skończonymi lub nieskończonymi zbiorami informacji
liczbowych, występujących z określonym prawdopodobieństwem. Zatem w przypadku cech
zmiennych informacje liczbowe tworzą rozkłady empiryczne a zmienne losowe rozkłady
teoretyczne.

Wcześniej wspomnianą zmienną losową X nazywamy każdą jednoznacznie określoną funkcję
rzeczywistą określoną na zbiorze elementarnych zdarzeń losowych. Można również
powiedzieć, że zmienna losowa jest to taka zmienna, która przyjmuje określone wartości
z odpowiednim prawdopodobieństwem Może ona mieć postać zmiennej losowej:

skokowej (dyskretnej), która przyjmuje wartości ze zbioru liczb całkowitych lub

określone i wybrane wartości rzeczywiste,

ciągłej, która przyjmuje wartości ze zbioru gęstego,

pseudoskokowe czyli parametry losowe, które niezależnie od tego, jakie wartości
przyjmują, mogą być traktowane jak skokowe bądź ciągłe.

3.5. Rozkłady prawdopodobieństwa zmiennej losowej

Rozkład zmiennej losowej jest określony jeżeli:

każdej wartości, jaką może przyjąć zmienna losowa skokowa lub pseudoskokowa X,
zostało przyporządkowane określone prawdopodobieństwo. Zgodnie z twierdzeniem
o sumowaniu prawdopodobieństw ich suma dla wszystkich możliwych wartości
zmiennej równa się jedności;

w przedziale dopuszczalnych wartości zmiennej losowej ciągłej X została określona

funkcja gęstości prawdopodobieństwa f(x) nieujemna, całkowalna, dla której całka po
całym określonym powyżej przedziale jest równa jedności.

Funkcja gęstości prawdopodobieństwa jest często nazywana funkcją gęstości lub

gęstością, dla danego rozkładu.

background image

17

Poniżej na rys. 4 przedstawiono rozkłady zmiennej losowej skokowej (a) i ciągłej (b).

Rys. 4. Rozkłady zmiennej losowej skokowej (a) i ciągłej (b) (Adamczewski 2011)

Rozkład zmiennej losowej charakteryzują jego parametry. Najbardziej użytecznymi
parametrami są momenty.
Moment zwykły pierwszego rzędu nazywa się wartością oczekiwaną E(X) (średnią). Jest to
miara skupienia (położenia) wartości zmiennej losowej i służy do ocen punktowych.
Moment centralny drugiego rzędu nazywa się wariancją D

2

(X). Jest to miara rozproszenia

wartości zmiennej losowej i służy do ocen przedziałowych.
Inną miarę rozproszenia stanowi odchylenie standardowe σ

x

obliczane jako pierwiastek

kwadratowy z wariancji D

2

(X).

)

(

2

X

D

X

(19)


Podstawowym teoretycznym rozkładem zmiennych losowych ciągłych (X

c

) jest rozkład

normalny Gaussa-Laplace’a oznaczany N(m,σ). O zmiennej losowej ciągłej (X

c

) można

powiedzieć, że posiada rozkład normalny, jeżeli funkcja gęstości f(x) tego rozkładu ma
postać:

)

2

)

(

exp(

2

1

)

(

2

2

m

x

x

f

dla

)

,

(



x

(20)

gdzie:
m – wartość oczekiwana
σ

2

- wariancja

σ – odchylenie standardowe.

background image

18

Dystrybuanta rozkładu normalnego jest funkcją niemalejącą postaci



dx

x

f

)

(

x)

<

s

P(X

=

F(x)

(21)

przy czym

1

)

(

,

2

1

)

(

,

0

)

(





F

m

x

F

F

Jeśli zmienną losową ciągłą posiadającą rozkład normalny N(m,σ) poddamy standaryzacji to
zmienna standaryzowana U ma postać:

m

X

U

(22)

i posiada standardowy rozkład normalny SN(0,1) określany przez 2 parametry tj. wartość
oczekiwaną E(U)=0 oraz wariancję i odchylenie standardowe równe D

2

(U) =D(U) =1.

Funkcja gęstości ma następującą postać:

)

2

exp(

2

1

)

(

2

u

u

f

dla

)

,

(



u

(23)

Na rys. 5 zaprezentowano funkcję prawdopodobieństwa oraz dystrybuantę standardowego
rozkładu normalnego SN(0,1).

Rys. 5. Funkcja prawdopodobieństwa oraz dystrybuanta standardowego rozkładu normalnego

SN(0,1)

background image

19

Ważne dla wnioskowania statystycznego mają również standardowe rozkłady chi-kwadrat
(CHS), Studenta (S) oraz Fishera-Snedecora (FS), których zastosowanie zostanie
zaprezentowane w drugiej części konspektu.

3.6. Przedziały ufności dla średniej i wariancji

Przedział ufności stanowi przedział liczbowy, który z określonym prawdopodobieństwem,
będzie zawierał nieznaną, prawdziwą wartość szacowanego parametru z populacji generalnej
np. cen transakcyjnych. Może być to m.in. przedział ufności dla średniej arytmetycznej czy
dla wariancji. Prawdopodobieństwo z którym zamierzamy poznać prawdziwe położenie
wybranych parametrów statystycznych określa się jako 1-α i nazywa się współczynnikiem
ufności, przy czym α (poziom istotności) wyraża prawdopodobieństwo popełnienia błędu
I rodzaju. Poziom istotności określa maksymalne ryzyko błędu, jakie jesteśmy skłonni
zaakceptować. Najczęściej przyjmuje się α = 0.05 stąd wartość współczynnika ufności (1-α)
wynosi 0.95.

Spośród wielu przedziałów ufności najczęściej wyznaczany jest przedział ufności dla średniej.
Związane to jest z tym, że średnia wartość badanej cechy stanowi najczęściej szacowany
parametr populacji generalnych np. cen transakcyjnych. Najlepszym estymatorem wartości
średniej w populacji generalnej (m) jest średnia arytmetyczna (

x

) z próby. Jej rozkład

wykorzystuje się do budowy przedziału ufności dla wartości średniej w populacji.
W zależności od przyjętych założeń otrzymuje się konkretne wzory na przedziały ufności.

Jeśli założymy, że populacja generalna ma rozkład normalny N(m,σ) i odchylenie
standardowe jest nieznane a próba jest duża n>30 to przedział ufności dla parametru m
(średniej) ma postać:

1

)

(

n

S

u

x

m

n

S

u

x

P

(24)

gdzie:

x

- średnia z n - elementowej próby losowej,

S - odchylenie standardowe z próby losowej,
u

α

- wartość zmiennej losowej U o standaryzowanym rozkładzie normalnym N(0,1)

Dla 1-α = 0.95 u

α

= 1,96 a dla 1-α = 0.99 u

α

= 2,58.

Jeśli założymy, że populacja generalna ma rozkład normalny N(m,σ) i odchylenie
standardowe jest nieznane a próba jest mała n<30 to przedział ufności dla parametru m
(średniej) ma postać:

background image

20

1

)

1

1

(

n

S

t

x

m

n

S

t

x

P

(25)

gdzie:

x

- średnia z n - elementowej próby losowej,

S - odchylenie standardowe z próby losowej,
t

α

– wartość zmiennej losowej T o rozkładzie t- Studenta z n-1 stopniami swobody

Oprócz średniej do najczęściej szacowanych parametrów należy wariancja (σ

2

) oraz

odchylenie standardowe (σ) badanej cechy. Gdy rozkład badanej cechy jest normalny lub do
niego zbliżony można zbudować przedział ufności dla wariancji opierając się na rozkładzie
statystyki będącej jej estymatorem. Do najczęściej używanego estymatora wariancji w
populacji generalnej należy statystyka:

n

i

i

x

x

n

S

1

2

2

)

(

1

(26)

Gdy liczebność próby jest mała tj. n<30 i rozkład badanej cechy w populacji generalnej jest
normalny to przedział ufności dla wariancji ma postać:

1

)

(

2

1

,

2

2

2

2

1

,

2

1

2

n

n

nS

nS

P

(27)

gdzie:

n- liczebność próby losowej,

S - odchylenie standardowe z próby

1

,

2

1

n

i

1

,

2

n

- statystyki spełniające równania

2

)

(

2

1

,

2

2

n

P

2

1

)

(

2

1

,

2

1

2

n

P

gdzie λ

2

ma rozkład chi-kwadrat z n-1 stopniami swobody.

background image

21

Gdy liczebność próby jest duża tj. n>30 i rozkład badanej cechy w populacji generalnej jest
normalny to przedział ufności ma postać:

1

)

2

1

2

1

(

n

u

S

n

u

S

P

(28)

gdzie:

n- liczebność próby losowej,

S - odchylenie standardowe z próby

u

- statystyka spełniająca równanie: P(-

u

<U<

u

) = 1-α

(29)

Profesor Z. Adamczewski w opracowaniu [1] proponuje szacować przedziały ufności za
pomocą całki prawdopodobieństwa Gaussa. Określenia maksymalnego odchylenia ceny
transakcyjnej od jej wartości średniej można wykonać korzystając z wzoru Gaussa na
skorygowane odchylenie standardowe średniej arytmetycznej (30).

)

2

/

1

1

(

)

(

k

n

n

w

kor

w

(30)

gdzie:

)

(kor

w

n

- skorygowane odchylenie standardowe średniej arytmetycznej,

n

w

- obliczone z próbki losowej, z wzoru (32) odchylenie standardowe średniej

arytmetycznej,

k = n-1 - liczba stopni swobody

Maksymalne odchylenie v

max

na poziomie ufności

)

(t

P

, gdzie

)

(t

jest całką

prawdopodobieństwa Gaussa, wyniesie

)

2

/

1

1

(

)

(

max

k

t

t

v

n

n

w

kor

w

(31)

gdzie

nk

vv

n

n

vv

n

w

]

[

)

1

(

]

[

(32)

background image

22

Wybrane wartości całki prawdopodobieństwa Gaussa zawiera poniższa tabela 4.

Tabela 4. Wybrane wartości całki prawdopodobieństwa Gaussa.

T

0.5

1

1.96

2

2.5

3

3.29

Φ(t) 0.3829 0.6827

0.95

0.9545 0.9876 0.9973 0.9990

Zadanie

Określ przedziały ufności dla średniej na poziomie istotności α = 0.05 na podstawie próby
losowej - zbioru cen jednostkowych działek budowlanych

169, 164, 195, 138, 144, 162, 168, 163, 200, 165, 171, 197, 152, 139, 165, 184, 163, 168, 181

background image

23

3.7. Elementy weryfikacji hipotez statystycznych

Hipoteza statystyczna jest założeniem badawczym, sformułowanym przez użytkownika, które
dotyczy albo poziomu nieznanych parametrów w populacji generalnej – wówczas mówimy o
hipotezach parametrycznych albo kształtu rozkładów teoretycznych dla obserwowanych
zmiennych losowych – wówczas mówimy o hipotezach nieparametrycznych.

Założenie badawcze zwane hipotezami statystycznymi są formułowane w dwóch
równoległych i nierozłącznych postaciach tj. jako:

hipoteza zerowa (H

0

), przez którą należy rozumieć sformułowanie założenia o braku

jakiejkolwiek różnicy pomiędzy ocenami z prób losowych a parametrami lub
rozkładami w populacji generalnej

hipotezy alternatywne (H

1

), które są wszystkimi pozostałymi i możliwymi

założeniami, poza sformułowaną hipotezą zerową,

przy czym hipotezy alternatywne mogą być formułowane względem hipotezy zerowej
dwustronnie i wtedy H

1

≠H

0

lewostronnie i wtedy H

1

<H

0

lub prawostronnie i wtedy H

1

>H

0.

Sposób sformułowania hipotezy alternatywnej względem hipotezy zerowej ma wpływ na
stopień jednoznaczności podejmowanych decyzji weryfikacyjnych. Pamiętać należy jednak,
że metody weryfikacji hipotez skierowane są wyłącznie na sprawdzenie hipotez zerowych.
Wiemy zawsze, że formułowana hipoteza zerowa jest albo prawdziwa albo fałszywa ale nigdy
nie będziemy wiedzieli jaka ona jest naprawdę.

Błędem losowym I rodzaju nazywamy odrzucenie prawdziwej hipotezy zerowej, z kolei
przyjęcie fałszywej hipotezy zerowej jest błędem losowym II rodzaju. Decyzje weryfikacyjne
nie mogą być bezbłędne wobec czego asekurujemy się możliwie niskim poziomem
prawdopodobieństwa pojawienia się błędu losowego. Wyróżnia się 2 rodzaje takich
prawdopodobieństw:

prawdopodobieństwo odrzucenia zerowej hipotezy prawdziwej zwane poziomem

istotności α, przy czym jest on a’priori przyjmowanym założeniem, najczęściej
z przedziału od 0,01 do 0,10;

prawdopodobieństwo przyjęcia zerowej hipotezy fałszywej.

Hipotezy zerowe (H

0

) zapisuje się najczęściej przy sformułowaniu założenia, że są one

prawdziwe. Dla każdej parametrycznej hipotezy zerowej musi być podany dwustronny lub
jednostronny zbiór hipotez alternatywnych H

1

np

.

H

0

: E(X

1

) = E (X

2

)

H

1

: E(X

1

) < E (X

2

). Z

nieparametrycznych hipotez zerowych można tylko formułować hipotezy alternatywne tylko
w sposób dwustronny np.: H

0

: f(x)=N(m,σ) oraz H

1

: f(x) ≠N(m,σ).

Weryfikację hipotez statystycznych przeprowadza się przy użyciu specjalnych funkcji
zwanych testami statystycznymi. Dzielą się one na testy istotności za pomocą których
sprawdza się zerowe hipotezy parametryczne oraz testy zgodności służące do sprawdzenia

background image

24

nieparametrycznych hipotez zerowych. Wszystkie stosowane testy statystyczne są zmiennymi
losowymi o znanych rozkładach teoretycznych – najczęściej są to standaryzowane rozkłady
takie jak: normalny, Studenta, chi-kwadrat oraz Fishera-Snedecora.

Bibliografia

Adamczewski Z. 2002. Nieliniowe i nieklasyczne algorytmy w geodezji. Oficyna
Wydawnicza PW, Warszawa 2002

Adamczewski Z. 2011. Elementy modelowania matematycznego w wycenie nieruchomości.
Podejście porównawcze
. Oficyna Wydawnicza PW, Warszawa 2011

Budzyński T. 2010. Metodyka aktualizacji cen na przykładzie nieruchomości lokalowych.
Studia i Materiały TNN, Olsztyn 2010

Gawron H. 2009. Analiza rynku nieruchomości. WUE w Poznaniu, Poznań 2009

Hozer J. Kokot S. Kuźmiński W. 2003. Metody analizy statystycznej rynku w wycenie
nieruchomości.
PFSRM, Warszawa 2003

Luszniewicz A. Słaby T. 2001. Statystyka z pakietem komputerowym STATISTICA PL.
Teoria i zastosowania.
C.H. Beck. Warszawa 2001

Prystupa M. 2001. Wycena nieruchomości przy zastosowaniu podejścia porównawczego.
PFSRzM. Warszawa 2001

Źróbek S. (redakcja naukowa) 2002, autorzy: Cellmer R., Czerkies J., Muczyński A., Źróbek
S. Określanie wartości rynkowej nieruchomości WUWM, Olsztyn 2002

Źróbek S. 2007. Metodyka określania wartości rynkowej nieruchomości. Educaterra 2007


Wyszukiwarka

Podobne podstrony:
Podstawy statystyki i ekonometrii 2014 część 2
Referat Badania statystyczne, rodzaje i etapy Podstawy statystyki,ekonomiki i organizacjix
podstawy statystyki,ekonomiki i organizacji
Podstawy ekonomii matematycznej część 3, GPW I FOREX
Podstawy ekonomii matematycznej część 1, GPW I FOREX
2014.11.12 stowarzyszenie i fundacja, IŚ Tokarzewski 27.06.2016, III semestr, Hes (Podstawy prawodaw
Podstawowe pojecia statystyczne, ekonomia, logika, biznes, info
Podstawy ekonomii matematycznej część 2, GPW I FOREX
Statystyka WY lisowski egazmin [ekonomia2013 2014]
Czym zajmuje sie ekonomia podstawowe problemy ekonomiczne
Metodologia SPSS Zastosowanie komputerów Brzezicka Rotkiewicz Podstawy statystyki
pdf wykład 02 budowa materii, podstawowe prawa chemiczne 2014
Strona 3, Podstawy Statystyki i Przedsiębiorczości
Podstawy statystyki
Podstawowe problemy ekonomiczne, Ekonomia, ekonomia

więcej podobnych podstron