05 analiza stat www przeklej plid 5637


RYNEK NIERUCHOMOÅšCI
dr inż. Radosław Cellmer
Wykład 5
Analiza statystyczna cen nieruchomości
Treść wykładu:
1. Pojęcie zmiennej
2. Opis statystyczny danych rynkowych
3. Analiza zależności między zmiennymi
POJCIE ZMIENNEJ
Zmienne są to wielkości, które mierzymy, kontrolujemy lub którymi manipulujemy w
jakiś sposób w trakcie badań.
Przykłady zmiennych wykorzystywanych do analiz rynkowych):
- cena (np. wyrażona w zł/m2)
- lokalizacja (np. wyrażona w skali atrakcyjności od 1 do 5)
- powierzchnia (np. wyrażona w m2)
- powierzchnia (np. wyrażona w m2)
- stan techniczny budynku (np. mierzony % stopniem zużycia)
- stopa kapitalizacji (mierzona %)
ZMIENNE OBJAÅšNIANE I ZMIENNE OBJAÅšNIAJCE
Zmiennymi objaśniającymi (niezależnymi) nazywamy te spośród zmiennych, które wg
założeń są przyczyną występowania określonego poziomu zjawiska (np. cechy fizyczne
nieruchomości, jako czynniki kształtujące ceny)
Zmiennymi objaśnianymi (zależnymi) nazywamy te spośród zmiennych, których
wartości są zdeterminowane przez zmienne objaśniające (np. cena jest uzależniona od
cech fizycznych nieruchomości)
Przykład
Jeżeli przyjmiemy hipotezę, że na ceny lokali wpływa lokalizacja i położenie na piętrze
to cena będzie stanowiła zmienną objaśnianą a lokalizacja i piętro będą stanowiły
zmienne objaśniające
WYBRANE METODY OPISU STATYSTYCZNEGO
" prezentacja graficzna rozkładu empirycznego
" miary położenia
" miary (rozproszenia) dyspersji
" miary asymetrii
Histogram Cena skorygowana
lokale 12v*100c
Cena skorygowana = 100*500*normal(x; 4481,8; 690,7521)
35
30
25
Technologia; Oczekiwane średnie brzegowe
Bieżący efekt: F(1, 98)=9,5692, p=,00258
20
Dekompozycja efektywnych hipotez
Pionowe słupki oznaczają 0,95 przedziały ufności
15 5400
5300
10
5200
5100
5
5000
4900
0
4800
2500 3000 3500 4000 4500 5000 5500 6000 6500 7000
4700
Cena skorygowana
4600
4500
4400
4300
4200
4100
0 1
Technologia
Liczba obs.
Cena skorygowana
ROZKAAD EMPIRYCZNY CEN NIERUCHOMOÅšCI
Empiryczny rozkład cechy, to przyporządkowanie uszeregowanym rosnąco wartościom
cechy (np. cenom transakcyjnym) odpowiednio zdefiniowanych częstości (lub
prawdopodobieństw) ich występowania.
12
10
8
6
4
2
0
4800 4900 5000 5100 5200 5300 5400 5500 5600 5700 5800
Cena
Liczba obs.
ROZKAAD NORMALNY (GAUSSA)
f(x)
X
m-Ã m m+Ã
à Ã
à Ã
à Ã
ROZKAAD EMPIRYCZNY CEN NIERUCHOMOÅšCI
Histogram Cena
12
10
8
6
4
2
0
4800 4900 5000 5100 5200 5300 5400 5500 5600 5700 5800
Cena
Liczba obs.
OPIS STATYSTYCZNY DANYCH  MIARY POAOŻENIA
Miary położenia
Służą do wyznaczenia takiej realizacji zmiennej opisanej przez rozkład, wokół której
skupiają się wszystkie pozostałe realizacje
Miary klasyczne
Określane są przy pomocy wszystkich obserwacji
Przykłady:
" średnia arytmetyczna
" średnia arytmetyczna
" średnia geometryczna
" średnia harmoniczna
Miary pozycyjne
Określane są przy pomocy pewnych charakterystycznych obserwacji
Przykłady:
" mediana
" dominanta (moda)
WYBRANIE KLASYCZNE MIARY POAOŻENIA
x1 + x2 + ...+ xn
Åšrednia arytmetyczna
x =
n
Åšrednia geometryczna n
xg = x1 Å" x2 Å"...Å" xn
g 1 2 n
n
Åšrednia harmoniczna
xh =
1 1 1
+ +...+
x1 x2 xn
POZYCYJNE MIARY POAOŻENIA - MEDIANA
Mediana - Jest to taka wartość cechy, że co najmniej połowa jednostek populacji ma wartość
cechy nie większą od niej i równocześnie co najmniej połowa jednostek ma wartość cechy nie
mniejszą od tej wartości
5800
5600
5400
me
me = 5255,67 zł/m2
5200
5000
4800
4600
4400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
POZYCYJNE MIARY POAOŻENIA - DOMINANTA
Dominanta - wartość cechy występująca statystycznie najczęściej w danym rozkładzie
7
6
5
4
do = 5100 zł/m2
3
2
1
0
4800 4900 5000 5100 5200 5300 5400 5500 5600 5700 5800
Cena
Liczba obs.
OPIS STATYSTYCZNY DANYCH  MIARY DYSPERSJI
Miary rozproszenia (miary dyspersji)
Służą do badania stopnia zróżnicowania jednostek zbiorowości pod względem badanej
zmiennej
Miary klasyczne
Określane są przy pomocy wszystkich obserwacji
Przykłady:
" wariancja
" wariancja
" odchylenie standardowe
" współczynnik zmienności
Miary pozycyjne
Określane są przy pomocy pewnych charakterystycznych obserwacji
Przykłady:
" kwartyle
" rozstęp ćwiartkowy
WYBRANE KLASYCZNE MIARY DYSPERSJI
n
2
"(x - x)
i
i=1
Wariancja
s2 =
n -1
n
2
"(x - x)
i
Odchylenie standardowe
Odchylenie standardowe
i=1
i=1
s =
s =
n -1
s
Współczynnik zmienności V =
x
POZYCYJNE MIARY DYSPERSJI - KWARTYLE
5800
5600
5400
Q3= 5356,47 zł/m2
Q = 5255,67 zł/m2
Q2= 5255,67 zł/m2
5200
Q1= 5109,60 zł/m2
5000
4800
4600
4400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
RELACJE MIDZY ZMIENNYMI
Dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w
mierzonej próbie rozłożone są w określony, systematyczny sposób.
Każdą relację (zależność) między zmiennymi można scharakteryzować dwiema
własnościami: siłą (lub "wielkością") i istotnością (lub "wiarygodnością") tej relacji
a) siła zależności oznacza możliwość określenia wartości jednej zmiennej na podstawie
a) siła zależności oznacza możliwość określenia wartości jednej zmiennej na podstawie
pomiaru drugiej (w obrębie badanej próbki).
b) istotność zależności dotyczy reprezentatywności wyniku uzyskanego na podstawie
pobranej próbki w odniesieniu do całej badanej populacji.
Nie każda relacja na rynku nieruchomości oznacza związek przyczynowo-skutkowy
ANALIZA RELACJI MIDZY CECHAMI NIERUCHOMOÅšCI I
CENAMI
Wybrane metody analizy:
" analiza porównywania parami
" analiza korelacji
" analiza regresji
Analiza porównywania parami polega na pogrupowaniu nieruchomości w pary różniące się
jedynie jedną cechą. Średnia różnica cen w każdej parze oznacza wpływ danego czynnika na cenę.
Analiza ta pozwala zmierzyć siłę związku.
Analiza ta pozwala zmierzyć siłę związku.
Analiza korelacji polega na wyznaczeniu współczynnika korelacji i ocenie jego istotności. Analiza
ta pozwala zmierzyć zarówno siłę jak i istotność związku.
Analiza regresji polega na wyznaczeniu zależności funkcyjnej, gdzie cena jako zmienna
objaśniana jest funkcją wybranego czynnika jako zmiennej objaśniającej. Analiza ta pozwala
zmierzyć zarówno siłę, istotność związku, oraz pozwala na podanie jego matematycznej postaci.
KORELACJA
Korelacja jest miarą relacji pomiędzy dwiema lub większą liczbą zmiennych.
Współczynniki korelacji przyjmują wartości z przedziału od -1,00 do +1,00.
Współczynnik korelacji liniowej Pearsona
Określa on stopień wzajemnej proporcjonalności wartości dwóch zmiennych.
Korelacja jest silna, jeśli może być opisana przy pomocy linii prostej (nachylonej
dodatnio lub ujemnie). Linia, o której mowa, nazywa się linią regresji
WSPÓACZYNNIK KORELACJI LINIOWEJ PEARSONA
cov(x,y)
r =
S(x)Å" S(y)
n
- x)(yi - y)
"(xi
i=1
i=1
cov(x, y) =
cov(x, y) =
cov (x,y)  kowariancja zmiennych X i Y
cov (x,y)  kowariancja zmiennych X i Y
n -1
n
2
"(x - x)
i
i=1
S(x)  odchylenie standardowe zmiennej X S(x) =
n -1
n
2
"(y - y)
i
i=1
S(y)  odchylenie standardowe zmiennej Y
S(y) =
n -1
KORELACJA DODATNIA
xi  xśr > 0
yi  yśr > 0
y
cov (x, y) > 0
>
>
>
xi  xśr < 0
yi  yśr < 0
x
KORELACJA UJEMNA
xi  xśr < 0
yi  yśr > 0
cov (x, y) < 0
cov (x, y) < 0
<
<
<
<
<
<
y
y
xi  xśr > 0
yi  yśr < 0
x
BRAK KORELACJI
cov (x, y) = 0
cov (x, y) = 0
y
x
MACIERZ KORELACJI (PRZYKAAD)
ISTOTNOŚĆ WSPÓACZYNNIKA KORELACJI
Hipoteza zerowa i hipoteza alternatywna:
H0 : r = 0 (wartość współczynnika korelacji jest statystycznie nieistotna)
H1 : r `" 0 (wartość współczynnika korelacji jest statystycznie istotna)
Statystyka testu (rozkład t-Studenta):
r
t = n - 2
t = n - 2
1- r2
Jeżeli | t | < tkryt oznacza to, że nie ma podstaw do odrzucenia hipotezy zerowej
Jeżeli | t | > tkryt oznacza to, że odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej
ISTOTNOŚĆ WSPÓACZYNNIKA KORELACJI (PRZYKAAD)
Na podstawie danych o 50 cenach transakcyjnych lokali mieszkalnych i ich powierzchni zbadano,
czy położenie lokalu na kondygnacji jest istotnym czynnikiem wpływającym na ceny
transakcyjne. W tym celu obliczono wartość współczynnika korelacji, który wyniósł r = 0,24, a
następnie przeprowadzono test istotności współczynnika korelacji.
Przyjmujemy założenie, że błąd, który możemy popełnić wynosi 5% (poziom istotności ą = 0,05)
Obliczenie empirycznej wartości statystyki t:
r 0,24
t = n - 2 = 50 - 2 = 1,71
2
1- r2
1-(0,24)
Obliczenie krytycznej wartości statystyki t:
t(0,05;48) = 2,01
(wielkość tę odczytujemy z tablic rozkładu t-Studenta)
Wartość bezwzględna obliczonej (empirycznej) wartości statystyki t-Studenta nie przekracza
wartości krytycznej. Stąd wniosek, że należy przyjąć hipotezę o nieistotności współczynnika
korelacji. Zależność między ceną i powierzchnia lokalu jest więc statystycznie nieistotna.
REGRESJA LINIOWA
y
Równanie prostej:
y = ax + b
30
Model regresji:
w = ax + b
w = ax + b
20
gdzie:
cov(x, y)
a =
10
2
S (x)
b = y - a
x
3 4
2 5
1
ANALAIZA REGRESJI  PRZYGOTOWANIE DANYCH
ANALIZA REGRESJI  OPIS DANYCH NA SKALACH LICZBOWYCH
ANALIZA REGRESJI  HISTOGRAM ROZKAADU EMPIRYCZNEGO
Histogram Cena
Arkusz1 10v*31c
Cena = 31*500*normal(x; 3302,3305; 562,8171)
14
12
10
8
6
4
2
0
1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Cena
Liczba obs.
ANALIZA REGRESJI  USUNICIE OBSERWACJI ODSTAJCYCH
6000,00
5000,00
4000,00
3000,00
2000,00
1000,00
0,00
0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0
ANALIZA REGRESJI  USUNICIE OBSERWACJI ODSTAJCYCH
ANALIZA REGRESJI  KORELACJA MIDZY ZMIENNYMI
ANALIZA REGRESJI  POWIERZCHNIA I CENA
Wykres rozrzutu Cena względem Powierzchnia
Arkusz1 10v*29c
Cena = 3491,2353-3,5165*x
4200
4000
3800
3600
3600
3400
3200
3000
2800
2600
2400
30 40 50 60 70 80 90
Powierzchnia
Cena
ANALIZA REGRESJI  POAOŻENIE I CENA
Wykres rozrzutu Cena względem Położenie
Arkusz1 10v*29c
Cena = 2931,7038+212,8007*x
4200
4000
3800
3600
3400
3200
3000
2800
2600
2400
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2
Położenie
Cena
ANALIZA REGRESJI  KONDYGNACJA I CENA
Wykres rozrzutu Cena względem Kondygnacja
Arkusz1 10v*29c
Cena = 3033,777+133,7748*x
4200
4000
3800
3600
3600
3400
3200
3000
2800
2600
2400
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2
Kondygnacja
Cena
ANALIZA REGRESJI  TECHNOLOGIA I CENA
Wykres rozrzutu Cena względem Technologia
Arkusz1 10v*29c
Cena = 2734,4154+360,3087*x
4200
4000
3800
3600
3600
3400
3200
3000
2800
2600
2400
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2
Technologia
Cena
ANALIZA REGRESJI  STANDARD I CENA
Wykres rozrzutu Cena względem Standard
Arkusz1 10v*29c
Cena = 2837,8973+377,034*x
4200
4000
3800
3600
3600
3400
3200
3000
2800
2600
2400
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2
Standard
Cena
ANALIZA REGRESJI - PROGNOZOWANIE
Równania regresji:
Cena = 3491,24  3,52 · Powierzchnia
Cena = 2831,70 + 212,80 · PoÅ‚ożenie
Cena = 3033,78 + 133,77 · Kondygnacja
Cena = 2734,41 + 360,31 · Technologia
Cena = 2734,41 + 360,31 · Technologia
Cena = 2837,90 + 377,03 · Standard
ANALIZA REGRESJI - PROGNOZOWANIE
Prognoza ceny jednostkowej dla lokalu o następujących cechach:
Powierzchnia: 50 m2 (50) Cena (Pow) = 3491,24  3,52· 50 = 3315,24 zÅ‚
PoÅ‚ożenie: przeciÄ™tne (2) Cena (PoÅ‚)) = 2831,70 + 212,80 · 2 = 3257,30 zÅ‚
Kondygnacja: IV (2) Cena (Kon) = 3033,78 + 133,77 · 2 = 3301,32 zÅ‚
Technologia: wielka pÅ‚yta (1) Cena (Tec) = 2734,41 + 360,31 · 1 = 3094,72 zÅ‚
Technologia: wielka pÅ‚yta (1) Cena (Tec) = 2734,41 + 360,31 · 1 = 3094,72 zÅ‚
Standard: przeciÄ™tny (1) Cena (Std) = 2837,90 + 377,03 · 1 = 3214,93 zÅ‚
Średnia arytmetyczna = 3236,70 zł
Odchylenie std. = 88,60 zł
Wartość lokalu (prognoza ceny) = 3236,70 · 50 = 161 835 zÅ‚
WSPÓACZYNNIK DETERMINACJI
Im mniejsza jest wariancja (zmienność, rozproszenie) wartości resztowych
wokół linii regresji w stosunku do zmienności ogólnej, tym lepsza jest jakość
predykcji (prognozy). Jeśli na przykład nie byłoby w ogóle żadnej zależności
pomiędzy zmiennymi X i Y, wówczas stosunek zmienności resztowej Y do
zmienności całkowitej wyniósłby 1,0. Gdyby zaś X i Y były ściśle (w sensie
zależności funkcyjnej) zależne od siebie wtedy zmienność resztowa równałaby
się zero i taki stosunek wyniósłby 0,0.
się zero i taki stosunek wyniósłby 0,0.
Współczynnik determinacji (R2) posiada następującą interpretację: gdyby, np.
wartość R-kwadrat wynosiła 0,4 wówczas 40% pierwotnej zmienności Y zostało
wytłumaczone przez regresję, a 60% pozostało w zmienności resztowej.
DOKAADNOŚĆ DOPASOWANIA LINI REGRESJI
y
y
i
odchylenie nie wyjaśnione
odchylenie
regresjÄ… (reszta)
całkowite
wi
odchylenie wyjaśnione regresją
y
x
x
i
n n
2 2
yi - y = (wi - y)+(yi - wi)
"(w - y) "(y - wi )
i i
i=1 i=1
R2 = =1-
n n n
n n
2 2 2
2 2
"(y - y) = "(w - y) +"(y - wi)
i i i
"(y - y) "(y - y)
i i
i=1 i=1 i=1
i=1 i=1
BAD STANDARDOWY ESTYMACJI
Model liniowy regresji prostej można opisać następującym wzorem:
Y = aX +b+e
gdzie  e oznacza składnik losowy (resztę) modelu.
Pojedynczą resztę oblicza się następująco:
ei = w - yi
Błąd standardowy estymacji stanowi przeciętne odchylenie reszt obliczone
według wzoru:
2
"(w - yi )
Se =
n - 2
Błąd standardowy estymacji stanowi podstawę do określania błędów
predykcji z wykorzystaniem modelu regresji
BADY STANDARDOWE PARAMETRÓW  a I  b
Y = aX + b + e
Błędy standardowe parametrów modelu wyznacza się następująco:
Se
Se
S =
Sa =
2
"x -nx2
2
"x
Sb = Se
n("x2 -nx2)
WERYFIKACJA HIPOTEZY O NIEISTOTNOŚCI PARAMETRÓW
W celu zbadania istotności statystycznej parametru  a modelu przyjmujemy następujące
hipotezy:
H0: a = 0 (brak jest zależności między badanymi zmiennymi)
H1: a `" 0 (istnieje statystyczna zależność)
Test istotności opisany jest następującym wzorem (statystyka t-Studenta):
a
a
t =
t =
Sa
Następnie odczytujemy z tablic rozkładu t-Studenta wartość krytyczną dla poziomu istotności
 alfa i stopni swobody  n  2 .
Jeżeli zachodzi nierówność:
t > tkryt
to odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej (zależność opisana modelem
jest istotna statystycznie)
BAD STANDARDOWY PREDYKCJI
Prognoza jest tym mniej dokładna im mniej obserwacji przyjęto do obliczeń oraz im
dłuższy horyzont prognozy
Wykres rozrzutu (Arkusz2 10v*19c)
Zmn4 = -2,3778+2,3148*x
104
102
100
98
96
94
92
90
88
86
84
82
80
36 37 38 39 40 41 42 43 44 45 46
Zmn1
Zmn4
BAD STANDARDOWY PREDYKCJI
Błąd standardowy prognozy określony jest następującym wzorem:
2
(xp - x)
1
( )
S YXp = Se 1+ +
n
n
2
"(x - x)
i
i=1
i=1
gdzie:
Se  błąd standardowy estymacji
n - liczba obserwacji
Xp  wartość zmiennej objaśniającej, dla której dokonywana jest prognoza.
Granice przedziału ufności dla prognozowanej wartości:
( )
granica górna: vXp + tÄ… ,n-2 Å" S YXp
granica dolna:
( )
vXp - tÄ… ,n-2 Å" S YXp
ESTYMACJA MODELI NIELINIOWYCH
Nie zawsze zależności rynkowe mają charakter liniowy. W przypadku modeli nieliniowych przed
zastosowaniem metody najmniejszych kwadratów dokonujemy transformacji liniowej.
Funkcja wykładnicza:
logY = logb+ X loga
Y = bÅ"aX
Funkcja potęgowa:
Funkcja potęgowa:
a
logY = logb+alogX
Y = bÅ" X
Funkcja hiperboliczna:
-1
Y = b + aX '
Y = b + aX


Wyszukiwarka

Podobne podstrony:
03 analiza wycena www przeklej pl
Analiza stat ścianki szczelnej
micros multimetry www przeklej pl
adam bytof moc autohipnozy www przeklej pl
06 regresja www przeklej plidc90
index www przeklej pl
zwielokrotnianie umyslu www przeklej pl
05 Analiza plaskiego stanu naprezenia
05 Analiza konstrukcji i działania tłocznika
micros transformatory www przeklej pl

więcej podobnych podstron