Podstawy statystyki i ekonometrii 2014 część 1

PODSTAWY STATYSTYKI I EKONOMETRII
CZ. 1
DR INŻ. TOMASZ BUDZYCSKI
SPIS TREŚCI
Spis treści
1. Wstęp 2
2. Podstawowe pojęcia statystyczne 2
3. Elementy teorii badania zbiorów statystycznych 4
3.1. Statystyki opisowe 4
3.2. Badanie współzależności cech 12
3.3. Badanie zmian cen w czasie 13
3.4. Wprowadzenie do wnioskowania statystycznego 15
3.5. Rozkłady prawdopodobieństwa zmiennej losowej 16
3.6. Przedziały ufności dla średniej i wariancji 18
3.7. Elementy weryfikacji hipotez statystycznych 23
1
1. Wstęp
Niniejsze opracowanie zostało sporządzone zgodnie z minimalnymi wymogami
programowymi na studiach podyplomowych w zakresie wyceny nieruchomości, określonymi
przez Ministra Infrastruktury w rozporządzeniu z dnia 7 czerwca 2010 r. Zawiera ono
zgodnie z ww. wymogami jedynie podstawy statystyki niezbędne rzeczoznawcom
majątkowym w procesie wyceny nieruchomości.
2. Podstawowe pojęcia statystyczne
Zbiorowością statystyczną nazywamy taki zbiór jednostek, który podlega obserwacji
statystycznej oraz który charakteryzuje się takimi samymi wariantami przynajmniej jednej
cechy stałej oraz różnymi wariantami przynajmniej jednej cechy zmiennej.
Przykładem zbiorowości statystycznej są nieruchomości. Gdy obserwujemy nieruchomości
lokalowe lokale mieszkalne znajdujące się w dzielnicy Praga Południe w Warszawie
sprzedane w roku 2013 r. to jednostką zbiorowości statystycznej jest jedna nieruchomość przy
czym ich stałymi cechami są: jednakowy rodzaj lokalowe lokale mieszkalne, jednakowa
lokalizacja ogólna dzielnica Praga Południe w Warszawie oraz jednakowy czas obserwacji
2013 r. Różnią się one jednak: cenami transakcyjnymi, lokalizacją szczegółową,
powierzchnią, położeniem na piętrze, stanem technicznym budynku w którym się znajdują,
standardem wykończenia i funkcjonalnością pomieszczeń.
Jeżeli obserwowane są wszystkie jednostki ze zbiorowości statystycznej to ten typ zbioru
jednostek określamy jako statystyczne zbiorowości generalne lub z kolei jako statystyczne
zbiorowości próbne, gdy obserwowane są tylko wybrane losowo jednostki.
Na podstawie opisu prób losowych możemy wnioskować o zbiorowościach generalnych na
określonym poziomie prawdopodobieństwa. Oznacza to, że na podstawie nieruchomości,
które były przedmiotem sprzedaży możemy wnioskować o możliwej do osiągnięcia cenie za
nieruchomości, które nie były sprzedane.
Cechy zmienne są kryteriami podziału jednostek zbiorowości statystycznych i przyjmują
określone warianty.
Cechy zmienne można podzielić na cechy:
�� mierzalne (ilościowe) ich warianty wyrażane są liczbowo i przyjmują postać
skokową lub ciągłą.
o Cechy skokowe to takie, których warianty mogą być wyrażone wyłącznie
przez określone wartości bez przejść pośrednich między nimi. Przykładami
cech skokowych są: liczba pokoi w lokalu mieszkalnym, czy położenie
lokalu na piętrze.
2
o Cechy ciągłe to takie, których warianty mogą przyjąć każdą wartość
z określonego skończonego przedziału liczbowego. Przykładami cech
ciągłych są: cena transakcyjna czy powierzchnia lokalu.
�� niemierzalne (jakościowe) ich warianty są wyrażane słownie lub przyjmują
postać zero-jedynkową. Przykładami cech niemierzalnych są: sąsiedztwo, standard
lokalu czy funkcjonalność pomieszczeń.
Pytanie
Podaj przykłady cech mierzalnych: skokowych i ciągłych oraz cech niemierzalnych dla
nieruchomości gruntowej niezabudowanej przeznaczonej pod zabudowę mieszkaniową
jednorodzinną.
3
Zebrany materiał statystyczny np. w postaci informacji z konkretnego rynku nieruchomości
musi być poddany grupowaniu. Polega ono na usystematyzowaniu tj. zestawieniu materiału
tak, aby ułatwiało to osiągnięcie celu badania. Grupowanie obejmuje czynności związane
z wyodrębnieniem jednorodnych lub prawie jednorodnych grup w ramach większej
zbiorowości statystycznej. Dokonując grupowania materiału statystycznego rezygnuje się
ze szczegółów, a podkreśla się wspólne właściwości jednostek tworzących podzbiory badanej
zbiorowości statystycznej.
Można wyróżnić 2 rodzaje grupowania:
�� grupowanie typologiczne (jakościowe). Polega ono na wyodrębnieniu ze zbiorowości
statystycznej jednorodnych grup na podstawie wariantów cechy jakościowej
np. podział transakcji według lokalizacji;
�� grupowanie wariancyjne. Polega ono na wydzieleniu ze zbiorowości statystycznej
jednorodnych grup dla cechy ilościowej np. podział nieruchomości według ich
powierzchni na grupy.
W wyniku grupowania powstaje szereg statystyczny. Stanowi on uporządkowany zbiór
wartości lub wariantów określonej cechy zgodnie z przyjętymi kryteriami porządkowania.
Szeregi statystyczne można przedstawić w formie tablic i wykresów statystycznych.
Pogrupowany materiał statystyczny w postaci szeregów może być przedmiotem badania
statystycznego. Obszarem badania statystycznego może być badanie:
�� struktury tj. składu,
�� współzależności tj. powiązań,
�� dynamiki tj. zmian w czasie,
zjawisk masowych np. na rynku nieruchomości.
3. Elementy teorii badania zbiorów statystycznych
3.1. Statystyki opisowe
W procesie badania struktury zjawisk masowych wykorzystuje się trzy główne grupy miar
statystycznych - statystyk opisowych tj. miary:
�� położenia tj. tendencji centralnej wariantów mierzalnej cechy zmiennej: średnią
arytmetyczną, medianę, kwartyle i dominantę,
�� zróżnicowania tj. przeciętnej zmienności wariantów mierzalnej cechy zmiennej:
wariancję, odchylenie standardowe, odchylenie ćwiartkowe, współczynnik zmienności
i inne,
4
�� asymetrii tj. skośności oraz kurtozy tj. spłaszczenia lub spiczastości empirycznego
rozkładu mierzalnych wariantów cechy zmiennej: współczynnik asymetrii (skośności)
oraz kurtozy.
3.1.1. Miary położenia
Określając tendencję centralną - poziom przeciętny wariantów cechy zmiennej można
zastosować statystyką klasyczną średnią arytmetyczną oraz statystyki pozycyjne medianę
i dominantę.
Średnia arytmetyczna suma wariantów obserwowanej mierzalnej cechy zmiennej
w przeliczeniu na jedną jednostkę zbiorowości statystycznej
n
1
x =� (1)
��x j
n
j=�1
Mediana (Mx) wariant liczbowy cechy mierzalnej w zbiorze uporządkowanych wszystkich
wariantów, poniżej którego znajduje się połowa jednostek badanej zbiorowości statystycznej.
Mediana stanowi zatem wartość środkową. Warunkiem wyznaczenia mediany jest
wcześniejsze uporządkowanie szczegółowego rozkładu cechy zmiennej uporządkowanie
poszczególnych jednostek zbiorowości według kryterium od xmin do xmax.
Odległość liczbowa średniej arytmetycznej od mediany może określać stopień
niejednorodności zbioru badanych jednostek zbiorowości statystycznej wskazując
jednocześnie na użyteczność posługiwania się średnią arytmetyczną w opisie zbiorowości.
Znacząca liczbowo różnica pomiędzy tymi statystykami opisowymi stanowi informację, że
badana zbiorowość statystyczna jest niejednorodna i wówczas dla opisu struktury badanej
zbiorowości należy posługiwać się raczej statystykami pozycyjnymi.
W przypadku empirycznego rozkładu mierzalnej cechy zmiennej mogą występować
następujące 3 sytuacje.
�� liczebna przewaga jednostek zbiorowości o względnie wysokich wariantach
obserwowanej cechy wówczas x <� M co oznacza asymetrię lewostronną (ujemną)
x
asymetrię;
�� liczebna przewaga jednostek zbiorowości o względnie niskich wariantach
obserwowanej cechy wówczas x >� M co oznacza asymetrię prawostronną
x
(dodatnią) asymetrię;
�� liczebną równowagę jednostek zbiorowości mających niskie i wysokie warianty
obserwowanej cechy wówczas x =� M , co oznacza symetrię rozkładu, która
x
w praktyce obserwacji zjawisk ekonomicznych np. na rynku nieruchomości nie
występuje.
5
Dominanta (Dx) wariant cechy mierzalnej lub niemierzalnej, któremu odpowiada
największa liczba jednostek z całego ich obserwowanego zbioru.
Dominanta stanowi zatem wartość występującą najczęściej i nie jest to jednak wówczas miara
tendencji centralnej tylko wskazanie wariantu o największej liczbie powtórzeń.
Wśród kwartyli można wyróżnić kwartyl pierwszy (Q1) zwany dolnym, kwartyl drugi (Q2)
będący medianą i kwartyl trzeci (Q3) zwany górnym.
Kwartyl pierwszy i kwartyl trzeci to warianty cechy mierzalnej w zbiorze uporządkowanych
wariantów, które dzielą badaną zbiorowość na 25% i 75% (Q1) lub na 75% i 25% (Q3). Ich
obliczenie następuje poprzez wskazanie wariantów obserwowanej cechy, które odpowiadają
numerom jednostek. W tabeli 1 zawarto algorytm określenia kwartyla pierwszego i trzeciego.
Tabela 1
Kwartyle Zbiorowości statystyczne Warianty
Pierwszy Q1
parzyste n x(n+2):4
n=3; 7, 11, & x(n+1):4
n=5, 9, 13, & x(n+3):4
Trzeci Q3 parzyste n x(3n+2):4
n=3; 7, 11, & x(3n+3):4
n=5, 9, 13, & x(3n+1):4
3.1.2 Miary zróżnicowania
Miary zróżnicowania są to statystyki opisowe, służące do mierzenia przeciętnego
zróżnicowania wariantów mierzalnej cechy zmiennej. Punktem odniesienia dla ich obliczenia
jest albo średnia arytmetyczna są to klasyczne miary zróżnicowania albo mediana są to
pozycyjne miary zróżnicowania.
2
Do klasycznych miar zróżnicowania należą: wariancja ( Sx ), odchylenie standardowe (Sx),
oraz procentowy współczynnik zmienności (Vx). Z kolei do pozycyjnych miar zróżnicowania
zalicza się odchylenie ćwiartkowe (Qx) oraz pozycyjny procentowy współczynnik zmienności
(V x). Pozycyjne miary zróżnicowania powinno się stosować, gdy jednostki zbiorowości
statystycznej są nadmiernie zróżnicowane - Vx widocznie wyższy od 50% oraz gdy
empiryczne rozkłady cech są bardzo nieregularne tj. posiadają bardzo silną i krańcową
asymetrię lub kilka dominant.
6
2
Podstawową klasyczną miarą zróżnicowania jest wariancja ( Sx ), stanowiąca drugi moment
centralny (m2), obliczana jako średnia kwadratowa z odchyleń od średniej arytmetycznej
według poniższego wzoru:
n
1
2
Sx =� -� x)2 (2)
��(x j
n
j=�1
Wariancja stanowi podstawę do obliczenia odchylenia standardowego będącego bezwzględną
miarą przeciętnego zróżnicowania oraz procentowego współczynnika zmienności
stanowiącego względną miarę przeciętnego zróżnicowania. Powyższe statystyki opisowe
określane są na podstawie poniższych wzorów:
2
Sx =� Sx (3)
Vx =� 100(Sx : x) (4)
Należy zauważyć, że w pakietach komputerowych wariancja obliczana jest nieco inaczej tzn.
2
jako wariancja nieobciążona ( \x ) według następującego wzoru:
n
1
2
\x =� -� x)2 (5)
��(x j
n -�1
j=�1
Zatem również odchylenie standardowe oraz procentowy współczynnik zmienności obliczane
są odmiennie niż podane w powyższych wzorach (3) i (4) tzn. jako
2
\x =� \x (6)
Ć
Vx =� 100(\x : x) (7)
W przypadku nie komputerowego przetwarzania danych statystycznych można stosować
2
algorytm wariancji obciążonej ( Sx ) pod warunkiem, że n>120, przy czym należy o tym
pamiętać przy pózniejszym stosowaniu metod wnioskowania statystycznego.
Pozycyjne miary zróżnicowania tj. odchylenie ćwiartkowe oraz pozycyjny procentowy
współczynnik zmienności wyznaczane są w oparciu o kwartale pierwszy, drugi (medianę)
oraz trzeci na podstawie poniższych wzorów:
Qx =� (Q3 -� Q1) : 2 (8)
Vx' =� 100(Qx : Q2 ) (9)
7
3.1.3. Miary asymetrii i kurtozy
Obliczając miarę asymetrii współczynnik asymetrii (Ax) można odpowiedzieć na pytanie
przy jakich poziomach wariantów cechy tj. relatywnie niskich czy wysokich znajduje się
stosunkowo największa liczba jednostek danej zbiorowości statystycznej. Jeżeli średnia
arytmetyczna jest wyższa od mediany (Ax>0) wówczas występuje asymetria prawostronna, z
kolei jeśli jest odwrotnie (Ax<0) to występuje asymetria lewostronna.
Współczynnik asymetrii (obciążony) (Ax) oparty jest na trzecim momencie centralnym (m3)
3
w przeliczeniu na sześcian odchylenia standardowego ( Sx ) i obliczany jest na podstawie
następującego wzoru:
n
1
3 3
Ax =� m3 : Sx =� [ -� x)3] : Sx (10)
��(x j
n
j=�1
Współczynnik asymetrii obliczany z wykorzystaniem pakietów komputerowych na podstawie
poniższego wzoru jest miarą nieobciążoną:
n
n -� x)3
��(x j
j=�1
�x =� (11)
3
(n -�1)(n -� 2)\x
W przypadku gdy współczynnik asymetrii przyjmuje wartości liczbowe z przedziału niskich
liczb ujemnych lub dodatnich wówczas siła asymetrii jest umiarkowana.
Obliczając miarę kurtozy współczynnik kurtozy (Cx) można odpowiedzieć na pytanie jaki
jest stopień skupienia wariantów cechy względem ich średnio arytmetycznego poziomu.
Punkt odniesienia w tym przypadku stanowi standardowy rozkład normalny, którego stopień
skupienia definiuje się jako zerową kurtozę. Jeśli stopień skupienia tj. spiczastość rozkładu
danych jest wyższy niż dla rozkładu normalnego wówczas występuje kurtoza dodatnia, a jeśli
jest odwrotnie wówczas kurtoza jest ujemna tzn. rozkład empiryczny jest bardziej płaski.
Współczynnik kurtozy oparty jest na czwartym momencie centralnym (m4) w przeliczeniu na
4
odchylenie standardowe podniesione do potęgi czwartej ( Sx ) i obliczany jest na podstawie
poniższego wzoru:
n
1
4 4
Cx =� m4 : Sx =� [ -� x)4 ] : Sx (12)
��(x j
n
j=�1
Współczynnik kurtozy obliczany z wykorzystaniem pakietów komputerowych jest miarą
nieobciążoną i ze względu na bardziej skomplikowaną kalkulację nie został zawarty
w opracowaniu.
8
3.1.4. Przykład
Poniżej przedstawiono wyniki analizy struktury jednostkowych cen transakcyjnych
nieruchomości lokalowych lokali mieszkalnych na rynku lokalnym dzielnicy Żoliborz
w Warszawie w I połowie 2013 roku.
Z informacji o 62 zanotowanych wartościach badanej zmiennej (cenie 1m2 lokalu) jednostek
statystycznych (nieruchomości lokalowych) można utworzyć szereg szczegółowy podając
kolejno ceny 1 m2 lokali. Posługiwanie się jednak takim szeregiem w przypadku dużej liczby
danych jest uciążliwe. Lepiej jest utworzyć szereg rozdzielczy, w którym jednostki
statystyczne ujmuje się w przedziałach klasowych. Poniżej zaprezentowano szereg
rozdzielczy cen 1 m2 nieruchomości lokalowych w tabeli 2.
Tabela 2. Szereg rozdzielczy cen 1 m2 nieruchomości lokalowych
Cena 1m2 nieruchomości Liczebność przedziału
5000 - 6000 3
6000 - 7000 9
7000 - 8000 16
8000 - 9000 14
9000 - 10000 8
10000 - 11000 8
11000 - 12000 2
12000 - 13000 2
Tak zbudowany szereg może posłużyć do podstawa do stworzenia histogramu częstotliwości
rys. 1.
9
Histogram cena 1m2
Żoliborz - lokale mieszkalne
cena 1m2 = 62*1000*normal(x; 8391,7258; 1671,9366)
18
16
14
12
10
8
6
4
2
0
5000 6000 7000 8000 9000 10000 11000 12000 13000 14000
cena 1m2
Rys. 1. Rozkład (histogram częstotliwości) cen 1 m2 nieruchomości lokalowych
Szereg rozdzielczy i histogram częstotliwości pozwalają na szybką, ale niezbyt precyzyjną
ocenę struktury badanej zbiorowości.
Aby dokładniej zbadać strukturę należy obliczyć statystyki opisowe.
Obliczone miary położenia są następujące:
�� średnia arytmetyczna 8392 zł/m2
�� mediana 8088 zł/m2
�� pierwszy kwartyl 7119 zł/m2
�� trzeci kwartyl 9516 zł/m2
Obliczone miary zróżnicowania są następujące:
�� wariancja 2795372
�� odchylenie standardowe 1672 zł/m2
�� procentowy współczynnik zmienności 19,92 %
10
Liczba obs.
Obliczone miary asymetrii i kurtozy są następujące:
�� współczynnik asymetrii 0,5498
�� współczynnik kurtozy - 0,1635
Zadanie
Oblicz miary położenia średnią arytmetyczną, medianę, pierwszy i trzeci kwartyl oraz miary
zróżnicowania (nieobciążone i obciążone) wariancję, odchylenie standardowe oraz
procentowy współczynnik zmienności dla następującego szeregu szczegółowego cen 1 m2
działek budowlanych
169, 164, 195, 138, 144, 162, 168, 163, 200, 165, 171, 197, 152, 139, 165, 184, 163, 168, 181
11
3.2. Badanie współzależności cech
Analiza współzależności związków służy określeniu:
�� siły i kierunku związku poprzez badanie korelacji,
�� kształtu zależności poprzez badanie regresji.
Siłę i kierunek związku (zależności) pomiędzy dwoma cechami (zmiennymi) x zmienną
niezależną, y- zmienną zależną) można określić poprzez obliczenie współczynnika korelacji.
Najczęściej stosuje się współczynnik korelacji liniowej Pearsona, który obliczany jest według
poniższego wzoru:
n
1
-� x)(y -� y)
��(x j j
n
j=�1
rxy =� (13)
SxS
y
Współczynnik korelacji liniowej Pearsona przyjmuje wartości z przedziału <-1;1>. Im
wartość tego współczynnika jest bliższa 1 lub -1 to zależność ta jest silniejsza. Przyjmuje się,
że korelacja jest:
ż� słaba (niski współczynnik korelacji) gdy |r|<=0.3
ż� silna (wysoki współczynnik korelacji) gdy |r|>0.6.
Znak współczynnika wskazuje na kierunek związku. Jeśli współczynnik jest dodatni to
oznacza, że wzrost jednej zmiennej powoduje wzrost drugiej, a jeśli jest ujemny to wzrost
jednej powoduje spadek drugiej.
Przykłady obliczonych współczynników korelacji liniowej zawiera tabela 3.
Tabela 3 Macierz współczynników korelacji liniowej
CENA LOK POW UZBR DK SS ZAG
CENA 1,00 0,85 0,30 0,69 0,75 -0,11 0,46
LOK 0,85 1,00 -0,00 0,62 0,67 -0,28 0,22
POW 0,30 -0,00 1,00 0,13 0,21 0,27 0,31
UZBR 0,69 0,62 0,13 1,00 0,76 -0,29 0,41
DK 0,75 0,67 0,21 0,76 1,00 -0,37 0,32
SS -0,11 -0,28 0,27 -0,29 -0,37 1,00 0,09
ZAG 0,46 0,22 0,31 0,41 0,32 0,09 1,00
LOK lokalizacja, POW - powierzchnia działki, UZBR uzbrojenie techniczne,
DK dostęp komunikacyjny, SS sąsiedztwo, ZAG stan zagospodarowania
Kształt zależności między 2 zmiennymi może przyjmować postać liniową lub nieliniową.
W przypadku postaci liniowej badaną zależność można przedstawić w postaci poniższego
równania:
Yi =� aXi +� b (14)
12
Parametry a i b takiej funkcji są szacowane z wykorzystaniem metody najmniejszych
kwadratów, zgodnie z którą suma kwadratów odległości między wartościami
zaobserwowanymi a wartościami teoretycznymi tj. leżącymi na poszukiwanej prostej ma być
jak najmniejsza.
W przypadku zależności nieliniowej między 2 zmiennymi można stosować funkcje o postaci
nieliniowej np. wielomianowej, wykładniczej, logarytmicznej czy potęgowej.
3.3. Badanie zmian cen w czasie
Rzeczoznawca majątkowy określając wartość nieruchomości zobowiązany jest do aktualizacji
cen transakcyjnych na datę wyceny. Aby to uczynić musi wcześniej zbadać zmiany cen
w czasie.
W przypadku bazy liczącej co najwyżej kilkanaście cen transakcyjnych często stosowaną
przez rzeczoznawców majątkowych metodą określenia wpływu czasu na poziom cen jest
metoda porównania cen nieruchomości podobnych w parach. Polega ona na porównaniu cen
transakcyjnych nieruchomości ocenionych pod kątem cech rynkowych identycznie lub bardzo
podobnie a będących przedmiotem sprzedaży w różnych okresach czasu.
Zagadnienie aktualizacji cen z wykorzystaniem tej metody można opisać z wykorzystaniem
wzorów (15), (16) i (17):
Cp,i -� Cw,i 100%
W =� �� (15)
z,i
Cw,i t
n
��Wz,i
1
Wz,c =� (16)
n
Wz,c
Ca =� Cnom �� (1+� �� m) (17)
100%
gdzie:
W - jednostkowy współczynnik zmiany cen obliczony dla jednej i-tej pary
z,i
nieruchomości podobnych,
Cw,i , Cp,i - cena nieruchomości sprzedanej wcześniej oraz pózniej w i-tej parze,
t - liczba jednostek czasu pomiędzy datami sprzedaży nieruchomości w i-tej
parze,
n - liczba par porównawczych co najmniej kilka,
Wz,c - współczynnik zmian cen na danym rynku,
13
Cnom, Ca - cena nominalna (transakcyjna) i zaktualizowana na datę wyceny,
m - liczba jednostek czasu od daty transakcji do daty wyceny.
Jeśli lokalny rynek nieruchomości jest dobrze rozwinięty to możliwym jest utworzenie bazy
zawierającej co najmniej kilkadziesiąt transakcji. Wówczas wpływ czasu na poziom cen
możemy z dużym powodzeniem oszacować z wykorzystaniem modeli statystycznych,
wyznaczając trend czasowy. Budując model statystyczny zakładamy, że inne czynniki
wpływające na poziom cen nie są istotne dla ogólnej tendencji.
Jeśli zmiany cen w czasie są w przybliżeniu liniowe stosuje się model liniowej regresji:
c =� a +� b �� t (18)
gdzie:
c - jednostkowa cena nieruchomości
a, b - parametry modelu
t - data transakcji (kolejna jednostka czasu wyrażona liczbą)
Estymacja parametrów modelu opisanego równaniem (18) (oszacowanie współczynnika
kierunkowego i stałej) odbywa się najczęściej metodą najmniejszych kwadratów.
Współczynnik kierunkowy wyraża zmianę cen przypadającą na jednostkę czasu np. miesiąc
(yRÓBEK 2007).
12000
y = -27,794x + 9208,2
10000
8000
6000
4000
2000
0
0 5 10 15 20 25
kolejne miesiące
Rys.2. Trend czasowy funkcja liniowa
Aktualizację cen można przeprowadzić na podstawie obliczonych wartości dla początku
i końca okresu badania zmian cen z równania funkcji liniowej, wykorzystując wzór (15) i (17)
przy czym Wz,c = Wz. Dla trendu czasowego o równaniu y = - 27,794 x + 9208,2 (rys.2)
Wz,c = - 0,0030.
14
2
cena [zł/m
]
Modele liniowej regresji można próbować stosować również dla zbiorów niezbyt licznych,
zawierających kilkanaście transakcji.
W przypadku, gdy zmiany cen w czasie nie są wyraznie liniowe, wówczas należy zastosować
model regresji nieliniowej. Najczęściej wykorzystywane funkcje nieliniowe to: potęgowa,
wykładnicza, logarytmiczna oraz wielomian n-stopnia. Estymacja parametrów modelu
nieliniowego może odbywać się nieliniową metodą najmniejszych kwadratów.
3500
3000
2500
y = 0,0342x3 - 2,2534x2 + 47,188x + 1118,8
2000
1500
1000
500
0
0 10 20 30 40 50 60
kolejne miesiące
Rys.3. Trend czasowy funkcja nieliniowa, wielomian 3 stopnia.
Właściwy dobór funkcji nie jest prosty. Pomocnym może być analiza sporządzonego wykresu
zależności cen od daty transakcji, a także obliczenie współczynnika determinacji R2.
W przypadku funkcji nieliniowych aktualizację cen na datę wyceny dokonuje się
współczynnikami dla poszczególnych jednostek czasu w których zawarto transakcję,
obliczonymi na podstawie funkcji nieliniowej.
3.4. Wprowadzenie do wnioskowania statystycznego
Obok opisu statystycznego, który prezentowany był w pierwszej części konspektu
a właściwie w jego rezultacie powstaje zagadnienie wnioskowania statystycznego
tj. podejmowania decyzji na określonym poziomie prawdopodobieństwa. Występująca
niepewność spowodowana jest brakiem informacji liczbowych o zbiorowości generalnej,
a dysponowaniem jedynie danymi z próby losowej.
Po dokonaniu opisu próby losowej tj. obliczenia miar położenia, zróżnicowania, asymetrii
i kurtozy rozpoczyna się wnioskowanie statystyczne. Obejmuje ona dwie podstawowe
procedury statystyczne tj.
�� procedurę estymacji nieznanych parametrów czyli szacowania statystyk opisowych
w zbiorowości generalnej z wykorzystaniem metody przedziałów ufności przy
deklarowanym prawdopodobieństwie zwanym poziomem ufności;
15
2
cena [zł/m
]
�� procedurę weryfikacji hipotez statystycznych czyli sprawdzenie założeń o poziomie
nieznanych parametrów (hipotezy parametryczne) lub kształcie nieznanych rozkładów
(hipotezy nieparametryczne) w zbiorowości generalnej, przy czym weryfikacje te są
przeprowadzane odpowiednio testami istotności lub zgodności przy deklarowanym
prawdopodobieństwie zwanym poziomie istotności.
Przejście od opisu statystycznego do wnioskowania statystycznego wymaga zapoznania się
z podstawowymi terminami stosowanymi we wnioskowaniu.
Odpowiednikiem mierzalnej lub niemierzalnej cechy statystycznej jest zmienna losowa X,
przy czym cecha zmienna przyjmuje swoje warianty, a w przypadku zmiennej losowej
występują realizacje. Warianty cech są zawsze skończonym zbiorem informacji liczbowych,
które występują z określonymi częstościami empirycznymi, podczas gdy realizacje
zmiennych losowych mogą być skończonymi lub nieskończonymi zbiorami informacji
liczbowych, występujących z określonym prawdopodobieństwem. Zatem w przypadku cech
zmiennych informacje liczbowe tworzą rozkłady empiryczne a zmienne losowe rozkłady
teoretyczne.
Wcześniej wspomnianą zmienną losową X nazywamy każdą jednoznacznie określoną funkcję
rzeczywistą określoną na zbiorze elementarnych zdarzeń losowych. Można również
powiedzieć, że zmienna losowa jest to taka zmienna, która przyjmuje określone wartości
z odpowiednim prawdopodobieństwem Może ona mieć postać zmiennej losowej:
�� skokowej (dyskretnej), która przyjmuje wartości ze zbioru liczb całkowitych lub
określone i wybrane wartości rzeczywiste,
�� ciągłej, która przyjmuje wartości ze zbioru gęstego,
�� pseudoskokowe czyli parametry losowe, które niezależnie od tego, jakie wartości
przyjmują, mogą być traktowane jak skokowe bądz ciągłe.
3.5. Rozkłady prawdopodobieństwa zmiennej losowej
Rozkład zmiennej losowej jest określony jeżeli:
�� każdej wartości, jaką może przyjąć zmienna losowa skokowa lub pseudoskokowa X,
zostało przyporządkowane określone prawdopodobieństwo. Zgodnie z twierdzeniem
o sumowaniu prawdopodobieństw ich suma dla wszystkich możliwych wartości
zmiennej równa się jedności;
�� w przedziale dopuszczalnych wartości zmiennej losowej ciągłej X została określona
funkcja gęstości prawdopodobieństwa f(x) nieujemna, całkowalna, dla której całka po
całym określonym powyżej przedziale jest równa jedności.
Funkcja gęstości prawdopodobieństwa jest często nazywana funkcją gęstości lub
gęstością, dla danego rozkładu.
16
Poniżej na rys. 4 przedstawiono rozkłady zmiennej losowej skokowej (a) i ciągłej (b).
Rys. 4. Rozkłady zmiennej losowej skokowej (a) i ciągłej (b) (Adamczewski 2011)
Rozkład zmiennej losowej charakteryzują jego parametry. Najbardziej użytecznymi
parametrami są momenty.
Moment zwykły pierwszego rzędu nazywa się wartością oczekiwaną E(X) (średnią). Jest to
miara skupienia (położenia) wartości zmiennej losowej i służy do ocen punktowych.
Moment centralny drugiego rzędu nazywa się wariancją D2(X). Jest to miara rozproszenia
wartości zmiennej losowej i służy do ocen przedziałowych.
Inną miarę rozproszenia stanowi odchylenie standardowe �x obliczane jako pierwiastek
kwadratowy z wariancji D2(X).
s� =� D2(X ) (19)
X
Podstawowym teoretycznym rozkładem zmiennych losowych ciągłych (Xc) jest rozkład
normalny Gaussa-Laplace a oznaczany N(m,�). O zmiennej losowej ciągłej (Xc) można
powiedzieć, że posiada rozkład normalny, jeżeli funkcja gęstości f(x) tego rozkładu ma
postać:
1 (x -� m)2
f (x) =� exp(-� ) dla x ��(-�Ą�,Ą�) (20)
2
2d�
d� 2p�
gdzie:
m wartość oczekiwana
�2- wariancja
� odchylenie standardowe.
17
Dystrybuanta rozkładu normalnego jest funkcją niemalejącą postaci
+�Ą�
F(x) = P(Xs < x) =� f (x)dx (21)
��
-�Ą�
1
przy czym F(-�Ą�) =� 0, F(x =� m) =� , F(+�Ą�) =� 1
2
Jeśli zmienną losową ciągłą posiadającą rozkład normalny N(m,�) poddamy standaryzacji to
zmienna standaryzowana U ma postać:
X -� m
U =� (22)
d�
i posiada standardowy rozkład normalny SN(0,1) określany przez 2 parametry tj. wartość
oczekiwaną E(U)=0 oraz wariancję i odchylenie standardowe równe D2(U) =D(U) =1.
Funkcja gęstości ma następującą postać:
1 u2
f (u) =� exp(-� ) dla u ��(-�Ą�,Ą�) (23)
2
2p�
Na rys. 5 zaprezentowano funkcję prawdopodobieństwa oraz dystrybuantę standardowego
rozkładu normalnego SN(0,1).
Rys. 5. Funkcja prawdopodobieństwa oraz dystrybuanta standardowego rozkładu normalnego
SN(0,1)
18
Ważne dla wnioskowania statystycznego mają również standardowe rozkłady chi-kwadrat
(CHS), Studenta (S) oraz Fishera-Snedecora (FS), których zastosowanie zostanie
zaprezentowane w drugiej części konspektu.
3.6. Przedziały ufności dla średniej i wariancji
Przedział ufności stanowi przedział liczbowy, który z określonym prawdopodobieństwem,
będzie zawierał nieznaną, prawdziwą wartość szacowanego parametru z populacji generalnej
np. cen transakcyjnych. Może być to m.in. przedział ufności dla średniej arytmetycznej czy
dla wariancji. Prawdopodobieństwo z którym zamierzamy poznać prawdziwe położenie
wybranych parametrów statystycznych określa się jako 1-ą i nazywa się współczynnikiem
ufności, przy czym ą (poziom istotności) wyraża prawdopodobieństwo popełnienia błędu
I rodzaju. Poziom istotności określa maksymalne ryzyko błędu, jakie jesteśmy skłonni
zaakceptować. Najczęściej przyjmuje się ą = 0.05 stąd wartość współczynnika ufności (1-ą)
wynosi 0.95.
Spośród wielu przedziałów ufności najczęściej wyznaczany jest przedział ufności dla średniej.
Związane to jest z tym, że średnia wartość badanej cechy stanowi najczęściej szacowany
parametr populacji generalnych np. cen transakcyjnych. Najlepszym estymatorem wartości
średniej w populacji generalnej (m) jest średnia arytmetyczna ( x ) z próby. Jej rozkład
wykorzystuje się do budowy przedziału ufności dla wartości średniej w populacji.
W zależności od przyjętych założeń otrzymuje się konkretne wzory na przedziały ufności.
Jeśli założymy, że populacja generalna ma rozkład normalny N(m,�) i odchylenie
standardowe jest nieznane a próba jest duża n>30 to przedział ufności dla parametru m
(średniej) ma postać:
ua� S ua� S
P(x -� <� m <� x +� ) =� 1-�a� (24)
n n
gdzie:
x - średnia z n - elementowej próby losowej,
S - odchylenie standardowe z próby losowej,
uą - wartość zmiennej losowej U o standaryzowanym rozkładzie normalnym N(0,1)
Dla 1-ą = 0.95 uą= 1,96 a dla 1-ą = 0.99 uą= 2,58.
Jeśli założymy, że populacja generalna ma rozkład normalny N(m,�) i odchylenie
standardowe jest nieznane a próba jest mała n<30 to przedział ufności dla parametru m
(średniej) ma postać:
19
ta� S ta� S
P(x -� <� m <� x +� ) =� 1-�a� (25)
n -�1 n -�1
gdzie:
x - średnia z n - elementowej próby losowej,
S - odchylenie standardowe z próby losowej,
tą wartość zmiennej losowej T o rozkładzie t- Studenta z n-1 stopniami swobody
Oprócz średniej do najczęściej szacowanych parametrów należy wariancja (�2) oraz
odchylenie standardowe (�) badanej cechy. Gdy rozkład badanej cechy jest normalny lub do
niego zbliżony można zbudować przedział ufności dla wariancji opierając się na rozkładzie
statystyki będącej jej estymatorem. Do najczęściej używanego estymatora wariancji w
populacji generalnej należy statystyka:
n
1
2
S =� -� x)2 (26)
��(xi
n
i=�1
Gdy liczebność próby jest mała tj. n<30 i rozkład badanej cechy w populacji generalnej jest
normalny to przedział ufności dla wariancji ma postać:
2 2
nS nS
2
P( <� d� <� ) =� 1-�a� (27)
l�2 a� l�2
a�
1-� ,n-�1 ,n-�1
2 2
gdzie:
n- liczebność próby losowej,
S - odchylenie standardowe z próby
a� a�
1 -� , n -� 1 i , n -� 1- statystyki spełniające równania
2 2
a�
P(l�2 ł� l�2 ) =�
a�
,n-�1
2
2
a�
P(l�2 ł� l�2 a� ) =�1-�
1-� ,n-�1
2
2
gdzie 2 ma rozkład chi-kwadrat z n-1 stopniami swobody.
20
Gdy liczebność próby jest duża tj. n>30 i rozkład badanej cechy w populacji generalnej jest
normalny to przedział ufności ma postać:
S S
P( <� d� <� ) =� 1-�a� (28)
ua� ua�
1+� 1-�
2n 2n
gdzie:
n- liczebność próby losowej,
S - odchylenie standardowe z próby
ua� - statystyka spełniająca równanie: P(- ua� Profesor Z. Adamczewski w opracowaniu [1] proponuje szacować przedziały ufności za
pomocą całki prawdopodobieństwa Gaussa. Określenia maksymalnego odchylenia ceny
transakcyjnej od jej wartości średniej można wykonać korzystając z wzoru Gaussa na
skorygowane odchylenie standardowe średniej arytmetycznej (30).
s� =� s� (1+�1/ 2k) (30)
wn (kor) wn
gdzie:
s� - skorygowane odchylenie standardowe średniej arytmetycznej,
wn (kor)
s� - obliczone z próbki losowej, z wzoru (32) odchylenie standardowe średniej
wn
arytmetycznej,
k = n-1 - liczba stopni swobody
Maksymalne odchylenie vmax na poziomie ufności P =� F�(t) , gdzie F�(t) jest całką
prawdopodobieństwa Gaussa, wyniesie
vmax =� ts� =� ts� (1+�1/ 2k ) (31)
wn (kor) wn
gdzie
[vv] [vv]
s�w =� =� (32)
n
n(n -�1) nk
21
Wybrane wartości całki prawdopodobieństwa Gaussa zawiera poniższa tabela 4.
Tabela 4. Wybrane wartości całki prawdopodobieństwa Gaussa.
T 0.5 1 1.96 2 2.5 3 3.29
Ś(t) 0.3829 0.6827 0.95 0.9545 0.9876 0.9973 0.9990
Zadanie
Określ przedziały ufności dla średniej na poziomie istotności ą = 0.05 na podstawie próby
losowej - zbioru cen jednostkowych działek budowlanych
169, 164, 195, 138, 144, 162, 168, 163, 200, 165, 171, 197, 152, 139, 165, 184, 163, 168, 181
22
3.7. Elementy weryfikacji hipotez statystycznych
Hipoteza statystyczna jest założeniem badawczym, sformułowanym przez użytkownika, które
dotyczy albo poziomu nieznanych parametrów w populacji generalnej wówczas mówimy o
hipotezach parametrycznych albo kształtu rozkładów teoretycznych dla obserwowanych
zmiennych losowych wówczas mówimy o hipotezach nieparametrycznych.
Założenie badawcze zwane hipotezami statystycznymi są formułowane w dwóch
równoległych i nierozłącznych postaciach tj. jako:
�� hipoteza zerowa (H0), przez którą należy rozumieć sformułowanie założenia o braku
jakiejkolwiek różnicy pomiędzy ocenami z prób losowych a parametrami lub
rozkładami w populacji generalnej
�� hipotezy alternatywne (H1), które są wszystkimi pozostałymi i możliwymi
założeniami, poza sformułowaną hipotezą zerową,
przy czym hipotezy alternatywne mogą być formułowane względem hipotezy zerowej
dwustronnie i wtedy H1`"H0 lewostronnie i wtedy H1H0.
Sposób sformułowania hipotezy alternatywnej względem hipotezy zerowej ma wpływ na
stopień jednoznaczności podejmowanych decyzji weryfikacyjnych. Pamiętać należy jednak,
że metody weryfikacji hipotez skierowane są wyłącznie na sprawdzenie hipotez zerowych.
Wiemy zawsze, że formułowana hipoteza zerowa jest albo prawdziwa albo fałszywa ale nigdy
nie będziemy wiedzieli jaka ona jest naprawdę.
Błędem losowym I rodzaju nazywamy odrzucenie prawdziwej hipotezy zerowej, z kolei
przyjęcie fałszywej hipotezy zerowej jest błędem losowym II rodzaju. Decyzje weryfikacyjne
nie mogą być bezbłędne wobec czego asekurujemy się możliwie niskim poziomem
prawdopodobieństwa pojawienia się błędu losowego. Wyróżnia się 2 rodzaje takich
prawdopodobieństw:
�� prawdopodobieństwo odrzucenia zerowej hipotezy prawdziwej zwane poziomem
istotności ą, przy czym jest on a priori przyjmowanym założeniem, najczęściej
z przedziału od 0,01 do 0,10;
�� prawdopodobieństwo przyjęcia zerowej hipotezy fałszywej.
Hipotezy zerowe (H0) zapisuje się najczęściej przy sformułowaniu założenia, że są one
prawdziwe. Dla każdej parametrycznej hipotezy zerowej musi być podany dwustronny lub
jednostronny zbiór hipotez alternatywnych H1 np. H0: E(X1) = E (X2) H1: E(X1) < E (X2). Z
nieparametrycznych hipotez zerowych można tylko formułować hipotezy alternatywne tylko
w sposób dwustronny np.: H0: f(x)=N(m,�) oraz H1: f(x) `"N(m,�).
Weryfikację hipotez statystycznych przeprowadza się przy użyciu specjalnych funkcji
zwanych testami statystycznymi. Dzielą się one na testy istotności za pomocą których
sprawdza się zerowe hipotezy parametryczne oraz testy zgodności służące do sprawdzenia
23
nieparametrycznych hipotez zerowych. Wszystkie stosowane testy statystyczne są zmiennymi
losowymi o znanych rozkładach teoretycznych najczęściej są to standaryzowane rozkłady
takie jak: normalny, Studenta, chi-kwadrat oraz Fishera-Snedecora.
Bibliografia
Adamczewski Z. 2002. Nieliniowe i nieklasyczne algorytmy w geodezji. Oficyna
Wydawnicza PW, Warszawa 2002
Adamczewski Z. 2011. Elementy modelowania matematycznego w wycenie nieruchomości.
Podejście porównawcze. Oficyna Wydawnicza PW, Warszawa 2011
Budzyński T. 2010. Metodyka aktualizacji cen na przykładzie nieruchomości lokalowych.
Studia i Materiały TNN, Olsztyn 2010
Gawron H. 2009. Analiza rynku nieruchomości. WUE w Poznaniu, Poznań 2009
Hozer J. Kokot S. Kuzmiński W. 2003. Metody analizy statystycznej rynku w wycenie
nieruchomości. PFSRM, Warszawa 2003
Luszniewicz A. Słaby T. 2001. Statystyka z pakietem komputerowym STATISTICA PL.
Teoria i zastosowania. C.H. Beck. Warszawa 2001
Prystupa M. 2001. Wycena nieruchomości przy zastosowaniu podejścia porównawczego.
PFSRzM. Warszawa 2001
yróbek S. (redakcja naukowa) 2002, autorzy: Cellmer R., Czerkies J., Muczyński A., yróbek
S. Określanie wartości rynkowej nieruchomości WUWM, Olsztyn 2002
yróbek S. 2007. Metodyka określania wartości rynkowej nieruchomości. Educaterra 2007
24

Wyszukiwarka

Podobne podstrony:
Podstawy statystyki i ekonometrii 2014 część 2
Blender 3D Bryły Podstawowe Prosta Animacja Brył Część 1 Tutorial
Blender 3D Bryły Podstawowe Prosta Animacja Brył Część 2 Tutorial
Balcerowicz Szkutnik Podstawy statystyki w przykładach i zadaniach
07 Podstawa opodatkowania VAT 2014 zajęcia
MPiS30 W09 Podstawy statystyki matematycznej
Podstawy statystyki
Podstawy Automatyki Lab 2014 CW3 Badania regulatora dwupołożeniowego

więcej podobnych podstron