Opis zbiorów danych
Województwa
Dane pochodzą ze strony GUS www.stat.gov.pl z Bazy Danych Regionalnych. Dane dotyczą podstawowych zmiennych makroekonomicznych z 2003 i 2008 roku oraz danych o liczbie przedsiębiorstw zarejestrowanych w rejestrze REGON. Jednostką jest województwo.
Zmienne dostępne w zbiorze Województwa są następujące:
wojewodztwo
aktywne_2003
aktywne_2008
nowe_2003
nowe_2008
wyrejestrowane_2003
wyrejestrowane_2008
pkb_mieszkanca_2001
pkb_mieszkanca_2007
wynagrodzenie_2003 - średnie wynagrodzenie
wynagrodzenie_2009 - średnie wynagrodzenie
bezrobotni_2003 - bezrobotni na osoby w wieku produkcyjnym
bezrobotni_2009 - bezrobotni na osoby w wieku produkcyjnym
inflacja_2001
inflacja_2008
nowe_100aktywne_2003
nowe_100aktywne_2008
wyrejestr_100aktywne_2003
wyrejestr_100aktywne_2008
churn_2003
churn_2008
dynamika_2003
dynamika_2008
Gosp_2007
Zbiór danych Gosp_2007 zawiera wybrane dane o 10.000 polskich gospodarstwach domowych badanych przez GUS w 2007 roku. Z całego badania została wylosowana próba losowa prosta bez warstwowania. Zbiór Gosp_2007 zawiera 36 zmiennych:
nr - numer gospodarstwa
woj - województwo
klm - klasa miejscowości
region - region zamieszkania
los - liczba osób
ocena - ocena sytuacji materialnej
typ - grupa społeczno-ekonomiczna
biol - typ rodziny
dochg - dochód rozporządzalny
wydg - wydatki ogółem
dochl - dochód na osobę
kino_dom - posiadanie kina domowego
ikompi - komputer z dostępem do Internetu
kom_sluz - tel. komórkowy służbowy
sam_sluz - samochód służbowy
isamoch - samochód osobowy prywatny
domek - domek letniskowy
ld17 - liczba dzieci do lat 17-tu
s - oszczędności (doch-wyd)
wiek - wiek głowy gospodarstwa w latach ukończonych
grwiek - wiek pogrupowany w 5-letnie grupy wieku
gredu - grupy wykształcenia głowy gosp. dom.
doch_najem - dochody z pracy najemnej
doch_praca_wlasny_rach - dochody z pracy na własny rachunek
doch_wlasnosci - dochody z własności
doch_nieruchomosci - dochody z wynajmu nieruchomości
swiadczenia_ubezp - świadczenia z ubezp. społecznego
swiadczenia_pomoc_spol - świadczenia z pomocy społecznej
inne_dochody - inne dochody;
wyd_zywnosc - wydatki na żywność
wyd_alkohol - wydatki na alkohol i tytoń
wyd_odziez - wydatki na odzież i obuwie
wyd_mieszk - wydatki na użytkowanie mieszkania
wyd_zdrowie - wydatki na zdrowie
wyd_kultura -wydatki na kulturę i rekreację
wyd_edukacja - wydatki na edukację.
Kategorie dla zmiennych nominalnych są następujące:
grwiek 0 - 0 lat 1 - 1-4 lat 2 - 5-9 lat 3 - 10-14 lat 4 - 15-19 lat : 19 - 90-94 lata 20 - 95 i więcej biol 0 - samotna osoba 1 - małżeństwo bez dzieci 2 - małżeństwo z 1 dzieckiem 3 - małżeństwo z 2 dzieci 4 - małżeństwo z 3 dzieci 5 - małżeństwo z 4 i więcej dzieci 6 - matka z dziećmi 7 - ojciec z dziećmi 8 - pozostałe
|
gredu 1 - wyższe 2 - średnie 3 - zasadnicze zawodowe 4 - podstawowe i niepełne klm 1 - 500+ 2 - 200-500 3 - 100-200 4 - 20-100 5 - 20 i mniej 6 - wieś typ 1 - pracowników 2 - rolników 3 - pracujących na własny rachunek 4 - emerytów i rencistów 5 - niezarobkowe
ocena 1 - bardzo dobra 2 - raczej dobra 3 - przeciętna 4 - raczej zła 5 - zła
|
German credit
Zbiór German zaczerpnięty został ze strony UCI Data Repository. Oryginalny opis zbioru został zamieszczony poniżej.
Description of the German credit dataset.
1. Title: German Credit data
2. Source Information
Professor Dr. Hans Hofmann
Institut f"ur Statistik und "Okonometrie Universit"at Hamburg
FB Wirtschaftswissenschaften
Von-Melle-Park 5
2000 Hamburg 13
3. Number of Instances: 1000
4. Number of Attributes german: 20 (7 numerical, 13 categorical)
5. Attribute description for german
Attribute 1: (qualitative) Status of existing checking account
A11 : ... < 0 DM
A12 : 0 <= ... < 200 DM
A13 : ... >= 200 DM /salary assignments for at least 1 year
A14 : no checking account
Attribute 2: (numerical) Duration in month
Attribute 3: (qualitative) Credit history
A30 : no credits taken/all credits paid back duly
A31 : all credits at this bank paid back duly
A32 : existing credits paid back duly till now
A33 : delay in paying off in the past
A34 : critical account/other credits existing (not at this bank)
Attribute 4: (qualitative) Purpose
A40 : car (new)
A41 : car (used)
A42 : furniture/equipment
A43 : radio/television
A44 : domestic appliances
A45 : repairs
A46 : education
A47 : (vacation - does not exist?)
A48 : retraining
A49 : business
A410 : others
Attribute 5: (numerical) Credit amount
Attibute 6: (qualitative) Savings account/bonds
A61 : ... < 100 DM
A62 : 100 <= ... < 500 DM
A63 : 500 <= ... < 1000 DM
A64 : .. >= 1000 DM
A65 : unknown/ no savings account
Attribute 7: (qualitative) Present employment since
A71 : unemployed
A72 : ... < 1 year
A73 : 1 <= ... < 4 years
A74 : 4 <= ... < 7 years
A75 : .. >= 7 years
Attribute 8: (numerical) Installment rate in percentage of disposable income
Attribute 9: (qualitative) Personal status and sex
A91 : male : divorced/separated
A92 : female : divorced/separated/married
A93 : male : single
A94 : male : married/widowed
A95 : female : single
Attribute 10: (qualitative) Other debtors / guarantors
A101 : none
A102 : co-applicant
A103 : guarantor
Attribute 11: (numerical) Present residence since
Attribute 12: (qualitative) Property
A121 : real estate
A122 : if not A121 : building society savings agreement/life insurance
A123 : if not A121/A122 : car or other, not in attribute 6
A124 : unknown / no property
Attribute 13: (numerical) Age in years
Attribute 14: (qualitative) Other installment plans
A141 : bank
A142 : stores
A143 : none
Attribute 15: (qualitative) Housing
A151 : rent
A152 : own
A153 : for free
Attribute 16: (numerical) Number of existing credits at this bank
Attribute 17: (qualitative) Job
A171 : unemployed/ unskilled - non-resident
A172 : unskilled - resident
A173 : skilled employee / official
A174 : management/ self-employed/highly qualified employee/ officer
Attribute 18: (numerical) Number of people being liable to provide maintenance for
Attribute 19: (qualitative) Telephone
A191 : none
A192 : yes, registered under the customers name
Attribute 20: (qualitative) foreign worker
A201 : yes
A202 : no
6. Cost Matrix
This dataset requires use of a cost matrix (see below)
1 2
----------------------------
1 0 1
-----------------------
2 5 0
(1 = Good, 2 = Bad)
the rows represent the actual classification and the columns
the predicted classification.
It is worse to class a customer as good when they are bad (5),
than it is to class a customer as bad when they are good (1).
Polska_regiony
Zestaw kilku zmiennych makroekonomicznych i demograficznych o 66 polskich podregionach, dostępnych na stronie GUS www.stat.gov.pl w zakładce bank danych regionalnych.
Jednostka_terytorialna - nazwa podregionu
dzietnosc_2009 - współczynnik dzietności w 2009 roku
Ludnosc_2009 - liczba ludności w 2009 roku
Malzenstwa_2009 - liczba zawartych małżeństw w 2009 roku
pkb_1_mieszkanca - PKB na 1 mieszkańca w 2008
wynagrodzenia_2009 - średnie wynagrodzenia brutto w 2009 roku
Rozwody_2009 - liczba rozwodów w 2009 roku
bezrobotni_wiek_prod_2009 - liczba bezrobotnych przypadających na ludność w wieku produkcyjnym w procentach
Zgony_2009 - liczba zgonów w 2009 roku
Rozwody_100mal_2009 - liczba rozwodów na 100 nowo zawartych małżeństw w 2009 roku
malzenstwa_1000lud_2009 - liczba małżeństw nowo zawartych na 1000 ludności
zgony_1000lud_2009 - liczba zgonów na 1000 ludności.
Glass Identification Database
2. Sources:
(a) Creator: B. German
-- Central Research Establishment
Home Office Forensic Science Service
Aldermaston, Reading, Berkshire RG7 4PN
(b) Donor: Vina Spiehler, Ph.D., DABFT
Diagnostic Products Corporation
(213) 776-0180 (ext 3014)
(c) Date: September, 1987
4. Relevant Information:n
Vina conducted a comparison test of her rule-based system, BEAGLE, the
nearest-neighbor algorithm, and discriminant analysis. BEAGLE is
a product available through VRS Consulting, Inc.; 4676 Admiralty Way,
Suite 206; Marina Del Ray, CA 90292 (213) 827-7890 and FAX: -3189.
In determining whether the glass was a type of "float" glass or not,
the following results were obtained (# incorrect answers):
Type of Sample Beagle NN DA
Windows that were float processed (87) 10 12 21
Windows that were not: (76) 19 16 22
The study of classification of types of glass was motivated by
criminological investigation. At the scene of the crime, the glass left
can be used as evidence...if it is correctly identified!
5. Number of Instances: 214
6. Number of Attributes: 10 (including an Id#) plus the class attribute
-- all attributes are continuously valued
7. Attribute Information:
1. Id number: 1 to 214
2. RI: refractive index
3. Na: Sodium (unit measurement: weight percent in corresponding oxide, as
are attributes 4-10)
4. Mg: Magnesium
5. Al: Aluminum
6. Si: Silicon
7. K: Potassium
8. Ca: Calcium
9. Ba: Barium
10. Fe: Iron
11. Type of glass: (class attribute)
-- 1 building_windows_float_processed
-- 2 building_windows_non_float_processed
-- 3 vehicle_windows_float_processed
-- 4 vehicle_windows_non_float_processed (none in this database)
-- 5 containers
-- 6 tableware
-- 7 headlamps
8. Missing Attribute Values: None
8