Analiza danych jakościowych za pomocą Regresji Logistycznej
Szkolenie przeznaczone jest dla bio-statystyków, epidemiologów i przedstawicieli nauk społecznych, którzy
zajmują się analizą danych jakościowych. Podstawowym celem jest przedstawienie metod analizy związków
między zmiennymi (cechami), które nie przyjmują wartości liczbowych, takich jak płeć, wykształcenie itp.
Omawiane są tu metody pozwalające rozwiązywać problemy między innymi takie jak: określenie istotnych cech
kobiet wpływających na patologie ciąży lub na niedowagę noworodków. Modele regresji logistycznej mogą być
stosowane do opisu zależności i rozumienia reguł w danych oraz do prognozy-predykcji, podczas szkolenia
szczególny nacisk położony jest właśnie na opis i wykrycie reguł opisujących dane.
Poruszane tematy:
·
opis modelu regresji logistycznej i przykłady,
·
interpretacja wyników, pojęcia szans zajścia zdarzenia (odds ratio),
·
kodowanie zmiennych jakościowych (dummy variables),
·
wykorzystanie kontrastów do tworzenia różnych testów,
·
wykrywanie zakłóceń (confounders) i interakcji,
·
metoda największej wiarygodności (ML) i problemy ze zbieżnością (quasi-complete separation),
·
wykorzystanie tablic liczebności w analizie danych jakościowych (testy chi-kwadrat, CMH itp.),
·
wykresy przybliżonego logitu, wykrywanie czynników wielomianowych,
·
wybór najlepszego modelu:
o
metody krokowe (stepwise, forward, backward),
o
statystyki jakości (AIC, SBC, Score, Likelihood ratio, Hosmer-Lemenshow, uogólniony r-kwadrat),
o
krzywe ROC i oceny poprawnej klasyfikacji,
·
diagnostyka modeli:
o
badanie współliniowości zmiennych,
o
badanie reszt oraz częściowe wykresy reszt,
·
regresja logistyczna dla różnych typów zmiennych (binarnych, porządkowych i nominalnych),
·
analiza danych longitudinalnych (wzdłużnych, kohortowych) z elementami uogólnionych modeli liniowych
(GLIM).
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Analiza jakości
W czasach niespotykanej dotąd konkurencji coraz większą rolę odgrywa jakość produktów i usług. Szkolenie
przeznaczone jest przede wszystkim dla osób, które na co dzień zajmują się tematami związanymi z problemami
oceny jakości. W czasie jego trwania będzie można dowiedzieć się jak wykorzystać elementy dostępne w
Systemie SAS do rozwiązywania typowych zadań związanych z zapewnieniem i polepszaniem jakości.
Uczestnicy poznają możliwości i funkcjonalność tych rozwiązań ucząc się na przykładach. Podczas kursu
prezentowana jest także aplikacja SAS Enterprise Guide ułatwiająca tworzenie analiz przez interaktywny
przyjazny użytkownikowi interfejs graficzny.
Poruszane tematy:
·
historia i teraźniejszość metod zapewnienia jakości,
·
rozwiązania Systemu SAS w dziedzinie zapewnienia jakości,
·
przygotowanie danych do analizy,
·
karty Kontrolne Shewharta, odpowiedni dobór testów,
·
wykresy Pareto,
·
analiza przydatności procesów, studium przypadków.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
80%
Ćwiczenia
20%
2
SAS Base
SAS Graph
SAS Stat
JAD
D
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
2
SAS Base
SAS Graph
SAS QC
Enterprise Guide
ANJ
D
Analiza modeli mieszanych w Systemie SAS
Szkolenie przeznaczone jest dla analityków i badaczy znających się już dobrze na statystyce, którzy chcieliby
poznać jak w swojej pracy wykorzystać modele liniowe analizy wariancji w układach losowych i stałych. Z
modelami mieszanymi spotykamy się w sytuacjach, kiedy przynajmniej jeden z czynników może posiadać więcej
poziomów niż wynika to z zebranych danych. Wtedy ten czynnik staje się składnikiem losowym, a zebrane dane z
daną liczbą poziomów czynnika są jego próbą losową. Przykładem takich modeli może być próba wnioskowania o
różnicach pewnych wskaźników we wszystkich województwach na podstawie badań tylko niektórych wybranych
województw. Podczas kursu prezentowana jest także aplikacja SAS Enterprise Guide ułatwiająca tworzenie
analiz przez interaktywny przyjazny użytkownikowi interfejs graficzny.
Poruszane tematy:
·
analiza wariancji i kowariancji dla schematów losowych i stałych,
·
jedno, dwu i wielo-czynnikowe modele mieszane,
·
analiza powtórzonych pomiarów,
·
modele typu spatial,
·
nieliniowe modele mieszane.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część II)”.
Analiza szeregów czasowych i prognozowanie
Szkolenie przeznaczone jest dla użytkowników, którzy zamierzają poznać podstawowe techniki analizy szeregów
czasowych i tworzenia prognoz. W trakcie szkolenia uczestnicy będą tworzyć własne modele prognostyczne oraz
interpretować wyniki różnych prognoz. Kurs jest wprowadzeniem w technologię modelowania szeregów
czasowych, jaką oferuje System SAS. Uczestnicy poznają możliwości Systemu SAS ucząc się na przykładach. W
trakcie trwania kursu przedstawiana jest filozofia i podstawy teorii prognozowania: od zbierania i oceny danych,
poprzez uzupełnianie brakujących informacji, tworzenie nowych zmiennych pochodnych, po modele
prognostyczne, statystyczne i ekonometryczne. Ćwiczenia prowadzone są na ciekawych przykładach,
ilustrujących najczęściej spotykane problemy. W zależności od analizy prezentowane są także możliwości
narzędzi: SAS Enterprise Guide, SAS TSFS (Time Series Forecasting System).
Poruszane tematy:
·
przygotowanie danych do analiz statystycznych,
·
uzupełnianie brakujących informacji i zmiana częstości próbkowania,
·
metody wygładzania szeregów (proste modele wykładnicze np.: Holta-Wintersa),
·
analiza szeregów czasowych bez okresowości i z okresowością,
·
modele ARIMA,
·
procedury X11 i X12,
·
wielowymiarowe modele szeregów (statespace),
·
ocena jakości modeli,
·
nowości SAS 9: High-Performance Forecasting,
·
opcjonalnie - wstęp do modeli typu GARCH oraz modeli typu VAR i VARMAX.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
2
SAS Base
SAS Graph
SAS Stat
SAS Enterprise Guide
AMM
D
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
2
SAS Base
SAS Graph
SAS ETS
SAS Enterprise Guide
SAS TSFS
WPS
D
Analizy segmentacyjne
Najczęściej spotykamy się z sytuacją, że danych przybywa, mamy coraz więcej informacji, coraz więcej wiemy o
klientach, ale nie jesteśmy w stanie właściwie tej informacji wykorzystać. Problem tkwi nie w gromadzeniu
danych, ale w umiejętnym analizowaniu ogromnych wolumenów danych. Coraz częściej rynek wymusza
tworzenie kampanii i promocji dla wybranych grup klientów, dla konkretnych segmentów, co wymaga od nas
posiadania wiedzy o segmentach, umiejętności wyciągnięcia wspólnych cech danej grupy. Szkolenie wprowadza
uczestników w możliwości analizy skupień dostępnych w Systemie SAS. Zaprezentowane metody stanowią
pierwszy krok do segmentacji klientów, do wykrycia nowych nieznanych wcześniej prawidłowości w danych oraz
lepszego przygotowania danych do zaawansowanych modeli predykcyjnych czy ogólnie analiz modeli
regresyjnych.
Poruszane tematy:
·
różne typy klastrów i ich różnice,
·
różne sposoby mierzenia odległości między obiektami,
·
metody klasteryzacji hierarchicznych,
·
metody klasteryzacji nieparametrycznych,
·
metody k-means,
·
metody rozmyte (fuzzy clustering),
·
metody klasteryzacji z nadzorem (supervised clustering),
·
wyznaczanie właściwej liczby klastrów (różne kryteria: CCC, Pseudo-F itp.),
·
określanie właściwości klastrów, charakterystycznych cech (cluster profiling),
·
metody klasteryzacji zmiennych (redukcja ilości zmiennych).
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
·
mile widziana wiedza z zakresu kursu: „Statystyczna wielowymiarowa analiza danych”.
Graficzne metody analizy danych
Nawet bardzo zaawansowane analizy danych można wykonać dobierając właściwy rodzaj wykresu, czy innego
raportu graficznego. Celem kursu jest jak najpełniejsze przedstawienie możliwości graficznych Systemu SAS pod
kątem różnych analiz danych. Podczas kursu omawiane są także metody określenia, do jakich danych i analiz
dobrać najwłaściwszy rodzaj raportu graficznego. W zależności od wykresu czy analizy, prezentowane są także
możliwości narzędzi: SAS Enterprise Guide, SAS Analyst, SAS Insight.
Poruszane tematy:
·
wprowadzenie do procedur graficznych,
·
wykresy liniowe, słupkowe i kołowe,
·
wykresy rozproszenia i częściowych wpływów,
·
wykresy rozproszenia z naniesionymi liniami regresji i przedziałami ufności,
·
histogramy i wykresy pudełkowe,
·
wykresy prawdopodobieństwa i ich modyfikacje,
·
wykresy wielowymiarowe,
·
wykresy analizy jakości (PARETO),
·
wykresy analizy czynnikowej,
·
wykresy głównych składowych,
·
tworzenie samodzielnych niestandardowych wykresów.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
2
SAS Base
SAS Graph
SAS Stat
SEG
D
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
1
SAS Base
SAS Graph
SAS Stat
SAS Enterprise Guide
SAS Insight
GMA
C
Metody analizy danych (część I)
Szkolenie adresowane jest do osób, które chciałyby zajmować się analizą danych wykorzystując bogactwo
możliwości jakie daje nam statystyka. Przedstawione są tu między innymi metody analizy i opisu dużych ilości
danych pozwalające odpowiedzieć na następujące pytania:
·
jak scharakteryzować dużą grupę klientów?
·
jak wykryć nietypowe przypadki?
Ponadto omówione są metody określania zależności między cechami np.:
·
jakie cechy produktów wpływają najbardziej i w jaki sposób na ich cenę?
·
jak porównywać wartości wskaźników w różnych grupach danych?
·
czy zainteresowanie danym produktem-usługą jest podobne we wszystkich grupach wiekowych na
podstawie wyników przeprowadzonych ankiet na małej grupie klientów?
Podczas szkolenia wszelkie analizy wykonuje się w oparciu o możliwości języka 4GL pisząc niewielkie fragmenty
kodów. Jest to typowe szkolenie wprowadzające użytkownika w nowoczesne metody analizy danych oraz stanowi
wprowadzenie i podstawę do wszelkich zaawansowanych metod statystycznych. W trakcie kursu
prezentowanych jest wiele narzędzi SAS ułatwiających korzystanie z procedur statystycznych w 4GL, takie jak
SAS Enterprise Guide i SAS Analyst oraz interaktywna aplikacja SAS Insight. Materiał teoretyczny przedstawiany
jest na tyle dokładnie, na ile potrzebne jest to do sensownego i zrozumiałego przeprowadzania analiz
omawianych podczas szkolenia, w zależności od woli uczestników może on być poszerzany o dodatkowe treści
takie jak podanie właściwej literatury, pokazanie odpowiednich fragmentów dokumentacji, czy wreszcie
omówienie szczegółowe jakiegoś wzoru. Należy jednak pamiętać, że podstawowym celem szkolenia jest
przedstawienie uczestnikom szeregu nowoczesnych metod analizy danych w zastosowaniu biznesowym z ogólną
teorią skierowaną na praktykę i umiejętnością „jak to się robi w SASie”.
Poruszane tematy:
·
podstawy:
·
statystyki opisowe i wnioskowanie,
·
badanie rozkładu, testy zgodności,
·
test studenta, przedziały ufności,
·
analiza wariancji (ANOVA):
·
założenia i wyjaśnienie modelu,
·
anova jednoczynnikowa dla układu kompletnie zrandomizowanego i blokowego,
·
metody wielokrotnego porównywania,
·
testy nieparametryczne,
·
regresja:
·
wykresy rozrzutu,
·
analiza korelacji (Person, Spearman),
·
założenia i wyjaśnienie modelu regresji prostej i wielorakiej,
·
interpretacja wyników,
·
predykcja i przedziały ufności,
·
wybór modelu, statystyki jakości (r-kwadrat, AIC, SBC, Cp-Mallow itp.),
·
metody krokowe (forward, stepwise, backward),
·
weryfikacja założeń, badanie reszt,
·
wykrywanie punktów odstających, wpływających,
·
wykrywanie i usuwanie współliniowości,
·
analiza danych jakościowych:
·
rodzaje zmiennych jakościowych,
·
analiza współzależności zmiennych jakościowych (testy chi-kwadrat),
·
testy dla zmiennych nominalnych, porządkowych i binarnych,
·
podstawowe elementy analizy regresji logistycznej:
·
wyjaśnienie modelu,
·
interpretacja wyników.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Przetwarzanie danych w Systemie SAS (część I)”,
·
zalecana umiejętność formułowania problemów i interpretacja wyników w zakresie kursu: „Podstawy
statystyki”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
3
SAS Base
SAS Graph
SAS Stat
SAS Enterprise Guide
SAS Insight
SAS Analyst
MA1
C
Metody analizy danych (część II)
Szkolenie jest kontynuacją kursu: „Metody analizy danych (część I)”. Adresowane jest do analityków, którzy
chcieliby wykorzystywać zaawansowane, statystyczne metody analizy danych w celu wspierania osób
podejmujących decyzje poprzez dostarczanie trafnych analiz opartych o nowoczesne metody. Omawiane są tu
analizy wieloczynnikowe np.: jak zmienia się średni poziom nauki studentów w rozbiciu na lata i jednocześnie na
typ studiów: dzienne i wieczorowe?
Czy rozbicie na dwa czynniki: rok i typ nie powoduje dodatkowych efektów w przeciwieństwie do sytuacji, gdy
rozważalibyśmy je oddzielnie: raz średni poziom w poszczególnych latach dla wszystkich studentów, a raz w
rozbiciu na typ dla wszystkich lat?
Prezentowane są także rozwiązania wielu innych problemów nieliniowych, kiedy typowe modele liniowe nie
wyjaśniają zależności między cechami wystarczająco dobrze. Omówione także są zagadnienia z analizy historii
zdarzeń (zwanej także analizą przeżycia), głównie chodzi tu o analizę danych, dla których czas zajścia zdarzenia
jest zmienną objaśnianą (zależną). Analizuje się wartości prawdopodobieństw określające szanse zajścia
rozważanego zdarzenia, często przedstawiając to na wykresie. Ponadto bada się wpływ różnych cech na zmiany
tych prawdopodobieństw.
Poruszane tematy:
·
regresja:
o
regresja wieloraka wielomianowa,
o
wybór najlepszego modelu, wybór czynników wielomianowych,
o
nieliniowa regresja – opis modelu i przykłady,
o
regresja lokalna,
·
analiza wariancji:
o
wieloczynnikowa ANOVA,
o
układy ortogonalne (zbalansowane) i nieortogonalne (means - lsmeans),
o
różne typy sum kwadratów (SS I, II, III i IV),
o
badanie interakcji,
o
metody wielokrotnego porównywania z interakcjami i bez,
o
analiza kowariancji (ANCOVA),
o
wprowadzenie do modeli mieszanych,
o
czynniki stałe i losowe,
·
wprowadzenie do uogólnionych modeli liniowych (GLIM):
o
opis modelu i przykłady (proc genmod),
·
analiza historii zdarzeń:
o
dane do analizy przeżycia,
o
proporcjonalne i nieproporcjonalne modele ryzyka,
o
model Coxa,
o
powtarzające się zdarzenia.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
3
SAS Base
SAS Graph
SAS Stat
MA2
D
Możliwości statystyczne w Systemie SAS
Podstawowym celem szkolenia jest przedstawienie uczestnikom w sposób szybki i przystępny najciekawszych
metod statystycznych dostępnych w Systemie SAS. Kurs umożliwia wyrobienie sobie orientacji w wielu
dziedzinach analizy statystycznej. Omawia się tu przyczyny powstania i podstawowe pojęcia związane z każdą z
dziedzin statystyki i analizy danych. Przegląd dziedzin statystycznych jest poprowadzony tak, aby uczestnicy
poznali nie tylko podstawowe pojęcia, ale także możliwości i miejsce wykorzystania wiedzy z danej dziedziny.
Głównie wszelkie analizy wykonuje się poprzez uruchamianie właściwego kodu programu w języku 4GL, który
podczas szkolenia jest udostępniony uczestnikom, co pozwala szybko uzyskiwać wyniki. W trakcie kursu
prezentowanych jest także wiele narzędzi SAS ułatwiających korzystanie z procedur statystycznych w 4GL, takie
jak SAS Enterprise Guide i SAS Analyst oraz interaktywne aplikacje SAS JMP i SAS Insight. Należy podkreślić,
że materiał jednodniowego kursu jest bardzo obszerny i główny nacisk położony jest na zaprezentowanie tego co
można zrobić w SAS. Nie wyjaśnia się tu dokładnie teorii i nie wchodzi się mocno w szczegóły, nie mniej kurs
daje możliwość poznania szerokiego spektrum narzędzi do analizy danych w SAS. W zależności od
zainteresowań po takim kursie uczestnik nie powinien mieć problemów z wyborem właściwej ścieżki
szkoleniowej, lub też dokładnej listy szkoleń z analizy danych, podczas których już dokładnie pozna wybrane
zagadnienia.
Poruszane tematy:
·
analiza opisowa,
·
wnioskowanie statystyczne (estymacja i weryfikacja hipotez),
·
analiza wariancji (ANOVA),
·
metody i modele analizy regresji,
·
analiza danych jakościowych (w tym regresja logistyczna),
·
wielowymiarowa analiza danych (w tym analiza skupień),
·
analiza szeregów czasowych i prognozowanie,
·
odkrywanie wiedzy (Data Mining).
Wymagania wstępne:
·
wiedza z zakresu kursu: „Wprowadzenie do SAS 9”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
90%
Ćwiczenia
10%
1
SAS Base
SAS Graph
SAS Stat
SAS ETS
SAS Enterprise Guide
SAS Enterprise Miner
SAS Insight
SAS Analyst
SAS JMP
MSS
A
Podstawy statystyki
Szkolenie wprowadza uczestników w podstawowe pojęcia statystyczne w zastosowaniu biznesowym. Jego
głównym celem jest przełożenie podstawowej wiedzy teoretycznej na sytuacje praktyczne. Jest przygotowany
specjalnie z myślą o osobach, które chciałyby wyrobić intuicję i rozszerzyć wyobraźnię, co do tego, jak i gdzie
stosować statystykę w praktyce. W trakcie szkolenia omawiane są wnioski, jakie można formułować znając
odpowiednie statystyki i przeprowadzając odpowiednie analizy statystyczne. Szkolenie pomaga w pogłębieniu
doświadczenia, jakie statystyki umieszczać na raportach, lub ogólniej jak raportować dane, aby następnie
podejmować rozsądne decyzje. Powyższy kurs można traktować jako bazę do wszystkich pozostałych kursów
statystycznych ze ścieżki Analizy Danych. Przedstawiany materiał podczas szkolenia ma charakter ogólny i nie
jest związany z Systemem SAS, aby jednak posłużyć się przykładami i analizami przeprowadzonymi od początku
do końca wykorzystane są aplikacje SAS Enterprise Guide i SAS JMP, wybrane jako najprostsze narzędzia do
wykonywania podstawowych analiz statystycznych.
Poruszane tematy:
·
przygotowanie danych do analiz statystycznych, w szczególności eliminowanie wartości nietypowych,
·
właściwe wykorzystanie statystyk opisowych: suma, średnia, odchylenie standardowe, mediana, modalna,
kurtoza, centyle itp.,
·
wybór właściwych statystyk w zależności od wartości danych,
·
wnioskowanie o wartościach danych z obliczonych statystyk i najczęstsze błędy niewłaściwego
wnioskowania,
·
właściwe formułowanie problemów i interpretacja wyników.
Wymagania wstępne:
·
zalecana wiedza z zakresu kursu: „Praca w środowisku Enterprise Guide”.
Przygotowanie danych do analiz statystycznych i Data Mining
W analizach statystycznych i Data Mining ogromną rolę stanowi przygotowanie danych. Podczas szkolenia
przedstawione są podstawowe metody przygotowania danych. W oparciu o przykłady pokazane są sytuacje,
kiedy istnienie wartości nietypowych zmienia całkowicie wnioskowanie i prowadzi do błędnych decyzji. Podobnie
z wartościami brakującymi, w tym przypadku także nieumiejętne ich uzupełnianie lub odrzucanie może
spowodować błędne decyzje. Niektóre analizy wymagają specjalnych założeń np., co do rozkładów danych cech,
dzięki właściwemu dobraniu transformacji tych cech można powyższe założenia wypełnić. Prezentowane metody
przygotowania danych zaimplementowane zostały w języku 4GL z wykorzystaniem języka makroprogramowania
– dzięki temu uczestnicy mogą dokładnie opanować mechanizmy obróbki danych i w przyszłości samodzielnie je
ulepszać czy modyfikować. Kody wszelkich metod są udostępnione uczestnikom, którzy podczas kursu nie
muszą ich samodzielnie pisać, jedynie przeglądać i odpowiednio uruchamiać. Podstawowym celem
jednodniowego kursu jest uwrażliwienie uczestników na etap przygotowania danych i zaprezentowanie
podstawowych problemów z tym związanych.
Poruszane tematy:
·
filtracje i wykrywanie wartości nietypowych (różne pojęcia wartości nietypowych),
·
różne metody uzupełniania braków danych,
·
eliminacja ilości zmiennych i problemy wielowymiarowe,
·
wybór najlepszych zmiennych do modelu,
·
transformacje zmiennych i wybór najlepszej pod względem założeń modelu,
·
kategoryzacje zmiennych ilościowych.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Przetwarzanie danych w Systemie SAS (część I)”,
·
zalecana umiejętność formułowania problemów i interpretacja wyników w zakresie kursu: „Podstawy
statystyki”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
80%
Ćwiczenia
20%
1
SAS Base
SAS Graph
SAS Enterprise Guide
SAS JMP
PST
A
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
1
SAS Base
SAS Graph
SAS Stat
PDA
C
Tworzenie modeli prognostycznych za pomocą Regresji Logistycznej
Szkolenie przeznaczone jest dla analityków i osób zajmujących się tworzeniem modeli prognostycznych
(predykcyjnych). Techniki i problemy przedstawiane w czasie kursu są ukierunkowane na zaprezentowanie
marketingu bazodanowego, szacowanie ryzyka kredytowego i wykrywanie nadużyć. Przedstawiona jest głównie
procedura LOGISTIC, która służy do obliczania liniowych modeli logistycznych dla zmiennych jakościowych
(binarnych, porządkowych jak również nominalnych) metodą największej wiarygodności. Szkolenie
przeprowadzone jest według schematu SEMMA (znanego w dziedzinie Data Mining), polegającego na przejściu
przez kolejne etapy pracy: przygotowanie danych, modyfikację, stworzenie modeli i ich porównanie oraz na końcu
zastosowanie. Wszystkie etapy oparte są na studium jednego przypadku: bazy o klientach jednego banku i
informacji o sprzedaży produktów ubezpieczeniowych przez ten bank. Celem jest rozpoznanie reguł
decydujących o zakupie ubezpieczenia i zastosowanie ich do lepszego prowadzenia kampanii marketingowych.
Wszystkie etapy przeprowadzone są poprzez uruchamianie właściwego kodu programu 4GL udostępnionego
uczestnikom w celu sprawniejszego tempa pracy.
Poruszane tematy:
·
zapoznanie się z danymi, przy jednoczesnym wprowadzeniu jak pracować w ogólnym przypadku,
·
opis modelu regresji logistycznej,
·
interpretacja wyników,
·
proces skorowania (scoring),
·
przepróbkowanie (oversampling) – rzadkie zdarzenia,
·
uzupełnianie braków danych (różne metody),
·
kodowanie zmiennych jakościowych (dummy variables) i problem zbieżności (quasi-complete separation),
·
klastering zmiennych – redukcja złożoności modelu, usuwanie współliniowości,
·
wybór zmiennych wpływających na zmienną targetową,
·
wybór modelu metodami krokowymi, techniki optymalizacji przy przetwarzaniu dużych ilości danych,
·
wybór modelu na podstawie statystyk AIC, SBC,
·
walidacja modeli, ocena jakości klasyfikacji,
·
krzywe ROC i wykresy Gains, Lift, Profit,
·
wyznaczanie wartości cutoff (reguła Bayesa), statystyki K-S,
·
wykresy przybliżonego logitu, wykrywanie czynników wielomianowych,
·
podstawowe pojęcia z modeli sieci neuronowych i porównanie z modelem regresji logistycznej,
·
porównanie z modelami aplikacji Enterprise Miner.
Wymagania wstępne:
·
wiedza z zakresu kursu: „Zastosowania i techniki Data Mining”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
80%
Ćwiczenia
20%
2
SAS Base
SAS Stat
SAS Enterprise Miner
TMP
D
Wielowymiarowa (statystyczna) analiza danych
W sytuacji istnienia dużej ilości zmiennych problemy wielowymiarowe stają się poważnym zagadnieniem
wszelkich analiz statystycznych. Szkolenie wprowadza w podstawowe metody analiz wielowymiarowych
dostępnych w Systemie SAS. Przedstawione są tu metody określania zależności między jedną grupą cech a
drugą, metody zmniejszania ilości wymiarów bez tracenia istotnych własności – innymi słowy: jak z dużej ilości
danych wydobyć tylko istotne informacje, jak podzielić wartości na grupy, co może być pomocne przy segmentacji
klientów, lub na odwrót: mając zadane grupy, jak przydzielić (zaklasyfikować) wartości do odpowiednich grup.
Podczas kursu prezentowana jest także aplikacja SAS Enterprise Guide ułatwiająca tworzenie analiz przez
interaktywny przyjazny użytkownikowi interfejs graficzny.
Poruszane tematy:
·
wielowymiarowa analiza wariancji i kowariancji:
·
elementy algebry macierzowej,
·
wielowymiarowe testy (Pillai’s Trace i Hotelling-Lawley Trace),
·
porównanie z jednowymiarową analizą,
·
metody wielokrotnego porównywania w wielowymiarowej analizie (poprawki Bonferroniego,
Sidaka itp.),
·
wykorzystanie kontrastu w testach wielowymiarowych,
·
wielowymiarowa analiza regresji,
·
analiza korelacji kanonicznej:
·
zmienne kanoniczne, ilość zmiennych kanonicznych,
·
analiza dyskryminacji (kanoniczna i Fisherowska),
·
analiza głównych składowych:
·
ilość głównych składowych,
·
wykorzystanie w modelach regresyjnych,
·
analiza czynnikowa:
·
opis modelu i wykorzystanie,
·
interpretacja wyników (ładunków czynników),
·
różne metody poszukiwania czynników (obroty układów: promax, varimax itp.),
·
analiza rzetelności skali (Cronbach Alpha),
·
założenia wielowymiarowych analiz i metody ich weryfikacji,
·
opcjonalnie: elementy analizy skupień (także clusteringu zmiennych),
·
opcjonalnie: wstęp do analizy równań strukturalnych (SEM).
Wymagania wstępne:
·
wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
2
SAS Base
SAS Stat
Enterprise Guide
WAD
D
Wprowadzenie do SAS 9
Wprowadzenie do SAS 9 jest pierwszym tematem, od którego rozpoczynają poznawanie możliwości SAS
wszyscy jego przyszli użytkownicy: administratorzy, programiści, użytkownicy oraz analitycy biznesowi.
Celem szkolenia jest zaprezentowanie grupy wspólnych informacji podstawowych, które są niezbędne w dalszej
pracy z Systemem SAS lub rozwiązaniami biznesowymi SAS.
W pierwszej części szkolenia omawiany jest interfejs Systemu SAS od strony funkcjonalnej. Prezentowana jest
koncepcja biblioteki jako uniwersalnego wskazania na dowolne źródło danych. Uczestnicy zapoznają się z
koncepcją metod dostępu, odczytu i modyfikacji danych zapisanych w dowolnej postaci fizycznej i dowolnym ich
układzie logicznym. Przedstawiane są możliwości wykorzystania istniejących formatów i informatów w procesie
odczytu i prezentacji danych ze szczególnym uwzględnieniem specyficznych ustawień wynikających z polskich
ustawień regionalnych w systemie operacyjnym. Kolejnym elementem jest przegląd obiektów dostępnych w
Systemie SAS ze szczególnym naciskiem na dostępne struktury danych:
·
tabela płaska i tabela rozproszona,
·
widok / perspektywa,
·
struktura wielowymiarowa OLAP.
Uczestnicy zapoznają się także z możliwością współpracy Systemu SAS z aplikacjami biurowymi np.: MS Excel,
MS Access itp. zarówno w kontekście odczytu danych jak i ich eksportu.
Druga część szkolenia skupia się na omówieniu czynników mających pośredni lub bezpośredni wpływ na
efektowność i efektywność tworzonych procesów biznesowych, informatycznych, administracyjnych lub innych.
W trakcie tej części szkolenia prezentowana jest koncepcja wykorzystania metadanych jako medium
pozwalającego na wymianę dowolnego rodzaju informacji z dowolną grupą użytkowników SAS. Przedstawiane
są narzędzia SAS wykorzystujące metadane w poszczególnych warstwach rozwiązań informatyczno-
biznesowych:
·
warstwa fizyczna, związana z procesami, usługami, standardami, serwerami wykorzystywanymi w
procesach przetwarzania i prezentacji danych,
·
warstwa pośrednia, umożliwiająca komunikację rozwiązań SAS ze „światem zewnętrznym”,
·
warstwa prezentacyjno-analityczna, wykorzystywana w codziennej pracy analityków i wszystkich osób
zaangażowanych w proces zamiany danych w informacje i ostatecznie w wiedzę.
Prezentowane są podstawowe możliwości zastosowań SAS przy konkretnych tematach biznesowych, jak też
możliwości rozwiązywania poszczególnych problemów z uwzględnieniem specyfiki danego sektora rynku.
W trakcie wielu przykładów i demonstracji uczestnicy zapoznają się z praktycznym rozumieniem i realizacją w
środowisku SAS takich zagadnień jak: zarządzalność, skalowalność, otwartość oraz użyteczność.
Tematyka drugiego dnia szkolenia traktowana jest jako wprowadzenie uczestników do procesu i mechanizmów
umożliwiających realizację szeroko rozumianego przetwarzania danych.
Prezentowane są nowości i możliwości w takich dziedzinach jak: efektywne struktury danych, metody dostępu do
danych zewnętrznych, techniki przetwarzania i modelowania danych oraz schematy i koncepcje tworzenia
raportów i prezentacji informacji.
Dodatkowo uczestnicy szkolenia zapoznają się z ogólną charakterystyką Systemu SAS (obsługa interfejsu,
funkcjonalność).
Pokazywane są także podstawowe metody zarządzania danymi (agregowanie, formatowanie, konwersja,
łączenie itp.) bez konieczności pisania programów.
Poruszane tematy:
·
System SAS w wersji 9: interfejs i funkcjonalność,
·
ekstrakcja, filtrowanie i sortowanie danych,
·
definicja i wykorzystanie biblioteki ,
·
dostępne struktury danych: płaskie i wielowymiarowe,
·
dostęp do danych,
·
prezentacja danych: formaty i informatyk,
·
polskie ustawienia regionalne,
·
współpraca z aplikacjami MS Office,
·
koncepcja przetwarzania danych – podstawy 4GL,
·
funkcjonalność komponentów architektury SAS 9,
·
wykorzystanie metadanych w SAS 9,
·
wykorzystanie SAS 9 w: planowaniu, przetwarzaniu danych, składowaniu danych, warstwie prezentacyjnej
oraz w warstwie analitycznej.
Wymagania wstępne:
·
umiejętność pracy z komputerem w stopniu podstawowym.
Struktura kursu
Liczba dni /
jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
1
SAS 9
SAS Enterprise ETL Server
SAS Intelligent Storage
SAS Enterprise BI Server
MS Office
WSS
A
Zmiany i nowości SAS 9 w zastosowaniach analitycznych
Narzędzia analityczne w SAS ulegają stałym ulepszeniom wraz z rozwojem dziedzin statystycznych. Następują
drobne zmiany mody czy paradygmatów, uczeni zdobywają coraz większe doświadczenie i wszystko to przekłada
się na nowe możliwości w Systemie SAS. Celem szkolenia jest naszkicowanie podstawowych trendów zmian i
nowości w SAS 9 z jednoczesnym wyjaśnieniem idei nowych modeli, czy metod statystycznych.
Poruszane tematy:
·
przegląd nowych instrukcji i opcji w procedurach SAS/STAT,
·
nowe metody uzupełniania braków danych: multiple imputation,
·
analiza mocy testów i minimalnej wielkości próby dla testów,
·
modele odpornej (robust) regresji, wykrywanie wartości nietypowych, metody estymacji: M, LTS, S i MM,
·
analizy statystyczne dla różnych sposobów próbkowania (survey data analysis),
·
nowe możliwości mechanizmu ODS,
·
skalowalne procedury SAS/STAT.
Wymagania wstępne:
·
zalecana umiejętność formułowania problemów i interpretacja wyników w zakresie kursu: „Podstawy
statystyki”,
·
mile widziana wiedza z zakresu kursu: „Metody analizy danych (część I)”.
Struktura kursu
Liczba dni /
Jednostek
Wykorzystywane
oprogramowanie
Kod
kursu
Poziom
kursu
Wykład
70%
Ćwiczenia
30%
1
SAS Base
SAS Graph
SAS Stat
SA9
D