background image

 

 
 

background image

Analiza danych jakościowych za pomocą Regresji Logistycznej 

 

Szkolenie  przeznaczone  jest  dla  bio-statystyków,  epidemiologów  i  przedstawicieli  nauk  społecznych,  którzy 

zajmują  się  analizą  danych  jakościowych.  Podstawowym  celem  jest  przedstawienie  metod  analizy  związków 
między  zmiennymi  (cechami),  które  nie  przyjmują  wartości  liczbowych,  takich  jak  płeć,  wykształcenie  itp. 

Omawiane są tu metody pozwalające rozwiązywać problemy między innymi takie jak: określenie istotnych cech 
kobiet wpływających na patologie ciąży  lub  na  niedowagę  noworodków. Modele regresji logistycznej mogą być 

stosowane  do  opisu  zależności  i  rozumienia  reguł  w  danych  oraz  do  prognozy-predykcji,  podczas  szkolenia 

szczególny nacisk położony jest właśnie na opis i wykrycie reguł opisujących dane. 

 

Poruszane tematy: 

· 

opis modelu regresji logistycznej i przykłady, 

· 

interpretacja wyników, pojęcia szans zajścia zdarzenia (odds ratio), 

· 

kodowanie zmiennych jakościowych (dummy variables), 

· 

wykorzystanie kontrastów do tworzenia różnych testów, 

· 

wykrywanie zakłóceń (confounders) i interakcji, 

· 

metoda największej wiarygodności (ML) i problemy ze zbieżnością (quasi-complete separation), 

· 

wykorzystanie tablic liczebności w analizie danych jakościowych (testy chi-kwadrat, CMH itp.), 

· 

wykresy przybliżonego logitu, wykrywanie czynników wielomianowych, 

· 

wybór najlepszego modelu: 

metody krokowe (stepwise, forward, backward), 

statystyki jakości (AIC, SBC, Score, Likelihood ratio, Hosmer-Lemenshow, uogólniony r-kwadrat), 

krzywe ROC i oceny poprawnej klasyfikacji, 

· 

diagnostyka modeli: 

badanie współliniowości zmiennych, 

badanie reszt oraz częściowe wykresy reszt, 

· 

regresja logistyczna dla różnych typów zmiennych (binarnych, porządkowych i nominalnych), 

· 

analiza  danych  longitudinalnych  (wzdłużnych,  kohortowych)  z  elementami  uogólnionych  modeli  liniowych 

(GLIM). 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 
 
 
 

 

 

Analiza jakości 

 

W  czasach  niespotykanej  dotąd  konkurencji  coraz  większą  rolę  odgrywa  jakość  produktów  i  usług.  Szkolenie 

przeznaczone jest przede wszystkim dla osób, które na co dzień zajmują się tematami związanymi z problemami 

oceny  jakości.  W  czasie  jego  trwania  będzie  można  dowiedzieć  się  jak  wykorzystać  elementy  dostępne  w 
Systemie  SAS  do  rozwiązywania  typowych  zadań  związanych  z  zapewnieniem  i  polepszaniem  jakości. 

Uczestnicy  poznają  możliwości  i  funkcjonalność  tych  rozwiązań  ucząc  się  na  przykładach.  Podczas  kursu 
prezentowana  jest  także  aplikacja  SAS  Enterprise  Guide  ułatwiająca  tworzenie  analiz  przez  interaktywny 
przyjazny użytkownikowi interfejs graficzny. 

 

Poruszane tematy: 

· 

historia i teraźniejszość metod zapewnienia jakości,  

· 

rozwiązania Systemu SAS w dziedzinie zapewnienia jakości,  

· 

przygotowanie danych do analizy,  

· 

karty Kontrolne Shewharta, odpowiedni dobór testów,  

· 

wykresy Pareto,  

· 

analiza przydatności procesów, studium przypadków. 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 
 
 
 
 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

80% 

 

Ćwiczenia 

 

20% 

 

 

SAS Base 
SAS Graph 
SAS Stat 

 

 

JAD 

 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS QC 
Enterprise Guide 

 

 

ANJ 

 

 

background image

Analiza modeli mieszanych w Systemie SAS 

 

Szkolenie  przeznaczone  jest  dla  analityków  i  badaczy  znających  się  już  dobrze  na  statystyce, którzy  chcieliby 

poznać  jak  w  swojej  pracy  wykorzystać  modele  liniowe  analizy  wariancji  w  układach  losowych  i  stałych.  Z 
modelami mieszanymi spotykamy się w sytuacjach, kiedy przynajmniej jeden z czynników może posiadać więcej 

poziomów niż wynika to z zebranych danych. Wtedy ten czynnik staje się składnikiem losowym, a zebrane dane z 
daną liczbą poziomów czynnika są jego próbą losową. Przykładem takich modeli może być próba wnioskowania o 

różnicach pewnych wskaźników we wszystkich województwach na podstawie badań tylko niektórych wybranych 

województw.  Podczas  kursu  prezentowana  jest  także  aplikacja  SAS  Enterprise  Guide  ułatwiająca  tworzenie 
analiz przez interaktywny przyjazny użytkownikowi interfejs graficzny. 

 

Poruszane tematy: 

· 

analiza wariancji i kowariancji dla schematów losowych i stałych,  

· 

jedno, dwu i wielo-czynnikowe modele mieszane,  

· 

analiza powtórzonych pomiarów,  

· 

modele typu spatial,  

· 

nieliniowe modele mieszane. 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Metody analizy danych (część II)”. 

 

 
 

 
 
 
 

 
Analiza szeregów czasowych i prognozowanie 

 

Szkolenie przeznaczone jest dla użytkowników, którzy zamierzają poznać podstawowe techniki analizy szeregów 
czasowych i tworzenia prognoz. W trakcie szkolenia uczestnicy będą tworzyć własne modele prognostyczne oraz 

interpretować  wyniki  różnych  prognoz.  Kurs  jest  wprowadzeniem  w  technologię  modelowania  szeregów 

czasowych, jaką oferuje System SAS. Uczestnicy poznają możliwości Systemu SAS ucząc się na przykładach. W 
trakcie trwania kursu przedstawiana jest filozofia i podstawy teorii prognozowania: od zbierania i oceny danych, 

poprzez  uzupełnianie  brakujących  informacji,  tworzenie  nowych  zmiennych  pochodnych,  po  modele 
prognostyczne,  statystyczne  i  ekonometryczne.  Ćwiczenia  prowadzone  są  na  ciekawych  przykładach, 

ilustrujących  najczęściej  spotykane  problemy.  W  zależności  od  analizy  prezentowane  są  także  możliwości 

narzędzi: SAS Enterprise Guide, SAS TSFS (Time Series Forecasting System). 

 

Poruszane tematy: 

· 

przygotowanie danych do analiz statystycznych,  

· 

uzupełnianie brakujących informacji i zmiana częstości próbkowania,  

· 

metody wygładzania szeregów (proste modele wykładnicze np.: Holta-Wintersa),  

· 

analiza szeregów czasowych bez okresowości i z okresowością,  

· 

modele ARIMA,  

· 

procedury X11 i X12,  

· 

wielowymiarowe modele szeregów (statespace),  

· 

ocena jakości modeli,  

· 

nowości SAS 9: High-Performance Forecasting, 

· 

opcjonalnie - wstęp do modeli typu GARCH oraz modeli typu VAR i VARMAX. 

 
Wymagania wstępne:
 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 
 
 
 
 

 

 

 

 
 
 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 
SAS Enterprise Guide 

 

 

AMM 

 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS ETS 
SAS Enterprise Guide 
SAS TSFS 

 

 

WPS 

 

 

background image

Analizy segmentacyjne 

 

Najczęściej spotykamy się z sytuacją, że danych przybywa, mamy coraz więcej informacji, coraz więcej wiemy o 

klientach,  ale  nie  jesteśmy  w  stanie  właściwie  tej  informacji  wykorzystać.  Problem  tkwi  nie  w  gromadzeniu 
danych,  ale  w  umiejętnym  analizowaniu  ogromnych  wolumenów  danych.  Coraz  częściej  rynek  wymusza 

tworzenie  kampanii  i  promocji  dla  wybranych  grup  klientów,  dla  konkretnych  segmentów,  co  wymaga  od  nas 
posiadania wiedzy o segmentach, umiejętności wyciągnięcia wspólnych cech danej grupy. Szkolenie wprowadza 

uczestników  w  możliwości  analizy  skupień  dostępnych  w  Systemie  SAS.  Zaprezentowane  metody  stanowią 

pierwszy krok do segmentacji klientów, do wykrycia nowych nieznanych wcześniej prawidłowości w danych oraz 
lepszego  przygotowania  danych  do  zaawansowanych  modeli  predykcyjnych  czy  ogólnie  analiz  modeli 

regresyjnych. 

 

Poruszane tematy: 

· 

różne typy klastrów i ich różnice, 

· 

różne sposoby mierzenia odległości między obiektami, 

· 

metody klasteryzacji hierarchicznych, 

· 

metody klasteryzacji nieparametrycznych, 

· 

metody k-means, 

· 

metody rozmyte (fuzzy clustering), 

· 

metody klasteryzacji z nadzorem (supervised clustering), 

· 

wyznaczanie właściwej liczby klastrów (różne kryteria: CCC, Pseudo-F itp.), 

· 

określanie właściwości klastrów, charakterystycznych cech (cluster profiling),  

· 

metody klasteryzacji zmiennych (redukcja ilości zmiennych). 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

· 

mile widziana wiedza z zakresu kursu: „Statystyczna wielowymiarowa analiza danych”.  

 

 
 
 
 
 

 
 

Graficzne metody analizy danych 

 

Nawet  bardzo zaawansowane analizy danych  można wykonać dobierając właściwy rodzaj wykresu, czy innego 

raportu graficznego. Celem kursu jest jak najpełniejsze przedstawienie możliwości graficznych Systemu SAS pod 
kątem różnych analiz danych.  Podczas kursu omawiane  są także metody określenia, do jakich danych  i analiz 

dobrać najwłaściwszy rodzaj raportu graficznego. W zależności od wykresu czy analizy, prezentowane są także 
możliwości narzędzi: SAS Enterprise Guide, SAS Analyst, SAS Insight. 

 
Poruszane tematy: 

· 

wprowadzenie do procedur graficznych, 

· 

wykresy liniowe, słupkowe i kołowe, 

· 

wykresy rozproszenia i częściowych wpływów, 

· 

wykresy rozproszenia z naniesionymi liniami regresji i przedziałami ufności, 

· 

histogramy i wykresy pudełkowe, 

· 

wykresy prawdopodobieństwa i ich modyfikacje, 

· 

wykresy wielowymiarowe, 

· 

wykresy analizy jakości (PARETO), 

· 

wykresy analizy czynnikowej, 

· 

wykresy głównych składowych, 

· 

tworzenie samodzielnych niestandardowych wykresów. 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 
 
 
 
 

 
 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 

 

 

SEG 

 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 
SAS Enterprise Guide 
SAS Insight 

 

 

GMA 

 

 

background image

Metody analizy danych (część I) 

 

Szkolenie  adresowane  jest  do  osób,  które  chciałyby  zajmować  się  analizą  danych  wykorzystując  bogactwo 

możliwości jakie  daje nam statystyka. Przedstawione są tu  między  innymi metody analizy  i opisu  dużych  ilości 
danych pozwalające odpowiedzieć na następujące pytania:  

· 

jak scharakteryzować dużą grupę klientów? 

· 

jak wykryć nietypowe przypadki?  

Ponadto omówione są metody określania zależności między cechami np.: 

· 

jakie cechy produktów wpływają najbardziej i w jaki sposób na ich cenę?  

· 

jak porównywać wartości wskaźników w różnych grupach danych? 

· 

czy  zainteresowanie  danym  produktem-usługą  jest  podobne  we  wszystkich  grupach  wiekowych  na 
podstawie wyników przeprowadzonych ankiet na małej grupie klientów?  

Podczas szkolenia wszelkie analizy wykonuje się w oparciu o możliwości języka 4GL pisząc niewielkie fragmenty 
kodów. Jest to typowe szkolenie wprowadzające użytkownika w nowoczesne metody analizy danych oraz stanowi 

wprowadzenie  i  podstawę  do  wszelkich  zaawansowanych  metod  statystycznych.  W  trakcie  kursu 

prezentowanych jest wiele  narzędzi SAS ułatwiających korzystanie  z procedur statystycznych w 4GL, takie jak 
SAS Enterprise Guide i SAS Analyst oraz interaktywna aplikacja SAS Insight. Materiał teoretyczny przedstawiany 

jest  na  tyle  dokładnie,  na  ile  potrzebne  jest  to  do  sensownego  i  zrozumiałego  przeprowadzania  analiz 
omawianych podczas szkolenia, w zależności od woli uczestników może on być poszerzany o dodatkowe treści 

takie  jak  podanie  właściwej  literatury,  pokazanie  odpowiednich  fragmentów  dokumentacji,  czy  wreszcie 
omówienie  szczegółowe  jakiegoś  wzoru.  Należy  jednak  pamiętać,  że  podstawowym  celem  szkolenia  jest 
przedstawienie uczestnikom szeregu nowoczesnych metod analizy danych w zastosowaniu biznesowym z ogólną 

teorią skierowaną na praktykę i umiejętnością „jak to się robi w SASie”. 

 

Poruszane tematy: 

· 

podstawy: 

· 

statystyki opisowe i wnioskowanie, 

· 

badanie rozkładu, testy zgodności, 

· 

test studenta, przedziały ufności, 

· 

analiza wariancji (ANOVA): 

· 

założenia i wyjaśnienie modelu, 

· 

anova jednoczynnikowa dla układu kompletnie zrandomizowanego i blokowego, 

· 

metody wielokrotnego porównywania, 

· 

testy nieparametryczne, 

· 

regresja: 

· 

wykresy rozrzutu, 

· 

analiza korelacji (Person, Spearman), 

· 

założenia i wyjaśnienie modelu regresji prostej i wielorakiej, 

· 

interpretacja wyników, 

· 

predykcja i przedziały ufności, 

· 

wybór modelu, statystyki jakości (r-kwadrat, AIC, SBC, Cp-Mallow itp.), 

· 

metody krokowe (forward, stepwise, backward), 

· 

weryfikacja założeń, badanie reszt, 

· 

wykrywanie punktów odstających, wpływających, 

· 

wykrywanie i usuwanie współliniowości, 

· 

analiza danych jakościowych: 

· 

rodzaje zmiennych jakościowych, 

· 

analiza współzależności zmiennych jakościowych (testy chi-kwadrat), 

· 

testy dla zmiennych nominalnych, porządkowych i binarnych, 

· 

podstawowe elementy analizy regresji logistycznej: 

· 

wyjaśnienie modelu, 

· 

interpretacja wyników. 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Przetwarzanie danych w Systemie SAS (część I)”,  

· 

zalecana  umiejętność  formułowania  problemów  i  interpretacja  wyników  w  zakresie  kursu:  „Podstawy 

statystyki”. 

 

 
 
 

 
 
 

 
 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 
SAS Enterprise Guide 
SAS Insight 
SAS Analyst 

 

 

MA1 

 

 

background image

Metody analizy danych (część II) 

 

Szkolenie  jest  kontynuacją  kursu:  „Metody  analizy  danych  (część  I)”.  Adresowane  jest  do  analityków,  którzy 

chcieliby  wykorzystywać  zaawansowane,  statystyczne  metody  analizy  danych  w  celu  wspierania  osób 
podejmujących decyzje poprzez  dostarczanie trafnych analiz opartych o  nowoczesne metody. Omawiane są tu 

analizy wieloczynnikowe np.: jak zmienia się średni poziom nauki studentów w rozbiciu na lata i jednocześnie na 
typ studiów: dzienne i wieczorowe?  

Czy rozbicie  na dwa czynniki: rok i typ  nie powoduje dodatkowych efektów w przeciwieństwie do sytuacji, gdy 

rozważalibyśmy  je  oddzielnie:  raz  średni  poziom  w  poszczególnych  latach  dla  wszystkich  studentów,  a  raz  w 
rozbiciu na typ dla wszystkich lat? 

Prezentowane  są  także  rozwiązania  wielu  innych  problemów  nieliniowych,  kiedy  typowe  modele  liniowe  nie 
wyjaśniają zależności między cechami wystarczająco dobrze. Omówione także są zagadnienia z analizy historii 

zdarzeń (zwanej także analizą przeżycia), głównie chodzi tu o analizę danych, dla których czas zajścia zdarzenia 

jest  zmienną  objaśnianą  (zależną).  Analizuje  się  wartości  prawdopodobieństw  określające  szanse  zajścia 
rozważanego zdarzenia, często przedstawiając to na wykresie. Ponadto bada się wpływ różnych cech na zmiany 

tych prawdopodobieństw. 

 

Poruszane tematy: 

· 

regresja: 

regresja wieloraka wielomianowa, 

wybór najlepszego modelu, wybór czynników wielomianowych, 

nieliniowa regresja – opis modelu i przykłady, 

regresja lokalna, 

· 

analiza wariancji: 

wieloczynnikowa ANOVA, 

układy ortogonalne (zbalansowane) i nieortogonalne (means - lsmeans), 

różne typy sum kwadratów (SS I, II, III i IV), 

badanie interakcji, 

metody wielokrotnego porównywania z interakcjami i bez, 

analiza kowariancji (ANCOVA), 

wprowadzenie do modeli mieszanych, 

czynniki stałe i losowe, 

· 

wprowadzenie do uogólnionych modeli liniowych (GLIM): 

opis modelu i przykłady (proc genmod), 

· 

analiza historii zdarzeń: 

dane do analizy przeżycia, 

proporcjonalne i nieproporcjonalne modele ryzyka,  

model Coxa,  

powtarzające się zdarzenia. 

 
Wymagania wstępne:
 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 
 
 
 
 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 

 

 

MA2 

 

 

background image

 Możliwości statystyczne w Systemie SAS 

 

Podstawowym  celem  szkolenia  jest  przedstawienie  uczestnikom  w  sposób  szybki  i  przystępny  najciekawszych 

metod  statystycznych  dostępnych  w  Systemie  SAS.  Kurs  umożliwia  wyrobienie  sobie  orientacji  w  wielu 
dziedzinach analizy statystycznej. Omawia się tu przyczyny powstania i podstawowe pojęcia związane z każdą z 

dziedzin  statystyki  i  analizy  danych.  Przegląd  dziedzin  statystycznych  jest  poprowadzony  tak,  aby  uczestnicy 
poznali  nie  tylko  podstawowe  pojęcia,  ale  także możliwości  i  miejsce  wykorzystania  wiedzy  z  danej  dziedziny. 

Głównie  wszelkie  analizy  wykonuje  się  poprzez  uruchamianie  właściwego  kodu  programu  w języku  4GL, który 

podczas  szkolenia  jest  udostępniony  uczestnikom,  co  pozwala  szybko  uzyskiwać  wyniki.  W  trakcie  kursu 
prezentowanych jest także wiele narzędzi SAS ułatwiających korzystanie z procedur statystycznych w 4GL, takie 

jak SAS Enterprise Guide i SAS Analyst oraz interaktywne aplikacje SAS JMP i SAS Insight. Należy podkreślić, 
że materiał jednodniowego kursu jest bardzo obszerny i główny nacisk położony jest na zaprezentowanie tego co 

można zrobić w SAS. Nie wyjaśnia się tu  dokładnie teorii  i  nie wchodzi się mocno w szczegóły, nie mniej kurs 

daje  możliwość  poznania  szerokiego  spektrum  narzędzi  do  analizy  danych  w  SAS.  W  zależności  od 
zainteresowań  po  takim  kursie  uczestnik  nie  powinien  mieć  problemów  z  wyborem  właściwej  ścieżki 

szkoleniowej,  lub  też  dokładnej  listy  szkoleń  z  analizy  danych,  podczas  których  już  dokładnie  pozna  wybrane 
zagadnienia. 

 

Poruszane tematy: 

· 

analiza opisowa,  

· 

wnioskowanie statystyczne (estymacja i weryfikacja hipotez),  

· 

analiza wariancji (ANOVA),  

· 

metody i modele analizy regresji,  

· 

analiza danych jakościowych (w tym regresja logistyczna),  

· 

wielowymiarowa analiza danych (w tym analiza skupień),  

· 

analiza szeregów czasowych i prognozowanie,  

· 

odkrywanie wiedzy (Data Mining). 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Wprowadzenie do SAS 9”. 

 

 
 
 
 
 
 
 

 

 
  

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

90% 

 

Ćwiczenia 

 

10% 

 

 

SAS Base 
SAS Graph 
SAS Stat 
SAS ETS 
SAS Enterprise Guide 
SAS Enterprise Miner 
SAS Insight 
SAS Analyst 
SAS JMP 

 

 

MSS 

 

 

background image

Podstawy statystyki 

 

Szkolenie  wprowadza  uczestników  w  podstawowe  pojęcia  statystyczne  w  zastosowaniu  biznesowym.  Jego 

głównym  celem  jest  przełożenie  podstawowej  wiedzy  teoretycznej  na  sytuacje  praktyczne.  Jest  przygotowany 
specjalnie z myślą o osobach, które chciałyby wyrobić  intuicję i rozszerzyć  wyobraźnię, co do tego, jak i gdzie 

stosować  statystykę  w  praktyce.  W  trakcie  szkolenia  omawiane  są  wnioski,  jakie  można  formułować  znając 
odpowiednie  statystyki  i  przeprowadzając  odpowiednie  analizy  statystyczne.  Szkolenie  pomaga  w  pogłębieniu 

doświadczenia,  jakie  statystyki  umieszczać  na  raportach,  lub  ogólniej  jak  raportować  dane,  aby  następnie 

podejmować  rozsądne  decyzje. Powyższy  kurs można  traktować jako  bazę  do  wszystkich  pozostałych  kursów 
statystycznych ze ścieżki  Analizy Danych. Przedstawiany materiał podczas szkolenia ma charakter ogólny i nie 

jest związany z Systemem SAS, aby jednak posłużyć się przykładami i analizami przeprowadzonymi od początku 
do końca wykorzystane są aplikacje SAS Enterprise Guide i SAS JMP, wybrane jako najprostsze narzędzia do 

wykonywania podstawowych analiz statystycznych. 

 
Poruszane tematy: 

· 

przygotowanie danych do analiz statystycznych, w szczególności eliminowanie wartości nietypowych,  

· 

właściwe  wykorzystanie  statystyk  opisowych:  suma,  średnia,  odchylenie  standardowe,  mediana,  modalna, 

kurtoza, centyle itp.,  

· 

wybór właściwych statystyk w zależności od wartości danych,  

· 

wnioskowanie  o  wartościach  danych  z  obliczonych  statystyk  i  najczęstsze  błędy  niewłaściwego 

wnioskowania,  

· 

właściwe formułowanie problemów i interpretacja wyników. 

 
Wymagania wstępne:
 

· 

zalecana wiedza z zakresu kursu: „Praca w środowisku Enterprise Guide”. 

 

 
 
 
 
 

 

Przygotowanie danych do analiz statystycznych i Data Mining 

 

W  analizach  statystycznych  i  Data  Mining  ogromną  rolę  stanowi  przygotowanie  danych.  Podczas  szkolenia 
przedstawione  są  podstawowe  metody  przygotowania  danych.  W  oparciu  o  przykłady  pokazane  są  sytuacje, 

kiedy istnienie wartości nietypowych zmienia całkowicie wnioskowanie i prowadzi do błędnych decyzji. Podobnie 

z  wartościami  brakującymi,  w  tym  przypadku  także  nieumiejętne  ich  uzupełnianie  lub  odrzucanie  może 
spowodować błędne decyzje. Niektóre analizy wymagają specjalnych założeń np., co do rozkładów danych cech, 

dzięki właściwemu dobraniu transformacji tych cech można powyższe założenia wypełnić. Prezentowane metody 
przygotowania danych zaimplementowane zostały w języku 4GL z wykorzystaniem języka makroprogramowania 

– dzięki temu uczestnicy mogą dokładnie opanować mechanizmy obróbki danych i w przyszłości samodzielnie je 

ulepszać  czy  modyfikować.  Kody  wszelkich  metod  są  udostępnione  uczestnikom,  którzy  podczas  kursu  nie 
muszą  ich  samodzielnie  pisać,  jedynie  przeglądać  i  odpowiednio  uruchamiać.  Podstawowym  celem 

jednodniowego  kursu  jest  uwrażliwienie  uczestników  na  etap  przygotowania  danych  i  zaprezentowanie 
podstawowych problemów z tym związanych. 

 

Poruszane tematy: 

· 

filtracje i wykrywanie wartości nietypowych (różne pojęcia wartości nietypowych), 

· 

różne metody uzupełniania braków danych, 

· 

eliminacja ilości zmiennych i problemy wielowymiarowe, 

· 

wybór najlepszych zmiennych do modelu, 

· 

transformacje zmiennych i wybór najlepszej pod względem założeń modelu, 

· 

kategoryzacje zmiennych ilościowych. 

 
Wymagania wstępne:
 

· 

wiedza z zakresu kursu: „Przetwarzanie danych w Systemie SAS (część I)”,  

· 

zalecana  umiejętność  formułowania  problemów  i  interpretacja  wyników  w  zakresie  kursu:  „Podstawy 

statystyki”. 

 

 
 
 
 
 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

80% 

 

Ćwiczenia 

 

20% 

 

 

SAS Base 
SAS Graph 
SAS Enterprise Guide 
SAS JMP

 

 

PST 

 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 

 

 

PDA 

 

 

background image

 Tworzenie modeli prognostycznych za pomocą Regresji Logistycznej 

 

Szkolenie  przeznaczone  jest  dla  analityków  i  osób  zajmujących  się  tworzeniem  modeli  prognostycznych 

(predykcyjnych).  Techniki  i  problemy  przedstawiane  w  czasie  kursu  są  ukierunkowane  na  zaprezentowanie 
marketingu bazodanowego, szacowanie ryzyka kredytowego i wykrywanie nadużyć. Przedstawiona jest głównie 

procedura  LOGISTIC,  która  służy  do  obliczania  liniowych  modeli  logistycznych  dla  zmiennych  jakościowych 
(binarnych,  porządkowych  jak  również  nominalnych)  metodą  największej  wiarygodności.  Szkolenie 

przeprowadzone jest według schematu SEMMA (znanego w dziedzinie Data Mining), polegającego na przejściu 

przez kolejne etapy pracy: przygotowanie danych, modyfikację, stworzenie modeli i ich porównanie oraz na końcu 
zastosowanie.  Wszystkie  etapy  oparte  są  na  studium  jednego  przypadku:  bazy  o  klientach  jednego  banku  i 

informacji  o  sprzedaży  produktów  ubezpieczeniowych  przez  ten  bank.  Celem  jest  rozpoznanie  reguł 
decydujących o zakupie ubezpieczenia i zastosowanie ich do lepszego prowadzenia kampanii marketingowych. 

Wszystkie  etapy  przeprowadzone  są  poprzez  uruchamianie  właściwego  kodu  programu  4GL  udostępnionego 

uczestnikom w celu sprawniejszego tempa pracy. 

 

Poruszane tematy: 

· 

zapoznanie się z danymi, przy jednoczesnym wprowadzeniu jak pracować w ogólnym przypadku, 

· 

opis modelu regresji logistycznej, 

· 

interpretacja wyników, 

· 

proces skorowania (scoring), 

· 

przepróbkowanie (oversampling) – rzadkie zdarzenia, 

· 

uzupełnianie braków danych (różne metody), 

· 

kodowanie zmiennych jakościowych (dummy variables) i problem zbieżności (quasi-complete separation), 

· 

klastering zmiennych – redukcja złożoności modelu, usuwanie współliniowości, 

· 

wybór zmiennych wpływających na zmienną targetową, 

· 

wybór modelu metodami krokowymi, techniki optymalizacji przy przetwarzaniu dużych ilości danych, 

· 

wybór modelu na podstawie statystyk AIC, SBC, 

· 

walidacja modeli, ocena jakości klasyfikacji, 

· 

krzywe ROC i wykresy Gains, Lift, Profit,  

· 

wyznaczanie wartości cutoff (reguła Bayesa), statystyki K-S,  

· 

wykresy przybliżonego logitu, wykrywanie czynników wielomianowych, 

· 

podstawowe pojęcia z modeli sieci neuronowych i porównanie z modelem regresji logistycznej, 

· 

porównanie z modelami aplikacji Enterprise Miner. 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Zastosowania i techniki Data Mining”. 

 

 
 

 
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 

oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

80% 

 

Ćwiczenia 

 

20% 

 

 

SAS Base 
SAS Stat 
SAS Enterprise Miner 

 

 

TMP 

 

 

background image

Wielowymiarowa (statystyczna) analiza danych 

 

W  sytuacji  istnienia  dużej  ilości  zmiennych  problemy  wielowymiarowe  stają  się  poważnym  zagadnieniem 

wszelkich  analiz  statystycznych.  Szkolenie  wprowadza  w  podstawowe  metody  analiz  wielowymiarowych 
dostępnych  w  Systemie  SAS.  Przedstawione  są  tu  metody  określania  zależności  między  jedną  grupą  cech  a 

drugą, metody zmniejszania  ilości wymiarów bez tracenia istotnych własności – innymi słowy: jak z dużej ilości 
danych wydobyć tylko istotne informacje, jak podzielić wartości na grupy, co może być pomocne przy segmentacji 

klientów,  lub  na  odwrót: mając  zadane  grupy,  jak  przydzielić  (zaklasyfikować)  wartości  do  odpowiednich  grup. 

Podczas  kursu  prezentowana  jest  także  aplikacja  SAS  Enterprise  Guide  ułatwiająca  tworzenie  analiz  przez 
interaktywny przyjazny użytkownikowi interfejs graficzny. 

 
Poruszane tematy: 

· 

wielowymiarowa analiza wariancji i kowariancji: 

· 

elementy algebry macierzowej, 

· 

wielowymiarowe testy (Pillai’s Trace i Hotelling-Lawley Trace), 

· 

porównanie z jednowymiarową analizą, 

· 

metody  wielokrotnego  porównywania  w  wielowymiarowej  analizie  (poprawki  Bonferroniego, 

Sidaka itp.), 

· 

wykorzystanie kontrastu w testach wielowymiarowych, 

· 

wielowymiarowa analiza regresji, 

· 

analiza korelacji kanonicznej: 

· 

zmienne kanoniczne, ilość zmiennych kanonicznych, 

· 

analiza dyskryminacji (kanoniczna i Fisherowska), 

· 

analiza głównych składowych: 

· 

ilość głównych składowych, 

· 

wykorzystanie w modelach regresyjnych, 

· 

analiza czynnikowa: 

· 

opis modelu i wykorzystanie, 

· 

interpretacja wyników (ładunków czynników), 

· 

różne metody poszukiwania czynników (obroty układów: promax, varimax itp.), 

· 

analiza rzetelności skali (Cronbach Alpha), 

· 

założenia wielowymiarowych analiz i metody ich weryfikacji, 

· 

opcjonalnie: elementy analizy skupień (także clusteringu zmiennych), 

· 

opcjonalnie: wstęp do analizy równań strukturalnych (SEM). 

 

Wymagania wstępne: 

· 

wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 
 
 
 

 

 

 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Stat 
Enterprise Guide 

 

 

WAD 

 

 

background image

Wprowadzenie do SAS 9 

 

Wprowadzenie  do  SAS  9  jest  pierwszym  tematem,  od  którego  rozpoczynają  poznawanie  możliwości  SAS 

wszyscy jego przyszli użytkownicy: administratorzy, programiści, użytkownicy oraz analitycy biznesowi. 
Celem szkolenia jest zaprezentowanie grupy wspólnych informacji podstawowych, które są niezbędne w dalszej 

pracy z Systemem SAS lub rozwiązaniami biznesowymi SAS. 
W pierwszej części szkolenia omawiany jest interfejs Systemu SAS od strony funkcjonalnej. Prezentowana jest 

koncepcja  biblioteki  jako  uniwersalnego  wskazania  na  dowolne  źródło  danych.  Uczestnicy  zapoznają  się  z 

koncepcją metod dostępu, odczytu i modyfikacji danych zapisanych w dowolnej postaci fizycznej i dowolnym ich 
układzie  logicznym. Przedstawiane  są możliwości  wykorzystania  istniejących formatów i informatów w procesie 

odczytu  i prezentacji danych  ze  szczególnym  uwzględnieniem specyficznych  ustawień wynikających z polskich 
ustawień  regionalnych  w  systemie  operacyjnym.  Kolejnym  elementem  jest  przegląd  obiektów  dostępnych  w 

Systemie SAS ze szczególnym naciskiem na dostępne struktury danych:  

· 

tabela płaska i tabela rozproszona, 

· 

widok / perspektywa, 

· 

struktura wielowymiarowa OLAP. 

Uczestnicy zapoznają się także z możliwością współpracy Systemu SAS z aplikacjami biurowymi np.: MS Excel, 
MS Access itp. zarówno w kontekście odczytu danych jak i ich eksportu. 

Druga  część  szkolenia  skupia  się  na  omówieniu  czynników  mających  pośredni  lub  bezpośredni  wpływ  na 

efektowność i efektywność tworzonych procesów biznesowych, informatycznych, administracyjnych lub innych.  
W  trakcie  tej  części  szkolenia  prezentowana  jest  koncepcja  wykorzystania  metadanych  jako  medium 
pozwalającego na wymianę dowolnego rodzaju informacji z  dowolną grupą użytkowników SAS.  Przedstawiane 
są  narzędzia  SAS  wykorzystujące  metadane  w  poszczególnych  warstwach  rozwiązań  informatyczno-

biznesowych: 

· 

warstwa  fizyczna,  związana  z  procesami,  usługami,  standardami,  serwerami  wykorzystywanymi  w 
procesach przetwarzania i prezentacji danych, 

· 

warstwa pośrednia, umożliwiająca komunikację rozwiązań SAS ze „światem zewnętrznym”, 

· 

warstwa  prezentacyjno-analityczna,  wykorzystywana  w  codziennej  pracy  analityków  i  wszystkich  osób 
zaangażowanych w proces zamiany danych w informacje i ostatecznie w wiedzę. 

Prezentowane  są  podstawowe  możliwości  zastosowań  SAS  przy  konkretnych  tematach  biznesowych,  jak  też 
możliwości rozwiązywania poszczególnych problemów z uwzględnieniem specyfiki danego sektora rynku. 

W trakcie  wielu  przykładów  i  demonstracji  uczestnicy  zapoznają  się  z  praktycznym  rozumieniem  i  realizacją  w 

środowisku SAS takich zagadnień jak: zarządzalność, skalowalność, otwartość oraz użyteczność. 
Tematyka drugiego dnia szkolenia traktowana jest jako wprowadzenie  uczestników do procesu i mechanizmów 

umożliwiających realizację szeroko rozumianego przetwarzania danych.  
Prezentowane są nowości i możliwości w takich dziedzinach jak: efektywne struktury danych,  metody dostępu do 

danych  zewnętrznych,  techniki  przetwarzania  i  modelowania  danych  oraz  schematy  i  koncepcje  tworzenia 

raportów i prezentacji informacji. 
Dodatkowo  uczestnicy  szkolenia  zapoznają  się  z  ogólną  charakterystyką  Systemu  SAS  (obsługa  interfejsu, 

funkcjonalność).  
Pokazywane  są  także  podstawowe  metody  zarządzania  danymi  (agregowanie,  formatowanie,  konwersja, 
łączenie itp.) bez konieczności pisania programów. 

 

Poruszane tematy: 

· 

System SAS w  wersji 9: interfejs i funkcjonalność, 

· 

ekstrakcja, filtrowanie i sortowanie danych,  

· 

definicja i wykorzystanie biblioteki , 

· 

dostępne struktury danych: płaskie i wielowymiarowe, 

· 

dostęp do danych, 

· 

prezentacja danych: formaty i informatyk, 

· 

polskie ustawienia regionalne, 

· 

współpraca z aplikacjami MS Office, 

· 

koncepcja przetwarzania danych – podstawy 4GL, 

· 

funkcjonalność komponentów architektury SAS 9, 

· 

wykorzystanie metadanych w SAS 9, 

· 

wykorzystanie  SAS 9  w:  planowaniu,  przetwarzaniu  danych,  składowaniu  danych,  warstwie  prezentacyjnej 

oraz w warstwie analitycznej. 

 
Wymagania wstępne:
 

· 

umiejętność pracy z komputerem w stopniu podstawowym. 

 

 

 
 
 
 
 

Struktura kursu 

Liczba dni / 

jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS 9 
SAS Enterprise ETL Server 
SAS Intelligent Storage 
SAS Enterprise BI Server 
MS Office 

 

 

WSS 

 

 

background image

Zmiany i nowości SAS 9 w zastosowaniach analitycznych 

 

Narzędzia analityczne w SAS ulegają stałym ulepszeniom wraz z rozwojem dziedzin statystycznych. Następują 

drobne zmiany mody czy paradygmatów, uczeni zdobywają coraz większe doświadczenie i wszystko to przekłada 
się  na nowe możliwości w Systemie SAS. Celem  szkolenia jest naszkicowanie podstawowych trendów zmian  i 

nowości w SAS 9 z jednoczesnym wyjaśnieniem idei nowych modeli, czy metod statystycznych. 

 
Poruszane tematy: 

· 

przegląd nowych instrukcji i opcji w procedurach SAS/STAT, 

· 

nowe metody uzupełniania braków danych: multiple imputation, 

· 

analiza mocy testów i minimalnej wielkości próby dla testów, 

· 

modele odpornej (robust) regresji, wykrywanie wartości nietypowych, metody estymacji: M, LTS, S i MM, 

· 

analizy statystyczne dla różnych sposobów próbkowania (survey data analysis), 

· 

nowe możliwości mechanizmu ODS, 

· 

skalowalne procedury SAS/STAT. 

 
Wymagania wstępne:
 

· 

zalecana  umiejętność  formułowania  problemów  i  interpretacja  wyników  w  zakresie  kursu:  „Podstawy 

statystyki”, 

· 

mile widziana wiedza z zakresu kursu: „Metody analizy danych (część I)”. 

 

 

 

Struktura kursu 

Liczba dni / 

Jednostek 

Wykorzystywane 
oprogramowanie 

Kod 

kursu 

Poziom 

kursu 

 

Wykład  

 

70% 

 

Ćwiczenia 

 

30% 

 

 

SAS Base 
SAS Graph 
SAS Stat 

 

 

SA9