Bilet 1
System Informacyjny a Informatyczny.
Cele i etapy budowy Hurtowni danych
Bilet 2
Koncepcja Bazy danych i Systemy zarządzania bazami danych,
Hurtowni danych, Miejsce HD w przetwarzaniu danych
Bilet 3
Architektura Systemu Baz danych,
Hurtowni danych, Systemy transakcyjne (OLTP) i analityczne OLAP
Bilet 4
Systemy Zarządzania Bazą Danych (SZBD). Składniki Systemu Zarządzania Bazą Danych.
Architektury rozproszonych baz danych. Transakcje rozproszone
Bilet 5
Systemy Zarządzania Bazą Danych (SZBD). Właściwości Baz Danych z SZBD.
Transakcje w rozproszonych BD . Reguły rozproszenia
Bilet 6
Struktura funkcyjna Systemu Zaradzania Bazą Danych .
Rozproszone systemy baz danych. Projektowanie rozproszonych baz danych
Bilet 7
Modelowanie danych . Klasyfikacja modeli danych .
Rozproszone systemy baz danych. Właściwości rozproszonych systemów baz danych
Bilet 8
Pojecie Modelu Referencyjnego. Obiekty Informacyjne i Atrybuty.
Obiektowe systemy baz danych. Podstawowe definicje w obiektowości
Bilet 9
Model Referencyjny bazy danych. Składowa jednostka informacyjna. Struktura SJI ( 3Normalna Forma).
Obiektowo-relacyjne bazy danych. Porównanie systemów relacyjnych i obiektowych
Bilet 10
Kanoniczna forma Modelu Dziedziny. 4 właściwości formy kanonicznej,
Optymalizacja zapytań. Cele optymalizacji zapytań. Kryteria optymalizacji.
Bilet 11
Procesowe i nieprocesowe podejście do projektowania Modelu Referencyjnego Dziedziny
Optymalizacja zapytań poprzez indeksy. klasyfikacja indeksów. Indeksy zakresowe
Bilet 12
Relacyjne Modele Baz Danych. Podstawy teorii relacyjnej
Właściwości języków algebry relacyjnej i rachunku relacyjnego
Bilet 13
Relacyjne Modele Danych. Normalizacja relacyjnego modelu danych. Poziomy normalizacji
Język danych, oparty o rachunek relacyjny . Podstawowe operatory rachunku relacyjnego .
Bilet 14
Relacje rzeczywiste pomiędzy obiektami informacyjnymi. 4 typu relacji rzeczywistych. Łącze funkcyjne pomiędzy obiektami informacyjnymi
Język danych, oparty o algebrę relacyjną . Podstawowe operatory algebry relacyjnej .
Bilet 15
System zarządzania bazą danych. Funkcje administratora bazy danych. Programy ABD
Porównanie systemów relacyjnych i obiektowych. Przykłady obiektowych baz danych.
System informatyczny jest to złożony program komputerowy lub zespół współdziałających ze sobą programów przeznaczonych do wykonywania określonych funkcji. Przykładami może być np. system operacyjny lub system zarządzania bazami danych. Najczęściej o systemie informatycznym mówi się wtedy gdy do zbierania, gromadzenia, przesyłania i przetwarzania danych pastowane są techniczne środki informatyki a przynajmniej komputer do przetwarzania. Uogólniając: system informatyczny to określony obszar systemu informacyjnego danego obiektu, obsługiwany za pomocą technicznych środków dostępnych w informatyce. Formalnie system informatyczny składa się z siedmiu uporządkowanych elementów: SI = {P, I, T, O, M, R, N} gdzie:
P - Personel korzystający z systemu
I - Dane i informacje
T - Zbiór urządzeń i narzędzi technologii informatycznej
O – Zbiór stosowanych rozwiązań organizacyjnych
M – Zbiór meta informacji
R – Relacje pomiędzy elementami systemu informatycznego
N – Infrastuktura i otoczenie systemu informatycznego
Każdy system informatyczny cechuje się swoim cyklem życia. Każdy system informatyczny jest częścią systemu informacyjnego.
System informacyjny stanowi usystematyzowaną i uporządkowaną sieć powiązań informacyjnych między takimi elementami jak: człowiek, dane metody oraz urządzenia do przesyłania i przetwarzania danych, mających na celu zaspokojenie potrzeb informacyjnych zainteresowanych ogniw.
System Informacyjny: obieg, przetwarzanie, udostępnianie, magazynowanie i archiwizowanie informacji istotnych dla systemu zarządzania całą organizacją. Obejmuje rozwiązania algorytmiczne, programowe i sprzętowe, które związane są nie tylko z danymi, informacją, wiedzą, ale również obejmuje regulaminy i scenariusze zachowania pracowników.
Hurtownia danych (ang. data warehouse – DW lub HD) = zestaw narzędzi pozwalających kierownikom, dyrektorom, decydentom i analitykom szybciej, skuteczniej podejmować decyzje.
HD mają dostarczać właściwe informacje, właściwym kosztem, we właściwym czasie i miejscu by na ich podstawie można było podejmować właściwe decyzje. HD stanowią platformę integrującą dane pochodzące z wielu źródeł umożliwiają przetwarzanie analityczne danych zebranych z tych różnych źródeł. HD jest pośrednikiem między przetwarzaniem transakcyjnym a przetwarzaniem analitycznym.
Cele budowy hurtowni danych to:
przetwarzanie analityczne (OLAP)
wspomaganie decyzji (DSS)
archiwizacja danych
analiza efektywności
wsparcie dla systemów CRM (np. poprzez precyzyjne dobieranie strategii marketingowych na podstawie danych o klientach i sprzedaży)
Krócej:
dostarczanie rzetelnych danych analitycznych
wysoka produktywność rozwiązań
wzrost konkurencyjności firmy
Baza danych jest zbiór przechowanych w pamięci komputera operacyjnych danych , używanych programami aplikacyjnymi w pewnej dziedzinie przedmiotowej.
Dziedzina przedmiotowa uogólniony termin, który opisuje zastosowanie technologii informacyjnych w obszarze dużej skały. (ekonomika, komunikacja, technika). W zawartość dziedziny przedmiotowej wchodzą operacyjne dane używane w danej dziedzinie użytkownikami systemu. Oprócz tego , w dziedzinę przedmiotową wchodzą dane wejściowe (komunikaty użytkowników) i dane wyjściowe (rezultaty pracy program aplikacyjnych).
Atrybut - najmniejszy przechowany element danych w BD, który ma określone imię. Na poziome fizycznym atrybutowi odpowiada pole w pamięci. Baza danych zawiera zbiór egzemplarzy każdego typu pola.
Zestaw danych – zbiór atrybutów, opisujących pewny obiekt informacyjny. Na poziome fizycznym zestawu danych odpowiada rekord przechowany w pamięci. Baza danych zawiera zbiór egzemplarzy każdego typu rekordu Rekord jest najmniejszy zestaw danych, do którego realizuje się dostęp w bazie danych, tj. rekord jest jednostka dostępu w BD.
Plik – zbiór wszystkich egzemplarzy jednego typu rekordu, który ma określone imię.
Hurtownia danych (ang. data warehouse – DW lub HD) = zestaw narzędzi pozwalających kierownikom, dyrektorom, decydentom i analitykom szybciej, skuteczniej podejmować decyzje.
HD mają dostarczać właściwe informacje, właściwym kosztem, we właściwym czasie i miejscu by na ich podstawie można było podejmować właściwe decyzje. HD stanowią platformę integrującą dane pochodzące z wielu źródeł umożliwiają przetwarzanie analityczne danych zebranych z tych różnych źródeł. HD jest pośrednikiem między przetwarzaniem transakcyjnym a przetwarzaniem analitycznym. HD gromadzi wybrane użyteczne dane i informacje oraz pozwala na szybszy tańszy i efektywniejszy do nich dostęp, stanowiąc rodzaj długookresowego bufora między systemami OLTP a OLAP. HD przechowują dane historyczne i podsumowania. Takie dane wykorzystywane są następnie przez kierownictwo firmy, do analizy trendów rynkowych i podejmowania decyzji.
Użytkownicy bazy danych są aplikacji Informatycznego Systemu zarządzania przedsiębiorstwem lub odlegle terminale (personel techniczny i zarządzający).
Język danych – specjalny język oprogramowania wysokiego poziomu dla realizacji zapytań do bazy danych.
Taki język zawiera dwie komponenty:
• Język opisu danych (data definition language),
• Język manipulowania danymi (data manipulation language).
Język danych wykonuje funkcje wyszukiwania i modyfikacji danych w BD. W językach oprogramowania (Cobol, Pascal, C) realizuje się wywołanie do programów standardowych.
Robocza pamięć użytkownika – obszar pamięci służący dla odbioru i przekazania danych w BD. W aplikacjach jest to obszar wejścia - wyjścia.
Model danych – jest zawartość informacyjna bazy danych w tej formie, jak ona rozpatruje się administratorem bazy danych. Model danych składa się z egzemplarzy różnych typów rekordów. Modeli danych odpowiada schemat bazy danych. Język danych operuje danymi przez model danych.
Podmodel danych– jest zawartość informacyjna bazy danych w tej formie, jak ona rozpatruje się użytkownikom lub konkretną aplikacją. Podmodel danych jest ograniczenie ogólnego modelu danych do poziomu konkretnej grupy użytkowników. Podmodeli danych odpowiada podschemat bazy danych
Struktura logiczna bazy danych - odzwierciedlenie semantycznej zawartości danych ,
która odpowiada przedstawieniu użytkowników BD
Struktura fizyczna bazy danych – odzwierciedlenie modelu danych na strukturę pamięci . Elementy struktury fizycznej: indeksy, przechowane pola w rekordu, uporządkowanie rekordów w pliku, fizyczny adres pliku (rekordu) w pamięci.
Interfejs użytkownika- odzwierciedlenie podmodelu danych na model danych, jest granica w systemu baz danych, która użytkownik nie może przekroczyć.
System zarządzania bazą danych – jest kompleks program, realizujący dostęp do bazy danych.
OLTP:
Systemy baz danych to tzw. systemy transakcyjne, w których rejestruje się w formie transakcji zmiany stanu rzeczy (np. zmiany stanów magazynowych, środków finansowych, zobowiązań, środków trwałych w firmie, ewidencji ludności, kadry, studentów, stanu kont itp.). Są to systemy przetwarzania transakcyjnego (ang. Online transaction processing – OLTP) związane z działaniami operacyjnymi firm takimi jak obsługa klientów firmy, obsługa produkcji, obsługa zabezpieczenia produkcji, obsługa finansów firmy itp.). Często takie bazy danych nazywa się również operacyjnymi bazami danych. Na podstawie systemów OLTP trudno podejmować decyzje obejmujące wiele aspektów działalności firmy np. zdolności finansowe firmy a zabezpieczenie produkcji w kontekście potrzeb klientów.Nawet połączenie za pomocą szybkich łączy sieciowych nie rozwiązuje problemu sprawnego dostępu do informacji wielodziedzinowych, wzajemnie zintegrowanych (np. zgodnych w czasie)
OLAP:
Sam termin OLAP nie jest stary, niemniej historia narzędzi tego typu sięga dwadzieścia lat wstecz, kiedy to firma Express tworzyła swój pierwszy produkt, a niektórzy jego korzeni doszukują się w języku APL, opierającym się o wielowymiarowe struktury danych, stworzonym już ponad trzydzieści lat temu. Oprogramowanie OLAP pozwala na wielowymiarowy wgląd w dane.
Przykładowo Użytkownik HD chce uzyskać odpowiedzi na pytanie:
„Jak wygląda sprzedaż aktualna w stosunku do planowanej?”,
„Jak się sprzedaje Produkt 2 w USA w porównaniu do Azji?”,
„Jak będzie wyglądała sprzedaż Produktu 1 w Azji, jeśli wzrośnie w tym samym stopniu sprzedaż w Europie?” lub
„Jaka był wpływ % wzrostu sprzedaży Produktu 2 na sprzedaż Produktu 1 w Azji?”
Podstawowe cechy systemów OLTP to:
wykonywanie dużej liczby prostych zapytań pochodzących od wielu użytkowników (nierzadko są to setki zapytań na sekundę) system bazodanowy powinien być zoptymalizowany pod kątem szybkiego wyszukiwania danych częste operacje dodawania, usuwania i modyfikacji pojedynczych rekordów wymagany natychmiastowy dostęp do aktualnych informacji Przetwarzane typu OLAP to przede wszystkim tworzenie raportów (zwykle predefiniowanych) obejmujących zestawienia tabelaryczne i wykresy. Ten rodzaj przetwarzania przeznaczony jest zwykle dla innego rodzaju użytkowników: kierownictwa, analityków, administratorów. Przykłady: raport dynamiki sprzedaży produktów w różnych krajach, dla którego źródłem są pojedyncze zapisy wszystkich transakcji przy kasach 100 supermarketów danej sieci z ostatnich trzech lat; raporty podsumowujące obroty i prowizje klientów banku w rozbiciu na miesiące, rodzaje opłat i grupy klientów; typowe statystyki miesięczne ruchu internetowego na serwerach WWW.
Podstawowe cechy systemów OLAP to:
niewielka liczba zapytań, lecz dotyczących wielkich ilości danych (podsumowania itp., mogą to być zapytania zadawane raz na kilka minut przez kilku-kilkuset użytkowników)systemy te zasadniczo tylko odczytują informację z bazy; jeśli system OLAP jest logicznie oddzielony od baz transakcyjnych, to informacje są cyklicznie uzupełniane (dodawanie dużych grup nowych rekordów) nie zakładamy pełnej aktualności informacji: dane mogą być dostępne z opóźnieniem (najlepiej znanym z góry, np. jednodniowym), a same obliczenia mogą trwać od sekund do wielu godzin. Rozbieżność wymagań pomiędzy przetwarzaniem typu OLTP i OLAP uzasadnia rozdzielenie tych zadań. Jest to jeden z powodów, dla których tworzy się hurtownie danych - oddzielne (logicznie i fizycznie) systemy informatyczne, wykorzystujące inne rodzaje silników bazodanowych, mające inaczej skonstruowaną zawartość, niż systemy produkcyjne (transakcyjne) przedsiębiorstwa. Z drugiej strony, wymagania użytkowników hurtowni danych powodują wprowadzanie coraz większej liczby elementów OLTP do funkcjonalności hurtowni danych, co może być związane, np., z potrzebą generowania raportów w czasie rzeczywistym podczas ładowania nowych danych, tudzież z koniecznością wykonywania raportów operacyjnych przez wielu użytkowników jednocześnie, co wiąże się z coraz bardziej ostatnio popularnym pojęciem Operational BI.
KODASYL - standard po przetwarzaniu danych w Informatycznych Systemach Zarządzania. Zgodnie ze standardem KODASYL w System Zarządzania Bazą Danych wchodzą następujące składniki:
Język opisu schematu bazy danych
Podschemat bazy danych
Język manipulowania danymi
Rezydentny moduł SZBD
Baza danych – zbiór rekordów różnego typu oraz związków (krzyżowych odsyłaczów) pomiędzy nimi. Plik bazy danych- zbiór rekordów jednego typu bez obecności krzyżowych odsyłaczów
Schemat bazy danych – opis bazy danych. Każdej bazie danych odpowiada jeden schemat. Schemat BD jest uogólnione przedstawienie logicznej struktury BD z punktu widzenia osoby, odpowiadanej za całą BD
Język opisu schematu bazy danych (JOD) -samodzielny język, wykorzystany dla opisu logicznej struktury bazy danych. JOD jest kolejność zdań, podobnych do języku naturalnego. JOD schematu daje możliwość nie tworzenia bazy danych, ale tylko jej opisania. JOD nie określa procesy przetwarzania danych w ISZ, on nie określa również fizycznych charakterystyk BD (np. objętość) rozmieszczenie BD w pamięci etc.
W najprostszym przypadku transakcja obejmuje operacje na jednej bazie danych – tu transakcja jestobsługiwana lokalnie przez odpowiedni SZBD (moduł zarządzania transakcjami), W przypadku złożonych aplikacji, możliwe są jednak sytuacje, w których transakcja wykorzystuje dane z wielu baz danych. Transakcja, która modyfikuje dane w więcej niż jednej bazie danych określana jest jako transakcja rozproszona. Przykładowo, gdyby dotyczyło to operacji przelewu dla dwóch różnych banków, posiadających własne systemy informatyczne oparte o własne systemy baz danych, realizacja przelewu stanowiłaby transakcję rozproszoną. Zapewnienie wymaganych własności transakcji, w przypadku transakcji rozproszonych znacząco się komplikuje, w porównaniu z transakcjami działającymi na jednej bazie danych.Dla realizacji transakcji rozproszonych stosuje się technikę zatwierdzania dwufazowego (ang. 2-phase commit). Polega ona na realizacji operacji zatwierdzania transakcji w dwóch fazach. W pierwszej fazie, określanej jako faza przygotowania (ang. prepare), systemy biorące udział w transakcji przygotowują się do zatwierdzenia lokalnych części transakcji rozproszonej (globalnej). Gdy wszyscy uczestnicy transakcji potwierdzą gotowość do zatwierdzenia transakcji, realizowana jest druga faza – faza rzeczywistego zatwierdzania (ang commit).
• Integralność bazy danych.
• Sekretność i ochrona danych.
• Niezależność danych i aplikacji .
• Wspieranie wzajemnych relacji pomiędzy danymi.
• Wieloaspektowy dostęp i wspólne używanie danych.
• Wydajność bazy danych w systemie informacyjnym.
Integralność bazy danych.
Mierzymy ją zgodnie z 3 miarami:
- Kontrola wiarygodności danych
- Kontrola kompletności wykonania transakcji
- Procedura odbudowania bazy danych.
Sekretność i ochrona danych.
Ograniczenia w używaniu bazy danych mogą dotyczyć zarówno obiektów BD, jak i procedur, które można prowadzać w BD . Dla tego istnieją środki autoryzowanego dostępu (Authorized Access). Na przykład w Banku Narodowym operator banku może oglądać konto użytkownika, ale nie może jego zmienić. Drugi przykład-anonimowy wkład użytkownika, który potrzebuje ochrony informacji o wkładzie.
Niezależność danych i aplikacji .
W bazie danych pełna niezależność pomiędzy danymi i aplikacjami nie możliwa, jednak SZBD daje możliwość osiągnięcia jej na poziomie aplikacji.
Istnieje różny stopień niezależności dla logicznego i fizycznego przedstawienia danych.
• Logiczne przedstawienie danych używa się na poziomie użytkownika i charakteryzują się one zależnością od struktury BD.
• Fizyczna organizacja danych używa się na poziomie SZBD i charakteryzuje się one zależnością od parametrów BD
Z tego wynika, że na poziomie fizycznym niezależność danych i aplikacji realizuje się środkami SZBD.Głównym celem niezależności danych jest brak konieczności tworzenia nowych plików dla nowych aplikacji. Ale fizyczna niezależność danych i aplikacji potrzebuje tworzenia procedur modyfikacji aplikacji oraz procedur odpowiedniości danych. Na poziomie logicznym niezależność jest bardziej zatrudniona.
Wspieranie wzajemnych relacji pomiędzy danymi.
W bazie danych obiektem przechowania mogą być nie tylko określone dane ale i relacji pomiędzy nimi. To znaczy, że w dynamiczne zmieniającej BD potrzebne jest nie tylko tworzenie nowych danych, ale i tworzenie nowych relacji.
Wieloaspektowy dostęp i wspólne używanie danych.
Baza danych jest systemem dla wiele użytkowników. Dlatego potrzebna jest kontrola wspólnego używania BD. Najbardziej efektywnym mechanizmem wspólnego używania jest blokowanie bazy danych. Często używane są również ograniczenia na możliwość wprowadzenia zmian w BD ze strony określonych użytkowników. Dla każdego użytkownika trzeba przechować integralność bazy danych oraz zrobić efekt monopolowego używania BD.
Wydajność bazy danych w systemie informacyjnym.
Efektywność systemu informatycznego zarządzania zależy bezpośrednie od zatrat na organizację i tworzenie systemu zarządzania bazą danych.
Wynikiem tworzenia bazy danych jest zwiększenie efektywności pracy jej odrębnych użytkowników i produktywności aplikacji.
n Autonomia lokalnych BD: lokalne dane powinny podlegać lokalnym regułom własności i powinny być zarządzane lokalnie. Dotyczy to funkcji związanych z bezpieczeństwem, integralnością i reprezentacją wewnątrz pamięci. Wyjątki dotyczą sytuacji, kiedy więzy integralności muszą obejmować jednocześnie wiele miejsc oraz sytuacji, kiedy rozproszone transakcje muszą być sterowane przez pewne zewnętrzne miejsce.
n Brak podporządkowania przetwarzania do konkretnego miejsca: uniknięcie wąskich gardeł dzięki decentralizacji wszystkich funkcji rozproszonego SZBD.
n Ciągłość funkcjonowania: Przestoje w wykonywaniu operacji nie powinny być skutkiem dodania nowych miejsc, ich usunięcia ze środowiska rozproszonej BD, dokonania zmian w meta-informacji lub unowocześnienia wersji SZBD w pewnym indywidualnym miejscu.
n Niezależność od lokalizacji: Użytkownicy lub programy aplikacyjne nie muszą wiedzieć, gdzie dane są fizycznie przechowywane.
n Niezależność od fragmentacji: Fragmenty jednego zbioru danych mogą być przechowywane i zarządzane przez rozproszony SZBD jako jedna całość, bez uświadamiania użytkowników lub aplikacji o sposobie ich rozczłonkowania. Pożądaną własnością rozproszonego SZBD jest to, aby w sposób automatyczny unikał przetwarzania nierelewantnych fragmentów.
n Niezależność od replikacji: Istnienie replik danych w wielu miejscach, ich pojawianie się lub usuwanie nie powinno wpływać na postępowanie użytkowników ani na poprawność bądź spójność aplikacji.
n Rozproszone przetwarzanie zapytań: System powinien zapewniać sprawne przetwarzanie rozproszonych zapytań umożliwiające zredukowanie zarówno czasu przetwarzania, jak i obciążenia sieci transmisji danych.
n Zarządzanie rozproszonymi transakcjami: Zasady zarządzania transakcjami oraz sterowania współbieżnością powinny obowiązywać dla operacji w rozproszonej bazie danych. Zasady te włączają: wykrywanie i usuwanie zakleszczeń (deadlocks), zarządzanie przekroczeniami dopuszczalnego czasu (timeout), rozproszone protokóły potwierdzenia (commit) i odwracania (rollback), oraz inne metody.
n Niezależność od sprzętu: oprogramowanie rozproszonego SZBD powinno pracować na różnych platformach sprzętowych.
n Niezależność od systemu operacyjnego: oprogramowanie rozproszonego SZBD powinno pracować pod różnymi systemami operacyjnymi.
n Niezależność od sieci: Miejsca mogą być połączone poprzez szeroką gamę środowisk sieciowych i komunikacyjnych. Modele warstwowe istniejące dla współczesnych protokółów komunikacyjnych (obowiązujące w większości obecnych systemów informacyjnych, takich jak OSI 7, TCP/IP, warstwy SNA i DECnet) zapewniają środki do osiągnięcia tego celu nie tylko dla rozproszonych baz danych, lecz w ogólności dla systemów informacyjnych.
n Niezależność od SZBD: Powinno być możliwe przyłączenie do rozproszonej bazy danych lokalnej bazy danych zarządzanej przez dowolny lokalny SZBD.
Można określić trzy poziomu opisania bazy danych: logiczny, fizyczny i aplikacyjny. Odpowiednio do trzech poziomów opisu bazy danych istnieją trzy wejścia dla tworzenia, manipulowania i potrzymania (maintanance) bazy danych.
Od ogółu do szczegółów(top-down):
Odgórne zaprojektowanie całej bazy danych, z uwzględnieniem optymalizacji przechowywanych danych, narzuconej przez fakt geograficznego rozproszenia producentów i konsumentów informacji przechowywanej w bazie danych.
LUB
Od szczegółów do ogółu(bottom-up):
Zintegrowanie już istniejących (spadkowych) lub zaprojektowanych lokalnych baz danych w jedną globalną rozproszoną bazę danych.
Podejście top-down
* Analiza systemowa: rozpoznanie wymagań, precyzowanie kontekstu przyszłej bazy danych.
* Projektowanie schematu pojęciowego
* Projektowanie struktury logicznej
* Kryteria rozproszenia są związane z faktem fizycznego rozproszenia źródeł i odbiorców danych oraz autonomii lokalnych baz danych. Ustalają one decyzje, które fragmenty projektu pojęciowego będą przechowywane w poszczególnych miejscach, a także jak należy zdekomponować schemat logiczny na poszczególne miejsca
Określenie danych podlegających *replikacjom* (lokalnych kopii) oraz strategii replikacji.
Zróżnicowanie *logicznego schematu danych* w zależności od typu SZBD w poszczególnych miejscach.
Określenie *lokalnych schematów* dla poszczególnych miejsc.
Określenie *danych autonomicznych* dla poszczególnych miejsc, nie uczestniczących w rozproszonej bazie danych; co prowadzi do określenia schematu pojęciowego i logicznego dla danych widzianych z zewnątrz.
Podział *schematu logicznego*: Wg różnych reguł związanych na ogół z fizycznym ulokowaniem obiektów rzeczywistych (np. osób zatrudnionych, sprzętu, co pociąga za sobą odpowiedni podział schematu logicznego) lub też z fizycznym ulokowaniem programów aplikacyjnych działających na tych obiektach.
Podejscie bottom-up
* Podejście ad hoc: Budowa uniwersalnych lub specyficznych dla danego zastosowania pomostów (gateways) umożliwiających dostęp z danego systemu bazy danych do innych baz danych. Pomost może (nie musi) zapewniać przezroczystość rozproszenia.
* Podejście oparte o globalny schemat: Wszystkie składniki rozproszonej BD są objęte jednym globalnym schematem, jednakowym dla każdego miejsca i zapewniającym przezroczystość rozproszenia. Istotną wadą podejścia opartego na globalnym schemacie jest brak możliwości sterowania zakresem autonomii każdego lokalnego systemu.
* Federacyjna baza danych: Każda lokalna baza danych zachowuje swoją autonomię, udostępniając tylko część danych dla innych miejsc w RBD. Podejście federacyjne zakłada, że każda lokalna baza danych jest widziana poprzez pewną perspektywę (view), ukrywającą niektóre dane dla rozproszonych aplikacji.
Klasyfikacja modeli danych:
Ściśle klasyfikujące:
- Każda dana musi należeć do pewnej kategorii,
- Dana nie pasująca do żadnej kategorii musi zostać dopasowana „na siłę” do jakiejkolwiek istniejącej
- W niektórych modelach zakłada się, że dopuszczalne kategorie są z góry zdefiniowane i nie mogą być dynamicznie zmieniane
Swobodnie klasyfikujące:
- Brak założeń o kategoriach,
- Pojedyncze dane mogą istnieć niezależnie
- Dane mogą być powiązane z innymi danymi
- Informacje o istniejących kategoriach są traktowane tak samo jak informacja o pojedynczej danej
W rozproszonej bazie danych występuje rozłożenie danych do węzłów sieci poprzez ich fragmentację (podział) lub replikację - do różnych konfiguracji sprzętowych i programistycznych na ogół rozmieszczonych w różnych (geograficznie) miejscach organizacji. Z rozproszoną bazą danych mamy do czynienia wtedy, gdy zbiór lokalnych baz stanowi całość w sensie jednego modelu danych i koordynacji wykonywanych transakcji.Pożądane właściwości rozproszonej bazy danych podsumujemy w postulatach Date'a.
Lokalna autonomia - na każdym węźle działa niezależny system zarządzania bazą danych.
Uniezależnienie od centralnego węzła – wszystkie węzły są równorzędne.
Działanie ciągłe – operacje na sieci węzłów nie powinny mieć wpływu na funkcjonowanie systemu (jak dodanie czy usunięcie węzła).
Niezależność lokalizacji - użytkownik nie powinien być świadomy fizycznego umiejscowienia danych (przezroczystość lokalizacji).
Niezależność fragmentacji - użytkownik nie powinien być świadomy istnienia fragmentów i ich lokalizacji, dostęp do każdego fragmentu jest jednakowy i nie zależy od lokalizacji.
Niezależność replikacji - użytkownik nie powinien być świadomy istnienia replik, ich lokalizacji i czy korzysta z nich.
Niezależność sprzętowa – na jakim komputerze znajduje się węzeł.
Niezależność od systemu operacyjnego – wyniki jakie uzyskuje użytkownik nie powinny zależeć pod jakim systemem działa komputer węzła.
Niezależność od SZBD – wyniki jakie uzyskuje użytkownik nie powinny zależeć jaki SZBD jest zainstalowany w węźle.
Niezależność od sieci – wyniki jakie uzyskuje użytkownik nie powinny zależeć od architektur i protokołów sieciowych.
Rozproszone zarządzanie transakcjami – zaimplementowane są aksjomaty ACID dla transakcji działających na całej sieci węzłów.
Rozproszone przetwarzanie zapytań – instrukcje SQL działają na danych rozmieszczonych we wszystkich węzłach sieci.
Podstawowym przeznaczeniem Modelu Referencyjnego jest przedstawienie formalizowanego interfejsu pomiędzy specjalistami z określonej dziedziny i specjalistami prowadzącymi projektowanie Bazy Danych. Model Referencyjny jest to wyczerpujący model danych, potrzebny do realizacji wszystkich funkcji Informatycznego Systemu Zarządzania. Referencyjny Model danych składa się z dwóch elementów:
Obiektów informacyjnych – jest to odzwierciedlenie rzeczywistego obiektu, procesu, zdarzenia, zjawiska. Jakościowe i liczbowe charakterystyki obiektów informacyjnych zmienia się w wyniku realnych procesów, prowadzonych w działalności produkcyjnej przedsiębiorstwa. Opis obiektów informacyjnych w postaci atrybutów wchodzi w kontent bazy danych
Atrybutem nazywamy logicznie nierozdzielny element danych odpowiadający pewnej właściwości obiektu. Każdy atrybut charakteryzuje się schematem atrybutu tj. a) nazwa, typ i klasa wartości atrybutu; b) ograniczenia na możliwe wartości atrybutu; c) specjalne wartości (klucz ochrony, kontrola wiarygodności i wartości atrybutu)
Atrybuty w zależności od możliwych wartości można podzielić na kilka typów: a)numeryczne; b)tekstowe; c)symboliczne; d)logiczne; e)specjalnego przeznaczenia.
W zależności od charakteru wskazanej właściwości wszystkie atrybuty w obiekcie informacyjnym można rozdzielić na:
Przymioty, które odzwierciedlają jakościowe właściwości obiektu
Podstawy, które odzwierciedlają liczbowe charakterystyki obiektu
Podstawowymi definicjami w obiektowości są:
Obiekt - konkretny lub abstrakcyjny byt (wyróżnialny w modelowanej rzeczywistości) posiadający nazwę, jednoznaczną identyfikację, określone granice, atrybuty i inne własności oraz rodzaj struktur danych przetwarzanych przez obiektowe języki programowania oraz przechowywanych w bazie danych. Obiekt może być skojarzony z metodami lub operacjami, które na nim działają. Metody z reguły definiowany/przechowywany w ramach jego klasy oraz jej nadklas. Obiekt jest instancją klasy. Obiekty mogą być rekurencyjnie powiązane między sobą związkami semantycznymi-związki między obiektami reprezentowane są poprzez referencje (odwołania), które są wartościami atrybutów obiektu. Odwołanie do konkretnego obiektu w systemie jest realizowane przez wysłanie do niego komunikatu;
Identyfikator obiektu umożliwia jednoznaczne odwołanie do obiektu (jest niepowtarzalny w systemie)
Klasa - byt semantyczny rozumiany jako miejsce przechowywania (specyfikacji i definicji) takich cech grupy podobnych obiektów, które są dla nich niezmienne: atrybutów, metod, ograniczeń dostępu, dozwolonych operacji na obiektach, wyjątków, itp. Klasa stanowi wzorzec dla tworzonego obiektu. W systemach obiektowych, klasa jest traktowana jako obiekt (klasowy), w celu zagwarantowania jednolitego posługiwania się komunikatami.
* Z klasą mogą być związane atrybuty i metody klasowe. W atrybutach klasowych przechowywane są wartości podsumowujące wszystkie jej obiekty (wartości średnie, sumy, itp.) oraz atrybuty wspólne i atrybuty domyślne.
* Zwykle klasy wiąże się ze sobą poprzez hierarchię (lub inną strukturę) dziedziczenia.
Atrybut jest częścią definicji klasy,
* Specyfikacja atrybutu polega na podaniu jego nazwy i więzów semantycznej spójności, obejmujących: dziedzinę atrybutu, jednoznaczność wartości, dopuszczalność wartości NULL, itp. Wartości atrybutów obiektu opisują jego stan.
* Dziedziną atrybutu może być jakakolwiek klasa ze swoim własnym zbiorem wartości lub klasa wartości pierwotnych (np.: integer, string).
* Wartością atrybutu może być instancja klasy będącej jego dziedziną lub instancja dowolnej podklasy z hierarchii klas zakorzenionej w klasie stanowiącej dziedzinę atrybutu;
Metoda jest procedurą, funkcją lub operacją przypisaną do klasy i dziedziczoną przez jej podklasy. Metoda działa na stanie obiektu tej klasy (czyli operuje wartościami atrybutów). Kod w języku programowania implementujący metodę nazywamy ciałem metody. Metoda abstrakcyjna specyfikowana jest w klasie, ale jej działanie może być przedefiniowane w dowolnej z jej podklas;
Hermetyzacja (encapsulation) - zamknięcie pewnego zestawu bytów programistycznych w "kapsułę" (obiekt, klasa, moduł, etc.) o dobrze określonych granicach. Oddziela się abstrakcyjną specyfikację tej "kapsuły" (obiektu, klasy, modułu, etc.) od jej implementacji, ukrywając część informacji w niej zawartej dla operacji z zewnątrz obiektu. Hermetyzacja jest podstawową techniką abstrakcji, tj. ukrycia wszelkich szczegółów danego przedmiotu lub bytu programistycznego, które na danym etapie rozpatrywania (analizy, projektowania, programowania) nie stanowią jego istotnej charakterystyki.
Agregacja - związek pomiędzy klasami obiektów, modelujący stosunek całości do jej części (np. stosunek samolotu do śmigła). Obiekty są powiązane związkiem agregacji, jeżeli jeden z nich można uważać za część drugiego, zaś cykl i czas życia tych obiektów są jednakowe;
Hierarchia klas i dziedziczenie - klasy w systemie tworzą zakorzeniony, skierowany acyklicznie graf zwany hierarchią klas. Oznacza to, że dla klasy C klasa (lub klasy) S na niższym poziomie jest uszczegółowieniem (specjalizacją) klasy C i odwrotnie - klasa C jest uogólnieniem (generalizacją) klasy (klas) S. Klasa S dziedziczy wszystkie atrybuty i metody klasy C, mogąc jednocześnie charakteryzować się własnymi atrybutami i metodami. Atrybuty i metody określone dla klasy C są rekurencyjnie dziedziczone przez wszystkie jej podklasy. W większości systemów obiektowych istnieje predefiniowana przez system klasa (w ORIONIE: CLASS) stanowiąca jedyny korzeń dla wszystkich klas w systemie. Hierarchia klas jest spójna - nie ma odizolowanych węzłów (do każdego węzła - klasy jest dostęp z korzenia). W każdym systemie klasa może mieć dowolną liczbę podklas, w pewnych systemach klasa może mieć tylko jedną nadklasę (dziedziczenie pojedyncze) w innych - dowolną liczbę nadklas (dziedziczenie wielokrotne) dziedzicząc metody i atrybuty od wszystkich swoich nadklas. Odziedziczone metody mogą zostać przeciążone, tzn. można zmodyfikować działanie odziedziczonej metody nie zmieniając jej nazwy. Pojęcie dziedziczenia stwarza pewne problemy, takie jak konflikty nazwy, zasięg dziedziczenia, naruszenia hermetyzacji, są one jednak charakterystyczne dla programowania obiektowego, dlatego też nie będę ich omawiał; Model Referencyjny bazy danych. Składowa jednostka informacyjna. Struktura SJI ( 3Normalna Forma).
Hierarchia kompozycji klas jest skierowanym grafem określającym definicję klasy, reprezentującym powiązania atrybut - dziedzina. Nie ma związku z hierarchią klas reprezentującą powiązania klasa - podklasa.
Obiektowo-relacyjne bazy danych są hybrydowymi architekturami baz danych. Stanowią kompromis między relatywnymi, a obiektowymi bazami danych. Obiektowe bazy danych nie mają tak szerokiej infrastruktury jak relacyjne, a budowanie ich od początku wiąże się z dużymi kosztami Pozwalają na operowanie na danych jak na obiektach, posiadają jednak bazę relacyjną jako wewnętrzny mechanizm przechowywania danych. Systemy obiektowo-relacyjne są wyposażane w wiele cech umożliwiających efektywną produkcję aplikacji. Wśród nich można wymienić przystosowanie do multimediów, dane przestrzenne, abstrakcyjne typy danych, metody (funkcje i procedury) definiowane przez użytkownika w różnych językach, kolekcje (zbiory, sekwencje, zagnieżdżone tablice, tablice o zmiennej długości), typy referencyjne, przeciążanie funkcji, późne wiązanie i inne. Systemy te zachowują jednocześnie wiele technologii, które sprawdziły się w systemach relacyjnych (takie jak architektura klient/serwer, mechanizmy buforowania i indeksowania, przetwarzanie transakcji, optymalizacja zapytań). Dodatkową zaletą jest uniknięcie konwersji aktualnych baz danych do nowego, obiektowego.
ZALETY relacyjnych
• przystosowanie do multimediów (duże obiekty BLOB, CLOB i dane binarne)
• dane przestrzenne (spatial)
• abstrakcyjne typy danych (ADT)
• metody (funkcje i procedury) definiowane przez użytkownika w różnych językach (C++, VisualBasic, Java)
• kolekcje (zbiory, wielozbiory, sekwencje, tablice zagnieżdżone, tablice o zmiennej długości)
• typy referencyjne
• przeciążanie funkcji
• optymalizacja zapytań
Wady:
• wciąż nie uniknięto wielu błędów modelu relacyjnego (np. niezgodność implementacyjna)
• brak perspektyw na przyszłość,
• produkt hybrydowy "dwa w jednym" (redundancja kodu i danych)
• brak bazy intelektualnej,
• zmiany wprowadzane ad hoc (kumulowanie błędów koncepcyjnych)
Model Dziedziny jest przedstawiony w formie kanonicznej, jeśli :
1) Obiekty informacyjne prawidłowe ustrukturowane i przedstawione w 3-j normalnej formie.
• Pełna zależność funkcyjna niekluczowych atrybutów od wartości klucza
• Wzajemna nie-zależność atrybutów składowych klucza (jeśli klucz składowy)
• Wzajemna nie-zależność atrybutów niekluczowych
2) Rozwiązane M:M relacje, wykorzystywane w prostych łączy funkcjonalnych
3) Obiekty informacyjne uporządkowane po poziomom hierarchicznym, tj.jednostkowe strzałki są orientowane do góry , a podwójne strzałki są orientowane do dołu
4) Złożone łącze funkcjonalne przetwarzane do zbioru prostych łączy funkcjonalnych
Zapytanie SQL ma charakter deklaratywny: określa co ma być wyznaczone w bazie danych, a nie jak ma być znalezione. Dla każdego zapytania istnieje wiele sposobów jego realizacji. Który sposób jest najlepszy, zależy od dodatkowych okoliczności. SZBD rozważa różne alternatywy, szacuje ich koszt oraz wybiera możliwie najlepszy, "optymalny" plan. Proces ten nazywa się optymalizacją zapytania a moduł go realizujący optymalizatorem zapytań. Optymalizacja zapytań jest to radykalne skrócenie czasy w jakim wykonywane są zapytania. Cała optymalizacja zostaje przerzucona w całości na komputer – praktycznie w pełni na specjalny moduł zwany optymalizatorem zapytań. Optymalizacja ta jest bardziej „dostrajaniem” (ang. tuning) przy użyciu dowolnych inżynierskich zabiegów.
Kryteria optymalizacji:
1) Podstawowym kryterium optymalizacji zapytań jest łączny czas ich ewaluacji:
- czas samej optymalizacji,
- czas ewaluacji po optymalizacji.
2) Zmniejszenie liczby transferów dyskowych.
3) Inne kryteria, takie jak zużycie zasobów - koszty (dysku, pamięci operacyjnej, czasu procesora, sieci) są istotne, ale tylko w specyficznych sytuacjach, które występują rzadziej.
- Zasoby komputerowe są tanie i można je kupić
- Czas użytkownika może być bardzo cenny.
Istnieją 2 metody (podejścia) do projektowania
Modelu Referencyjnego Dziedziny:
1. Podejście nieprocesowe
2. Podejście procesowe
Wybór podejścia w projektowaniu Modelu Referencyjnego musi w najlepszym stopniu: odpowiadać podejściu w projektowaniu Systemu Informacyjnego Zarządzania, koszty tworzenia ISZ, Uwzględniając kwalifikacje projektantów systemu informacyjnego w warunkach rozwiniętych środków typizacji i automatyzacji projektowania ISZ podstawowym podejściem jest podejście procesowe.
Podejście nieprocesowe jest Podejście Obiektowe w organizacji Systemów Informacyjnych
Podejście nieprocesowe wymaga:
• Uogólnienia doświadczenia tworzenia systemów zarządzania
• Wydzielenie typowych struktur organizacyjnych, funkcyjnych, informacyjnych i programowych
Projektowanie Modelu Referencyjnego w podejściu nieprocesowym potrzebuje:
• Adaptacji typowego Systemy Informatycznego dla konkretnego zastosowania i
• Uwzględnienia s projektem Systemu Informacyjnego Zarządzania w całości
Podejście procesowe jest Podejście Funkcyjne (Top-Down) w organizacji Systemów Informacyjnych
Model referencyjny projektowany w podejściu procesowym ma charakter:
• deterministyczny
• kryterialny (np. Minimalny czas wykonania zadań)
Indeks jest pomocniczą (redundantną) strukturą danych przechowywaną po stronie serwera. Zaletą indeksu jest jego stosunkowo mały rozmiar (w porównaniu do całości bazy danych) oraz jednoaspektowość wyszukiwania, co umożliwia ich bardzo efektywną organizację. Indeks należy rozumieć jako dwu-kolumnową tablicę, gdzie pierwsza kolumna zawiera wartości kluczowe, zaś druga – wartości nie-kluczowe, najczęściej referencje do obiektów. Wartości kluczowe są unikalne i służą jako wejście dla procedury wyszukiwania w indeksie. Wynikiem wyszukiwania wg danej wartości kluczowej są wartości nie-kluczowe w tym samym wierszu tablicy. Wartości kluczowe są zapamiętane w określonych atrybutach obiektów bazy danych (dla indeksów gęstych) lub są reprezentantami przedziałów wartości (dla indeksów zakresowych).
Dwie istotne własności indeksów:
*Przezroczystość indeksów dla programisty baz danych. Programista nie uwzględnia istnienia indeksów w zapytaniach, są one uwzględniane automatycznie.
Dzięki temu administrator bazy danych ma pełną swobodę w zakresie generowania nowych indeksów i usuwania indeksów bez konieczności zmiany programów aplikacyjnych.
*Automatyczna aktualizacja indeksów, która następuje w wyniku zmian w bazie danych.
Indeksy, jak wszystkie struktury redundantne, mogą utracić spójność, o ile baza danych zostanie zaktualizowana. Automatyczny mechanizm powinien poprawić, zlikwidować lub od nowa wygenerować indeks w przypadku zmian w bazie danych.
Klasyfikacja indeksów:
* Indeks główny jest obliczony na unikalny klucz kolekcji obiektów (np. PESEL), czego skutkiem jest to, że dla danego argumentu zwraca on dokładnie jedną referencję.
* Indeks wtórny jest obliczony na atrybut, którego wartość nie jest unikalna dla danej kolekcji obiektów (np. stanowisko). Indeks wtórny dla danego argumentu zwraca jedną lub więcej referencji.
* Indeks gęsty oznacza, że dla każdej wartości występującej w atrybucie pewnego obiektu tworzona jest pozycja indeksu. Np. dla dowolnej wartości atrybutu Nazwisko obiektów Osoba.
* Indeks zakresowy oznacza, że pozycja indeksu dotyczy wartości z pewnego zakresu. Np. dla atrybutu zarobek indeks ma postać tabeli, gdzie każda pozycja opisuje zarobek z pewnego przedziału, np.
Indeks zakresowy:
Indeks zakresowy realizuje wzorce zapytań podobne do przypadku indeksu gęstego, ale jego wykorzystanie wiąże się z bardziej złożonymi regułami, które wymagają: dopasowania aktualnej wartości występującej w zapytaniu do argumentu tego indeksu, zastosowania go, dodatkowego odfiltrowania wyniku. Idea indeksu zakresowego polega na indeksowaniu pewnego zbioru obiektów przedziałami wartości pewnego atrybutu. Np. indeks zakresowy dla zarobku pracownika może określać tylko przedziały: 1-500, 501-1000, 1001-1500, itd. Każdy z tych przedziałów jest jedną pozycją w indeksie. Każda pozycja indeksu zakresowego może zawierać zero, jedną, lub więcej wartości nie-kluczowych.
Zalety indeksów zakresowych:
* Zmniejszenie rozmiaru pamięci przeznaczonej na indeks.
* Szybsze wyszukiwanie: można go zorganizować jak tablicę i wyszukiwać wg indeksu tablicy.
* Mniejsza wrażliwość na aktualizację bazy danych.
* Indeks zakresowy ułatwia optymalizację w sytuacji, gdy w zapytaniu nie występuje operator = przy porównaniu atrybutu i wartości, lecz operator <, >, lub.
Zalety relacyjnego modelu baz danych:
1. Prostota formułowania zapytań
2. Niezależnośc danych
3. Symetryczność relacyjnego kodu danych.
Teoria relacyjna jest oparta o matematyczną teorię zbiorów.
1. Atrybut jest prosty, niepodzielny element pomianowanych danych. Atrybut może być asocjowany z określonym polem w pliku danych.
2. Domena jest połączenie wartości , które może przyjmować dany atrybut. Domena może być określona jako zbiór wartości danego pola w pliku danych.
Przykład: Mężczyzna i Kobieta w atrybutu ‘Płeć’
3. Relacja jest połączenie wzajemno powiązanych atrybutów. Relacja może być asocjowana z typom rekordu w bazie danych, który łączy zbiór elementów danych..
4. Stopień relacji jest ilość atrybutów w relacji, tj. ilość elementów danych w rekordzie.
5. Baza danych jest zbiór wszystkich relacji bazy. Schemat bazy danych jest zbiór wszystkich typów rekordów w bazie.
6. Krotka jest zbiór wszystkich atrybutów w relacji. Krotka może być określona jako zbiór wszystkich elementów w rekordzie bazy danych.
7.Tabela jest zbiór wszystkich krotek w danej relacji. Tabela może być zdefiniowana jako zbiór wszystkich rekordów jednego typu.
8. Model relacyjny jest przedstawienie bazy danych przez jej użytkownika w postaci zbioru normalizowanych relacji
Ograniczenia relacyjnej teorii
1 Każdy typ rekordu posiada tylko proste elementy danych
2. Porządek krotek w tabeli relacyjnej jest nie istotny
3. Uporządkowanie wartości atrybutów w krótkie musi odpowiadać uporządkowaniu atrybutów w relacji.
4. Każda relacja musi zawierać jeden lub więcej atrybutów, które wspólnie tworzą unikatowy pierwotny klucz.
5. Jeśli pomiędzy jakiś dwoma relacjami istnieje zależność, to jedno z nich jest relacją wyjściowej a druga relacja- wejściowej.
6. Dla tego, żeby pomiędzy dwoma relacjami istniała zależność, atrybut (lub atrybuty) pierwotnego klucza relacji wyjściowej musi wchodzić w skład relacji wejściowej.
a) Niezależność danych
W zapytaniach, napisanych w językach algebry i rachunku relacyjnego nie ma odnośników na właściwości pamięci, metody dostępu i inne charakterystyki środowisku fizycznego
b) Prostota formułowania zapytań w językach algebry i rachunku relacyjnego.
To jest bardzo ważny problem dla użytkowników bazy danych.
c) Proceduralny charakter języka algebry relacyjnej i nieproceduralny charakter języka rachunku rachunku relacyjnego
W obydwu językach uproszczone są wszystkie aspekty realizacji zapytan takich jak:
- optymalizacja wyszukiwania danych z bazie
- kontrola kompletności transakcji przy wprowadzeniu zmian w bazie danych.
d) Prostota poszerzania baz danych
W językach rachunku relacyjnego bardzo prosto wbudowac nowe funkcje obliczeniowe.
e) Podstawą dla tworzenia języków oprogramowania poziomu wysokiego
Język algebry i rachunku relacyjnego moga być podstawą dla tworzenia języków oprogramowania poziomu wysokiego.
Relacja normalizowana jest taka relacja, w której każdy wchodzący w jej domen zawiera tylko atomowe wartości.Istnieją trzy zasadniczych formy normalizacji: Pierwsz1, Druga i Trzecia.pokazane wzajemne stosunku pomiędzy formami normalizacji.Najbardziej prawidłowa jest 3-a normalna forma (NF)
Rachunek relacyjny jest zbiór zdań (deklaracji), które opisują relację, wyprowadzoną z modelu danych. Zapytania w rachunku relacyjnym wyraża są na podstawie specyfikacji predykatu, któremu musi spełniać krotki lub domeny relacji wyjściowej. Wzory w rachunku relacyjnym składa się z elementów danych i zbioru algebraicznych i logicznych operatorów.
1. Operatory szukania
a. wyszukiwanie proste
b. wyszukiwanie po warunku
c. wyszukiwanie z uporządkowaniem
d. wyszukiwanie z uzywaniem zmiennej rangi
2. Operatory obliczeniowe
a. funkcja obliczeniowa prosta
b. funkcja obliczeniowa prosta z predykatem
c. inne funkcje obliczeniowe (min, max, average)
d. prosta funkcja odzwierciedlenia
e. funkcja odzwierciedlenia z predykatem
Algebra relacji jest modelem teoretycznym do opisywania semantyki relacyjnych baz danych. Jest to algebra, w której dziedzinę stanowią relacje. Zmienne występujące w wyrażeniach tej algebry odpowiadają pojedynczym relacjom.
Istnieją 5 podstawowych operacji algebry relacyjnej, mianowicie:
• połączenia ,
• przecięcia ,
• różnicowania \,
• iloczyn kartezjański ,
• rzutowanie
• określenie informacyjnej zawartości bazy danych (obiekty informacyjne dziedziny przedmiotowej,właściwości obiektów) dla tworzenia modelu danych,
• określenie fizycznej struktury bazy danych i metod dostępu do bazy danych,
• współdziałanie s użytkownikami systemu i organizacja podmodeli danych,
• określenie prawa dostępu i procedur kontroli, dla wykonania tych procedur administrator bazy danych może wykorzystać specjalny język,
• organizacja bazy danych i określenie optymalnej struktury bazy danych, która najbardziej efektywna s punktu widzenia całego systemu informatycznego zarządzania,
• określenia strategii odbudowy bazy danych przy pojawieniu błędów personelu , nieprawidłowej prace sprzętu, oprogramowania, systemu operacyjnego