Informacja z komputera
Kiedy potrzebne są bazy danych?
Najważniejsze zastosowanie komputerów - gromadzenie informacji.
Digital Library Initiative, wszystko cyfrowe bo brakuje pieniędzy!
Organizacja dostępu do informacji multimedialnej przez WWW: teksty, mapy, obrazy, papirusy, filmy.
Biblioteka Kongresu Narodowego USA (Congress Library), jedna z największych bibliotek świata.
Ok. 20 Terabajtów tekstu + ponad 10 TB zdjęć + 200 TB map + 500 TB filmów + 2000 TB płyt CD = ok. 3 Petabajtów.
Dyski pomieszczą wszystko, co kiedykolwiek w życiu zobaczymy!
Istnieje projekt elektronicznej książki z cyfrowym papierem, mieszczącej całą informację z Biblioteki Kongresu.
Kiedy potrzebne są bazy danych?
Niewielkie listy (adresy, telefony, książki) - wystarczy prosty edytor tekstów, można wówczas drukować na wąskim pasku papieru.
Zalety programów DBMS: szybkość wyszukiwania informacji, zdalny dostęp, łatwość gromadzenia, możliwość prezentacji tej samej informacji w różny sposób.
PIM (Personal Information Manager) - programy do zarządzania podręczną informacją
Podstawowe pojęcia
DBMS (od angielskiego akronimu Data Base Management Systems)
Dzielą się na: DSS (Decision Support Systems) i OLTP (On Line Transaction Processing)
Transakcja - pełny obieg danych i aktualizacja bazy.
Bazy danych, czyli zbiory danych i metody dostępu do zawartej w nich informacji.
Banki danych, czyli bazy danych w których przechowuje się informację.
Standardy na PC:
ODBS (Open Data Base Systems), otwartych standard baz danych.
ODBC (Open DataBase Connectivity), otwarta komunikacja pomiędzy bazami danych, standard wymiany danych.
IDAPI (Integrated Database Application Programming Interface), zintegrowany interfejs programowy dla aplikacji bazodanowych.
Dwa poziomy - logiczna i fizyczna struktury zapisu, pola, rekordy, indeksy
Typy bazy danych: bazy tekstowe, bazy danych bez struktury (free form), bazy proste (flat file), bazy relacyjne, bazy obiektowo zorientowane.
Formaty: wolny, struktury rekordów o zmiennej lub ustalonej długości.
Relacyjne bazy danych, RDBMS
Podstawowe pojęcia: encje (elementy, jednostki systemu), związki encji, atrybuty, klucze, 1NF, czyli pierwsza forma normalna bazy danych, przydatne w projektowaniu dużych baz danych.
Repozytoria danych, czyli centralne „magazyny informacji” przeszłych danych, nie ulegających już zmianie.
Hurtownie danych (data warehouse): zweryfikowane dane z różnych baz, przydatne do analiz i podejmowania strategicznych decyzji.
Replikacja - proces powielania informacji, całej bazy, jej fragmentów lub elementów (np. indeksów).
Replikacja scalana - łączenie zmian z kilku baz danych, wymaga rozstrzygania konfliktów.
Replikacja migawkowa - pobiera chwilowy obraz bazy danych.
Replikcja transakcyjna - wykorzystuje model wydawca-subskrybent + dziennik przeprowadzonych transakcji.
OLAP - On-Line Analytical Processing, czyli proces podsumowania dużych ilości informacji na bieżąco.
Data Mining, albo Knowledge Discovery in Databases (KDD) - narzędzia do odkrywania wiedzy w bazach danych.
Administrator baz danych (DBA, DataBase Administrator)
Rodzaje baz danych
Sieciowe bazy danych, udostępnianie baz danych przez WWW:
Lotus Domino - bardzo popularna sieciowa baza danych i system wspomagający pracę grupową.
4th Dimension 6.0, Borland IntraBuilder 1.01, askSam Web Publisher 3.0, Oracle WebServer 2.1
Do projektowania logicznej struktury danych w hierarchicznych i sieciowych bazach danych używany jest język definicji danych (DDL, Data Definition Language)
Do korzystania z systemu służy język manipulacji danymi (DML, Data Manipulation Language).
Obiektowo zorientowane bazy danych.
Rozproszone bazy danych - na wielu systemach komputerowych.
Temporalne bazy danych - dla procesów zmieniających się w czasie.
Typowe cechy programów DBMS: formularze, menu i raporty.
Język zapytań SQL
SQL (Structured Query Language),czyli Strukturalny Język Zapytań:
Standard SQL 2 opracowany w 1992 roku, rozszerzony o ODBC w 1995 roku;
Standard SQL 3 wzbogacony o rozszerzenia obiektowe jest w opracowaniu i powinien się pojawić około 1999 roku.
PDQ (Parallel Data Query), czyli SQL na wiele procesorów
Przykłady i porównanie programów zarządzających bazami danych
Duże systemy zarządzania bazami danych, stosowane przez agendy rządowe i duże firmy: miliony rekordów i gigabajty danych, systemy wielodostępne, na wieloprocesorowe komputery.
Social Security, USA: 40.000 terminali, 20 milionów transakcji dziennie.
NASA - przyrost 100 MB/dzień
W Polsce ZUS, PZU, kasy chorych ...
Niektóre instutucje naukowe, np. medyczne, skanują wiele gigabajtów obrazów dziennie.
Systemy profesjonalne
Oracle Corporation (wg. wielkości obrotów) około 50%, Informix i Ingres około 15%
Oracle to druga co do wielkości po Microsofcie firma zajmująca się oprogramowaniem.
Oracle DBMS - na około 90 platformach sprzętowych, Personal Oracle na PC, Oracle Media Server, Oracle Video Server, obsługa hurtowni danych.
PROGRESS Application Development Environment - jeden z najbardziej popularnych w Polsce.
DB/2 (IBM) lub DRDA (Distributed Relational DataBase Architecture), Rozproszona Relacyjna Architektura Baz Danych.
Informix Software Polska, w Polsce od 1994 roku
Ingres (Computer Associates, CA), w Polsce Rodan Systems Sp. z.o.o
Sybase PL
Adabas C, Siemens Nixdorf Polska
Gupta SQLBase (Centura Corporation)
Microsoft SQL Server for Windows NT/2000/XP
DBMS dla mniejszych firm
Małe systemy na komputery osobiste i stacje robocze:
Microsoft Access (Windows) - łatwy, SQL, język Access Basic
FoxPro (Microsoft) pod DOS, Windows, Mac, Unix, wersja polska.
Paradox (Borland) - Query by Example, pytania przez analogie.
dBase (Borland), od 1981 roku (dBase II pod CP/M), wersja polska ISIS wzorowany na dBase, darmowy.
HyperCard (MacIntosh) - prosta baza hipertekstowa
Bazy danych bez struktury
Lotus Agenda
Textract, http://www.textract.com/ - bazy tekstowe, np. archiwum gazety, dla setek gigabajtów, szybkie wyszukiwanie i indeksacja informacji.
Hiperkarta i hiperbazy
HyperCard na Macintosha
Hiperbazy w Internecie: bezpośrednie połączenia (linki) pomiędzy fragmentami tekstów.
GIS, Systemy Informacji Geograficznych
Bazy danych połączone z cyfrowymi mapami.
Proste możliwości - Lotus 123
GIS i kartografia, Smallworld GIS
Przykłady banków danych i elektronicznych archiwów
Fundacje: fundacja im. Stefana Batorego, fundacja Sorosa,
Polskie banki danych.
Brokerzy informacji - sprzedaż i wyszukiwanie informacji to intratny interes.
BMB Promotions - posiada bazę danych o wszystkich gminach w Polsce - wszystkie znaczące podmioty gospodarcze
CINP - Centrum Informacji Naukowej i Przemysłowej, reprezentant STN International w Polsce, bazy danych dotyczące współpracy między firmami polskimi i zagranicznymi, bazy handlowo-ekonomiczne, dostęp do światowych baz informacyjnych, bazy danych dla przemysłu chemicznego.
Dun & Bradstreet (D&B) Poland to polski oddział największej na świecie firmy (oddziały w 60 krajach, 2 miliony klientów rocznie) zajmującej się dostarczaniem informacji gospodarczych.
GUS - Główny Urząd Statystyczny, dane statystyczne, rejestr REGON
Krajowa Izba Gospodarcza, krajowe podmioty gospodarcze
LEX - krajowy system informacji prawnej
Ośrodek Przetwarzania Informacji (OPI) - informacja naukowa i naukowo-techniczna.
PESEL , Powszechny Elektroniczny System Ewidencji Ludności
Reuters Polska uruchomił w 1993 roku profesjonalny serwis informacji gospodarczych Polish Financial News Service.
TIP, czyli Towarzystwo Informacji Profesjonalnej, grupuje firmy specjalizujące się w udostępnianiu informacji.
Tendencje rozwojowe
Integracja OLE oraz DocObjects, bazy multimedialne i bazy wiedzy, zawierające informację o relacjach między obiektami.
Komputery masowo równoległe (MPP) do obsługi ogromnych, rozproszonych baz danych.
Technologia LIMD ( Large-scale In Memory Database), Digital i Oracle, wszystko w gigabajtach RAM.