Metody prob


Metody propabilystyczne

W zagadnieniach technicznych niemal zawsze mamy do czynienia z zagadnieniami stochastycznymi i tylko w wielu przypadkach - ze względu na małe rozrzuty - stosuje się podejście deterministyczne. W takich zagadnieniach jak wytrzymałość materiałów i urządzeń (wytrzymałość mechaniczna, elektryczna, cieplna itd.), narażenia (np. atmosferyczne, środowiskowe, przepięcia, przetężenia), analiza błędów pomiarowych, projektowanie, trwałość i niezawodność czy kontrola jakości produkcji, bez stosowania metod probabilistycznych obejść się nie może.

Statystyczne metody badań polegają na wyciąganiu wniosków o dużych zbiorach zmiennej losowej na podstawie badania podzbiorów tej zmiennej losowej. Zbiór, o którego właściwościach wnioskuje się na podstawie badania jego części, jest nazywany populacją generalną. Podzbiór zaś, stanowiący część populacji generalnej poddanej badaniu statystycznemu, na podstawie którego wnioskuje się o populacji generalnej nazywa się próbą lub próbką losową. Statystyczne metody badania, zwane też metodami reprezentacyjnymi, są stosowane wówczas gdy:

Próbka losowa pobierana w ten sposób, że wszystkie elementy populacji generalnej mają jednakowe szansę trafienia do próbki nosi nazwę próbki losowej prostej. W większości przypadków będziemy mieli do czynienia z taką próbką. Liczbę sztuk w danym zbiorze nazywamy licznością N tego zbioru, a liczbę sztuk w próbce losowej nazywamy licznością próbki n. Badanie próbki reprezentacyjnej dla danej populacji generalnej nazywamy badaniem statystycznym. Zakłada się przy tym, że:

Całokształt badania statystycznego ustalać należy w dokumencie nazywanym programem badań, który powinien zawierać:

Wynik badania próbki losowej jest losowy, zależy bowiem od przypadku, które sztuki z populacji generalnej wylosowano do próbki losowej. Zatem wynik badania może - wskutek swej losowości - różnić się od wyniku ewentualnego badania populacji generalnej. Rzutuje to na metody analizy wyników badań statystycznych i nakazuje ostrożność przy formułowaniu wniosków.

Dla uzyskania, wspomnianej już, próbki losowej prostej należy stosować tzw. losowanie ze zwracaniem. Losowanie takie polega na tym, że po zbadaniu wylosowanej sztuki zwracamy ją do zbioru i dopiero losujemy następną sztukę. W ten sposób przed wylosowaniem poszczególnych sztuk skład badanego zbioru jest taki sam. Warunek ten jest łatwy do spełnienia przy pomiarach takich zmiennych losowych jak np. napięcie (przebicia, przeskoku, przepięcie) czy prąd (wyładowania atmosferycznego, zwarcia, rażenia) bo każdy kolejny pomiar dotyczy pełnego zbioru zmiennej losowej. Gorzej jest w przypadku np. badań niszczących (np. trwałość żarówek, liczba zadziałań łącznika do uszkodzenia). Jednakże jeśli liczność próbki n jest znacznie mniejsza od liczności populacji generalnej N to przy losowaniu poszczególnych sztuk do próbki losowej zmiany składu zbioru N są małe. Dlatego przy n < 0.01 N można zrezygnować z kłopotliwego losowania ze zwracaniem i stosować losowanie bez zwracania uważając, że nadal uzyskuje się próbkę losową prostą.

Jeśli mamy do czynienia z badaniem wyrobów i możliwe jest ponumerowanie poszczególnych sztuk w badanym zbiorze wyrobów, to w celu lepszego zabezpieczenia losowości próbki wskazane jest korzystanie z tablic liczb losowych [5]. Postępowanie polega wówczas na tym, że poszczególnym sztukom w zbiorze przyporządkowuje się kolejne numery 0, 1, 2, ..... , N-1, a następnie z tablic liczb losowych odczytuje się, rozpoczynając od punktu wybranego na chybił-trafił, n kolejnych liczb losowych stanowiących numery tych sztuk (egzemplarzy), które mają być pobrane do próbki losowej. Cyfry losowe należy czytać wierszami od dowolnie wybranego miejsca tablicy. Można je odczytywać łącząc w liczby jednocyfrowe, dwucyfrowe, trzycyfrowe itd. Należy uwzględniać tylko te numery, które istnieją w rozpatrywanym zbiorze, pomijając numery większe od N-1. Sztukę wylosowaną więcej niż jeden raz bada się tylko jeden raz, a uzyskany wynik uwzględnia się tyle razy ile razy trafiła ta sztuka do próbki losowej. Szansę wielokrotnego trafienia tej samej sztuki do próbki są tym mniejsze im mniejszy jest iloraz n/N.

Należy zwrócić uwagę, że badanie próbki losowej prostej o liczności n jest n-krotnym powtórzeniem tego samego doświadczenia, polegającego na badaniu jednej sztuki wylosowanej z danego zbioru. Wynika z tego, że dowolną serię n jednakowych niezależnych doświadczeń można uważać za próbkę losową prostą, reprezentującą hipotetyczny zbiór takich doświadczeń o nieskończonej liczności i stosować te same metody analizy wyników badań co w przypadku próbki losowej prostej pobranej z określonego, istniejącego zbioru wyrobów. Umożliwia to wnioskowanie o produkcji wyrobów jeszcze w fazie ich opracowywania w laboratorium. Przykładowo wykonaną w laboratorium serię prototypową wyrobów przeznaczonych do produkcji masowej można rozważać jako próbkę losową prostą reprezentującą hipotetyczny zbiór tych wyrobów, wykonanych w taki sam sposób jak badana seria prototypowa. Umożliwia to analizę i odpowiednią korektę projektu w zakresie konstrukcji i technologii jeszcze przed uruchomieniem produkcji.

2. Odwzorowanie zbioru wyrobów na zbiorze liczb

Rozróżniamy dwa rodzaje cech wyrobów technicznych: mierzalną i niemierzalną. Cechą mierzalną nazywa się taką cechę, którą można zmierzyć odpowiednim przyrządem pomiarowym i każdemu badanemu obiektowi przyporządkować liczbę rzeczywistą, uzyskaną z przeprowadzonego pomiaru, nazywaną wartością tej cechy. Dla każdej cechy mierzalnej istnieje zbiór możliwych jej wartości. Zbiór ten może być przeliczalny, np. liczba poprawnych zadziałań przekaźnika i mówimy wówczas, że cecha X jest skokowa lub może to być określony przedział liczb rzeczywistych np. [0, ) i mówimy wówczas, że cecha X jest ciągła (np. napięcie przebicia).

Cechą niemierzalną albo opisową nazywa się taką cechę, której nie można zmierzyć np. zwarcie, zadziałanie czy niezadziałanie przekaźnika przy danym sygnale. Można tylko stwierdzić czy dane zjawisko zachodzi czy nie zachodzi i wynik uznać za pozytywny lub negatywny (sztuki dobre lub złe). Każdemu wynikowi “sztuka dobra” można przyporządkować umowną wartość liczbową x1 np. x1 = 1, a wynikowi “sztuka niedobra” x2 np. x2 = 0. Otrzymuje się wówczas dwuelementowy zbiór możliwych wyników { x1, x2}. Przy x1 = 1 i x2 = 0 mamy zbiór {1, 0} zwany zbiorem zero-jedynkowym.

Przy wykonywaniu i analizie badań statystycznych konieczne jest zachowanie przejrzystości i porządku przy opisie badań i wyników. Zaleca się tu następujący schemat opisu:

1) Jednoznaczne scharakteryzowanie badanego obiektu czy zjawiska.

2) Podanie badanej cechy czy cech z określeniem jednostek i dziedziny.

3) Opis sposobu badania.

Sposób badania ma często istotny wpływ na uzyskiwane wyniki. Stąd sposób badania musi być sprecyzowany przed przystąpieniem do badań i z uwzględnieniem założonego celu badań. Przykładowo wynik badania wytrzymałości zależy od sposobu zmian narażeń a także od warunków badań.

4) Określenie liczności badanej próbki losowej. Wybór liczności próbki losowej zależy od celu badań. Przykładowo dla określenia parametrów znanego rozkładu statystycznego potrzebna jest znacznie mniejsza liczność próbki niż dla określenia typu nieznanego rozkładu.

5) Zestawienie zaobserwowanych wartości zmiennej losowej (przykład 1.1. - wiersz (5)).

6) Utworzenie szeregu uporządkowanego badanej zmiennej losowej (przykład 1.1. - wiersz (6)).

Szereg uporządkowany jest to zbiór wartości zmiennej losowej posiadający określoną kolejność w czasie lub przestrzeni. Najczęściej jest to szereg polegający na uporządkowaniu zmiennej losowej od wartości najmniejszej do największej.

7) Utworzenie szeregu rozdzielczego, w którym szereg uporządkowany redukuje się do tych wartości, które nie powtarzają się, przypisując każdej z nich liczbę obserwacji (przykład 1.1. - wiersz (7)).

8) Utworzenie szeregu kumulacyjnego, w którym każdej wartości szeregu uporządkowanego przyporządkowuje się sumy częstości odpowiadające wszystkim wartościom zmiennej losowej nie większym od danej wartości (przykład 1.1. - wiersz (8)).

9) Oszacowanie prawdopodobieństwa z próby (przykład 1.1. - wiersz (9)).

Oszacowanie prawdopodobieństwa z próby powinno spełniać następujące postulaty:

W literaturze spotyka się następujące propozycje dla oszacowania prawdopodobieństwa z próby:

  1. 0x01 graphic

  2. 0x01 graphic
    - średnia częstość realizacji zmiennej losowej;

c) 0x01 graphic
- minimalizuje błąd kwadratowy dla parametru kształtu rozkładu Weibulla;

d) 0x01 graphic
- mediana wartości rangowych

Wszystkie z pięciu wymienionych na wstępie warunków spełnia jedynie wzór (b). Wzór (a) daje wyniki na skraju przedziału z warunku drugiego i dla ostatniej realizacji z szeregu kumulacyjnego daje wartość 1 (100 %) czyli nieużyteczną w analizie statystycznej dla każdego rozkładu o dziedzinie nieograniczonej od góry - a taką cechę ma większość rozkładów. Zależności (c) i (d) są czasami zalecane w przypadku analiz dokonywanych za pomocą rozkładu Weibulla i dla tego rozkładu zostały sprawdzone. Nie spełniają więc postulatu trzeciego, który zakłada niezależność oszacowania prawdopodobieństwa od postaci rozkładu. Wzór (b) daje ponadto wyższe wartości prawdopodobieństw dla małych wartości zmiennej losowej (rys. 1.1). W zastosowaniach technicznych, szczególnie związanych z zagadnieniami wytrzymałościowymi jest to zaleta. Uzyskuje się bowiem bardziej ostrożne oszacowania dolnego progu wytrzymałości. Z powyższych rozważań wynika, że zalecane oszacowanie prawdopodobieństwa z próby ma postać daną wzorem (b).

Przykład1

1) Żarówki zwykłego szeregu o parametrach 220 V, 75 W

2) Trwałość żarówek w godzinach pracy do uszkodzenia.

3) Równoległe badanie wszystkich elementów próbki losowej aż do zniszczenia ostatniej żarówki.

4) n = 10

5) 2000, 1900, 2100, 1950, 1800, 2200, 2500, 2000, 1900, 2000 [h]

6) xi = 1800, 1900, 1900, 1950, 2000, 2000, 2000, 2100, 2200, 2500 [h]

7) xi = 1800, 1900, 1950, 2000, 2100, 2200, 2500 [h]

ni = 1 2 1 3 1 1 1

8) xi = 1800, 1900, 1950, 2000, 2100, 2200, 2500 [h]

pi(a) = 0.1 0.3 0.4 0.7 0.8 0.9 1.0

pi(b) = 0.091,0.273,0.364,0.636,0.727,0.818,0.909

pi(c) = 0.05, 0.25, 0.35, 0.65, 0.75, 0.85, 0.95

pi(d) = 0.067,0.26, 0.356, 0.644, 0.74, 0.837,0.933

1.4. Dwie metody analizy statystycznej

W konsekwencji postępowania podanego w punkcie poprzednim uzyskuje się pary liczb (xi, pi) stanowiące punkty rozkładu empirycznego (doświadczalnego) danej cechy X w próbce losowej o liczności n. Rozkład empiryczny należy w dalszej kolejności aproksymować jednym z rozkładów teoretycznych. Takie postępowanie nosi nazwę metody dystrybuanty empirycznej i jak wynika z podanej wyżej procedury, nie wymaga żadnych dodatkowych założeń co do grupowania danych eksperymentalnych.

0x08 graphic
Inna metoda analiz statystycznych, opierająca się na szeregu rozdzielczym (wiersz 7 z przykładu 1.1), nosi nazwę metody histogramu. Metoda ta daje dość atrakcyjne graficznie wyniki jednakże wymaga dodatkowych założeń co do podziału zakresu zmiennej losowej na klasy i co do liczności realizacji zmiennej losowej w poszczególnych klasach. Zarówno przy wyborze granic klas jak i przy wyborze liczności w klasach występuje dość duża niejednoznaczność kryteriów mogąca dawać spore różnice wyników. Stąd w tej pracy zaleca się stosowanie metody dystrybuanty empirycznej jako bardziej jednoznacznej i bardziej pewnej z inżynierskiego punktu widzenia.

Rys. 1.1 Dystrybuanty empiryczne do przykładu 1.1: x - wzór (a),  - wzór (c), - wzór (d), + - wzór (b).

Tym niemniej podstawowe zasady metody histogramu są następujące:

Tak definiuje się klasy dla histogramu klasycznego. Możliwe jest również zastosowanie histogramu o założonej liczbie realizacji w klasach. Wówczas ustala się liczbę klas jako równą i oblicza się liczbę realizacji w klasie a następnie uzyskany wynik trzeba zaokrąglić. Mając ustaloną liczbę m i liczbę k określa się granice klas.

Jak widać przy metodzie histogramu istnieje trudność jednoznacznego sprecyzowania jego parametrów.

CZĘŚĆ II
Elementy Niezawodności i Statystycznej Kontroli Jakości
HISTORIA

Jakość jako kategoria filozoficzna

Niezawodność i ryzyko to również pojęcia ze starożytności, wynikające z praktyk ubezpieczania statków morskich w starożytnym Rzymie.

Niezawodność

Prawdopodobnie pierwszym, który posługiwał się rachunkiem prawdopodobieństwa przy ocenie ryzyka był Jan de Witt (Holender 16251672), który posługiwał się funkcją ryzyka. Pierwszym, który stosował intuicyjne współczynniki bezpieczeństwa był Charles Augustin de Coulomb (Francuz, znany z elektrotechniki, a jednocześnie inżynier wojskowy). Odrębną gałęzią wiedzy niezawodność stała się w końcu lat 50-tych. Na początku lat 70-tych jest to już nauka (system twierdzeń naukowych). Obecnie niezawodność rozumiana jest jako niezawodność techniczna, której jedną z podstawowych dyscyplin jest matematyczna teoria niezawodności. Niezawodność techniczną możemy podzielić na dwie kategorie:

Współczesne definicje jakości i niezawodności brzmią:

Wielkością charakteryzującą zdolność do spełnienia wymagań może być prawdopodobieństwo spełnienia przez obiekt stawianych mu wymagań. Czyli niezawodność to prawdopodobieństwo sukcesu. Niezawodność obiektu to prawdopodobieństwo, że wartości parametrów określających istotne właściwości obiektu nie przekroczą w ciągu okresu czasu (0, t) dopuszczalnych granic, w określonych warunkach życia obiektu.

Zależność określającą jaka część obiektów, które przetrwały sprawne w przedziale (0, t) stanie się prawdopodobnie niesprawna w przedziale (t, t + dt) nazywa się funkcją ryzyka albo funkcją intensywności uszkodzeń. Kształt funkcji ryzyka jest istotny pzry ocenie właściwości niezawodnościowych obiektu. Dla t = 0 wartość początkowa R(0) jest jednocześnie niezawodnością projektową. Przykład funkcji ryzyka pokazuje rys. 10.1. Początkowa opadająca część funkcji dotyczy okresu początkowego gdy intensywność uszkodzeń maleje. Powszechnie nazywa się ten fragment funkcji ryzyka śmiertelnością niemowląt. W oparciu o tę część krzywej określa się okresy gwarancyjne. Druga, zwykle niemal płaska część funkcji to okres normalnego użytkowania/pracy obiektu. I wreszcie część trzecia to okres starczy, gdy następuje intensyfikacja zużycia części lub całości obiektu.

0x08 graphic

Rys. 10.1. Przykładowy kształt funkcji ryzyka

0x08 graphic

PRAWDOPODOBIEŃSTWO SUKCESU, A STRUKTURA OBIEKTU

Struktura obiektu, który jest sprawny gdy co najmniej k dowolnych spośród n jego elementów jest sprawnych, nazywa się strukturą typu k z n co zapisuje się krótko jako k/n i nazywa się strukturą progową.

Jeśli: k < n to jest to struktura z redundancją (nadmiarowością);

0x01 graphic

gdzie 0x01 graphic
- suma wszystkich iloczynów stanowiących kombinacje z R1, ..., Rn po i jak w przykładzie, dla n=4:

0x01 graphic

k = n to jest to struktura szeregowa;

0x01 graphic

gdzie: Rei - niezawodność elementu składowego

k = 1 to jest to struktura równoległa.

0x01 graphic

gdzie: Rei - niezawodność elementu składowego

Układy elektryczne są zwykle strukturami typu szeregowego co oznacza, że uszkodzenie jednego elementu składowego jest jednocześnie uszkodzeniem całego obiektu.

Gdy obiekt składa się z n elementów i każdy ma taką samą niezawodność Re i gdy obiekt jest sprawny wtedy i tylko wtedy gdy sprawne są wszystkie jego elementy, od których zależy sprawność obiektu (struktura szeregowa) to niezawodność obiektu wynosi:0x01 graphic

Jest to struktura niezawodnościowa szeregowa n/n, gdzie defekt jednego elementu stanowi o defekcie obiektu. Mówi się wówczas o teorii łańcuch lub teorii słabego ogniwa. Z teorii tej wynikają następujące wnioski praktyczne:

Niezawodność może zaskakująco szybko maleć gdy liczba elementów obiektu rośnie, np. dla Re = 0.99 (obrazuje to również rys. 10.2):

0x01 graphic

Rys. 10.2. Zależność niezawodności obiektu od liczby elementów składowych. Przykład dla Re = 0.99

0x08 graphic

Aby zachować niezmienną niezawodność trzeba ze wzrostem liczby elementów zwiększać niezawodność składników. Przy stałej niezawodności obiektu Rn/n = 0.8, o strukturze szeregowej niezawodność elementów, ze wzrostem ich liczby, musi rosnąć:

n 1 10 100 1000 10000 100000 200000

Rn/n 0.8 0.978 0.9978 0.99978 0.999978 0.999998 0.999999

Z prawa iloczynu wynika, że istnieją sytuacje, w których o defekcie (niepowodzeniu) decydują nie najmniej pewne (najbardziej zawodne) elementy lecz najbardziej pewne (najbardziej niezawodne) jeśli jest ich dużo! Przykładowo w obiekcie składającym się ze 100 elementów, każdy o niezawodności Re = 0.99 i z jednego elementu o niezawodności Re101 = 0.9 wypadkowa niezawodność wynosi:

0x01 graphic

Jeśli teraz ten najgorszy element poprawić z Re101 = 0.9 na

Re101 = 1.0 to nadal wypadkowa niezawodność wynosi:0x01 graphic

czyli element najgorszy decydował tylko o 4% niezawodności.

Jeśli chcemy zwiększyć prawdopodobieństwo sukcesu (niezawodność) to musimy zwracać uwagę przede wszystkim na elementy najliczniejsze. Wystarczy w poprzednim przykładzie zwiększyć niezawodność 100 elementów o 0.5% czyli z 0.99 do 0.995 by niezawodność obiektu wzrosła około dwa razy:

0x01 graphic

PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ

Z rozkładem zmiennej losowej są związane pewne wielkości liczbowe zwane parametrami tego rozkładu. Niektóre z tych parametrów występują bezpośrednio w dystrybuancie danej zmiennej losowej inne natomiast nie występując w dystrybuancie są jednak z nią ściśle związane i charakteryzują rozkład danej zmiennej losowej.

Wartość oczekiwana

Podstawowym parametrem rozkładu zmiennej losowej X jest wartość oczekiwana E(X) nazywana także wartością przeciętną. Wartość oczekiwana określa centrum skupienia wartości danej zmiennej losowej.

Wartość oczekiwaną zmiennej losowej skokowej X o funkcji prawdopodobieństwa p(xi) wyznacza się ze wzoru: 0x01 graphic
,gdzie Σ oznacza sumowanie po wszystkich możliwych realizacjach danej zmiennej losowej skokowej.

Wartość oczekiwana zmiennej losowej ciągłej X o gęstości f(x) może byc wyznaczona z zależności: 0x01 graphic

Wartość oczekiwana E(X) jest wyznaczalna tylko wtedy gdy suma lub całka spełniają warunek absolutnej zbieżności, czyli gdy 0x01 graphic

są wartościami skończonymi. Jeżeli warunek ten nie jest spełniony to mówimy, że dana zmienna losowa X nie ma wartości oczekiwanej.

Wartość oczekiwaną jednoznacznej funkcji ϕ(x) zmiennej losowej X wyznacza się dla zmiennej skokowej z: 0x01 graphic

i dla zmiennej ciągłej z: 0x01 graphic

gdzie f(x) jest gęstością zmiennej losowej ciągłej X.

Właściwości wartości oczekiwanej są następujące:

Czyli, że jeśli a0, a1, ..., an są wartościami stałymi to zachodzi równość:

0x01 graphic
i stąd 0x01 graphic

a jeżeli zmienne losowe X1, X2, ... , Xn są wzajemnie niezależne, to: 0x01 graphic

Momenty zmiennej losowej

Wartość oczekiwaną funkcji Xk, gdzie k jest liczbą naturalną, nazywa się k-tym momentem zwykłym lub wprost k-tym momentem zmiennej losowej X i oznacza przez mk. Wartość oczekiwaną funkcji (X - m1)k = [X - E(X)]k nazywa się k-tym momentem centralnym zmiennej losowej X i oznacza przez k.

Dla zmiennej losowej skokowej X o funkcji prawdopodobieństwa p(xi) mamy:

0x01 graphic

0x01 graphic

Dla zmiennej losowej ciągłej X o gęstości f(x) mamy:

0x01 graphic

0x01 graphic

Dla każdej zmiennej losowej zachodzi m0 = 1 oraz 1 = 0, a momenty centralne rzędu k>1 są związane z momentami zwykłymi zależnością:

0x01 graphic

Gdzie 0x01 graphic
jest liczbą kombinacji z k elementów po j. Przy tym zachodzą dodatkowe związki:

0x01 graphic

Wartości dla n 20 oraz k 10 podaje tablica 3.1.

Wariancja

Drugi moment centralny 0x01 graphic

nazywa się wariancją zmiennej losowej X i oznacza przez V(X). Wariancja V(X) jest zawsze liczbą nieujemną. Wariancja V(X) = 0 wtedy i tylko wtedy, gdy zmienna losowa X ma tylko jedną możliwą realizację co oznacza, że mamy do czynienia z wartością stałą. Dodatni pierwiastek z wariancji 0x01 graphic

nazywa się odchyleniem średnim zmiennej losowej X i stanowi miarę rozrzutu wartości tej zmiennej wokół jej wartości oczekiwanej.

Ogólnie właściwości wariancji można zestawić w następujących punktach:

Można to zobrazować następującymi zależnościami:

0x01 graphic

Dla każdej stałej c zachodzi równość:

0x01 graphic

Zatem wartość E[(X - c)2] osiąga minimum gdy c = E(X) i jest wówczas równa wariancji V(X) danej zmiennej losowej X.

Z wartością oczekiwaną E(X) i odchyleniem średnim σx wiąże się nierówność Czebyszewa: 0x01 graphic

Przykładowo dla c = 3 uzyskuje się dla dowolnego rozkładu: 0x01 graphic

Dla wielu szeroko stosowanych rozkładów (np. rozkład normalny) prawdopodobieństwo tego, że wartość zmiennej losowej będzie się różniła od wartości oczekiwanej więcej niż o 3 odchylenia średnie jest znacznie mniejsza od 1/9. Dla tych rozkładów nierówność powyższa nosi nazwę reguły trzech sigma lub prawa trzech sigm.

Współczynnik zmienności

Odchylenie średnie σx i wartość oczekiwana E(X) są wyrażone w tych samych jednostkach co wartość zmiennej losowej. Jeżeli zmienna losowa X przyjmuje tylko wartości dodatnie, to rozrzut jej wartości można określić współczynnikiem zmienności określonym zależnością: 0x01 graphic

Współczynnik ten jest niezależny od jednostek w jakich są wyrażane wartości zmiennej losowej dając w ten sposób obiektywny pogląd o wielkości rozrzutu tej zmiennej. Współczynnik zmienności najczęściej wyraża się w procentach: 0x01 graphic

Mediana

Kwantyl rzędu = 0.5 jest nazywany medianą danej zmiennej losowej. Medianę oznacza się jako x0.5 lub * nad symbolem zmiennej. Mediana jest drugim - obok wartości oczekiwanej - parametrem określającym centrum skupienia wartości zmiennej losowej.

Kwantyle

Kwantylem rzędu zmiennej losowej X nazywa się wartość x, dla której są spełnione warunki:

0x01 graphic

dla określonego z przedziału (0, 1). Dla zmiennej losowej X ciągłej prowadzi to do równości:

Kwantyle zmiennej losowej X i standaryzowanej zmiennej losowej Y są związane zależnością:

Mediana

Kwantyl rzędu = 0.5 jest nazywany medianą danej zmiennej losowej. Medianę oznacza się jako x0.5 lub * nad symbolem zmiennej. Mediana jest drugim - obok wartości oczekiwanej - parametrem określającym centrum skupienia wartości zmiennej losowej.

Moda

Trzecim parametrem charakteryzującym centrum skupienia wartości zmiennej losowej X jest moda lub inaczej wartość modalna oznaczana jako Mo(X) lub za pomocą znaczka ~ nad symbolem zmiennej. Wartością modalną zmiennej losowej ciągłej X jest taka jej wartość x, dla której gęstość f(x) osiąga maksimum, czyli:

Wartością modalną zmiennej losowej skokowej X jest taka jej wartość xi, dla której prawdopodobieństwo P(X=xi) jest większe niż prawdopodobieństwo P(X=xi-1) oraz P(X=xi+1), czyli:

0x01 graphic

Zmienna losowa może mieć jedną lub więcej wartości modalnych albo może nie mieć jej wcale. Rozkład o jednej wartości modalnej nazywa się jednomodalnym. Istnieją również rozkłady wielomodalne lub bezmodalne.

Rozkład symetryczny i niesymetryczny

Jeżeli istnieje taka wartość m, że dla dowolnej pary realizacji zmiennej losowej X jednakowo odległych od wartości m funkcja gęstości f(x) dla zmiennej losowej ciągłej lub funkcja prawdopodobieństwa p(xi) dla zmiennej losowej skokowej, ma tą samą wartość, to mówimy, że rozkład zmiennej losowej X jest symetryczny względem wartości m nazywanej środkiem symetrii danego rozkładu. Właściwości rozkładów symetrycznych są następujące:

0x01 graphic

- jeżeli rozkład jest ciągły to dla każdego z przedziału (0, 1) średnia arytmetyczna z kwantyli x oraz x-1 jest równa wartości oczekiwanej, czyli:

- wszystkie momenty centralne rzędu nieparzystego są równe 0, czyli:

Współczynnik asymetrii

Korzystając z wzoru na standaryzowaną zmienną losową Y i z właściwości tej zmiennej, jako miarę asymetrii lub skośności rozkładu zmiennej losowej X stosuje się współczynnik asymetrii γ określony wzorem:

gdzie 3 jest trzecim momentem centralnym, a σx odchyleniem średnim danej zmiennej losowej X. Warto dodać, że współczynnik asymetrii (skośności) jest trzecim momentem (zwykłym i jednocześnie centralnym) zmiennej standaryzowanej Y. Jeżeli rozkład jest symetryczny to γ = 0. Gdy γ 0 to rozkład jest asymetryczny. Gdy γ < 0 to mówi się o asymetrii ujemnej, a gdy γ > 0 to mówi się o asymetrii dodatniej. Ilustruje to rys. 3.1.

0x01 graphic

0x01 graphic

0x01 graphic

Rys. 3.1. Trzy typy rozkładów:

  1. o asymetrii ujemnej γ < 0

Mo(X) < x0.5 < E(X)

(b) symetryczny γ = 0

Mo(X) = x0.5 = E(X)

(c) o asymetrii dodatniej γ > 0

Mo(X) > x0.5 > E(X)

Wektor losowy

Układ dwóch zmiennych losowych X i Y nazywa się wektorem losowym (X, Y). Wektor losowy ma następujące rodzaje momentów:

Kowariancja

Zdefiniowany wyżej moment 11 nazywa się kowariancją zmiennych losowych X i Y. Kowariancja cov(X,Y) oznaczana również jako σXY mówi o stopniu liniowej zależności między zmiennymi losowymi X i Y. Właściwości kowariancji są następujące:

Współczynnik korelacji

W praktyce jako miara zależności liniowej między zmiennymi losowymi X i Y jest stosowany współczynnik korelacji

będący kowariancją standaryzowanych zmiennych losowych

0x01 graphic

Współczynnik korelacji ma następujące właściwości:

lub ogólniej

Jeżeli zmienne losowe X1, X2, ... , Xn są nieskorelowane to dla każdej pary i j jest cov(Xi, Xj) = 0 i wzór upraszcza się do postaci:

co oznacza, że wariancja sumy nieskorelowanych zmiennych losowych X1, X2, ..., Xn jest równa sumie wariancji tych zmiennych.

NIEKTÓRE ROZKŁADY ZMIENNYCH LOSOWYCH

NIEKTÓRE ROZKŁADY ZMIENNEJ LOSOWEJ SKOKOWEJ

Rozkład dwumianowy (Bernoulliego)

Rozważmy wynik badania jednej sztuki wylosowanej ze zbioru wyrobów, gdy jest stosowana klasyfikacja alternatywna na sztuki dobre i niedobre. Frakcję sztuk niedobrych w zbiorze wyrobów, nazywana wadliwością tego zbioru, oznacza się przez w. Prawdopodobieństwo wylosowania sztuki niedobrej jest równe w, a prawdopodobieństwo wylosowania sztuki dobrej jest równe 1-w. Jeżeli jest spełniona podwójna nierówność 0<w< 1 i sztukom niedobrym przyporządkować wartość x1, a sztukom dobrym wartość x2x1 to wynik badania wylosowanej sztuki jest dwupunktową zmienną losową X, przyjmującą wartości x1 i x2 z prawdopodobieństwami:

W praktyce przyjmuje się x1 = 1 oraz x2 = 0 i wówczas wynik badania wylosowanej sztuki jest zero-jedynkową zmienna losową X o rozkładzie określonym prawdopodobieństwami:

Wartość oczekiwana i wariancja zmiennej losowej X o rozkładzie zero-jedynkowym wynoszą odpowiednio:

Zakładając, że z partii wyrobów o wadliwości w pobrano próbkę losową prostą o liczności n sztuk, w wyniku badań poszczególnych sztuk uzyskuje się wzajemnie niezależne zmienne losowe X1, X2, .... , Xn o jednakowym rozkładzie zero-jedynkowym każda. Liczba sztuk niedobrych w próbce jest zmienną losową (statystyką) Z określoną wzorem:

a częstość zdarzenia sztuka niedobra, czyli frakcja sztuk niedobrych w próbce jest zmienną losową (statystyką) H określoną wzorem:

przy czym Xi jest wynikiem badania i-tej sztuki w próbce (0 lub 1). Statystyka Z może przyjmować wartości ze zbioru liczb {0, 1, 2, ... , n} natomiast statystyka H=Z/n może przyjmować wartości ze zbioru liczb 0x01 graphic
przy czym prawdopodobieństwa zdarzeń Z=k oraz H=k/n są jednakowe i określone wzorem:

gdzie

jest liczbą różnych kombinacji k sztuk niedobrych w próbce o liczności n (tablica 3.1). Rozkład powyższy nosi nazwę rozkładu Bernouliego lub dwumianowego.

Prawdopodobieństwo, że w próbce o liczności n będzie co najwyżej z sztuk niedobrych lub, że częstość zdarzenia sztuka niedobra będzie co najwyżej h=z/n jest określone wzorem:

0x01 graphic

Do obliczeń wygodnie jest korzystać ze wzoru rekurencyjnego:

Przykład rozkładu P(Z=k) podano na rys. 4.1 a rozkładu P(Zk) na rys. 4.2.

0x01 graphic

0x01 graphic

Rys. 4.1. Przykład funkcji prawdopodobień-stwa rozkładu dwumianowego: n = 30, w = 0.05

Rys. 4.2. Przykład prawdopodobieństwa P(Z≤k) rozkładu dwumianowego: n = 30, w = 0.05

Wartości oczekiwane i wariancje statystyk Z i H mają postać:

a współczynnik asymetrii (skośności) rozkładu dwumianowego ma wartość:

Statystyka H = Z/n będąca frakcją sztuk niedobrych w próbce losowej o liczności n jest stochastycznie zbieżna do wadliwości w reprezentowanego przez tę próbkę zbioru wyrobów. Ogólnie ujmuje to prawo wielkich liczb Bernoulliego, które mówi, że częstość zdarzenia losowego w n jednakowych niezależnych doświadczeniach jest stochastycznie zbieżna do prawdopodobieństwa tego zdarzenia. Frakcja sztuk niedobrych w zbiorze, czyli wadliwość tego zbioru w, jest prawdopodobieństwem zdarzenia polegającego na wylosowaniu sztuki niedobrej, a frakcja sztuk niedobrych w próbce losowej prostej o liczności n, czyli statystyka H=Z/n, jest częstością tego zdarzenia w n niezależnych jednakowych doświadczeniach, polegających na badaniu sztuk wylosowanych z danego zbioru wyrobów.

Współczynnik asymetrii γ rozkładu dwumianowego jest dodatni przy w < 0.5 i ujemny przy w > 0.5. Przy w = 0.5 wynosi γ = 0. Moduł γ jest funkcją malejącą wartości n i rosnącą wartości 0.5 - w. Przy dostatecznie dużym n można aproksymować rozkład dwumianowy rozkładem normalnym (Gaussa). Jest to dopuszczalne dla tym mniejszego n im mniejsza jest wartość 0.5 - w.

Suma k niezależnych statystyk Z1, Z2, .... , Zk o rozkładach dwumianowych z parametrami n1, n2, .... , nk i tym samym parametrem w ma rozkład dwumianowy o parametrach n = n1 + n2 + .... + nk oraz w. Mówi się, że rozkład dwumianowy jest addytywny. Z addytywności rozkładu dwumianowego korzysta się przy analizie wyników badań dwu lub więcej niezależnych próbek losowych z tego samego zbioru wyrobów, rozważając próbkę losową łączną o liczności równej sumie liczności poszczególnych próbek i liczbie sztuk niedobrych równej sumie liczb sztuk niedobrych w poszczególnych próbkach.

Rozkład Poissona

Przy dużej wartości n i małej wadliwości w, praktycznie przy n > 20 oraz w < 0.2 rozkład dwumianowy można aproksymować rozkładem Poissona o funkcji prawdopodobieństwa:

Aproksymacja taka ułatwia obliczenia, można bowiem korzystać z łatwo dostępnych tablic rozkładu Poissona (tab. 4.1). Korzystając z tablic wyznacza się prawdopodobieństwo

Przykład 4.1

Z dużej partii wyrobów o wadliwości w=5% pobrano próbkę losową o liczności n=40 sztuk. Jakie jest prawdopodobieństwo, że w próbce tej będą co najwyżej 3 sztuki niedobre? Jakie jest prawdopodobieństwo, że w próbce będą dokładnie 3 sztuki niedobre?

Odpowiedź na pierwsze pytanie uzyskuje się bezpośrednio z tablicy 4.1

Λ = n w = 40 0.05 = 2

Dla Λ = 2 i k = 3 z tablicy 4.1 odczytuje się:

P(Z ≤ 3; Λ = 2) = 0.857

Prawdopodobieństwo, że w próbce będą co najwyżej 3 sztuki niedobre wynosi 0.857 (85.7%). Odpowiedź na drugie pytanie uzyskamy jeśli od powyższego wyniku odejmiemy prawdopodobieństwo tego, że w próbce będą co najwyżej 2 sztuki niedobre:

P(Z ≤ 2; Λ = 2) = 0.677

stąd

P(Z = 3; Λ = 2) = 0.857 - 0.677 = 0.18

Prawdopodobieństwo zdarzenia, że w próbce będą dokładnie 3 sztuki niedobre wynosi 0.18 (18 %).

Aproksymacja rozkładu dwumianowego nie jest jedynym zastosowaniem rozkładu Poissona. Jeżeli przykładowo, czas pracy urządzenia wynosi t, a prawdopodobieństwo chwilowej, samo usuwalnej niesprawności w jednostce czasu wynosi to liczba niesprawności w przedziale czasu (0, t ma rozkład Poissona o parametrach Λ = t. Przykład rozkładu Poissona podają rysunki 4.3 i 4.4.

0x01 graphic

0x01 graphic

Rys. 4.3. Funkcja prawdopodobieństwa P(Z=k) rozkładu Poissona dla Λ=2

Rys. 4.4. Dystrybuanta rozkładu Poissona P(Z≤k) dla Λ=2

Podstawowe właściwości rozkładu Poissona są następujące:

- Wartość oczekiwana i wariancja są sobie równe i równe parametrowi Λ, czyli

E(Z) = V(Z) = Λ

- Współczynnik asymetrii jest zawsze dodatni i maleje przy wzroście parametru Λ, dążąc do 0 przy Λ dążącym do nieskończoności.

Rozkład geometryczny

W praktyce często zamiast badać próbkę losową o ustalonej liczności bada się kolejno wylosowane sztuki, aż trafi się na sztukę niedobrą lub na określoną liczbę sztuk niedobrych. Jest wówczas ustalona liczba sztuk niedobrych w próbce k natomiast liczność próbki jest zmienną losową oznaczoną przez N.

Załóżmy, że wadliwość badanej partii wyrobów jest równa w i badania prowadzi się do stwierdzenia jednej sztuki niedobrej, zapewniając jednakowe prawdopodobieństwo wylosowania dla wszystkich sztuk w danej partii wyrobów. Liczność próbki N jest wówczas zmienną losową przyjmującą wartości naturalne n = 1, 2, .... z prawdopodobieństwami:

0x01 graphic

gdyż prawdopodobieństwo wylosowania sztuki niedobrej jest równe wadliwości partii w, a prawdopodobieństwo wylosowania n-1 sztuk dobrych jest (1-w)n-1. Rozkład określony powyższym wzorem nazywa się rozkładem geometrycznym o wartości oczekiwanej i wariancji zmiennej losowej N określonych wzorami:

Przykład funkcji prawdopodobieństwa i dystrybuanty pokazano odpowiednio na rys. 4.5 i 4.6.

0x01 graphic

0x01 graphic

Rys. 4.5. Funkcja prawdopodobieństwa roz-kładu geometrycznego dla w=0.05

Rys. 4.6 Dystrybuanta rozkładu geometrycz-nego dla w=0.05

Rozkład Pascala

Jeżeli badania prowadzi się do stwierdzenia k sztuk niedobrych to liczność próbki jest zmienną losową N o rozkładzie Pascala:

gdzie jest liczbą kombinacji k-1 sztuk niedobrych wśród n-1 sztuk zbadanych przed stwierdzeniem k-tej sztuki niedobrej. Wartość oczekiwana i wariancja zmiennej losowej N o rozkładzie Pascala wynoszą odpowiednio:

Rozkład geometryczny jest szczególnym przypadkiem rozkładu Pascala przy k=1. Rozkład Pascala o parametrach k i w jest sumą k niezależnych zmiennych losowych o jednakowym rozkładzie geometrycznym z parametrem w.

Przykład 4.2.

Ze zbioru wyrobów o bardzo dużej liczności i wadliwości w=10% losowano po jednej sztuce i poddawano badaniom. Jakie jest prawdopodobieństwo, że dla trafienia na sztukę niedobrą trzeba zbadać 5 sztuk? Jakie jest prawdopodobieństwo, że dla trafienia na 2 sztuki niedobre trzeba przebadać 5 sztuk?

Na pierwsze pytanie odpowiedź daje rozkład geometryczny:

P(X=5;w=0.1) = 0.1(1 - 0.1)5-1 = 0.0656

Na drugie pytanie odpowiedź daje rozkład Pascala:

P(X=5;k=2,w=0.1) = 0.12(1-0.1)5-2 = 0.0292

Rozkład Pascala zmiennej losowej N i rozkład dwumianowy zmiennej losowej Z są związane zależnością:

skąd

gdzie N-1 jest liczbą zbadanych sztuk poprzedzających k-tą sztukę niedobrą.

Ze związku między rozkładem dwumianowym, a rozkładem Poissona wynika przybliżony związek między rozkładami Pascala i Poissona:

słuszny dla w<0.2 oraz n>k. Przy małych wartościach w rozkład Pascala można aproksymować rozkładem Erlanga, a rozkład geometryczny rozkładem wykładniczym.

NIEKTÓRE ROZKŁADY ZMIENNEJ LOSOWEJ CIĄGŁEJ

- Słownik [3] zawiera około 30 stron dotyczących rozkładów statystycznych w tym około 20 pozycji związanych z rozkładami typu normalnego. Zatem tutaj odniesiemy się skrótowo do wybranych - pod kątem potrzeb inżynierskich - podstawowych rozkładów, które najogólniej można podzielić na trzy grupy:

- rozkłady typu addytywnego wynikające z centralnego twierdzenia granicznego, które w ogólnej postaci brzmi: “Przy bardzo ogólnych założeniach, w miarę jak liczba zmiennych losowych będących składnikami sumy staje się wielka, rozkład sumy tych zmiennych przybliża się do rozkładu normalnego.” Głównym przedstawicielem rozkładów tego typu jest rozkład normalny (Gaussa), który omówimy tu w jego klasycznej postaci.

- rozkłady typu multiplikatywnego. Jeśli w centralnym twierdzeniu granicznym mówić o iloczynie zmiennych losowych a nie o ich sumie to mamy do czynienia z rozkładami tego typu. Przedstawicielem jest rozkład logarytmo-normalny.

rozkłady wartości ekstremalnych to rozkłady, które zajmują się ekstremalnymi wartościami zmiennej losowej. W tym wykładzie omówione będą dwa przykłady rozkładów asymptotycznych (których jest ogółem sześć): rozkłady Weibulla i Gumbela (dwuwykładniczy).

Rozkład normalny (Gaussa)

Rozkład normalny jest najstarszym, najlepiej zbadanym i bardzo istotnym dla praktyki rozkładem prawdopodobieństwa zmiennej losowej ciągłej X. Wiąże się on z centralnym twierdzeniem granicznym o czym wspomniano wyżej. Istota i ważność tego twierdzenia polega na tym, że daje ono teoretyczne wyjaśnienie bardzo często obserwowanego eksperymentalnie faktu, iż jeśli bada się zmienną losową uzależnioną od dużej liczby czynników losowych, z których żaden nie ma dominującego wpływu to wynik dobrze daje się opisać rozkładem normalnym. Dystrybuanta rozkładu normalnego ma postać:

0x01 graphic

a funkcja gęstości ma postać:

gdzie i σ to parametry rozkładu: - środek rozrzutu, który dla rozkładu normalnego pokrywa się z wartością oczekiwaną, medianą i modą; σ - odchylenie standardowe - miara rozrzutu zmiennej losowej. Przykłady funkcji gęstości i dystrybuanty rozkładu normalnego pokazano odpowiednio na rys.4.7 i 4.8.

0x01 graphic

0x01 graphic

Rys. 4.7. Gęstość rozkładu Gaussa dla dwóch wartości mediany =30 i 40 oraz dwóch wartościach σ = 5 i 3.

Rys. 4.8. Dystrybuanta rozkładu Gaussa dla dwóch wartości mediany =30 i 40 oraz dwóch wartości σ = 5 i 3.

W tablicach statystycznych podaje się standaryzowaną postać rozkładu, którą uzyskuje się przez podstawienie:

Wówczas dystrybuanta ma postać:

gdzie

Rozkład taki ma parametry μ = 0; σ = 1. Całka

nosi nazwę całki Laplace'a. Dla praktycznych obliczeń wystarczające jest przybliżenie:

Dokładność aproksymacji wynosi:

dla

Właściwości rozkładu normalnego są następujące:

- Jeżeli niezależne zmienne losowe X1, X2, X3, .... , Xn mają jednakowe rozkłady normalne N(,σ to ich suma ma rozkład normalny 0x01 graphic
, a ich średnia arytmetyczna ma rozkład normalny .

Wadą rozkładu normalnego - szczególnie w zastosowaniach inżynierskich dotyczących wytrzymałości (mechanicznej, elektrycznej, cieplnej itd.) jest nieograniczoność dziedziny zmiennej losowej co oznacza np. że dla narażeń równych zero prawdopodobieństwo uszkodzenia jest większe od zera. Jest to nonsens z fizycznego punktu widzenia. Wadę tę obchodzi się czasem stosując regułę trzech sigma lub stosując rozkłady normalne ucięte, o których jest mowa w punkcie następnym.

4.2.2. Rozkład normalny ucięty

Rozkład normalny ucięty jednostronnie w zerze ma gęstość daną wzorem:

gdzie i σ to parametry rozkładu przed ucięciem; ϕ - funkcja Gaussa dana w tablicy 4.1.

Dystrybuanta tego rozkładu jest określona wzorem:

Wartość oczekiwana i wariancja zmiennej losowej X o rozkładzie normalnym uciętym są określone wzorami:

gdzie ϕ0 jest funkcją Millsa podaną w tablicy 4.1.

Dla  > 0 jest E(X) > 0 oraz V(X) < σ2, przy czym ze wzrostem wartości wartość oczekiwana E(X) dąży do , a wariancja V(X) dąży do σ2. Dla μ 3σ jest co umożliwia pominięcie ucięcia rozkładu i rozważanie go jako rozkładu w przybliżeniu normalnego.

Przykład gęstości i dystrybuanty rozkładu normalnego uciętego w zerze podano odpowiednio na rys. 4.9 i 4.10.

Rys. 4.9. Gęstość rozkładu Gaussa uciętego w zerze.

Rys. 4.10. Dystrybuanta rozkładu Gaussa uciętego w zerze

W praktyce spotykamy się również z rozkładami N(,σ obustronnie uciętymi: od dołu w punkcie a i od góry w punkcie b. Przykładowo jeżeli cecha badana ma rozkład normalny N(,σ i sortujemy wyroby, uznając za dobre tylko te sztuki, które mają wartość cechy w ustalonym przedziale wartości dopuszczalnych [a, b], to rozkład tej cechy w zbiorze sztuk uznanych za dobre (po sortowaniu) jest rozkładem normalnym uciętym w punktach a i b. Gęstość takiego rozkładu jest określona wzorem:

Dystrybuanta rozkładu normalnego uciętego dwustronnie ma postać:

0x01 graphic

Przykłady pokazano odpowiednio na rys. 4.11 oraz 4.12.

Rys. 4.11. Gęstość rozkładu Gaussa uciętego w zerze (linia przerywana) i uciętego w punktach a=0 i b=10 (linia ciągła).

Rys. 4.12. Dystrybuanta rozkładu Gaussa uciętego w zerze (linia przerywana) i uciętego w punktach a=0 i b=10 (linia ciągła).

      1. Rozkład logarytmo-normalny

Jeżeli w centralnym twierdzeniu granicznym zamiast o sumie niezależnych czynników losowych mówić o ich iloczynie to zamiast rozkładu normalnego mamy do czynienia z rozkładem logarytmo-normalnym o gęstości:

0x01 graphic

gdzie indeksy lnt oznaczają, że parametry są wyrażone w logarytmach naturalnych zmiennej losowej. Dystrybuanta rozkładu logarytmo-normalnego ma postać:

0x01 graphic

Przykłady funkcji gęstości i dystrybuanty rozkładu logarytmo-normalnego pokazano na odpowiednio rys. 4.13 i 4.14. Wykresy w skali logarytmicznej są identyczne jak dla rozkładu normalnego. Właściwości rozkładu logarytmo-normalnego są następujące: