Metody probabilistyczne Materia³ na egzamin po³ówkowy (nie doc


  1. WPROWADZENIE

1.1. Wstęp

W zagadnieniach technicznych niemal zawsze mamy do czynienia z zagadnieniami stochastycznymi i tylko w wielu przypadkach - ze względu na małe rozrzuty - stosuje się podejście deterministyczne. W takich zagadnieniach jak wytrzymałość materiałów i urządzeń (wytrzymałość mechaniczna, elektryczna, cieplna itd.), narażenia (np. atmosferyczne, środowiskowe, przepięcia, przetężenia), analiza błędów pomiarowych, projektowanie, trwałość i niezawodność czy kontrola jakości produkcji, bez stosowania metod probabilistycznych obejść się nie może.

Statystyczne metody badań polegają na wyciąganiu wniosków o dużych zbiorach zmiennej losowej na podstawie badania podzbiorów tej zmiennej losowej. Zbiór, o którego właściwościach wnioskuje się na podstawie badania jego części, jest nazywany populacją generalną. Podzbiór zaś, stanowiący część populacji generalnej poddanej badaniu statystycznemu, na podstawie którego wnioskuje się o populacji generalnej nazywa się próbą lub próbką losową. Statystyczne metody badania, zwane też metodami reprezentacyjnymi, są stosowane wówczas gdy:

Próbka losowa pobierana w ten sposób, że wszystkie elementy populacji generalnej mają jednakowe szanse trafienia do próbki nosi nazwę próbki losowej prostej. W większości przypadków będziemy mieli do czynienia z taką próbką. Liczbę sztuk w danym zbiorze nazywamy licznością N tego zbioru, a liczbę sztuk w próbce losowej nazywamy licznością próbki n. Badanie próbki reprezentacyjnej dla danej populacji generalnej nazywamy badaniem statystycznym. Zakłada się przy tym, że:

Całokształt badania statystycznego ustalać należy w dokumencie nazywanym programem badań, który powinien zawierać:

Wynik badania próbki losowej jest losowy, zależy bowiem od przypadku, które sztuki z populacji generalnej wylosowano do próbki losowej. Zatem wynik badania może - wskutek swej losowości - różnić się od wyniku ewentualnego badania populacji generalnej. Rzutuje to na metody analizy wyników badań statystycznych i nakazuje ostrożność przy formułowaniu wniosków.

Dla uzyskania, wspomnianej już, próbki losowej prostej należy stosować tzw. losowanie ze zwracaniem. Losowanie takie polega na tym, że po zbadaniu wylosowanej sztuki zwracamy ją do zbioru i dopiero losujemy następną sztukę. W ten sposób przed wylosowaniem poszczególnych sztuk skład badanego zbioru jest taki sam. Warunek ten jest łatwy do spełnienia przy pomiarach takich zmiennych losowych jak np. napięcie (przebicia, przeskoku, przepięcie) czy prąd (wyładowania atmosferycznego, zwarcia, rażenia) bo każdy kolejny pomiar dotyczy pełnego zbioru zmiennej losowej. Gorzej jest w przypadku np. badań niszczących (np. trwałość żarówek, liczba zadziałań łącznika do uszkodzenia). Jednakże jeśli liczność próbki n jest znacznie mniejsza od liczności populacji generalnej N to przy losowaniu poszczególnych sztuk do próbki losowej zmiany składu zbioru N są małe. Dlatego przy n < 0.01 N można zrezygnować z kłopotliwego losowania ze zwracaniem i stosować losowanie bez zwracania uważając, że nadal uzyskuje się próbkę losową prostą.

Jeśli mamy do czynienia z badaniem wyrobów i możliwe jest ponumerowanie poszczególnych sztuk w badanym zbiorze wyrobów, to w celu lepszego zabezpieczenia losowości próbki wskazane jest korzystanie z tablic liczb losowych [5]. Postępowanie polega wówczas na tym, że poszczególnym sztukom w zbiorze przyporządkowuje się kolejne numery 0, 1, 2, ..... , N-1, a następnie z tablic liczb losowych odczytuje się, rozpoczynając od punktu wybranego na chybił-trafił, n kolejnych liczb losowych stanowiących numery tych sztuk (egzemplarzy), które mają być pobrane do próbki losowej. Cyfry losowe należy czytać wierszami od dowolnie wybranego miejsca tablicy. Można je odczytywać łącząc w liczby jednocyfrowe, dwucyfrowe, trzycyfrowe itd. Należy uwzględniać tylko te numery, które istnieją w rozpatrywanym zbiorze, pomijając numery większe od N-1. Sztukę wylosowaną więcej niż jeden raz bada się tylko jeden raz, a uzyskany wynik uwzględnia się tyle razy ile razy trafiła ta sztuka do próbki losowej. Szanse wielokrotnego trafienia tej samej sztuki do próbki są tym mniejsze im mniejszy jest iloraz n/N.

Należy zwrócić uwagę, że badanie próbki losowej prostej o liczności n jest n-krotnym powtórzeniem tego samego doświadczenia, polegającego na badaniu jednej sztuki wylosowanej z danego zbioru. Wynika z tego, że dowolną serię n jednakowych niezależnych doświadczeń można uważać za próbkę losową prostą, reprezentującą hipotetyczny zbiór takich doświadczeń o nieskończonej liczności i stosować te same metody analizy wyników badań co w przypadku próbki losowej prostej pobranej z określonego, istniejącego zbioru wyrobów. Umożliwia to wnioskowanie o produkcji wyrobów jeszcze w fazie ich opracowywania w laboratorium. Przykładowo wykonaną w laboratorium serię prototypową wyrobów przeznaczonych do produkcji masowej można rozważać jako próbkę losową prostą reprezentującą hipotetyczny zbiór tych wyrobów, wykonanych w taki sam sposób jak badana seria prototypowa. Umożliwia to analizę i odpowiednią korektę projektu w zakresie konstrukcji i technologii jeszcze przed uruchomieniem produkcji.

1.2. Odwzorowanie zbioru wyrobów na zbiorze liczb

Rozróżniamy dwa rodzaje cech wyrobów technicznych: mierzalną i niemierzalną. Cechą mierzalną nazywa się taką cechę, którą można zmierzyć odpowiednim przyrządem pomiarowym i każdemu badanemu obiektowi przyporządkować liczbę rzeczywistą, uzyskaną z przeprowadzonego pomiaru, nazywaną wartością tej cechy. Dla każdej cechy mierzalnej istnieje zbiór możliwych jej wartości. Zbiór ten może być przeliczalny, np. liczba poprawnych zadziałań przekaźnika i mówimy wówczas, że cecha X jest skokowa lub może to być określony przedział liczb rzeczywistych np. [0, ) i mówimy wówczas, że cecha X jest ciągła (np. napięcie przebicia).

Cechą niemierzalną albo opisową nazywa się taką cechę, której nie można zmierzyć np. zwarcie, zadziałanie czy niezadziałanie przekaźnika przy danym sygnale. Można tylko stwierdzić czy dane zjawisko zachodzi czy nie zachodzi i wynik uznać za pozytywny lub negatywny (sztuki dobre lub złe). Każdemu wynikowi „sztuka dobra” można przyporządkować umowną wartość liczbową x1 np. x1 = 1, a wynikowi „sztuka niedobra” x2 np. x2 = 0. Otrzymuje się wówczas dwuelementowy zbiór możliwych wyników { x1, x2}. Przy x1 = 1 i x2 = 0 mamy zbiór {1, 0} zwany zbiorem zero-jedynkowym.

1.3. Opis statystyczny przy klasyfikacji jednowymiarowej

Przy wykonywaniu i analizie badań statystycznych konieczne jest zachowanie przejrzystości i porządku przy opisie badań i wyników. Zaleca się tu następujący schemat opisu:

  1. Jednoznaczne scharakteryzowanie badanego obiektu czy zjawiska.

  2. Podanie badanej cechy czy cech z określeniem jednostek i dziedziny.

  3. Opis sposobu badania.

Sposób badania ma często istotny wpływ na uzyskiwane wyniki. Stąd sposób badania musi być sprecyzowany przed przystąpieniem do badań i z uwzględnieniem założonego celu badań. Przykładowo wynik badania wytrzymałości zależy od sposobu zmian narażeń a także od warunków badań.

  1. Określenie liczności badanej próbki losowej.

Wybór liczności próbki losowej zależy od celu badań. Przykładowo dla określenia parametrów znanego rozkładu statystycznego potrzebna jest znacznie mniejsza liczność próbki niż dla określenia typu nieznanego rozkładu.

  1. Zestawienie zaobserwowanych wartości zmiennej losowej (przykład 1.1. - wiersz (5)).

  2. Utworzenie szeregu uporządkowanego badanej zmiennej losowej (przykład 1.1. - wiersz (6)).

Szereg uporządkowany jest to zbiór wartości zmiennej losowej posiadający określoną kolejność w czasie lub przestrzeni. Najczęściej jest to szereg polegający na uporządkowaniu zmiennej losowej od wartości najmniejszej do największej.

  1. Utworzenie szeregu rozdzielczego, w którym szereg uporządkowany redukuje się do tych wartości, które nie powtarzają się, przypisując każdej z nich liczbę obserwacji (przykład 1.1. - wiersz (7)).

  2. Utworzenie szeregu kumulacyjnego, w którym każdej wartości szeregu uporządkowanego przyporządkowuje się sumy częstości odpowiadające wszystkim wartościom zmiennej losowej nie większym od danej wartości (przykład 1.1. - wiersz (8)).

  3. Oszacowanie prawdopodobieństwa z próby (przykład 1.1. - wiersz (9)).

Oszacowanie prawdopodobieństwa z próby powinno spełniać następujące postulaty:

W literaturze spotyka się następujące propozycje dla oszacowania prawdopodobieństwa z próby:

  1. ;

  2. - średnia częstość realizacji zmiennej losowej;

  3. - minimalizuje błąd kwadratowy dla parametru kształtu rozkładu Weibulla;

  4. - mediana wartości rangowych.

Wszystkie z pięciu wymienionych na wstępie warunków spełnia jedynie wzór (b). Wzór (a) daje wyniki na skraju przedziału z warunku drugiego i dla ostatniej realizacji z szeregu kumulacyjnego daje wartość 1 (100 %) czyli nieużyteczną w analizie statystycznej dla każdego rozkładu o dziedzinie nieograniczonej od góry - a taką cechę ma większość rozkładów. Zależności (c) i (d) są czasami zalecane w przypadku analiz dokonywanych za pomocą rozkładu Weibulla i dla tego rozkładu zostały sprawdzone. Nie spełniają więc postulatu trzeciego, który zakłada niezależność oszacowania prawdopodobieństwa od postaci rozkładu. Wzór (b) daje ponadto wyższe wartości prawdopodobieństw dla małych wartości zmiennej losowej (rys. 1.1). W zastosowaniach technicznych, szczególnie związanych z zagadnieniami wytrzymałościowymi jest to zaleta. Uzyskuje się bowiem bardziej ostrożne oszacowania dolnego progu wytrzymałości. Z powyższych rozważań wynika, że zalecane oszacowanie prawdopodobieństwa z próby ma postać daną wzorem (b).

Przykład 1.1.

  1. Żarówki zwykłego szeregu o parametrach 220 V, 75 W

  2. Trwałość żarówek w godzinach pracy do uszkodzenia.

  3. Równoległe badanie wszystkich elementów próbki losowej aż do zniszczenia ostatniej żarówki.

  4. n = 10

  5. 2000, 1900, 2100, 1950, 1800, 2200, 2500, 2000, 1900, 2000 [h]

  6. xi = 1800, 1900, 1900, 1950, 2000, 2000, 2000, 2100, 2200, 2500 [h]

  7. xi = 1800, 1900, 1950, 2000, 2100, 2200, 2500 [h]

ni = 1 2 1 3 1 1 1

(8) xi = 1800, 1900, 1950, 2000, 2100, 2200, 2500 [h]

ni = 1 2 1 3 1 1 1

Σ ni = 1 3 4 7 8 9 10

(9) xi = 1800, 1900, 1950, 2000, 2100, 2200, 2500 [h]

ni = 1 2 1 3 1 1 1

Σ ni = 1 3 4 7 8 9 10

pi(a) = 0.1 0.3 0.4 0.7 0.8 0.9 1.0

pi(b) = 0.091,0.273,0.364,0.636,0.727,0.818,0.909

pi(c) = 0.05, 0.25, 0.35, 0.65, 0.75, 0.85, 0.95

pi(d) = 0.067,0.26, 0.356,0.644, 0.74, 0.837,0.933

  1. Dwie metody analizy statystycznej

W konsekwencji postępowania podanego w punkcie poprzednim uzyskuje się pary liczb (xi, pi) stanowiące punkty rozkładu empirycznego (doświadczalnego) danej cechy X w próbce losowej o liczności n. Rozkład empiryczny należy w dalszej kolejności aproksymować jednym z rozkładów teoretycznych. Takie postępowanie nosi nazwę metody dystrybuanty empirycznej i jak wynika z podanej wyżej procedury, nie wymaga żadnych dodatkowych założeń co do grupowania danych eksperymentalnych.

Inna metoda analiz statystycznych, opierająca się na szeregu rozdzielczym (wiersz 7 z przykładu 1.1), nosi nazwę metody histogramu. Metoda ta daje dość atrakcyjne graficznie wyniki jednakże wymaga dodatkowych założeń co do podziału zakresu zmiennej losowej na klasy i co do liczności realizacji zmiennej losowej w poszczególnych klasach. Zarówno przy wyborze granic klas jak i przy wyborze liczności w klasach występuje dość duża niejednoznaczność kryteriów mogąca dawać spore różnice wyników. Stąd w tej pracy zaleca się stosowanie metody dystrybuanty empirycznej jako bardziej jednoznacznej i bardziej pewnej z inżynierskiego punktu widzenia.

0x01 graphic

Rys. 1.1 Dystrybuanty empiryczne do przykładu 1.1: x - wzór (d),  - wzór (b), * - wzór (c), + - wzór (b).

Tym niemniej podstawowe zasady metody histogramu są następujące:

Tak definiuje się klasy dla histogramu klasycznego. Możliwe jest również zastosowanie histogramu o założonej liczbie realizacji w klasach. Wówczas ustala się liczbę klas jako równą i oblicza się liczbę realizacji w klasie a następnie uzyskany wynik trzeba zaokrąglić. Mając ustaloną liczbę m i liczbę k określa się granice klas.

Jak widać przy metodzie histogramu istnieje trudność jednoznacznego sprecyzowania jego parametrów.

  1. DYSTRYBUANTA, FUNKCJA GĘSTOŚCI, FUNKCJA PRAWDOPODOBIEŃSTWA

Rozważmy zdarzenie X < x polegające na tym, że wartość zmiennej losowej X jest mniejsza od danej wartości x. Funkcję określającą zależność prawdopodobieństwa od wartości x, nazywa się dystrybuantą danej zmiennej losowe X. Dystrybuanta F(x) jest funkcją niemalejącą argumentu x, przynajmniej lewostronnie ciągłą i zawsze spełnia warunek

przy czym F(-) = 0 oraz F() = 1. Dystrybuanta F(x) może być zdefiniowana wzorem F(x)=P(Xx) i wówczas jest przynajmniej prawostronnie ciągła. Dla zmiennej losowej ciągłej P(X < x) = P(X x). Jeżeli dziedziną dystrybuanty jest przedział [a, b] to F(x) = 0 dla x a oraz F(x) = 1 dla x > b. Jeżeli jest znana dystrybuanta F(x) to prawdopodobieństwo zdarzenia X x wynosi

natomiast prawdopodobieństwo zdarzenia, iż X jest w przedziale a X < b wyznacza się z wzoru:

Zmienne losowe mogą być dwojakiego rodzaju: