5500


Trzy łyki statystyki

Arkusze kalkulacyjne, takie jak Excel, OpenOffice Calc, a nawet prosty arkusz w Worksie to wspaniałe narzędzia do szybkiego przeliczenia i zobrazowania liczb, z którymi stykamy się co dzień w mediach czy pracy zawodowej.

Spis treści artykułu:

W OpenOffice 2.0 znajdziesz obszerną kolekcję 77 funkcji do statystyki opisowej i matematycznej. Można zaryzykować twierdzenie, że znajomość pakietu biurowego to przede wszystkim umiejętność obsługiwania arkusza kalkulacyjnego. Niemal każdy potrafi ułożyć dane w tabele i chyba większość osób ogranicza się do takiego właśnie wykorzystywania programu, ale prawdziwa moc arkusza ujawnia się dopiero z chwilą zaprzęgnięcia do pracy formuł, które automatycznie przetwarzają dane - nie tylko liczbowe, jak zazwyczaj się przyjmuje, ale i tekstowe.

Bezpłatny OpenOffice Calc oferuje szerokie spektrum instrumentów automatyzujących przetwarzanie danych - wystarczy powiedzieć, że na podstawie ok. 300 wbudowanych funkcji można w nim skonstruować aplikację do niemal wszystkich możliwych zastosowań, zarówno w domu, jak i biurze, szkole czy uczelni.

Otacza nas statystyka

Gdy jeszcze w epoce dinozaurów pisałem na SGPiS, czyli dzisiejszej SGH, pracę magisterską z finansów publicznych, analiza statystyczna danych (struktury, dynamiki i korelacji całkiem sporego kwantum rozmaitych wielkości finansowych) zajęła mi, z czterodziałaniowym kalkulatorem Bolek w ręku, dobrze ponad 100 godzin pracy, czyli co najmniej dwa tygodnie ślęczenia nad grubym zeszytem z liczbami. Dzisiaj, z arkuszem kalkulacyjnym, wystarczyłby na to zapewne jeden dzień.

Przeciętny człowiek ze statystyką jest raczej na bakier, ale na szczęście w wielu szkołach średnich wprowadzono nauczanie elementów statystyki, a na studiach jest ona już dość powszechna, nawet na kierunkach humanistycznych, co stwarza przynajmniej szansę, że człowiek z formalnym wykształceniem nie będzie bezradny w obliczu potoków liczb, rozumiejąc choć podstawowe wskaźniki.

Ci, którym zależy na samodzielnej i pogłębionej interpretacji danych, mogą bez trudu sięgnąć po dostępne narzędzia - OpenOffice Calc jest wyśmienitym instrumentem do takich przeliczeń. Niewiele osób będzie potrzebowało tak potężnego narzędzia, jak pakiet Statistica - kosztowny i trudny w obsłudze.

W artykule naszkicujemy wyłącznie elementarne, intuicyjne techniki statystyki opisowej, a mianowicie fragmenty analizy struktury danych - wyczerpujący opis struktury, dynamiki i korelacji, klasycznych trzech działów statystyki opisowej, wymagałby napisania 200-stronicowej książki. Celem jest jedynie pokazanie użyteczności arkusza kalkulacyjnego jako narzędzia wspomagającego zrozumienie liczbowego wymiaru zachodzących wokół nas zjawisk.

ABC formuł

Kluczem do obsługi arkusza są formuły i ich zrozumienie jest najistotniejsze - bez tego arkusz jest jedynie dwuwymiarową tabelą porządkującą dane. Najprościej ujmując, formuła arkusza kalkulacyjnego to wprowadzane przez użytkownika równanie, które automatycznie wykonuje obliczenia na wartościach zawartych w arkuszu.

Formuła (jej konstrukcja jest wyświetlana na tzw. pasku formuły, nad arkuszem) rozpoczyna się od znaku równości = i zawiera do 30 argumentów, w tym:

Możliwe jest zagnieżdżanie jednych funkcji w innych.

Przykłady formuł:

=5^2 - podnosi liczbę 5 do kwadratu (operator potęgowania ^), po czym wyświetla wynik w komórce, do której wstawiamy formułę.

=A1+10 - dodaje wartość znajdującą się w komórce A1 (odwołanie do komórki) i liczbę 10, po czym wyświetla wynik w komórce, do której wstawiamy formułę.

=SUMA(B1:B10)/C1 - dodaje wartości komórek od B1 do B10 (funkcja SUMA) i dzieli wynik przez zawartość komórki C1, po czym wyświetla wynik w komórce, do której wstawiamy formułę.

=SUMA.JEŻELI(A1:F1;">4") - z zakresu komórek od A1 do F1 podsumowane zostaną tylko te komórki, których wartość jest większa od 4.

=JEŻELI(SUMA(A1:A12)<0; "Mamy straty"; "Nie mamy strat") - formuła wyświetli ciąg znaków Mamy straty, gdy suma wartości komórek A1:A12 (reprezentujących np. miesięczne zyski firmy) jest mniejsza od zera, a Nie mamy strat, gdy suma ta będzie nieujemna.

=JEŻELI(B2>130; PRAWDA(); FAŁSZ() - formuła wyświetli wartość logiczną PRAWDA, gdy wartość komórki B2 przekroczy 130, a FAŁSZ w przeciwnym wypadku.

Esencja formuł - funkcje

Najważniejszym elementem formuł są funkcje - to także formuły, tyle że wbudowane w arkusz. Jedne ułatwiają wykonywanie przeliczeń (prościej jest podsumować zakres wielu komórek funkcją SUMA niż wszystkie ręcznie po kolei), inne wręcz je warunkują (np. funkcje daty i czasu czy logiczne, których nie da się zastąpić ręcznymi rachunkami). 300 podzielonych na kategorie funkcji pozwala budować zautomatyzowane aplikacje i jedynie od zręczności i pomysłowości autora zależy ich wykorzystanie. Można zresztą powiedzieć, że już biegła znajomość kilkudziesięciu najważniejszych funkcji daje dużą swobodę w pracy z programem, zmieniając proste narzędzie do tabel w potężny instrument analityczny.

Kreator funkcji

Kreator funkcji ułatwia edycję skomplikowanych formuł. Kreator funkcji to wygodne narzędzie OpenOffice Calc (w wersji 1.1.x jest to Autopilot:Funkcje), wspomagające wstawianie funkcji do formuł obliczeniowych tworzonych przez użytkownika arkusza. Proste formuły można wpisywać ręcznie, jednak w wypadku bardziej skomplikowanych warto się posłużyć właśnie kreatorem.

Kreator jest uruchamiany kliknięciem przycisku f(x) na pasku formuły lub naciśnięciem kombinacji klawiszy [Ctrl F2]. Okno kreatora funkcji zawiera na karcie Funkcje listę dostępnych funkcji (wszystkie lub w podziale na kategorie). Dwukrotne kliknięcie funkcji aktywizuje panel z definicją, gdzie widnieje pusta lista do 30 możliwych argumentów funkcji. Po wstawieniu kursora w pole argumentu można zaznaczyć zakres komórek w arkuszu, będących argumentem (można zminimalizować okno kreatora, klikając przycisk Pomniejsz przy argumencie). Zdefiniowanie kolejnego argumentu wymaga wstawienia kursora w następne pole argumentu w kreatorze.

Co istotne, kreator wyświetla kluczowe informacje o konstrukcji formuły i jej poszczególnych elementów, pomagając ją zdefiniować.

W polu formuły, w miarę definiowania argumentów, jest generowana bieżąca postać formuły (można ją też ręcznie edytować), w polu Wynik widoczny jest bieżący wynik działania formuły. Jeśli popełnisz jakąś omyłkę, np. podasz liczbę spoza dopuszczalnego zakresu, kreator wyświetli tu komunikat o błędzie formuły.

Karta Struktura zawiera hierarchiczną strukturę zbudowanej formuły i jest wyświetlana domyślnie, gdy dokonujesz reedycji istniejącej już formuły.Po zapisaniu formuły możliwe jest dokonanie w dowolnym momencie jej reedycji - wymaga to ustawienia kursora na komórce z formułą i naciśnięcia kombinacji klawiszy [Ctrl F2], co przywoła okno kreatora funkcji.

Wartość średnia

Najbardziej intuicyjną miarą statystyczną jest średnia. Formalnie to suma wartości komórek podzielona przez liczbę komórek, np. średnią wzrostu w grupie studentów jest suma wzrostu wszystkich studentów podzielona przez liczbę studentów. Dzięki średniej możemy ocenić przeciętną wartość populacji, a także, co ważniejsze, porównywać ze sobą różne populacje - można np. stwierdzić, że studenci w grupie A są przeciętnie wyżsi niż studenci w grupie B albo że numer buta mieszkańca Afryki jest przeciętnie większy niż mieszkańca Azji, co przyda się na pewno eksporterowi obuwia planującemu ekspansję na rynki zagraniczne.

Składnia funkcji

ŚREDNIA(liczba 1; liczba 2;...)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. ŚREDNIA(A1:A10) wyznacza średnią wartość z zakresu komórek od A1 do A10.

Wartość minimalna i maksymalna

Średnia pokazuje ogólny, przeciętny poziom wartości w populacji, ale nie skrajne wartości, które mogą być też charakterystyczne i warte podkreślenia. Dwie grupy mogą mieć zbliżoną wartość średnią, a jedna z nich - charakteryzować się ekstremalnymi wartościami, bo np. należy do niej bardzo wysoki czy bardzo niski student. Ekstrema te można znaleźć za pomocą funkcji MAX i MIN.

Zauważ, że w grupie o niewielkiej liczebności wartości te są w zasadzie łatwo widoczne, ale w dużej grupie wspomniane funkcje bardzo się przydają.

Składnia funkcji

MIN(liczba 1; liczba 2;...)

MAX(liczba 1; liczba 2;...)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. MIN(A1:A10) wyznacza minimalną wartość z zakresu komórek od A1 do A10, zaś MAX(B1:B100) - maksymalną wartość z zakresu komórek od B1 do B100.

Najczęstsza wartość

W grupach o dużej liczebności wartościowym źródłem informacji jest taka wartość, która występuje najczęściej - w statystyce nosi ona nazwę Moda, Modalna lub Dominanta (wartość dominująca). Nie jest, oczywiście, tożsama ze średnią, choć niekiedy może się z nią pokrywać, a dość często się do niej przynajmniej zbliża, raczej w dużych populacjach. Przykładowo jest to najczęściej występująca wielkość wzrostu w grupie studentów, np. 177 cm. Wiedza o najczęściej występującej wartości może być np. przydatna w strategii produkcyjnej jakiejś firmy.

Składnia funkcji

WYST.NAJCZĘŚCIEJ(liczba 1; liczba 2;...)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. WYST.NAJCZ˘ŚCIEJ (A1:A100) wyznacza najczęściej występującą wartość z zakresu komórek od A1 do A100.

Wartość środkowa

Ciekawym narzędziem badawczym jest mediana, czyli taka wartość (pozycyjna), która dzieli populację na dwie połowy - połowa ma wartości poniżej mediany, a połowa powyżej niej. W grupach o dużej liczebności mediana jest często zbliżona do średniej, a niekiedy może się z nią nawet pokrywać. Przykładowo, jeśli mediana w grupie wynosi 177 cm, oznacza to, że połowa studentów mierzy więcej, a połowa mniej niż 177 cm. Podobnie, mediana może informować, jaki próg punktów egzaminacyjnych osiągnęła połowa studentów na wydziale, co może sugerować formułowanie pytań na przyszłość.

Składnia funkcji

MEDIANA(liczba 1; liczba 2;...)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. MEDIANA(A1:A100) wyznacza wartość z zakresu komórek od A1 do A100 dzielącą grupę na dwie połowy.

Wartości ćwiartkowe

Kwartyle to inny przykład wartości pozycyjnych (podobnie jak mediana, której są uogólnieniem), dzielących badaną populację na cztery równe liczebności - poniżej pierwszego kwartyla, między pierwszym i drugim, drugim i trzecim oraz powyżej trzeciego kwartyla. Zauważ od razu, że mediana to nic innego, jak drugi kwartyl.

Kwartyle pozwalają ocenić podział grupy bardziej precyzyjnie niż mediana, np. określić wykładowcy, jakiego poziomu punktów egzaminacyjnych nie osiągnęło 25 procent najsłabszych studentów. Gdyby taki odsetek studentów musiał odpaść po pierwszym roku, kilkuletnia obserwacja kwartyli pozwoliłaby precyzyjnie określić poziom egzaminu.

Składnia funkcji

KWARTYL(przedział;numer_kwartyla)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. KWARTYL(A1:A100;1) wyznacza pierwszy kwartyl z zakresu komórek od A1 do A100.

Percentyl

Percentyl to nadzwyczaj wygodna funkcja, będąca de facto uogólnieniem mediany, kwartyli oraz wartości minimalnej i maksymalnej. Wskazuje wartość, poniżej której mieści się dany procent populacji - oczywiście powyżej tej wartości mieści się dopełniający do 100 procent jej odsetek. Wartość odsetka mieści się w przedziale od 0 do 1, np. 0,33 lub 0,854.

Składnia funkcji

PERCENTYL(przedział;odsetek)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. PERCENTYL(A1:A100;0,33) wyznacza liczbę z zakresu komórek od A1 do A100, która dzieli populację na 0,33 poniżej i 0,67 powyżej podanego odsetka.

Zauważ, że odsetek 0,1 to pierwszy decyl, 0,25 to pierwszy kwartyl, 0,50 to mediana i drugi kwartyl, 0,75 to trzeci kwartyl, 0 to wartość minimalna, a 1 to wartość maksymalna w populacji.

Odchylenie średnie

Średnia pokazuje przeciętny poziom w grupie, ale nie informuje, jak bardzo poszczególne wartości odbiegają od średniej. Dwie grupy studentów mogą mieć podobny przeciętny wzrost, ale w jednej grupie studentów skupiają się blisko średniej, a w innej są bardziej od niej "oddaleni". Odchylenie średnie (suma bezwzględnych wartości indywidualnych odchyleń od średniej podzielona przez liczebność grupy) mierzy właśnie stopień odchylenia od średniej - w naszym przykładzie grupa tych bardziej oddalonych od średniej studentów ma wyższy poziom odchylenia średniego. Zwykle też grupa z większym odchyleniem średnim ma bardziej wyraziste wartości skrajne (MIN i MAX).

Składnia funkcji

ODCH.ŚREDNIE(liczba 1; liczba 2;...)

Argumentami mogą być zarówno liczby, jak i odwołania do komórek z liczbami, np. ODCH.ŚREDNIE(A1:A100) wyznacza odchylenie średnie z zakresu komórek od A1 do A100.

Odchylenie ćwiartkowe

Odchylenie ćwiartkowe to przydatne narzędzie do oceny rozproszenia populacji - jest to różnica między wartościami pierwszego i trzeciego kwartyla. Sens stosowania tej miary polega na tym, że odchylenie pokazuje najbardziej typowy obszar zmienności w populacji. Może się zdarzyć, że w jednej grupie studentów są osoby o bardzo wysokim i bardzo niskim wzroście, co zwiększa rozpiętość danych w tej grupie, ale już pozostali koncentrują się blisko średniej. Dla oceny zmienności bardziej miarodajne jest zatem zbadanie odchylenia ćwiartkowego, które może być niewielkie. W drugiej grupie nie ma z kolei tak ekstremalnych wartości, ale osoby nie koncentrują się tak bardzo wokół średniej, wskutek czego tutaj odchylenie ćwiartkowe jest większe.

Składnia formuły

=KWARTYL(przedział;3)- KWARTYL(przedział;1)

Uwagi końcowe

CIA - The World Factbook - to powszechnie cytowane źródło informacji. Szczupłość miejsca nie pozwoliła na bardziej dogłębne przedstawienie miar statystyki opisowej - omówiliśmy jedynie elementarne i łatwe do intuicyjnego uchwycenia miary średniego poziomu i rozproszenia (dyspersji) populacji. Ten krótki opis ma zachęcić do wykonania pierwszych prób z arkuszem kalkulacyjnym w roli instrumentu analizy statystycznej i być może, skłonić do sięgnięcia po dalsze, bardziej zaawansowane narzędzia. Można przypuszczać, że wiele osób, poznawszy możliwość szybkiego uzyskania zbiorczych ocen rozmaitych grup danych, chętnie wykorzysta je w badaniu rzeczywistych informacji z roczników statystycznych czy rozmaitych serwisów dostępnych w Internecie - szczególnie użyteczne wydają się obszerne i miarodajne statystyki zawarte w CIA - The World Factbook - które można znaleźć pod adresem www.cia.gov/cia/publications/factbook/ .

W niniejszym opisie pominęliśmy kilka miar wiążących się z wyliczeniem tzw. odchylenia standardowego, jednej z fundamentalnych miar rozproszenia danych w populacji. Całkowicie pominięte zostały miary koncentracji danych (ukazujące stopień skupienia danych wokół średnich wartości) i miary asymetrii (ilustrujące nieregularność rozkładu danych). Należy pamiętać, że pełna analiza populacji, obejmująca wszystkie dostępne miary, jest znacznie bardziej wyczerpująca i poglądowa niż cząstkowa analiza wybranych wskaźników.

Co istotne, narzędzia statystyczne OpenOffice Calc są niemal identyczne z narzędziami Excela, zatem można zalecać zapoznanie się z dwiema bardzo użytecznymi książkami Andrzeja Obecnego, Statystyka opisowa w Excelu dla szkół. ĺwiczenia praktyczne (analiza struktury zjawisk) oraz Statystyka matematyczna w Excelu dla szkół. ĺwiczenia praktyczne (m.in. analiza dynamiki i współzależności zjawisk) - obie zostały wydane przez Helion.

Podkreślmy raz jeszcze, że analiza statystyczna - choćby z użyciem prostych metod analizy opisowej, bez sięgania po bardziej wyrafinowane narzędzia statystyki matematycznej, jest wartościowym wyposażeniem intelektualnym, którego znaczenia nie sposób przecenić.



Wyszukiwarka

Podobne podstrony:
5500
77 5500
5500
5500
5500
5500
5500
5500
5500
5500
Shimano FD 5500 series
Nokia 5500 Sport UG pl
MX 5500 Instrukcja obslugi
HR 5500 PL
MaxCom mc 5500
perfect 3500 5500

więcej podobnych podstron