Matematyka dla liceum/Rachunek prawdopodobieństwa/Elementy statystyki opisowej
Elementy statystyki opisowej
[edytuj]Statystyka - wstęp
[edytuj]Statystyka zajmuje się badaniem cech danego zbioru obiektów, tj. populacji.
Z uwagi na to, że jej liczebność może być znaczna i uniemożliwiać przeprowadzenie badania, zwykle trzeba ograniczyć się do podzbioru o mniejszej ilości, zwanego próbą.
Do przedstawienia danych można użyć jednej z trzech form: tabelki, diagramu lub wykresu. Można także wyróżnić dwa szczególne diagramy:
- histogram liczebności – oparty jest na tabelce zawierającej: (na co wskazuje nazwa – "liczebność") poszczególne 'wyniki pomiaru' oraz 'liczebność danego wyniku' (np. rodzaje ocen i ilość każdej z nich).
- histogram częstości – podobny, jednak zamiast liczebności występują częstości względne – liczebność jest zastąpiona jej stosunkiem do łącznej liczby wyników (np. ilość 3, gdy suma wyników wynosi 10, w przypadku tego diagramu zapisana jest jako 3/10).
Szereg rozdzielczy
[edytuj]Gdy liczba danych jest znaczna, można dokonać ich klasyfikacji, polegającej na określeniu klas, na które zostaną podzielone nasze dane. Wówczas klasy –czyli wyznaczone przedziały - będą w przybliżeniu reprezentować zgromadzone wartości.
Jedną z metod klasyfikacji danych jest: określenie ilości klas, wyznaczenie długości każdej klasy, stworzenie klas i przyporządkowaniu im wartości.
1. liczba klas
- n – ilość danych
2. długość klasy
- – największa i najmniejsza wartość
3. Tworzymy K przedziałów długości L, lewostronnie domkniętych i prawostronnie otwartych, tak aby pokryły wszystkie wartości.
4. Obliczamy liczebność klas (ile wartości należy do każdej klasy).
Dane przedstawione w postaci klas i ich liczebności nazywa się szeregiem rozdzielczym.
Można przyjąć, że histogram liczebności jest również przedstawieniem szeregu rozdzielczego (o jednowartościowych klasach).
Średnia
[edytuj]- Gdy dane zawierają jedynie wartości, obliczamy średnią arytmetyczną:
- W przypadku danych zawierających wartości wraz z wagami, obliczamy średnią ważoną:
- -waga i-tej wartości
- Średnią dla danych zawierających wartości i ich liczebność obliczamy jako średnią ważoną, podstawiając w miejscu wag liczebość danej wartości:
- -liczebność i-tej wartości
- Średnią dla szeregu rozdzielczego liczymy również jako średnią ważoną, używając - środka i-tej klasy w miejscach wag:
-
- -środek i-tej klasy (tzn połowa z sumy wartości lewego i prawego końca i-tej klasy)
Mediana
[edytuj]Jeśli spróbujemy znaleźć wartość cechy najbardziej 'przeciętnej’, konkretnie – wartość środkowego elementu, będziemy szukać właśnie mediany.
- Gdy dane zawierają jedynie wartości, medianą jest środkowy element w ciągu, uporządkowanym niemalejąco (1 3 5...), lub średnia dwóch środkowych elementów w ciągu:
- dla nieparzystego n
- lub
- dla parzystego n
- Zamiast wzorów wystarczy zapamiętać "medianą jest środkowa wartość w ciągu (uporządkowanym niemalejącym)", a jeśli n jest parzyste: "medianą jest średnia dwóch środkowych w ciągu".
- Pozostaje znaleźć w ciągu medianę - jako wartość na pozycji Me.
- Jeśli dane zawierają wartości wraz z ich liczebnością – postępujemy podobnie, jednak uwzględniamy w ciągu liczebność wyników (np. 1 3 5 5 7 7 7).
- W przypadku szeregu rozdzielczego:
- 1. oblicza się dla kolejnych klas liczebność skumulowaną (jest to suma liczebności od 1. do i-tej klasy),
- 2. określa się pozycję mediany wg wzoru (zmienionego): oraz okreśa, w której klasie ta pozycja się znajduje,
- 3. szacuje się medianę wg wzoru
-
- – lewy koniec tej klasy, do której należy mediana
- - liczebność skumulowana klasy poprzedzającej klasę z medianą
- –liczebność klasy ‘z medianą’
- –długość klasy ‘z medianą’
- – lewy koniec tej klasy, do której należy mediana
- Alternatywą jest użycie wzoru
-
- – analogicznie, prawy koniec klasy
- – liczebność skumulowana klasy 'z medianą' oraz klasy ostatniej (tzn. f = n)
- – analogicznie, prawy koniec klasy
Odchylenie standardowe
[edytuj]Jest to wartość przybliżająca jak bardzo wartości odbiegają od średniej. Używanym terminem jest również wariancja, jest to odchylenie stand. do kwadratu. Brane pod uwagę będą różnice pomiędzy kolejnymi wartościami xi i średnią, podniesione do kwadratu, tzn. .
Wariancja jest średnią arytmetyczną tychże kwadratów różnic pomiędzy wartościami a średnią. Obliczyć ją można z odchylenia (podnosząc je do kwadratu), wobec czego ograniczymy się do wzoru dla tej drugiej wartości. Oznaczamy jako .
Odchylenie standardowe
- Dla danych zawierających tylko wartości lub wartości i ich liczności – używamy wzoru na średnią arytmetyczną kwadratów różnic, znajdującą się pod pierwiastkiem. W pierwszym przypadku, za podstawiamy 1.
-
- -liczność danej klasy
- -średnia
- -liczność danej klasy
- W przypadku danych w postaci szerego rozdzielczego – używamy powyższego wzoru, w miejsce wartości wstawiając środki klas
-
- -środek i-tej klasy