Matematyka dla liceum/Rachunek prawdopodobieństwa/Elementy statystyki opisowej

Z Wikibooks, biblioteki wolnych podręczników.

Elementy statystyki opisowej[edytuj]

Statystyka - wstęp[edytuj]

Statystyka zajmuje się badaniem cech danego zbioru obiektów, tj. populacji.

Z uwagi na to, że jej liczebność może być znaczna i uniemożliwiać przeprowadzenie badania, zwykle trzeba ograniczyć się do podzbioru o mniejszej ilości, zwanego próbą.

Do przedstawienia danych można użyć jednej z trzech form: tabelki, diagramu lub wykresu. Można także wyróżnić dwa szczególne diagramy:

  • histogram liczebności – oparty jest na tabelce zawierającej: (na co wskazuje nazwa – "liczebność") poszczególne 'wyniki pomiaru' oraz 'liczebność danego wyniku' (np. rodzaje ocen i ilość każdej z nich).
  • histogram częstości – podobny, jednak zamiast liczebności występują częstości względne – liczebność jest zastąpiona jej stosunkiem do łącznej liczby wyników (np. ilość 3, gdy suma wyników wynosi 10, w przypadku tego diagramu zapisana jest jako 3/10).

Szereg rozdzielczy[edytuj]

Gdy liczba danych jest znaczna, można dokonać ich klasyfikacji, polegającej na określeniu klas, na które zostaną podzielone nasze dane. Wówczas klasy –czyli wyznaczone przedziały - będą w przybliżeniu reprezentować zgromadzone wartości. Jedną z metod klasyfikacji danych jest: określenie ilości klas, wyznaczenie długości każdej klasy, stworzenie klas i przyporządkowaniu im wartości.
1. liczba klas  

n – ilość danych

2. długość klasy  

– największa i najmniejsza wartość

3. Tworzymy K przedziałów długości L, lewostronnie domkniętych i prawostronnie otwartych, tak aby pokryły wszystkie wartości.
4. Obliczamy liczebność klas (ile wartości należy do każdej klasy).

Dane przedstawione w postaci klas i ich liczebności nazywa się szeregiem rozdzielczym.
Można przyjąć, że histogram liczebności jest również przedstawieniem szeregu rozdzielczego (o jednowartościowych klasach).

Średnia[edytuj]

  • Gdy dane zawierają jedynie wartości, obliczamy średnią arytmetyczną:
  • W przypadku danych zawierających wartości wraz z wagami, obliczamy średnią ważoną:

  -waga i-tej wartości
  • Średnią dla danych zawierających wartości i ich liczebność obliczamy jako średnią ważoną, podstawiając w miejscu wag liczebość danej wartości:

  -liczebność i-tej wartości
  • Średnią dla szeregu rozdzielczego liczymy również jako średnią ważoną, używając - środka i-tej klasy w miejscach wag:
  -środek i-tej klasy (tzn połowa z sumy wartości lewego i prawego końca i-tej klasy)

Mediana[edytuj]

Jeśli spróbujemy znaleźć wartość cechy najbardziej 'przeciętnej’, konkretnie – wartość środkowego elementu, będziemy szukać właśnie mediany.

  • Gdy dane zawierają jedynie wartości, medianą jest środkowy element w ciągu, uporządkowanym niemalejąco (1 3 5...), lub średnia dwóch środkowych elementów w ciągu:
dla nieparzystego n
lub
dla parzystego n
Zamiast wzorów wystarczy zapamiętać "medianą jest środkowa wartość w ciągu (uporządkowanym niemalejącym)", a jeśli n jest parzyste: "medianą jest średnia dwóch środkowych w ciągu".
Pozostaje znaleźć w ciągu medianę - jako wartość na pozycji Me.
  • Jeśli dane zawierają wartości wraz z ich liczebnością – postępujemy podobnie, jednak uwzględniamy w ciągu liczebność wyników (np. 1 3 5 5 7 7 7).
  • W przypadku szeregu rozdzielczego:
1. oblicza się dla kolejnych klas liczebność skumulowaną    (jest to suma liczebności od 1. do i-tej klasy),
2. określa się pozycję mediany wg wzoru (zmienionego): oraz okreśa, w której klasie ta pozycja się znajduje,
3. szacuje się medianę wg wzoru

  – lewy koniec tej klasy, do której należy mediana
 - liczebność skumulowana klasy poprzedzającej klasę z medianą
  –liczebność klasy ‘z medianą’
  –długość klasy ‘z medianą’
Alternatywą jest użycie wzoru

  – analogicznie, prawy koniec klasy
  – liczebność skumulowana klasy 'z medianą' oraz klasy ostatniej (tzn. f = n)

Odchylenie standardowe[edytuj]

Jest to wartość przybliżająca jak bardzo wartości odbiegają od średniej. Używanym terminem jest również wariancja, jest to odchylenie stand. do kwadratu. Brane pod uwagę będą różnice pomiędzy kolejnymi wartościami xi i średnią, podniesione do kwadratu, tzn. .

Wariancja jest średnią arytmetyczną tychże kwadratów różnic pomiędzy wartościami a średnią. Obliczyć ją można z odchylenia (podnosząc je do kwadratu), wobec czego ograniczymy się do wzoru dla tej drugiej wartości. Oznaczamy jako .

Odchylenie standardowe

  • Dla danych zawierających tylko wartości lub wartości i ich liczności – używamy wzoru na średnią arytmetyczną kwadratów różnic, znajdującą się pod pierwiastkiem. W pierwszym przypadku, za podstawiamy 1.

  -liczność danej klasy
  -średnia
  • W przypadku danych w postaci szerego rozdzielczego – używamy powyższego wzoru, w miejsce wartości wstawiając środki klas

  -środek i-tej klasy


> Rozwiązane zadania