Statystyka matematyczna/Momenty statystyczne w działaniu

Statystyka matematyczna

Momenty statystyczne w działaniu

Licencja
Autor: Mirosław Makowiecki Absolwent UMCS Fizyki Komputerowej Uniwersytetu Marii Curie-Skłodowskiej w Lublinie Email: miroslaw(kropka)makowiecki(małpa)gmail(kropka)pl Dotyczy: książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami. Użytkownika książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami nie zwalnia z odpowiedzialności prawnoautorskiej nieprzeczytanie warunków licencjonowania. Umowa prawna: Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń. Autor tej książki dołożył wszelką staranność, aby informacje zawarte w książce były poprawne i najwyższej jakości, jednakże nie udzielana jest żadna gwarancja, czy też rękojma. Autor nie jest odpowiedzialny za wykorzystanie informacji zawarte w książce, nawet jeśli wywołaby jakąś szkodę, straty w zyskach, zastoju w prowadzeniu firmy, przedsiębiorstwa lub spółki bądź utraty informacji, niezależnie czy autor (a nawet Wikibooks) został powiadomiony o możliwości wystąpienie szkód. Informacje zawarte w książce mogą być wykorzystane tylko na własną odpowiedzialność.

Wykaz modułów w książce
1Średnie w matematyce statystycznej 2Wprowadzenie do rozkładów zmiennych losowych 3Momenty statystyczne ciągłe i dyskretne 4Momenty statystyczne dla funkcji złożonej 5Momenty statystyczne w działaniu 6Pobieranie próby 7Metoda największej wiarygodności 8Funkcje charakterystyczne 9Ważniejsze rozkłady statystyczne 10Twierdzenie o rozkładzie Bernoulliego 11Twierdzenie o rozkładzie wielomianowym 12Twierdzenie o rozkładzie normalnym jednowymiarowym 13Twierdzenie o rozkładzie normalnym wielowymiarowym 14Centralne twierdzenie graniczne 15Twierdzenie o rozkładzie χ² 16Twierdzenie o rozkładzie hipergeometrycznym 17Twierdzenie o rozkładzie Poissona 18Błędy pomiarowe w fizyce 19Metoda najmniejszych kwadratów

Spis treści
1Działania na wartościach oczekiwanych 1.1Suma wartości oczekiwanych 1.2Iloczyn wartości oczekiwanych 2Wariancja, współczynnik korelacji, transformacje liniowe 2.1Kowariancja dwóch zmiennych 2.2Kowariancja dwóch niezależnych wyników w doświadczeniu 2.3Wariancja kombinacji liniowej dwóch zmiennych 2.4Współczynnik korelacji 2.4.1Obliczenia z użyciem współczynnika korelacji 2.5Transformacje liniowe i ortogonalne

Następny rozdział: Pobieranie próby. Poprzedni rozdział: Momenty statystyczne dla funkcji złożonej.

Podręcznik: Statystyka matematyczna.

Będziemy się posługiwać momentami statystycznymi i wykonywać na nich działania.

Działania na wartościach oczekiwanych

Poniżej pokażemy, jakie są właściwości sumy czy różnicy, a nawet iloczynu wartości oczekiwanych oraz jakie są warunki by takowe działania zachodziły w przypadku ostatniego działania.

Suma wartości oczekiwanych

Określmy czemu jest równa wartość oczekiwana sumy argumentów x i y. Zmienna x należy do przedziału (a,b), a zmienna y należy do przedziału (c,d). Wartość oczekiwana sumy argumentów x i y, jak w przypadku wartości oczekiwanych dla dwóch argumentów definiujemy tutaj względem funkcji złożonej H(x,y)=x+y, zatem według wzoru na wartość oczekiwaną dwóch zmiennych (4.13).

E(x+y)=\int \limits _{a}^{b}\int \limits _{c}^{d}(x+y)f(x,y)=\int \limits _{x}^{b}x{\bigg (}\int \limits _{c}^{d}f(x,y)dy{\bigg )}\;dx+\int \limits _{c}^{d}y{\bigg (}\int \limits _{a}^{b}f(x,y)dx{\bigg )}\;dy

(5.1)

Mając gęstość uzyskania jednocześnie zmiennej x i y, czyli f(x,y) możemy policzyć gęstość prawdopodobieństwa uzyskania zmiennej x, czyli g(x) określamy według wzoru (2.41), a gęstość uzyskania zmiennej y, czyli h(y) określamy według wzoru (2.42), zatem mając definicję tychże gęstości i podstawiamy je do wzoru (5.1):

E(x+y)=\int \limits _{a}^{b}x\rho (x)dx+\int \limits _{c}^{d}y\rho (y)dy

(5.2)

Po skorzystaniu z definicji wartości oczekiwanych zmiennej x lub y wedle przepisu (4.13), ostatecznie otrzymujemy że wartość oczekiwana sumy dwóch zmiennych jest równa sumie wartości oczekiwanych tychże samych argumentów.

E(x+y)=E(x)+E(y)\;

(5.3)

Analogicznie jak przy dowodzie schematu (5.3) wartość oczekiwana różnicy argumentów x i y jest równa różnicy wartości oczekiwanych tychże samych argumentów:

E(x-y)=E(x)-E(y)\;

(5.4)

Gdy we wzorze (5.4) zachodzi y=x, to wtedy otrzymujemy, że wartość oczekiwana z liczby zero jest liczbą zero.

E(0)=E(x)-E(x)=0\Rightarrow E(0)=0

(5.5)

Podstawiając we wzorze (5.4) za zmienną x liczbę zero i wykorzystując własność (5.5), otrzymujemy że wartość oczekiwana jest funkcją nieparzystą.

E(-y)=E(0)-E(y)\Rightarrow E(-y)=-E(y)\;

(5.6)

Iloczyn wartości oczekiwanych

Określmy iloczyn wartości oczekiwanych. Załóżmy, że mamy dwa niezależne zdarzenia, wtedy gęstość prawdopodobieństwa uzyskania wyników x i y jest równa iloczynowi gęstości prawdopodobieństwa uzyskania tychże samych wyników.

f(x,y)=g(x)h(y)\;

(5.7)

Niech naszą funkcją złożoną będzie H(x,y)=xy, to zgodnie z (4.13) oraz ze wzorem na niezależne zdarzenia (5.7) i jeśli dodatkowo przyjmować będziemy wzory na gęstość uzyskania zmiennej x lub y względem gęstości uzyskania jednocześnie dwóch wyników (2.41) i (2.42), wtedy otrzymujemy wzór na wartość oczekiwaną iloczynu dwóch argumentów, która jak się dowiemy dla zmiennych niezależnych jest równa iloczynowi wartości oczekiwanych dla tychże samych zmiennych:

E(xy)=\int \limits _{a}^{b}\int _{c}^{d}xyf(x,y)dxdy=\int \limits _{a}^{b}\int _{c}^{d}xg(x)yh(y)dxdy=\int \limits _{a}^{b}xg(x)dx\int \limits _{c}^{d}yh(y)dy=\;E(x)E(y)

(5.8)

Wzór wynikający z obliczeń (5.8) możemy przepisać dla przejrzystości wykładu:

E(xy)=E(x)E(y)\;

(5.9)

Wariancja, współczynnik korelacji, transformacje liniowe

Odchylenie standardowe i wariancja to podstawowe wielkości w statystyce matematycznej, pozwalają określić, jaki błąd popełniliśmy w doświadczeniu, oraz czy wyniki uzyskane w doświadczeniu są zależne od innych wyników (tu mowa o kowariancji).

Kowariancja dwóch zmiennych

Kowariancję dwóch zmiennych typu dyskretnego x i y, gdy ich wartościami oczekiwanymi są kolejno ${\hat {x}}\;$ i ${\hat {y}}\;$ , definiujemy wedle wzoru (4.32), gdy prawdopodobieństwo uzyskania tychże wyników jest P(x_i,y_i):

\operatorname {cov} (x,y)=\sum _{i=1}^{n}(x_{i}-{\hat {x}})(y_{i}-{\hat {y}})P(x_{i},y_{i})

(5.10)

Dla zmiennych typu losowego ciągłego wzór (4.32) na kowariancję, gdy gęstość uzyskania dwóch wyników x i y jest równe h(x,y), piszemy:

\operatorname {cov} (x,y)=\int \int (x-{\hat {x}})(y-{\hat {y}})h(x,y)dxdy

(5.11)

Ogólnie, oba te przypadki losowych wartości, dyskretnych bądź ciągłych, można zapisać jako wartość oczekiwana wyrażenia (x-x₀)(y-y₀), ale tylko dla dwóch zmiennych:

\operatorname {cov} (x,y)=E{\Big \{}(x-{\hat {x}})(y-{\hat {y}}){\Big \}}

(5.12)

Można powiedzieć, że kowariancja jest wartością oczekiwaną (4.13), gdy funkcją złożoną jest:

H(x,y)=(x-{\hat {x}})(y-{\hat {y}})\;

(5.13)

Kowariancja dwóch niezależnych wyników w doświadczeniu

Zdefiniujmy f(x) jako gęstość prawdopodobieństwa uzyskania wyniku x, a także g(x) jako gęstość prawdopodobieństwa uzyskania wyniku y, wówczas prawdopodobieństwo uzyskania tychże wyników dla dwóch niezależnych zdarzeń określa się wzorem (5.7).

Dla zmiennych niezależnych typu ciągłego można udowodnić z definicji jedynkowego momentu statystycznego zmiennej x lub y, czyli (3.10) względem ich wartości oczekiwanych ${\hat {x}}\;$ lub ${\hat {y}}\;$ , która jest zawsze równa zero, stąd dochodzimy do wniosku, że ta kowariancja dwóch zdarzeń w tym przypadku jest równa zero, zatem można by powiedzieć, że w takim razie te dwa pomiary są niezależne od siebie.

\operatorname {cov} (x,y)=\int \int (x-{\hat {x}})(y-{\hat {y}})h(x,y)dxdy=\int \int (x-{\hat {x}})(y-{\hat {y}})f(x)g(x)dxdy=\;

=\int (x-{\hat {x}})f(x)dx\int (y-{\hat {y}})g(y)dy=0\cdot 0=0\;

(5.14)

W ten sposób otrzymujemy, że dla dwóch niezależnych zdarzeń (uzyskania wyników) kowariancja jest równa zero, czyli ostatecznie:

\operatorname {cov} (x,y)=0\;

(5.15)

Wariancja kombinacji liniowej dwóch zmiennych

Wyznaczmy wariancję sumy kombinacji liczb x i y. Obliczenia przeprowadzimy wykorzystując ze wzorów skróconego mnożenia i z wartości oczekiwanych sumy zdarzeń (5.3) oraz definicji wariancji (3.14) i ostatecznie z definicji kowariancji dla dwóch zmiennych (5.12):

\sigma ^{2}(ax+by)=E\left({\Big (}(ax-by)-(a{\hat {x}}-b{\hat {y}}){\Big )}^{2}\right)\;=\;E\left({\Big (}a(x-{\hat {x}})+b(y-{\hat {y}}){\Big )}^{2}\right)=E{\big (}a^{2}(x-{\hat {x}})^{2}+b^{2}(y-{\hat {y}})+\;

-2ab(x-{\hat {x}})(y-{\hat {y}}){\big )}=a^{2}\sigma ^{2}(x)+b^{2}\sigma ^{2}(y)+2abE((x-{\hat {x}})(y-{\hat {y}}))=a^{2}\sigma ^{2}(x)+b^{2}\sigma ^{2}(y)+2ab\operatorname {conv} (x,y)\;

(5.16)

Wzór wynikający z obliczeń (5.16) możemy przepisać dla przejrzystości wykładu w formie:

\sigma ^{2}(ax+by)=a^{2}\sigma ^{2}(x)+b^{2}\sigma ^{2}(y)+2ab\operatorname {conv} (x,y)\;

(5.17)

Współczynnik korelacji

Definicja współczynnika korelacji wygląda jako iloraz kowariancji zmiennej x i y przez iloczyn odchyleń standardowych pomiarowych tych samych zmiennych:

\rho (x,y)={{\operatorname {cov} (x,y)} \over {\sigma (x)\sigma (y)}}

(5.18)

Obliczenia z użyciem współczynnika korelacji

Użyjemy zredukowanych zmiennych, która jest ilorazem odchylenia od wartości oczekiwanej ${\hat {x}}\;$ zmiennej x przez odchylenie standardowe tej samej zmiennej

u={{x-{\hat {x}}} \over \sigma (x)}\;

(5.19)

Z własności podstawienia (5.19) wnioskujemy, że wartość oczekiwana tej samej zmiennej jest taka jak udowodnimy, że jest równa zero, co nie powinno nas dziwić:

E(u)=E\left({{x-{\hat {x}}} \over {\sigma (x)}}\right)={{1} \over {\sigma (x)}}\left({\hat {x}}-{\hat {x}}\right)=0\;

(5.20)

Natomiast wariancja wartości zmiennej rozważanej zmiennej u, przy czym wykorzystując tożsamość (5.17), jest równa jeden, jak udowodnimy poniżej.

\sigma ^{2}(u)=\sigma ^{2}\left({{x-{\hat {x}}} \over {\sigma (x)}}\right)=\sigma ^{-2}(x){\Big (}\sigma ^{2}(x)+\sigma ^{2}({\hat {x}})-2\operatorname {cov} (x,{\hat {x}}){\Big )}=\sigma ^{-2}(x)\sigma ^{2}(x)=1\;

(5.21)

Powyżej skorzystaliśmy, że wariancja z wartości oczekiwanej jest równa zero, również kowariancja, w której jedna ze zmiennej jest wartością oczekiwaną również też jest równa zero. Korzystając z dowodu wariancji (5.21), a także z tożsamości (5.17) i na końcu z definicji współczynnika korelacji (5.18), wtedy można napisać, że wariancja sumy zmiennych u i v, którego definicje są według (5.19), można jak udowodnić, tą wielkość przedstawić wedle sposobu:

\sigma ^{2}(u+v)=\sigma (u)+\sigma (v)+2\rho (u,v)\sigma (u)\sigma (v)=(1+1+2\rho (u,v)\cdot 1\cdot 1=2(1+\rho (u,v))\Rightarrow \sigma ^{2}(u+v)=2(1+\rho (u,v))\;

(5.22)

W przypadku wariancji różnicy tychże argumentów, co poprzednio możemy otrzymać wzór bardzo podobny do tożsamości (5.22), ale trochę w innej postaci:

\sigma ^{2}(u-v)=2(1-\rho (u,v))\;

(5.23)

Ponieważ dowolna wariancją jest funkcją nieujemną. Z dwóch tożsamości (5.22) i (5.23) otrzymujemy własność dla współczynnika korelacji:

-1\leq \rho (u,v)\leq 1\;

(5.24)

Można wykazać, że współczynnika korelacji w zmiennych u i v zdefiniowanych w punkcie (5.19) jest równa współczynnikowi korelacji, ale w zmiennych x i y, a oto dowód tej tożsamości

\rho (u,v)={\operatorname {cov} (u,v) \over {\sigma (u)\sigma (v)}}=\operatorname {cov} (u,v)=\operatorname {cov} \left({{{x-{\hat {x}}} \over {\sigma (x)}}{{y-{\hat {y}}} \over {\sigma (y)}}}\right)={{\operatorname {cov} (x,y)} \over {\sigma (x)\sigma (y)}}=\rho (x,y)

(5.25)

Dla zmiennych zależnych według pewnej funkcji y=f(x), ale tym razem określmy, że te zmienne zależą w sposób liniowy wedle:

y=ax+b\;

(5.26)

Zatem na podstawie zależności (5.26) możemy policzyć współczynnik kowariancji wedle schematu:

\rho (x,y)\sigma (x)\sigma (y)=\operatorname {cov} (x,y)=E{\Big [}((ax-b)-(a{\hat {x}}-b))(x-{\hat {x}}){\Big ]}=E\left[a(x-x_{0})^{2}\right]=aE\left((x-{\hat {x}})^{2}\right)=a\sigma ^{2}(x)\;

(5.27)

Również otrzymujemy, że wariancja zmiennej y, która się zmienia według funkcji liniowej (5.26), jest ona określona według wyprowadzenia:

\sigma ^{2}(y)=E[(y-{\hat {y}})^{2}]=E\left[\left((ax+b)-(a{\hat {x}}+b)\right)^{2}\right]=E\left[\left(a(x-{\hat {x}})\right)^{2}\right]=a^{2}E[(x-{\hat {x}})^{2}]=a^{2}\sigma ^{2}(x)\;

(5.28)

Z obliczeń (5.28) możemy wyznaczyć odchylenie standardowe zmiennej y, biorąc pierwiastek obu stron wspomnianej tożsamości:

\sigma (y)=|a|\sigma (x)\;

(5.29)

Zatem funkcja korelacji, dla y zależnego liniowo od x, według (5.27) zależy od odchylenia standardowego zmiennej y (5.29) oraz z definicji odchylenia standardowego zmiennej x, wtedy dostajemy, że liczona wspomniana wielkość jest:

\rho (x,y)={{\operatorname {cov} (x,y)} \over {\sigma (x)\sigma (y)}}={{a\sigma ^{2}} \over {\sigma |a|\sigma }}={{a} \over {|a|}}={\begin{cases}\displaystyle 1&{\mbox{ dla }}a>0\\\displaystyle -1&{\mbox{ dla }}a<0\end{cases}}

(5.30)

Dodatkowo mamy ρ(x,y)=0, gdy a=0.

Czyli gdy ρ(x,y)=1, to funkcja liniowa (5.26) jest rosnąca, tzn. a>0, ale następnie gdy zachodzi ρ(x,y)=-1 ta sama funkcja liniowa jest teraz malejąca, bo wtedy mamy a<0. Natomiast, gdy jeszcze zachodzi dla współczynnika korelacji ρ(x,y)=0, wtedy ta nasza funkcja liniowa jest funkcją stałą, bo a=0.

Transformacje liniowe i ortogonalne

Wiemy, że każdą funkcję można przetransformować pewnymi transformacjami liniowymi wokół pewnego punktu, a więc zakładamy, że mamy ${\vec {y}}$ , która jest wielkością wektorową, którą można przetransformować pewnymi funkcjami liniowymi względem argumentu ${\vec {y}}\;$ , według wzoru poniżej:

{\begin{aligned}y_{1}&=a_{1}+t_{11}x_{1}+t_{12}x_{2}+...+t_{1n}x_{n}\\y_{2}&=a_{2}+t_{21}x_{1}+t_{22}x_{2}+...+t_{2n}x_{n}\\&\ldots \\y_{n}&=a_{n}+t_{n1}x_{1}+t_{n2}x_{2}+...+t_{nn}x_{n}\end{aligned}}

(5.31)

Można udowodnić z transformacji (5.31), że współczynniki t_ij można zapisać jako pochodne cząstkowe zmiennej y_i względem argumentu x_j:

t_{ij}={{\partial y_{i}} \over {\partial x_{j}}}

(5.32)

Macierzowa postać wzoru na zmienną y_i względem argumentu x_j, lub ogólniej przy wektorze ${\vec {y}}$ względem wektora argumentu ${\vec {x}}$ , przedstawia się wedle:

\mathbf {y} ={\begin{bmatrix}t_{11}&&t_{12}&&\cdots &&t_{1n}\\t_{21}&&t_{22}&&...&&t_{1n}\\\cdots &&\cdots &&\ddots &&\vdots \\t_{n1}&&t_{n2}&&\cdots &&t_{nn}\end{bmatrix}}\mathbf {x} +\mathbf {a}

(5.33)

Powyższy zapis można przedstawić w bardziej uproszczony sposób macierzowy, przy czym używając macierzy T, którego elementy są zdefiniowane w punkcie (5.32):

\mathbf {y} =T\mathbf {x} +\mathbf {a}

(5.34)

Aby uzyskać wartość oczekiwaną zmiennej y, korzystamy z wzoru (5.34) zastępując wszystkie zmienne w wspomnianym wzorze ich wartościami oczekiwanymi, względem wartości oczekiwanej wektora x i "y", ostatecznie otrzymując:

{\hat {\mathbf {y} }}=T{\hat {\mathbf {x} }}+\mathbf {a}

(5.35)

Ogólnie, gdy chcemy policzyć kowariancję zmiennej x i y, tzn. czy oba zdarzenia są zależne od siebie, wtedy należy wykorzystać ze wzoru na macierzową postać kowariancji napisanej wedle tożsamości (4.34). Wzory (5.34) i (5.35) podstawiamy do wzoru na kowariancję, wtedy dostajemy wyrażenie na kowariancję zmiennej y.

C_{y}=E\left((\mathbf {y} -{\hat {\mathbf {y} }})(\mathbf {y} -{\hat {\mathbf {y} }})^{T}\right)=E\left((T\mathbf {x} +\mathbf {a} -T{\hat {\mathbf {x} }}-\mathbf {a} )(T\mathbf {x} -\mathbf {a} -T{\hat {\mathbf {x} }}-\mathbf {a} )^{T}\right)=E\left(T(\mathbf {x} -{\hat {\mathbf {x} }})(\mathbf {x} -{\hat {\mathbf {x} }})^{T}T^{T}\right)=\;

=TE\left((\mathbf {x} -{\hat {\mathbf {x} }})(\mathbf {x} -{\hat {\mathbf {x} }})^{T}\right)T^{T}\;

(5.36)

Na podstawie definicji kowariancji zmiennej x, czyli (4.34), możemy zapisać jak zależy kowariancja zmiennej y względem kowariancji zmienne x, gdy macierz transformacji w przekształceniu (5.33) jest T:

C_{y}=TC_{x}T^{T}\;

(5.37)

Jeśli mamy n zmiennych, które nie zależą od siebie, to wyrazy pozadiagonalne są równe od zero, czyli conv(x,y)=0, ale posiada tylko wyrazy diagonalne, które w ogólności są różne od zera i są równe wariancji poszczególnych zmiennych losowych.

Wiemy, jakie są elementy macierzy transformacji z $\mathbf {x} \;$ do $\mathbf {y} \;$ według wzoru (5.31), którego elementy są policzone według (5.32), stąd kowariancja wyniku wykorzystując przy tym przybliżenie wedle wzoru (5.31), którą jest funkcja liniowa wokół pewnego punktu względem małego wychylenia od tego elementu, zatem wariacja zmiennej y_i przy zerowaniu się elementów kowariancji (elementów macierzy kowariancji pozadiagnoalnych), jeżeli mamy zmienne niezależne, jest napisana:

\sigma (y_{i})={\sqrt {\sum _{j=1}^{n}{\left({{\partial y_{i}} \over {\partial x_{j}}}\right)}^{2}{(\Delta x_{j})}^{2}}}

(5.38)

W doświadczeniach fizycznych przyjmuje się zwykle, że pierwiastek wariancji jest to odchylenie wyniku pomiarowego:

\sigma (y_{i})=\Delta y_{i}\;

(5.39)

Jest to niepewność pomiarowa wyniku pomiaru zmiennej y_i, obliczonej przez eksperymentatora na podstawie wyników doświadczeń.