Statystyka matematyczna/Twierdzenie o rozkładzie normalnym wielowymiarowym

Statystyka matematyczna

Twierdzenie o rozkładzie normalnym wielowymiarowym

Licencja
Autor: Mirosław Makowiecki Absolwent UMCS Fizyki Komputerowej Uniwersytetu Marii Curie-Skłodowskiej w Lublinie Email: miroslaw(kropka)makowiecki(małpa)gmail(kropka)pl Dotyczy: książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami. Użytkownika książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami nie zwalnia z odpowiedzialności prawnoautorskiej nieprzeczytanie warunków licencjonowania. Umowa prawna: Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń. Autor tej książki dołożył wszelką staranność, aby informacje zawarte w książce były poprawne i najwyższej jakości, jednakże nie udzielana jest żadna gwarancja, czy też rękojma. Autor nie jest odpowiedzialny za wykorzystanie informacji zawarte w książce, nawet jeśli wywołaby jakąś szkodę, straty w zyskach, zastoju w prowadzeniu firmy, przedsiębiorstwa lub spółki bądź utraty informacji, niezależnie czy autor (a nawet Wikibooks) został powiadomiony o możliwości wystąpienie szkód. Informacje zawarte w książce mogą być wykorzystane tylko na własną odpowiedzialność.

Wykaz modułów w książce
1Średnie w matematyce statystycznej 2Wprowadzenie do rozkładów zmiennych losowych 3Momenty statystyczne ciągłe i dyskretne 4Momenty statystyczne dla funkcji złożonej 5Momenty statystyczne w działaniu 6Pobieranie próby 7Metoda największej wiarygodności 8Funkcje charakterystyczne 9Ważniejsze rozkłady statystyczne 10Twierdzenie o rozkładzie Bernoulliego 11Twierdzenie o rozkładzie wielomianowym 12Twierdzenie o rozkładzie normalnym jednowymiarowym 13Twierdzenie o rozkładzie normalnym wielowymiarowym 14Centralne twierdzenie graniczne 15Twierdzenie o rozkładzie χ² 16Twierdzenie o rozkładzie hipergeometrycznym 17Twierdzenie o rozkładzie Poissona 18Błędy pomiarowe w fizyce 19Metoda najmniejszych kwadratów

Spis treści
1Wyprowadzenie twierdzenia o rozkładzie normalnym wielowymiarowym 2Wyznaczenie elementów macierzy B, wartość dokładna a wartość oczekiwana 2.1Dowód równości wartości oczekiwanej i dokładnej 2.2Definicja macierzy B poprzez macierz kowariancji

Następny rozdział: Centralne twierdzenie graniczne. Poprzedni rozdział: Twierdzenie o rozkładzie normalnym jednowymiarowym.

Podręcznik: Statystyka matematyczna.

Twierdzenie o rozkładzie normalnym wielowymiarowym - jest to uogólnienie twierdzenia o rozkładzie normalnym jednej zmiennej. Ono określa, jeśli mamy n-wymiarowy wektor pomiaru: ${\vec {x}}$ oraz n-wymiarowy wektor wartości dokładnej: ${\vec {x}}_{0}$ , to jaka jest gęstość prawdopodobieństwo uzyskania n-wymiarowego wektora dla pomiarów wokół wartości dokładnej.

Wyprowadzenie twierdzenia o rozkładzie normalnym wielowymiarowym

Aby wprowadzić definicję gęstości prawdopodobieństwa uzyskania n wektorów, które symbolizują pomiary uzyskane w wyniku doświadczenia, a każde taki wektor z n jest m wymiarowy, które przedstawiają m pomiarów, różnych wielkości fizycznych uzyskanych jednocześnie. Każde takie m wielkości posiadają m wartości dokładnych. Mając wzór (12.7), w nim można logarytm naturalny z liczby trafień w m-wymiarowy punkt przedstawić jako funkcję "g" z minusem, którego argumentem jest m-wymiarowy wektor przedstawiający n jednoczesnych pomiarów różnych wielkości fizycznych, dzięki której chcemy wyznaczyć m wartości dokładnych jednocześnie:

\ln {{k} \over {n}}=-g(\mathbf {x} ,\mathbf {x_{0}} )

(13.1)

gdzie m pomiarów jednoczesnych różnych wielkości fizycznych $\mathbf {x} \;$ i m wartości dokładnych $\mathbf {x} _{0};$ przedstawiamy:

\mathbf {x} ={\begin{bmatrix}x_{1}\\\vdots \\x_{m}\end{bmatrix}}

(13.2)

\mathbf {x} _{0}={\begin{bmatrix}x_{01}\\\vdots \\x_{0m}\end{bmatrix}}

(13.3)

Rozwińmy funkcję $g(\mathbf {x} ,\mathbf {x_{0}} )$ , którego argumentem jest m jednoczesnych pomiarów pomiarów i m wartości dokładnych, w szereg Taylora względem względem m wartości dokładnych, które są zapisane w postaci wektora (13.3) pomijając wyrazy trzeciego rzędu i wyższych w tym rozważanym szeregu:

g(\mathbf {x} ,\mathbf {x_{0}} )\simeq g(\mathbf {x_{0}} ,\mathbf {x_{0}} )+\sum _{i=1}^{m}\left({{\partial g} \over {\partial x}}\right)_{x_{0}}({x_{i}-x_{i0}})+{1 \over 2}\sum _{l=1}^{m}\sum _{p=1}^{m}\left({{\partial ^{2}g} \over {\partial x_{l}\partial x_{p}}}\right)_{x_{0}}{(x_{l}-x_{0l})(x_{p}-x_{0p})}

(13.4)

Zbudujmy macierze B i A występujące w przedstawieniu przybliżonych funkcji g , czyli według (13.4), gdzie macierz A jest wektorem poziomym pierwszych pochodnych cząstkowych względem wartości m pomiarów jednoczesnych x_i, a macierz B jest macierzą drugich pochodnych cząstkowych tej samej funkcji co poprzednio względem tych samych pomiarów:

A=\left[{{\partial g} \over {\partial x_{1}}},{{\partial g} \over {\partial x_{1}}},...,{{\partial g} \over {\partial x_{n}}}\right]

(13.5)

B={\begin{bmatrix}\left({{\partial ^{2}g} \over {\partial x_{11}^{2}}}\right)_{\mathbf {x_{0}} }&\left({{\partial ^{2}g} \over {\partial x_{1}\partial x_{2}}}\right)_{\mathbf {x_{0}} }&\cdots \left({{\partial ^{2}g} \over {\partial x_{1}\partial x_{1n}}}\right)_{\mathbf {x_{0}} }\\\left({{\partial ^{2}g} \over {\partial x_{2}\partial x_{1}}}\right)_{\mathbf {x_{0}} }&\left({{\partial ^{2}g} \over {\partial x_{22}^{2}}}\right)_{\mathbf {x_{0}} }&\cdots \left({{\partial ^{2}g} \over {\partial x_{1}\partial x_{2n}}}\right)_{\mathbf {x_{0}} }\\\cdots &\cdots &\cdots \cdots \\\left({{\partial ^{2}g} \over {\partial x_{n1}}}\right)_{\mathbf {x_{0}} }&\left({{\partial ^{2}g} \over {\partial x_{n}\partial x_{2}}}\right)_{\mathbf {x_{0}} }&\cdots \left({{\partial ^{2}g} \over {\partial x_{nn}}}\right)_{\mathbf {x_{0}} }\end{bmatrix}}

(13.6)

Na podstawie przedstawienia macierz A (13.5) i macierzy B (13.6) i definicji wektora m jednoczesnych pomiarów (13.3) i definicji wektora m wartości dokładnych tychże wspomnianych pomiarów (13.3), funkcję g możemy napisać w sposób przybliżony wedle schematu:

g(\mathbf {x} )=g(\mathbf {x_{0}} )+A(\mathbf {x} -\mathbf {x} _{0})+{1 \over 2}(\mathbf {x} -\mathbf {x_{0}} )^{T}B(\mathbf {x} -\mathbf {x_{0}} )

(13.7)

Wedle wzoru (13.1) i przedstawienia funkcji g w szereg Taylora, który wektorowo zapisujemy wedle schematu (13.7), zatem na podstawie wzoru (12.8) dla n pomiarów m wartości prawdopodobieństwo tego zdarzenia zapisujemy wedle:

P(\mathbf {x} _{n})=e^{-\sum _{p=1}^{n}\left[g(\mathbf {x_{0}} )+A(\mathbf {x} _{p}-\mathbf {x} _{0})+{1 \over 2}(\mathbf {x} _{p}-\mathbf {x_{0}} )^{T}B(\mathbf {x} -\mathbf {x_{0}} )\right]}

(13.8)

Prawdpodobieństwo uzyskania n pomiarów m różnych wielkości fizycznych (13.8) powinno mieć największe prawdopodobieństwo, gdy we wspomnianym wzorze podstawimy, za każdy pomiar z n doświadczeń podstawimy jego wartość dokładną, w tym celu należy policzyć pierwszą pochodną względem jednego pomiaru z "n" m-wymiarowego wektora jednoczesnych pomiarów, który po dokonaniu wspomnianego podstawienia funkcją prawdopodobieństwa powinna przyjmować wartość ekstremalną, zatem dochodzimy do wniosku, że ta pierwsza pochodna powinna przyjmować wartość zero:

{{\partial P(\mathbf {x} )} \over {\partial \mathbf {x} _{r}}}=e^{-\sum _{p=1}^{n}\left[g(\mathbf {x_{0}} )+A(\mathbf {x} _{p}-\mathbf {x} _{0})+{1 \over 2}(\mathbf {x} _{p}-\mathbf {x_{0}} )^{T}B(\mathbf {x} -\mathbf {x_{0}} )\right]}\cdot \left[A+(\mathbf {x} _{r}-\mathbf {x} _{0})^{T}B+B(\mathbf {x} _{r}-\mathbf {x} _{0})\right]

(13.9)

Pierwsza pochodna (13.9) musi przyjmować wartość zerową, gdy za m-wymiarowe wyniki pomiarów $\mathbf {x} _{r}\;$ podstawimy jego wartości dokładne, zatem na podstawie tychże rozważań dostajemy we wspomnianym wzorze, że wektor poziomy A przyjmuje wartość zero w punkcie $\mathbf {x} _{r}=\mathbf {x} _{0}\;$ . Wedle tychże rozważań prawdopodobieństwo uzyskania n m-wymiarowych pomiarów jest wyrażone przez:

P(\mathbf {x} _{n})=Ce^{-{{1} \over {2}}\sum _{p=1}^{n}(\mathbf {x} _{p}-\mathbf {x} _{0})^{T}B(\mathbf {x} _{p}-\mathbf {x} _{0})}

(13.10)

Dla pojedynczego pomiaru rozkład normalny prawdopodobieństwo uzyskania wektora jednoczesnych pomiarów, przy skorzystaniu ze wzoru (13.10), który mówi coś o uzyskaniu m pomiarów jednoczesnych różnych wartości pomiarów, jest pisana:

P(\mathbf {x} )=Ce^{-{{1} \over {2}}(\mathbf {x} -\mathbf {x} _{0})^{T}B(\mathbf {x} -\mathbf {x} _{0})}

(13.11)

Na podstawie (13.1) i (13.7) wzór (13.11) po podstawieniu za A wektora zerowego na podstawie powyższych rozważań przedstawia liczbę tych samych wektorów wyników pomiarowych z n niejednoczesnych pomiarów wektora wyników pomiarowych podzielonych przez n. Powyższy wzór jest spełniony, gdy mamy l poziomów, w którym te m-wymiarowe pomiary mogą posiadać składowe o pewnych wartościach. Gdy mamy m-wymiarową zmienne losowe ciągłe, to w tym przypadku gęstość prawdopodobieństwa jest opisywana tym samym wzorem co w przypadku dyskretnym, czyli równaniem (13.11).

Wyznaczenie elementów macierzy B, wartość dokładna a wartość oczekiwana

Macierz (13.6) na podstawie przemienności różniczkowania jest macierzą przemienną względem dowolnego punktu, w którym ta macierz jest obliczona, zatem na podstawie tego można powiedzieć:

B^{T}=B\;

(13.12)

Dowód równości wartości oczekiwanej i dokładnej

Następnym krokiem jest policzenie wartości oczekiwanej funkcji wektorowej $\mathbf {x} -{\hat {\mathbf {x} }}\;$ , względem funkcji gęstości prawdopodobieństwa $P(\mathbf {x} )\;$ przy m-wymiarowej przestrzeni. Funkcja gęstości prawdopodobieństwa (13.11) jest funkcją parzystą względem argumentu $\mathbf {x} -\mathbf {x} _{0}\;$ , to wartość średnia względem wspomnianej funkcji jest równa zero ze względu na jej nieparzystość, co poniżej wykorzystano tą własność:

0=\int (\mathbf {x} -\mathbf {x} _{0})P(\mathbf {x} )d^{n}\mathbf {x} \Rightarrow \int \limits _{-\infty }^{\infty }\cdot \cdot \cdot \int \limits _{-\infty }^{\infty }(\mathbf {x} -\mathbf {x} _{0})P(\mathbf {x} )dx_{1}dx_{2}...dx_{m}=0

(13.13)

Na podstawie powyższych rozważań, które zawierają obliczenia (13.13), dochodzimy do wniosku, że m-wymiarowy wektor $\mathbf {x} _{0}\;$ jest wartością oczekiwaną ${\hat {\mathbf {x} }}\;$ zmiennej $\mathbf {x} \;$ , bo jedynkowy moment μ₁ jest równy zero, tak jak powinno zachodzić zawsze dla tego obiektu statystycznego.

Definicja macierzy B poprzez macierz kowariancji

Korzystając z definicji funkcji prawdopodobieństwa dla pojedynczego m-wymiarowego pomiaru (13.11), to wzór na wartość oczekiwaną (13.13) możemy napisać:

\int \limits _{-\infty }^{\infty }\cdot \cdot \cdot \int \limits _{-\infty }^{\infty }(\mathbf {x} -\mathbf {x} _{0})Ce^{-{{1} \over {2}}(\mathbf {x} -\mathbf {x} _{0})^{T}B(\mathbf {x} -\mathbf {x} _{0})}dx_{1}dx_{2}dx_{3}...dx_{m}=0\;

(13.14)

Zróżniczkujmy obie strony równania (13.14) względem wektora wartości dokładnej, która jest wektorem wartości najprawdopodobnych (oczekiwanych) $\mathbf {x} _{0}$ , oczywiste jest, że po tej operacji otrzymujemy bardziej skomplikowaną tożsamość, z którego będziemy wyprowadzać macierz B:

\int _{-\infty }^{\infty }...\int _{-\infty }^{\infty }{\Bigg \{}-I+\left[(\mathbf {x} -\mathbf {x} _{0}){{1} \over {2}}(-1)(\mathbf {x} -\mathbf {x} _{0})^{T}B^{T}+{{1} \over {2}}(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})^{T}B(-1)\right]{\Bigg \}}Ce^{-{{1} \over {2}}(\mathbf {x} -\mathbf {x} _{0})^{T}B(\mathbf {x} -\mathbf {x} _{0})}\cdot \;

\cdot dx_{1}dx_{2}dx_{3}...dx_{m}=0

(13.15)

Korzystając z symetryczności macierzy napisanej w punkcie (13.12) i omówionej dlaczego ta jest, to tożsamość napisana wedle (13.15) przyjmuje postać bardziej uproszczoną postać:

\int _{-\infty }^{\infty }...\int _{-\infty }^{\infty }\left[-I+(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})^{T}B\right]Ce^{-{{1} \over {2}}(\mathbf {x} -\mathbf {x} _{0})^{T}B(\mathbf {x} -\mathbf {x} _{0})}dx_{1}dx_{2}dx_{3}....dx_{m}=0

(13.16)

Znów korzystamy z definicji funkcji prawdopodobieństwa (13.11) dla pojedynczego pomiaru, zatem możemy wyrazić tożsamość (13.16) w bardziej prostej postaci:

\int _{-\infty }^{\infty }...\int _{-\infty }^{\infty }\left[-I+(\mathbf {x} -\mathbf {x} )(\mathbf {x} -\mathbf {x} _{0})^{T}B\right]P(\mathbf {x} )dx_{1}dx_{2}dx_{3}...dx_{m}=0

(13.17)

Wykorzystujemy definicję normowania funkcji gęstości prawdopodobieństwa (2.54), która jest zapisana przy pomocy m-wymiarowej całki gęstości prawdopodobieństwa względem infinitezymalnej objętości należącej do tej przestrzeni przy całkowaniu po wszystkich punktach należących do tej przestrzeni:

\int _{-\infty }^{\infty }...\int _{-\infty }^{\infty }P(\mathbf {x} )d^{m}\mathbf {x} =1\;

(13.18)

Korzystajmy ze wzoru na wartość oczekiwaną pewnej funkcji według wzoru (4.21) przy tutaj panującej gęstości funkcji prawdopodobieństwa (13.11), wtedy można wartość oczekiwaną uzyskania m-wymiarowego wektora jednoczesnych pomiarów napisać sposobem:

\int _{-\infty }^{\infty }...\int _{-\infty }^{\infty }(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})^{T}P(\mathbf {x} )dx_{1}dx_{2}dx_{3}...dx_{m}=E\left[(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})\right]

(13.19)

Wykorzystując tożsamość (13.19) i warunek normowania gęstości funkcji prawdopodobieństwa względem m-wymiarowej przestrzeni (13.18), wtedy wyrażenie (13.17) można zapisać wedle równoważnej do poprzedniego wzoru w postaci:

-I+E\left[(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})\right]B=0\Rightarrow I=E\left[(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})^{T}\right]B\;

(13.20)

Z końcowego równania wynikowego (13.20) wyznaczmy macierz B, korzystając przy tym z wiadomości o macierzach z algebry:

B^{-1}=E\left[(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})^{T}\right]

(13.21)

Widzimy, że macierz B^-1 jest macierzą kowariancji zdefiniowanej w punkcie według definicji (4.34) przy jego dowodzie przeprowadzonego powyżej:

C=E\left[(\mathbf {x} -\mathbf {x} _{0})(\mathbf {x} -\mathbf {x} _{0})^{T}\right]=B^{-1}\Rightarrow B=C^{-1}

(13.22)

Na podstawie tych rozważań końcowych (13.22) macierz B jest odwrotnością macierzy kowariancji C.