Skip to content

Квадратичный дискриминантный анализ #6

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
wants to merge 1 commit into
base: master
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
95 changes: 95 additions & 0 deletions main(8).tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,95 @@
\section{Квадратичный дискриминантный анализ}

Имеется задача классификации, задана выборкв ($x_{i}$)$_{i=1}^l$ и классы $y_j$ $\in$ Y, j = 1, ..., m.

Кратко, квадратичный дискриминантный анализ — это решение задачи классификации при помощи классических классификаторов, которые имеют линейную или квадратичную поверхность принятия решений. Квадратичный дискриминантный анализ является частным случаем решения задачи классификации при помощи оптимального байесовского классификатора.

Считая известной идею байесовских классификаторов (которая, кратко, заключается в оценке распределения вероятностей P(y) попадания произвольного фиксированного объекта x в классы y $\in$ Y посредством двух шагов: оценке плотности распределения каждого класса y и использовании этой плотности для оценки вероятности попадания в класс при помощи формулы Байеса), напомним формулировку теоремы об оптимальном байесовском классификаторе:

\textbf{Теорема} (об оптимальном байесовском классификаторе). Пусть P(y) (априорная вероятность того, что произвольный объект лежит в классе y) и $p(x|y)$ (плотность распределения класса y) известны, $\lambda _{y} \geq 0$ - потеря от ошибки на объекте класса $y \in Y$. Тогда минимум среднего риска \[ R(a) = \sum_{y \in Y} \lambda _{y}\int [a(x) \neq y]p(x|y)\,dx \] достигается оптимальным байесовским классификатором: \[\arg \max_{y \in Y}\lambda_{y}P(y)p(x|y)\]

Введём теперь гипотезу: каждый класс $y \in Y$ имеет n-мерную (то есть невырожденную в n-мерном пространстве) гауссовскую плотность с центром $\mu_{y}$ и ковариационной матрицей $\Sigma_{y}$. Напомним, что тогда \[p(x|y) = \frac{\exp(-\frac{1}{2}(x-\mu_y)^{T}\Sigma_{y}^{-1}(x-\mu_y))}{\sqrt{(2\pi)^{n}\det\Sigma_{y}}}\]

В этом случае верна следующая

\textbf{Теорема}.\newline1.Разделяющая поверхность, определяемая уравнением \[\lambda_y p(x|y) P(y) = \lambda_s p(x|s) P(s)\] квадратична (линейный случай считаем частным случаем квадратичного, соответствующий нулевым коэффициентам при слагаемых второй степени) для всех $y, s \in Y$ \newline
2. Если $\Sigma_y = \Sigma_s$, то поверхность вырождается в линейную

Так как для нас теперь играет роль не только вероятность ошибки, но и её цена, логично в качестве функции правдоподобия L взять $ L = \lambda_y p(x|y) P(y)$ - то самое выражение из теоремы выше. Тогда получаемый следующий подстановочный алгоритм - квадратичный дискриминант:
\[a(x) = \arg \max_{y \in Y} \ln L(x, y) = \arg \max_{y \in Y} (\ln \lambda_{y}P(y) - \frac{1}{2}(x-\hat\mu_y)^{T}\hat\Sigma_{y}^{-1}(x-\hat\mu_y) - \frac{1}{2}\ln \det\hat\Sigma_y),\]

где $\hat\mu_y, \hat\Sigma_y$ - выборочные среднее и ковариация соответственно

В случае $\det \Sigma = 0$ производим регуляризацию: $\Sigma \longrightarrow \Sigma + \tau/ I_{n}$

\textbf{Задачи}

\textbf{Задача 1}. В случае решения задачи классификации на два класса через квадратичный дискриминант для невырожденных гауссовских распределений с ненулевыми штрафами исследовать, когда области будут неограничены (это интересно, так как при наличии ограниченной области в любом направлении хотя бы по одну сторону от этой области будут находиться объекты, которые будут отнесены алгоритмом к внешней, неограниченной (все области не могут быть ограичены) области, но которые мы с очевидностью интуитивно хотели бы отнести к внутренней)

\textbf{Решение}

Далее под $\Sigma_y, \Sigma_s$ будем иметь в виду обратные к ним для упрощения записи. На существенное для нас - симметричность и положительную определённость - это не повлияет.

Уравнение разделяющей поверхности имеет вид \[\lambda_y p(x|y) P(y) = \lambda_s p(x|s) P(s)\] Преобразовывая, можно свести задачу к виду \[(x-\mu_{y})^{T}\Sigma_{y}(x-\mu) - (x-\mu_{s})^{T}\Sigma_{s}(x-\mu_{s}) = c,\] где c - некоторая вещественная константа.

Как известно, ковариационные матрицы (в вещественном случае) симметричны и неотрицательно определены. В силу условия задачи, они ещё и положительно определены. Заметим, что наше полученное выражение имеет вид разности двух квадратичных форм на двух различных векторах. По теореме о приведении двух квадратичных форм к диагональному виду, можно перейти в базис, в котором $\Sigma_{s} = I_{n}, \Sigma_{y} = diag(\lambda_{1}, ..., \lambda_{n})$, где $\lambda_{i}$ - положительные вещественные числа, являющиеся корнями обобщённого характеристического уравнения $\det(\Sigma_{y} - \lambda\Sigma_{s}) = 0$

Без ограничения общности, можно сдвинуть первое матожидание в ноль, то есть сделать замену $\mu_y \longrightarrow 0, \mu_{s} \longrightarrow \mu_{s} - \mu_{y}$. Тогда исходное уравнение запишется в виде \[\sum_{i=1}^{n}(x_{i}^2 - \lambda_{i}(x_{i} - (\mu_{s}^{(i)} - \mu_{y}^{(i)}))^2) = \sum_{i=1}^{n}(x_{i}^2 - \lambda_{i}(x_{i} - \nu_{i})^2) = \sum_{i=1}^{n}((1-\lambda_i)x_{i}^2 + 2\lambda_{i}x_{i}\nu_{i} - \lambda_{i}\nu_{i}^2) = c\]

Рзделим исходное пространство на три $L = L_0 \oplus L_+ \oplus L_-$, в зависимости от того, равно ли, меньше ли или больше $\lambda$ единицы соответственно.

Если $\dim L_0 > 0$, то на этом подпространстве ковариации совпдают $\Longrightarrow$ разделяющая поверхность линейная, поэтому на этом подпространстве обе области неограничены $\Longrightarrow$ неограничены и на всём пространстве.

Если же $\dim L_0 = 0$, то несложно убедиться, что обе области будут неограничены тогда и только тогда, когда $\dim L_- > 0$ и $\dim L_+ > 0$ (в противном случае одна из областей будет либо ограничена эллипсоидом, либо просто будет пустым множеством.


\textbf{Задача 2}. Известно, что если ковариационные матрицы у двух классов равны, то их разделяющая поверхность линейна (является гиперплоскостью). Может ли быть такое, что ковариационные матрицы не совпадают, но разделяющая поверхность всё равно линейна?

\textbf{Решение}

Ответ: да.

Работаем с двухпризнаковым пространством.

Ясно, что подбором штрафных коэффициентов можно добиться того, чтобы уравнение разделяющей поверхности имело вид \[(x-\mu_{y})^{T}\Sigma_{y}(x-\mu) = (x-\mu_{s})^{T}\Sigma_{s}(x-\mu_{s})\]

Зададим y и s следующим образом: \[\begin{equation*}
\mu_y = \begin{pmatrix}
1\\
0
\end{pmatrix},
\Sigma_y = \frac{1}{5}
\begin{pmatrix}
6 & -2\\
-2 & 9
\end{pmatrix}
\end{equation*}\]
\[\begin{equation*}
\mu_s = \begin{pmatrix}
-1\\
0
\end{pmatrix},
\Sigma_s = \frac{1}{5}
\begin{pmatrix}
6 & 2\\
2 & 9
\end{pmatrix}
\end{equation*}\]

Тогда исходное уравнение сводится к уравнению \left(9x-9+2y\right)\left(x-1\right) + \left(2x-2+6y\right)y - \left(9x-2y+9\right)\left(x+1\right) - \left(-2x-2+6y\right)y = 0

Раскрывая скобки, получаем уравнение прямой $x = 0$

Давая интерпретацию конкретных величин из решения, можно сказать, что мы пришли к таким распределения, подбирая такие распределения, линии уровня которых (эллипсы) вытянуты, повёрнуты под некоторым углом к оси $y$ и симметричны относительно неё. Тогда интуитивно очевидно, что равенство плотностей будет как раз на оси $y$, то есть на прямой $x = 0$, к чему мы и пришли.



\textbf{Задача 3}. Проверить корректность регуляризации, приведённой в конце теоретической части. Более формально, пусть у нас заданы матрица $\Sigma$ такая, что $\det \Sigma = 0$, и вещественное число $\varepsilon > 0$. Показать, что существует $\tau > 0$ такой, что $\det(\Sigma + \tau I_{n}) > \varepsilon$

\textbf{Решение}

Так как $\Sigma$ - ковариационная матрица, она симметричная и неотрицательно определённая, следовательно, существует базис, в котором она имеет диагональный вид: $\Sigma = diag (\lambda_1, ..., \lambda_n)$ ($\lambda_i \in \mathbb{R}, \lambda_i \geq 0$). Так как в любом базисе оператор, записываемый в старом базисе как $\tau I_n$ - просто домножение на $\tau$, то в новом базисе матрица оператора $\tau I_n$ останется прежней.

Тогда $\det (\Sigma + \tau I_{n}) = \det(diag(\lambda_1 + \tau, ..., \lambda_n + \tau)) = \prod_{i = 1}^{n}(\lambda_i + \tau) \geq \tau^n$.

Поэтому для выполнения условия задачи достаточно взять любое $\tau \geq \varepsilon^{\frac{1}{n}}$, то есть это всегда возможно, что и требовалось доказать.