From df6b83f10ec97182932ec2271bd88146da239e6d Mon Sep 17 00:00:00 2001 From: dtyhhfgf Date: Tue, 10 Dec 2024 03:08:27 +0300 Subject: [PATCH] Add files via upload MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Фатеев Илья, Б05-104 --- main(8).tex | 95 +++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 95 insertions(+) create mode 100644 main(8).tex diff --git a/main(8).tex b/main(8).tex new file mode 100644 index 0000000..189b144 --- /dev/null +++ b/main(8).tex @@ -0,0 +1,95 @@ +\section{Квадратичный дискриминантный анализ} + +Имеется задача классификации, задана выборкв ($x_{i}$)$_{i=1}^l$ и классы $y_j$ $\in$ Y, j = 1, ..., m. + +Кратко, квадратичный дискриминантный анализ — это решение задачи классификации при помощи классических классификаторов, которые имеют линейную или квадратичную поверхность принятия решений. Квадратичный дискриминантный анализ является частным случаем решения задачи классификации при помощи оптимального байесовского классификатора. + +Считая известной идею байесовских классификаторов (которая, кратко, заключается в оценке распределения вероятностей P(y) попадания произвольного фиксированного объекта x в классы y $\in$ Y посредством двух шагов: оценке плотности распределения каждого класса y и использовании этой плотности для оценки вероятности попадания в класс при помощи формулы Байеса), напомним формулировку теоремы об оптимальном байесовском классификаторе: + +\textbf{Теорема} (об оптимальном байесовском классификаторе). Пусть P(y) (априорная вероятность того, что произвольный объект лежит в классе y) и $p(x|y)$ (плотность распределения класса y) известны, $\lambda _{y} \geq 0$ - потеря от ошибки на объекте класса $y \in Y$. Тогда минимум среднего риска \[ R(a) = \sum_{y \in Y} \lambda _{y}\int [a(x) \neq y]p(x|y)\,dx \] достигается оптимальным байесовским классификатором: \[\arg \max_{y \in Y}\lambda_{y}P(y)p(x|y)\] + +Введём теперь гипотезу: каждый класс $y \in Y$ имеет n-мерную (то есть невырожденную в n-мерном пространстве) гауссовскую плотность с центром $\mu_{y}$ и ковариационной матрицей $\Sigma_{y}$. Напомним, что тогда \[p(x|y) = \frac{\exp(-\frac{1}{2}(x-\mu_y)^{T}\Sigma_{y}^{-1}(x-\mu_y))}{\sqrt{(2\pi)^{n}\det\Sigma_{y}}}\] + +В этом случае верна следующая + +\textbf{Теорема}.\newline1.Разделяющая поверхность, определяемая уравнением \[\lambda_y p(x|y) P(y) = \lambda_s p(x|s) P(s)\] квадратична (линейный случай считаем частным случаем квадратичного, соответствующий нулевым коэффициентам при слагаемых второй степени) для всех $y, s \in Y$ \newline +2. Если $\Sigma_y = \Sigma_s$, то поверхность вырождается в линейную + +Так как для нас теперь играет роль не только вероятность ошибки, но и её цена, логично в качестве функции правдоподобия L взять $ L = \lambda_y p(x|y) P(y)$ - то самое выражение из теоремы выше. Тогда получаемый следующий подстановочный алгоритм - квадратичный дискриминант: +\[a(x) = \arg \max_{y \in Y} \ln L(x, y) = \arg \max_{y \in Y} (\ln \lambda_{y}P(y) - \frac{1}{2}(x-\hat\mu_y)^{T}\hat\Sigma_{y}^{-1}(x-\hat\mu_y) - \frac{1}{2}\ln \det\hat\Sigma_y),\] + +где $\hat\mu_y, \hat\Sigma_y$ - выборочные среднее и ковариация соответственно + +В случае $\det \Sigma = 0$ производим регуляризацию: $\Sigma \longrightarrow \Sigma + \tau/ I_{n}$ + +\textbf{Задачи} + +\textbf{Задача 1}. В случае решения задачи классификации на два класса через квадратичный дискриминант для невырожденных гауссовских распределений с ненулевыми штрафами исследовать, когда области будут неограничены (это интересно, так как при наличии ограниченной области в любом направлении хотя бы по одну сторону от этой области будут находиться объекты, которые будут отнесены алгоритмом к внешней, неограниченной (все области не могут быть ограичены) области, но которые мы с очевидностью интуитивно хотели бы отнести к внутренней) + +\textbf{Решение} + +Далее под $\Sigma_y, \Sigma_s$ будем иметь в виду обратные к ним для упрощения записи. На существенное для нас - симметричность и положительную определённость - это не повлияет. + +Уравнение разделяющей поверхности имеет вид \[\lambda_y p(x|y) P(y) = \lambda_s p(x|s) P(s)\] Преобразовывая, можно свести задачу к виду \[(x-\mu_{y})^{T}\Sigma_{y}(x-\mu) - (x-\mu_{s})^{T}\Sigma_{s}(x-\mu_{s}) = c,\] где c - некоторая вещественная константа. + +Как известно, ковариационные матрицы (в вещественном случае) симметричны и неотрицательно определены. В силу условия задачи, они ещё и положительно определены. Заметим, что наше полученное выражение имеет вид разности двух квадратичных форм на двух различных векторах. По теореме о приведении двух квадратичных форм к диагональному виду, можно перейти в базис, в котором $\Sigma_{s} = I_{n}, \Sigma_{y} = diag(\lambda_{1}, ..., \lambda_{n})$, где $\lambda_{i}$ - положительные вещественные числа, являющиеся корнями обобщённого характеристического уравнения $\det(\Sigma_{y} - \lambda\Sigma_{s}) = 0$ + +Без ограничения общности, можно сдвинуть первое матожидание в ноль, то есть сделать замену $\mu_y \longrightarrow 0, \mu_{s} \longrightarrow \mu_{s} - \mu_{y}$. Тогда исходное уравнение запишется в виде \[\sum_{i=1}^{n}(x_{i}^2 - \lambda_{i}(x_{i} - (\mu_{s}^{(i)} - \mu_{y}^{(i)}))^2) = \sum_{i=1}^{n}(x_{i}^2 - \lambda_{i}(x_{i} - \nu_{i})^2) = \sum_{i=1}^{n}((1-\lambda_i)x_{i}^2 + 2\lambda_{i}x_{i}\nu_{i} - \lambda_{i}\nu_{i}^2) = c\] + +Рзделим исходное пространство на три $L = L_0 \oplus L_+ \oplus L_-$, в зависимости от того, равно ли, меньше ли или больше $\lambda$ единицы соответственно. + +Если $\dim L_0 > 0$, то на этом подпространстве ковариации совпдают $\Longrightarrow$ разделяющая поверхность линейная, поэтому на этом подпространстве обе области неограничены $\Longrightarrow$ неограничены и на всём пространстве. + +Если же $\dim L_0 = 0$, то несложно убедиться, что обе области будут неограничены тогда и только тогда, когда $\dim L_- > 0$ и $\dim L_+ > 0$ (в противном случае одна из областей будет либо ограничена эллипсоидом, либо просто будет пустым множеством. + + +\textbf{Задача 2}. Известно, что если ковариационные матрицы у двух классов равны, то их разделяющая поверхность линейна (является гиперплоскостью). Может ли быть такое, что ковариационные матрицы не совпадают, но разделяющая поверхность всё равно линейна? + +\textbf{Решение} + +Ответ: да. + +Работаем с двухпризнаковым пространством. + +Ясно, что подбором штрафных коэффициентов можно добиться того, чтобы уравнение разделяющей поверхности имело вид \[(x-\mu_{y})^{T}\Sigma_{y}(x-\mu) = (x-\mu_{s})^{T}\Sigma_{s}(x-\mu_{s})\] + +Зададим y и s следующим образом: \[\begin{equation*} +\mu_y = \begin{pmatrix} +1\\ +0 +\end{pmatrix}, +\Sigma_y = \frac{1}{5} +\begin{pmatrix} +6 & -2\\ +-2 & 9 +\end{pmatrix} +\end{equation*}\] +\[\begin{equation*} +\mu_s = \begin{pmatrix} +-1\\ +0 +\end{pmatrix}, +\Sigma_s = \frac{1}{5} +\begin{pmatrix} +6 & 2\\ +2 & 9 +\end{pmatrix} +\end{equation*}\] + +Тогда исходное уравнение сводится к уравнению \left(9x-9+2y\right)\left(x-1\right) + \left(2x-2+6y\right)y - \left(9x-2y+9\right)\left(x+1\right) - \left(-2x-2+6y\right)y = 0 + +Раскрывая скобки, получаем уравнение прямой $x = 0$ + +Давая интерпретацию конкретных величин из решения, можно сказать, что мы пришли к таким распределения, подбирая такие распределения, линии уровня которых (эллипсы) вытянуты, повёрнуты под некоторым углом к оси $y$ и симметричны относительно неё. Тогда интуитивно очевидно, что равенство плотностей будет как раз на оси $y$, то есть на прямой $x = 0$, к чему мы и пришли. + + + +\textbf{Задача 3}. Проверить корректность регуляризации, приведённой в конце теоретической части. Более формально, пусть у нас заданы матрица $\Sigma$ такая, что $\det \Sigma = 0$, и вещественное число $\varepsilon > 0$. Показать, что существует $\tau > 0$ такой, что $\det(\Sigma + \tau I_{n}) > \varepsilon$ + +\textbf{Решение} + + Так как $\Sigma$ - ковариационная матрица, она симметричная и неотрицательно определённая, следовательно, существует базис, в котором она имеет диагональный вид: $\Sigma = diag (\lambda_1, ..., \lambda_n)$ ($\lambda_i \in \mathbb{R}, \lambda_i \geq 0$). Так как в любом базисе оператор, записываемый в старом базисе как $\tau I_n$ - просто домножение на $\tau$, то в новом базисе матрица оператора $\tau I_n$ останется прежней. + + Тогда $\det (\Sigma + \tau I_{n}) = \det(diag(\lambda_1 + \tau, ..., \lambda_n + \tau)) = \prod_{i = 1}^{n}(\lambda_i + \tau) \geq \tau^n$. + + Поэтому для выполнения условия задачи достаточно взять любое $\tau \geq \varepsilon^{\frac{1}{n}}$, то есть это всегда возможно, что и требовалось доказать.