Достаточные условия экстремума

Экстремумы функций одной переменной

Определение:

Функция f:\mathbb{E} \subset \mathbb{R}\rightarrow \mathbb{R}, имеет во внутренней точке x_{0}:

  • Локальный минимум, если \exists U(x_{0}):\forall x\in \dot {U}(x_{0}) f(x)\ge f(x_{ 0 })
  • Строгий локальный минимум, если \exists U(x_{0}):\forall x\in \dot {U}(x_{0}) f(x) > f(x_{ 0 })
  • Локальный максимум если \exists U(x_{0}):\forall x\in \dot {U}(x_{0}) f(x)\le f(x_{ 0 })
  • Строгий локальный максимум, если \exists U(x_{0}):\forall x\in \dot {U}(x_{0}) f(x) < f(x_{ 0 })

Поиск локальных и абсолютных экстремумов — важная практическая задача, породившая широкий спектр методов оптимизации. Изучение свойств и условий существования локального экстремума функций в одномерном случае создает прочный фундамент, упрощающий изучение аналогичного материала в анализе функций многих переменных.


Достаточные условия экстремума в терминах первой производной

Читать далее «Достаточные условия экстремума»

Достаточные условия экстремума функции двух переменных

Дифференциальное исчисление функций многих переменных — важный раздел анализа, имеющий немало приложений в физике, инженерии и прикладной математике. Существенное количество практических задач формулируется в терминах функций от двух переменных — явном выражении поверхностей в пространстве \mathbb{R}^{3}. В классических курсах анализа их изучают с более общих позиций, рассматривая достаточные критерии экстремума функций вида f: \mathbb{R}^{n} \rightarrow \mathbb{R} (также называемых скалярными полями), в терминах которых ведётся дальнейшее изложение.


Определение

Говорят, что функция f: \mathbb{E} \subset \mathbb{R}^{m} \rightarrow \mathbb{R} имеет во внутренней точке x_{0}

  • локальный минимум, если \exists U(x_{0}) \subset \mathbb{E}: \forall f(x) \le f(x_{0}).
  • локальный максимум, если \exists U(x_{0}) \subset \mathbb{E}: \forall f(x) \ge f(x_{0}).

Заменой неравенств на строгие получаем условия соответственно строгого локального минимума и максимума.


Определение

Якобианом векторного поля f: \mathbb{R}^{m} \rightarrow \mathbb{R}^{n}, \forall x \in \mathbb{R}^{m} f(x) = (f_{1}(x),...,f_{m}(x)), дифференцируемого в точке x и непрерывного в некоторой её окрестности U(x) \in \mathbb{R}^{m}называют линейный оператор \mathbf{J}, описывающий наилучшее линейное приближение функции в некоторой окрестности точки x и имеющий матрицу вида:

$$ { J }_{ f }(x)=\begin{Vmatrix} \frac { \partial f_{ 1 } }{ \partial x_{ 1 } } (x) & \frac { \partial f_{ 1 } }{ \partial x_{ 2 } } (x) & … & \frac { \partial f_{ 1 } }{ \partial x_{ m } } (x) \\ \frac { \partial f_{ 2 } }{ \partial x_{ 1 } } (x) & \frac { \partial f_{ 2 } }{ \partial x_{ 2 } } (x) & … & \frac { \partial f_{2} }{ \partial x_{ m } } (x) \\ … & … & … & … \\ \frac { \partial f_{m} }{ \partial x_{ 1 } } (x) & \frac { \partial f_{m} }{ \partial x_{ 2 } } (x) & … & \frac { \partial f_{m} }{ \partial x_{ m }} (x) \end{Vmatrix} $$

— так называемую матрицу Якоби (матрица касательного отображения). Для скалярного поля матрица Якоби имеет вид:

$$ { J }_{ f }(x)=\begin{Vmatrix} \frac { \partial f }{ \partial x_{ 1 } } (x) & \frac { \partial f }{ \partial x_{ 2 } } (x) & … & \frac { \partial f }{ \partial x_{ m } } (x) \end{Vmatrix} $$

Определение

Гессианом скалярного поля f: \mathbb{R}^{m} \rightarrow \mathbb{R}, дважды дифференцируемого по всем аргументам в точке x=(x^{1},...,x^{m}) \in \mathbb{R}^{m}, называют симметрическую квадратичную форму H(x)=\sum _{ i=1 }^{ m }{ \sum _{ j=1 }^{ m }{ h_{ij}x_{i}x_{j} }  } , описывающую наилучшее квадратичное приближение функции в некоторой окрестности точки x и имеющую матрицу вида:

$$ \mathbf{H}_{f}(x) = \begin{Vmatrix} \frac { \partial ^{ 2 }f }{ \partial x_{ 1 }^{ 2 } } (x) & \frac { \partial ^{ 2 }f }{ \partial x_{ 1 }\partial x_{ 2 } } (x) & … & \frac { \partial ^{ 2 }f }{ \partial x_{ 1 }\partial x_{ m } } (x) \\ \frac { \partial ^{ 2 }f }{ \partial x_{ 2 }\partial x_{ 1 } } (x) & \frac { \partial ^{ 2 }f }{ \partial x_{ 2 }^{ 2 } } (x) & … & \frac { \partial ^{ 2 }f }{ \partial x_{ 2 }\partial x_{ m } } (x) \\ … & … & … & … \\ \frac { \partial ^{ 2 }f }{ \partial x_{ m }\partial x_{ 1 } } (x) & \frac { \partial ^{ 2 }f }{ \partial x_{ m }\partial x_{ 2 } } (x) & … & \frac { \partial ^{ 2 }f }{ \partial x_{ m }^{ 2 } } (x) \end{Vmatrix} $$

— так называемую матрицу Гессе, определитель которой обычно подразумевается под Гессианом. Матрица Гессе также описывает локальную кривизну скалярного поля.


Утверждение

Поведение функция f: \mathbb{R}^{m} \rightarrow \mathbb{R}^{n}, дважды дифференцируемой в точке x=(x^{1},...,x^{m}) \in \mathbb{R}^{m} и непрерывной в некоторой окрестности U(x) \subset \mathbb{R} этой точки, характеризуется формулой:

$$ f(\mathbf{x}+\mathbf{\Delta x}) \approx f(x) + \mathbf{J(x)\Delta x} + \frac{1}{2} \mathbf{\Delta x^{T} H(x) \Delta x} $$

Достаточное условие экстремума в терминах частных производных

Для того, чтобы функция f: U(x_{0}) \rightarrow \mathbb{R}, дважды дифференцируемая по всем аргументам в точке x_{0}=(x_{0}^{1},...,x_{0}^{m}) \in \mathbb{R}^{m}, в ней имела экстремум достаточно, чтобы её Гессиан был знакоопределён, причем, положительная определённость влечёт наличие в точке строгого локального минимума, отрицательная определённость — строгого локального максимума.

Спойлер

Воспользуемся разложением в ряд Тейлора, обозначив вектор сдвига как \mathbf{h}=(h_{1},...,h_{m}). Тогда

$$ f(\mathbf{x}+\mathbf{h}) = f(\mathbf{x}) + \frac{1}{2!} \mathbf{h^{T} H(x) h} + o((\left\| \mathbf{h} \right\|)^{2}),\left\| h \right\| =\sqrt { \sum _{ i=1 }^{ n }{ h_{ i }^{ 2 } } } \\ f(\mathbf{x}+\mathbf{h}) = f(\mathbf{x}) + \sum _{i=1}^{m}{\sum_{j=1}^{m}{\frac {\partial f^{2}} {\partial x_{i} \partial x_{j}}h_{i}h_{j}}} + o((\left\| \mathbf{h} \right\|)^{2}) \\ f(\mathbf{x}+\mathbf{h}) — f(\mathbf{x}) = \frac {1}{2!} \left\| \mathbf{h} \right\|^{2}\left[\sum _{i=1}^{m}{\sum_{j=1}^{m}{\frac {\partial f^{2}} {\partial x_{i} \partial x_{j}} \frac{h_{i} } { \left\| \mathbf{h} \right\| } \frac{ h_{j}} {\left\| \mathbf{h} \right\|}}} + o(1) \right] $$

Отсюда следует, что знак выражения в левой части, позволяющий судить о наличии или отсутствии экстремума в точке \mathbf{x}, определяется знаком выражения в квадратных скобках. Посмотрим на неё внимательнее: пусть \mathbf{h} != 0, тогда вектор { e }=\left( \frac { h_{ 1 } }{ \left\| { h } \right\|  } ,\frac { h_{ 2 } }{ \left\| { h } \right\|  } ,...,\frac { h_{ m } }{ \left\| { h } \right\|} \right) имеет единичную норму \left\| { e } \right\| = 1, каким бы он ни был. Форма \sum _{i=1}^{m}{\sum_{j=1}^{m}{\frac {\partial f^{2}} {\partial x_{i} \partial x_{j}} \frac{h_{i} } { \left\| \mathbf{h} \right\| } \frac{ h_{j}} {\left\| \mathbf{h} \right\|}}} непрерывна на \mathbb{R}^{m} как однородный многочлен второй степени от координат \mathbf{h} в силу непрерывности вторых производных f в окрестности \mathbf{x}. Квадратичная форма непрерывна и на единичной сфере S(0;1)=\left\{ x \in \mathbb{R}^{m}| \left\| { x } \right\| \le 1 \right\} . Приниципиальный интерес этот факт представляет по той причине, что единичная сфера — компакт, а свойства скалярных функций, непрерывных на компакте, хорошо известны и сыграют важную роль. В частности, непрерывная на компакте функция достигает на нём своих точных верхней и нижней граней m и M.
Если форма положительно определена, то 0  0, что \forall y: \left\| y \right\| < \delta \quad \underline { o } (1)=\alpha (y) < m \Rightarrow \underline { o } (1) < m  0.
Доказательство для случая отрицательно определённой квадратичной формы симметрично приведенному.
Докажем далее, что значения разных знаков, принимаемые формой в окрестности данной точки, являются достаточным условием отсутствия в ней экстремума функции. Сохраняя обозначения предыдущего пункта, назовём \mathbf{e_{m}} и \mathbf{e_{M}} точки единичной сфера, в которых форма достигает значений m и M соответственно, причем пусть m < 0 < M.
Вновь выпишем разложение в ряд Тейлора функции f, взяв за вектор сдвига вектор t\mathbf{e_{m}}, где число t подобрано таким образом, чтобы \mathbf{x}+t\mathbf{e_{m}} \in U(x):

$$ f({ x }+{ h })-f({ x })=\frac { 1 }{ 2! } \left\| { te_{ m } } \right\| ^{ 2 }\left[ m+o (1) \right] =\frac { 1 }{ 2! } (\left| t \right| \left\| { e_{ m } } \right\| )^{ 2 }\left[ m+o (1) \right] =\frac { 1 }{ 2! } t^{ 2 }\left[ m+o (1) \right] $$

Аналогично рассуждениям предыдущего пункта, рассмотрим случай \text{sign}(\underline {o}(1))=1: \lim _{ \left\| t \right\| \rightarrow 0}{ \alpha (t\mathbf{e_{m}}) } = 0 \Rightarrow \exists \delta > 0: \forall t  m. Тогда значение в квадратных скобках, как и выражение в левой части, неположительно. В ходе аналогичных рассуждений получим двойственную ситуацию для \mathbf{e_{M}}. Следовательно, в любой окрестности U(\mathbf{x}) точки \mathbf{x} функция f принимает значения, как большие, так и меньше f(\mathbf{x}), следовательно, в точке \mathbf{x} экстремума быть не может по определению.

[свернуть]

Замечание 1

Условие не является необходимым, так как ничего не говорит о случае, когда квадратичная форма полуопределена, т.е. является и неположительна или неотрицательна, т.е. содержит критические точки, не являющиеся экстремальными, строго больше или меньше нуля на всех векторах окрестности.

Спойлер

Исследуем на экстремум функцию f(x,y)=x^{4}+y^{4}-2x^{2}. Отыщем критические точки согласно необходимому условию:

$$ \begin{cases} \frac { \partial f }{ \partial x } (x,y)=4x^{ 3 }-4x=0, \\ \frac { \partial f }{ \partial x } (x,y)=4y^{ 3 }=0; \end{cases} $$

Решаяя систему, получаем точки: (-1,0),(0,0),(1,0). Поскольку смешанные производные существуют и непрерывны и

$$ \frac { \partial f^{ 2 } }{ \partial x^{ 2 } } (x,y)=12x^{ 2 }-4, \frac { \partial f^{ 2 } }{ \partial y\partial x } (x,y)=0, \frac { \partial f^{ 2 } }{ \partial y^{ 2 } } (x,y)=12y^{ 2 } $$

матрица Гессе имеет вид

$$ { H }_{ f }(x,y)=\begin{Vmatrix} 12x^{ 2 }-4 & 0 \\ 0 & 12y^{ 2 } \end{Vmatrix} $$

Используя критерий Сильвестра, убедитесь, что в указанных трёх точках квадратичная форма полуопределена. Несмотря на то, что достаточный критерий экстремума в терминах квадратичного приближения неприменим, из записи функции в виде f(x,y)=(x^{2}-1)^{2}+y^{4}-1 очевидно, что в точках (\pm 1, 0) функция (симметричная и монотонно возрастающая по обеим переменным) имеет строгий локальный минимум, а в точке (0, 0) не имеет экстремума вовсе.
Нижеприведенное изображение наглядно демонстрирует правильность выводов. Нормалями к поверхности обозначены стационарные точки.
Example_Top_View

[свернуть]

Замечание 2

Функция может принимать экстремальные значения в граничных точках области определения. Вышеприведенное достаточное условие для их выявления использовать не рекомендуется, следует обратиться к аппарату теории условного экстремума.


Пример (Демидович, №3629)

Исследовать на локальный экстремум функцию

$$ z = x y \sqrt{1-\frac{x^2}{a^2}-\frac{y^2}{b^2}} \quad (a > 0, \quad b > 0) $$

Спойлер

Вычислим первые частные производные. Решением нижеприведенной системы

$$ z^{ ‘ }_{ x }=\frac { y\left( 1-\frac { 2x^{ 2 } }{ a^{ 2 } } -\frac { y^{ 2 } }{ b^{ 2 } } \right) }{ \sqrt { 1-\frac { x^{ 2 } }{ a^{ 2 } } -\frac { y^{ 2 } }{ b^{ 2 } } } }, \quad z^{ ‘ }_{ y }=\frac { y\left( 1-\frac { x^{ 2 } }{ a^{ 2 } } -\frac { 2y^{ 2 } }{ b^{ 2 } } \right) }{ \sqrt { 1-\frac { x^{ 2 } }{ a^{ 2 } } -\frac { y^{ 2 } }{ b^{ 2 } } } } $$

находим стационарные точки

$$(0,0),\quad \left( \frac { a }{ \sqrt { 3 } } ,\frac { b }{ \sqrt { 3 } } \right) ,\quad \left( -\frac { a }{ \sqrt { 3 } } ,\frac { b }{ \sqrt { 3 } } \right) ,\quad \left( \frac { a }{ \sqrt { 3 } } ,-\frac { b }{ \sqrt { 3 } } \right) ,\quad \left( -\frac { a }{ \sqrt { 3 } } ,-\frac { b }{ \sqrt { 3 } } \right) $$

Отметим, что в точках, лежащих на границе эллипса 1=\frac{x^2}{a^2}+\frac{y^2}{b^2} частные производные не существуют, следовательно, их следует отдельно проверить на экстремум, что выходит за рамки аппарата данной статьи.

Для проверки достаточных условий выпишем вторые производные

$$ z^{ » }_{ x^{ 2 } }=\frac { -\frac { xy }{ a^{ 2 } } \left( 1-\frac { 2x^{ 2 } }{ a^{ 2 } } -\frac { 3y^{ 2 } }{ b^{ 2 } } \right)}{ \left(1-\frac { 2x^{ 2 } }{ a^{ 2 } } -\frac { 3y^{ 2 } }{ b^{ 2 } } \right)^{\frac{3}{2}} }, \quad z^{ » }_{ y^{ 2 } }=\frac { -\frac { xy }{ b^{ 2 } } \left( 1-\frac { 3x^{ 2 } }{ a^{ 2 } } -\frac { 2y^{ 2 } }{ b^{ 2 } } \right) }{ \left( 1-\frac { 2x^{ 2 } }{ a^{ 2 } } -\frac { 3y^{ 2 } }{ b^{ 2 } } \right) ^{ \frac { 3 }{ 2 } } }, \\ z^{ » }_{ xy }=\frac { 1+\frac { 2x^{ 4 } }{ a^{ 4 } } +\frac { 3x^{ 2 }y^{ 2 } }{ a^{ 2 }b^{ 2 } } +\frac { 2y^{ 4 } }{ b^{ 4 } } -\frac { 3x^{ 2 } }{ a^{ 2 } } -\frac { 3y^{ 2 } }{ b^{ 2 } } }{ \left( 1-\frac { 2x^{ 2 } }{ a^{ 2 } } -\frac { 3y^{ 2 } }{ b^{ 2 } } \right) ^{ \frac { 3 }{ 2 } } } $$
  1. Точка  (0,0) не является точкой условного экстремума
    $$ \mathbf{ H }_{ z }(0,0)=\begin{Vmatrix} 0 & 1 \\ 1 & 0 \end{Vmatrix},\quad \Delta_{1}=0,\quad \Delta_{2}=-1 $$
  2. Заметим, что функция z(x,y) чётна, а также z \left( \frac { -a }{ \sqrt { 3 }  } ,\frac { b }{ \sqrt { 3 } } \right) = z \left( \frac { a }{ \sqrt { 3 }  } ,\frac { -b }{ \sqrt { 3 } } \right).

    Точки  (\pm \frac { a }{ \sqrt { 3 }  }, \pm \frac { b }{ \sqrt { 3 }  }) являются точками условного экстремума

    $$ { H }_{ z }(\frac { a }{ \sqrt { 3 } } ,\frac { b }{ \sqrt { 3 } } )=\begin{Vmatrix} -\frac { 4b }{ \sqrt { 3 } a } & -\frac { 2 }{ \sqrt { 3 } } \\ -\frac { 2 }{ \sqrt { 3 } } & -\frac { 4a }{ \sqrt{3}b} \end{Vmatrix},\quad \Delta _{ 1 }=-\frac { 4b }{ \sqrt { 3 } a } 0 $$ $$ { H }_{ z }(\frac { -a }{ \sqrt { 3 } } ,\frac { b }{ \sqrt { 3 } } )=\left( \begin{array}{cc} \frac { 4b }{ \sqrt { 3 } a } & -\frac { 2 }{ \sqrt { 3 } } \\ -\frac { 2 }{ \sqrt { 3 } } & \frac { 4a }{ \sqrt { 3 } b } \end{array} \right) ,\Delta _{ 1 }=\frac { 4b }{ \sqrt { 3 } a } >0, \quad \Delta _{ 1 }=\frac { 16 }{ 3 } — \frac{4}{3} = 4 > 0 $$

    Соответственно, \left(\pm \frac {a}{ \sqrt { 3 }  } , \pm \frac { b }{ \sqrt { 3 }  } \right) — точки минимума, \left(\pm \frac {a}{ \sqrt { 3 }  } , \mp \frac { b }{ \sqrt { 3 }  } \right) — точки максимума.

  3. Пример: a = b = 2
    Elliptic_Surface_a_b_2

[свернуть]

Источники:

Закрепление материала.

Таблица лучших: Достаточные условия экстремума функции многих переменных

максимум из 23 баллов
Место Имя Записано Баллы Результат
Таблица загружается
Нет данных

Достаточные условия дифференцируемости функции в точке

Теорема (Достаточные условия дифференцируемости функции в точке)

Пусть функция f принадлежит классу C^{1}(E), где открытое множество E\subset \mathbb{R}^{n} . Тогда f дифференцируема на E.

Через C^{1}(E) обозначается класс всех всех непрерывно дифференцируемых на множестве E функций.

Доказательство

Фиксируем x_{0}\in E. Поскольку множество E открыто, то существует шар U_{0} с центром в этой точке, целиком содержащийся в E. Пусть r– радиус этого шара и вектор h имеет длину \left | h \right |<r. Обозначим: x_{j}=x_{0}+h^{1}e_{1}+...+h^{j}e_{j}, (j=1,...,n). Ясно, что x_{n}=x_{0}+h.
Заметим, что все x_{j} принадлежат шару U_{0}. Действительно,$$\left | x_{0}-x_{j} \right |=\sqrt{\sum_{i=1}^{j}(h^{j})^{2}}\leq \left | h \right |< r.$$
Поскольку шар – выпуклое множество, то каждый из отрезков [ x_{j-1},x_{j} ] содержится в U_{0}. Действительно, этот отрезок – это множество точек x=(1-t)x_{j-1}+tx_{j}, где 0\leq t\leq 1, и мы получаем \left | x_{0}-x_{j} \right |\leq (1-t)\left | x_{0}-x_{j-1} \right |+\left | x_{0}-x_{j} \right |< r.
Воспользуемся равенством: $$f(x_{0}+h)-f(x_{0})=\sum_{j=1}^{n}\left [ f(x_{j})-f(x_{j-1}) \right ].$$
Рассмотрим отдельно каждое из слагаемых в правой части. При фиксированном j положим  g(t)=f(x_{j-1}+te_{j}), (0\leq t\leq h^{j}) . По определению частной производной имеем: $$ g{}'(t)=\frac{\partial f}{\partial x^{j}}(x_{j-1}+te_{j}) .$$
По формуле Лагранжа получаем:
$$ f(x_{j})-f(x_{j-1})=g(h^{j})-g(0)=g{}'(\tau _{j})h^{j}=\frac{\partial f}{\partial x^{j}}(\xi _{j})h^{j},$$
где \xi _{j}=x_{j-1}+\tau_{j}e_{j} — некоторая точка отрезка, соединяющего x_{j-1} и x_{j}.
Имеем  \left | x_{0}-\xi_{j} \right |\leq \left | h \right | .
Обозначим $$ \alpha _{j}(h)=\frac{\partial f}{\partial x^{j}}(x_{0})-\frac{\partial f}{\partial x^{j}}(\xi_{j}) .$$
По условию все частные производные непрерывны в точке x_{0} и поэтому \lim_{h\rightarrow 0}\alpha _{j}(h)=0 , (j=1,...,n).
В силу равенства $$f(x_{0}+h)-f(x_{0})=\sum_{j=1}^{n}\left [ f(x_{j})-f(x_{j-1}) \right ]$$ имеем:
$$f(x_{0}+h)-f(x_{0})=\sum_{j=1}^{n}\frac{\partial f}{\partial x^{j}}(\xi_{j})h^{j}=\sum_{j=1}^{n}\frac{\partial f}{\partial x^{j}}(x_{0})h^{j}-\sum_{j=1}^{n}\alpha _{j}(h)h^{j}=$$$$=A(h)+\rho (h),$$
где $$ A(h)=\sum_{j=1}^{n}\frac{\partial f}{\partial x^{j}}(x_{0})h^{j} .$$
Итак, A является линейной формой аргумента h, а \left | \rho(h) \right |\leq \left | h \right |\sum_{j=1}^{n}\left | \alpha_{j}(h) \right |.
Поэтому, получаем, что \frac{\rho(h)}{\left | h \right |}\rightarrow 0 при h\rightarrow 0.
Согласно определению дифференцируемости, теорема доказана.\square

Замечание 1

Из доказательства видно, что если функция имеет частные производные в некоторой окрестности точки x_{0} и в этой точке все они непрерывны, то функция дифференцируема в точке x_{0}.

Замечание 2

Непрерывность частных производных – только достаточное условие дифференцируемости. Оно не является необходимым.

Следствие

Каждая функция класса C^{1} непрерывна.

[spoilergroup]

Спойлер

Пусть
f(x)=\left | x \right |^{2}\sin \frac{1}{\left | x \right |^{2}}, x\neq 0 и f(x)=0, x=0.
Найдем частные производные
\frac{\partial f}{\partial x^{i}}=2x^{j}\sin \frac{1}{\left | x \right |^{2}}-\frac{2x^{i}}{\left | x \right |^{2}}\cos \frac{1}{\left | x \right |^{2}}, (x\neq0).
При x=0 наша функция дифференцируема, т.к. f(h)-f(0)=f(h)=\bar{o}(\left | h \right |). Однако, как легко видеть, все частные производные разрывны в точке x=0.

[свернуть]

[/spoilergroup]

Использованная литература

Рекомендованная литература

Тест

Достаточное условие дифференцируемости функции в точке

Проверка знания достаточного условия дифференцируемости функции в точке


Таблица лучших: Достаточное условие дифференцируемости функции в точке

максимум из 11 баллов
Место Имя Записано Баллы Результат
Таблица загружается
Нет данных