Условный экстремум. Метод множителей Лагранжа.

Условный экстремум

Определение (Уравнения связи)
Итак, пусть на открытом множестве G, которое входит в \mathbb{R}^{n} заданы функции y_{i} = f_{i}(x), i = 1,2,\dots,m, x = (x_{1},x_{2},\dots, x_{m}) \in G. Обозначим через E множество точек из G, в которых все функции f_{i}(x), i = 1,2,3\dots,m, обращаются в нуль:

 E = \left\{x: f_{i}(x) = 0, i = 1,2,\dots,m, x \in G\right\}.

Уравнения f_{i}(x) будем называть уравнениями связи.

Определение (Точка условного экстремума)
Пусть на G задана функция y = f_{0}(x). Точка x^{(0)} будет называться точкой условного экстремума функции f_{0}(x) относительно уравнений связи f_{i}(x), i = 1,2,3\dots,m, если она является точкой обычного экстремума этой функции, рассматриваемой только на множестве Е.

Иначе говоря, при поиске условного экстремума мы сравниваем значение функции f_{0}(x) в точке x^{(0)} не со всеми значениями этой функции в достаточно малой окрестности x^{(0)}, а только со значениями в точках, которые одновременно принадлежат как достаточно малой окрестности x^{(0)}, так и множеству E.

Пример №1

Исследовать на наличие экстремума функцию f(x, y) = x^{2} + y^{2} при уравнении связи x + y - 1 = 0.

Спойлер

Представим y как функцию от x. Из уравнения связи вытекает y = 1 - x, откуда f(x, 1 - x) = 2x^{2} - 2x + 1. Таким образом, при выполнении уравнения связи мы получаем функцию от одной переменной. Найти её экстремум не составляет труда: приравнивая к нулю её производную («Необходимое условие экстремума»), получаем 2x - 1 = 0, откуда  x = \frac{1}{2}. В этой точке рассматриваемая функция имеет минимум, так как она является многочленом второй степени с положительным коэффициентом при старшем члене. Из уравнения связи находим  y = \frac{1}{2}.

[свернуть]

Пример №2

Найти точки условного экстремума функции (если они есть)  f(x,y) = y_{2} - x_{2} при уравнении связи  y = 2x .

Спойлер

Имеем  f(x, 2x) = 3x^{2} , т.е. при выполнении уравнений связи данная функция является функцией одного переменного и достигает минимума при x = 0.
Значению  x = 0 согласно уравнению связи соответствует значение  y = 0 , а поэтому функция  f(x,y) = y_{2} - x_{2} имеет в точке (0, 0) условный минимум относительно уравнения связи  y = 2x .

[свернуть]

Однако, не всегда возможно преобразовать уравнение связи к явному виду (представить одну из переменных, как функцию от остальных переменных). Далее пойдет речь о том, как справиться с этой неприятной ситуацией.

Метод множителей Лагранжа

Предполагается, что все функции f_{1}, \dots, f_{m} являются непрерывно дифференцируемыми (гладкими) на открытом множестве  G \subset \mathbb{R}^{n}, n > m.

Теорема (Необходимое условие локального экстремума)
Пусть точка x^{(0)} — точка условного экстремум функции  f_{0} при выполнении уравнений связи  f_{1}, \dots , f_{m} . Тогда в этой точке градиенты  \nabla f_{0}, \nabla f_{1}, \dots , \nabla f_{m} линейно зависимы, т. е. существуют такие, не все равные нулю, числа  \lambda_{0}, \lambda_{1}, \dots , \lambda_{m} , что

 \lambda_{0}\nabla f_{0} + \lambda_{1}\nabla f_{1} + \dots + \lambda_{m}\nabla f_{m} = 0 \quad \left( 1 \right)

Перед доказательством теоремы, напомним, что означает символ  \nabla .

Определение (оператор Гамильтона)
Оператор Гамильтона (часто используют сокращение << набла >>) — векторный дифференциальный оператор, компонентами которого являются частные производные по координатам.
Для трехмерного евклидового пространства, в прямоугольной системе координат оператор Гамильтона определяется так:

 \nabla = \frac{\partial}{\partial x} \vec i + \frac{\partial}{\partial y} \vec j + \frac{\partial}{\partial z} \vec k.

Также, нам понадобится свойство этого оператора. Если подействовать им на функцию, то получим вектор градиент.

Спойлер

Докажем утверждение, равносильное теореме: если в точке  x^{(0)} = \left(x_{1}^{(0)}, \dots , x_{n}^{(0)}\right) удовлетворяющей уравнениям связи

 f_{k}(x^{(0)}) = 0, k = 1, 2, \dots , m,

градиенты  \nabla f_{0}, \nabla f_{1}, \dots , \nabla f_{m} линейно независимы, то  x^{(0)} не является точкой локального экстремума.

Итак, пусть  \nabla f_{0}, \nabla f_{1}, \dots , \nabla f_{m} линейно независимы и, следовательно, ранг матрицы Якоби

 \left( \frac{ \partial f_{j} }{ \partial x_{i} } \right), j = 0, 1, \dots , m, i = 1, 2, \dots , n,

равен  m + 1 . Тогда в этой матрице существует минор порядка  m + 1 , не равный нулю. Для определенности будем считать, что он образован первыми  m + 1 столбцами, т. е.

 \LARGE \left.\begin{matrix} \frac{ \partial \left( f_{0}, f_{1}, \dots , f_{m} \right) }{ \partial \left( x_{1}, x_{2}, \dots , x_{m+1} \right)} & \end{matrix}\right|_{x = x^{(0)}} \neq 0.

Множество  G — открыто, а потому существует такое  \delta_{0} > 0 , что при всех \delta, 0 < \delta < \delta_{0}, куб

 Q^{n}_{ \delta} =\left\{ x : \left| x_{i} - x_{i}^{(0)} \right| < \delta, i = 1, 2, \dots ,n \right\}

лежит в  G , и, следовательно, на нем определены все функции  f_{0}, f_{1}, \dots , f_{m}.

Зафиксируем

 x_{m + 2} = x_{m + 2}^{(0)},  \dots,  x_{n} = x_{n}^{(0)}

и введём следующие обозначения:

 x^{\star} = \left(x_{1}, \dots , x_{m+1} \right),
Q^{m + 1}_{ \delta} =\left\{ x^{\star} \colon \left| x_{i} - x_{i}^{(0)} \right| < \delta, i = 1, 2, \dots , m + 1 \right\}.

Очевидно, функции f_{j} \left(x_{1}, \dots x_{m + 1}, x_{m + 2}^{(0)}, \dots , x_{n}^{(0)} \right), j = 1, 2, \dots , m, определены и непрерывно дифференцируемы всюду в Q_{ \delta }^{m + 1}. Рассмотрим отображение \Phi: Q_{ \delta} ^ {m + 1} \rightarrow \mathbb{R}^{m+1}, задаваемое формулами

 y_{1} = f_{1} \left(x_{1}, \dots x_{m + 1}, x_{m + 2}^{(0)}, \dots , x_{n}^{(0)} \right),
y_{2} = f_{2} \left(x_{1}, \dots x_{m + 1}, x_{m + 2}^{(0)}, \dots , x_{n}^{(0)} \right),
\dots \dots \dots \dots \dots \dots \dots \dots \dots
 y_{m + 1} = f_{m} \left(x_{1}, \dots x_{m + 1}, x_{m + 2}^{(0)}, \dots , x_{n}^{(0)} \right).

Для точки x^{\star(0)} = \left(x_{1}^{(0)}, \dots , x_{m + 1}^{(0)}\right) имеем

 \LARGE \left.\begin{matrix} \frac{ \partial \left(y_{1}, \dots , y_{m + 1} \right) }{ \partial \left( x_{1}, x_{2}, \dots , x_{m+1} \right)} & \end{matrix}\right|_{x^{\star} = x^{\star(0)}} = \left.\begin{matrix} \frac{ \partial \left( f_{0}, f_{1}, \dots , f_{m} \right) }{ \partial \left( x_{1}, x_{2}, \dots , x_{m+1} \right)} & \end{matrix}\right|_{x = x^{(0)}} \neq 0.

Поскольку точка x^{(0)} является точкой условного экстремума, она удовлетворяет всем уравнениям связи. Таким образом, для точки x^{(0)} имеем  \Phi \left(x^{ \star (0)} \right) = \left(f_{0} \left(x^{(0)} \right), 0, \dots , 0 \right). Поэтому (по теорему о локальной обратимости непрерывно дифференцируемого отображения в точке, в которой его якобиан не равен нулю) существует такое  \varepsilon > 0, что на окрестности

 V = \left\{ y = \left(y_{1}, \dots , y_{m+1} \right) \colon \left|y_{1} - f_{0}\left(x^{(0)}\right) \right| < \varepsilon, \left|y_{j} \right| < \varepsilon, j = 2, 3, \dots , m + 1 \right\}

Курсовая 2
( см. рисунок ,  m = 1, n = 2 ) определено обратное к  \Phi отображение, и, следовательно, в любую точку этой окрестности отображается какая-то точка из  Q_{\delta}^{m + 1}.
В частности, так как при любом  \eta, 0 < \eta < \varepsilon, имеет место включение  \left(f\left( x^{\left(0 \right)}\right) \pm \eta, 0, \dots , 0 \right) \in V, то в кубе  Q^{ m + 1 }_{ \delta } найдутся точки  x'^{ \star} = \left(x'_{1}, \dots , x'_{m + 1} \right) и  x''^{ \star} = \left(x''_{1}, \dots , x''_{m + 1} \right), отображающиеся при отображении  \Phi в указанные точки окрестности  V:

 \Phi\left(x'^{\star} \right) = \left(f\left( x^{\left(0 \right)}\right) \pm \eta, 0, \dots , 0 \right), \Phi\left(x''^{\star} \right) = \left(f\left( x^{\left(0 \right)}\right) \pm \eta, 0, \dots , 0 \right).

Если положим для краткости  x'^{ \star} = \left(x'_{1}, \dots , x'_{m + 1}, x^{\left(0 \right)}_{m+2}, \dots , x^{\left(0 \right)}_{n} \right) и  x''^{ \star} = \left(x''_{1}, \dots , x''_{m + 1}, x^{\left(0 \right)}_{m+2}, \dots , x^{\left(0 \right)}_{n} \right), то в координатной записи получим

 f_{0}\left(x'\right) = f_{0}\left(x^{\left(0\right)}\right) + \eta > f_{0}\left(x^{\left(0\right)}\right),
 f_{k}\left(x'\right) = 0, k = 1, 2, \dots , m, x' \in Q^{n}_{\delta}

и

 f_{0}\left(x''\right) = f_{0}\left(x^{\left(0\right)}\right) - \eta < f_{0}\left(x^{\left(0\right)}\right),
f_{k}\left(x''\right) = 0, k = 1, 2, \dots , m, x' \in Q^{n}_{\delta}.

Поскольку число  \delta, 0 < \delta < \delta_{0}, может быть сколь угодно мало, то указанные точки  x' и  x'' могут быть выбраны сколь угодно близко от точки  x^{\left(0\right)}, и, таким образом, сколь угодно близко от точки  x^{\left(0\right)} имеются точки, удовлетворяющие уравнениям связи, в которых функция  f_{0} принимает значения, как большие, так и меньшие значения  f_{0}\left(x^{\left(0\right)}\right). Что и означает, что точка  x^{\left(0\right)} не является точкой условного экстремума. Это противоречие и доказывает теорему.

[свернуть]
Следствие
Если в точке x^{(0)} условного экстремума функции f_{0} относительно уравнений связи. Тогда в этой точке градиенты \nabla f_{0}, \nabla f_{1}, \dots , \nabla f_{m} линейно независимы, то есть ранг матрицы Якоби

\left( \frac{ \partial f_{j} }{ \partial x } \right), j = 1, 2, \dots , m, i = 1, 2, \dots , n,

равен m, то существуют такие \lambda_{1}, \lambda_{2}, \dots , \lambda_{m}, что в этой точке

 \nabla f_{0} + \sum\limits_{j = 1}^{m}{\lambda_{j} \nabla f_{j}} = 0 \quad \left( 2 \right)

то есть \nabla f_{0} является линейной комбинацией градиентов \nabla f_{1}, \nabla f_{2}, \dots , \nabla f_{m}.

Спойлер

Если векторы \nabla f_{1}, \nabla f_{2}, \dots , \nabla f_{m} линейно независимы, то в равенстве  \left( 1 \right) имеем  \lambda_{0} \neq 0, так как если  \lambda_{0} = 0 указанные векторы в силу  \left( 1 \right) оказались бы линейно зависимыми. Разделив обе части  \left( 1 \right) на  \lambda_{0} получим равенство вида  \left( 2 \right).

[свернуть]

В координатной форме это условие имеет вид: для любого i = 1, 2, \dots , n в точке x_{(0)}

 \frac{\partial f_{0}}{\partial x_{i}} + \sum\limits_{j = 1}^{m}{\lambda_{j} \frac{\partial f_{j}}{\partial x_{i}}} = 0. \quad \left( 3 \right)
Определение
Функция

 F \left( x \right) = f_{0}\left( x \right) + \sum\limits_{j = 1}^{m}{\lambda_{j} f_{j}\left( x \right)}, \quad \left( 4 \right)

где числа \lambda_{1}, \lambda_{2}, \dots , \lambda_{m} удовлетворяют условию \left( 3 \right), называется функцией Лагранжа рассматриваемой задачи, а сами числа \lambda_{1}, \lambda_{2}, \dots , \lambda_{m} множителями Лагранжа.

Условие  \left( 3 \right) означает, что если  x^{(0)} является точкой условного экстремума функции  f_{0} относительно уравнений связи y_{i} = f_{i}(x), i = 1, 2, \dots , m, то она является стационарной точкой для функции Лагранжа, т. е.

 \frac{ \partial F \left( x^{(0)} \right)}{ \partial x_{i}} = 0, i = 1, 2, \dots , n.

Теперь уже можно поговорить о том, как на практике использовать эти теоремы для нахождения точек условного экстремума. Прежде всего, мы можем заметить, что у функции вида \left( 4 \right) при произвольных числах \lambda_{1}, \lambda_{2}, \dots , \lambda_{m}, каждая точка её условного экстремума является и точкой условного экстремума исходной функции  f_{0}, и наоборот. Мы выбираем такие значения \lambda_{1}, \lambda_{2}, \dots , \lambda_{m}, чтобы выполнялись условия \left( 3 \right),, т. е. чтобы данная точка условного экстремума оказалась и стационарной точкой функции \left( 4 \right) .
Для отыскания точек условного экстремума следует рассмотреть систему из  n + m уравнений, составленной из частных производных функции Лагранжа по каждой переменной  x_{i}, i = 1, 2, \dots , n и уравнений связи f_{i}(x), i = 1, 2, 3\dots, m (однако, уравнения связи можно рассматривать как частные производные функции Лагранжа по переменным \lambda_{1}, \lambda_{2}, \dots , \lambda_{m}) относительно неизвестных  x^{0}_{1}, \dots , x^{0}_{n}, \lambda_{1}, \dots , \lambda_{m} и решить её (если это возможно), найдя  x^{0}_{1}, \dots , x^{0}_{n} и по возможности исключив \lambda_{1}, \dots , \lambda_{m}. Сформулированная теорема утверждает, что все точки условного экстремума будут находится среди найденных таким образом точек  \left(x^{0}_{1}, \dots , x^{0}_{n} \right).

Пример №1

Найдем локальные экстремумы функции  f \left(x, y \right) = xy на окружности  \left( \Gamma \right) :

 \phi \left(x, y \right) = x^2 + y^2 - 1 = 0.
Спойлер

Функции  f и  \phi дважды непрерывно дифференцируемы на всей плоскости. Кроме того, ранг матрицы

 \begin{Vmatrix} \frac{ \partial \phi}{ \partial x} & \frac{ \partial \phi}{ \partial y} \end{Vmatrix} = \begin{Vmatrix} 2x & 2y \end{Vmatrix}

равен единице (т. е. равно количеству связей) на всей плоскости  Oxy за исключением точки  \left(0, 0 \right). Но последняя не лежит на окружности  \phi \left(x, y \right) = x^2 + y^2 - 1 = 0. Следовательно, точки, в которых возможен локальный экстремум, находятся только среди стационарных точек.
Приравнивая к нулю частные производные функции Лагранжа задачи

 F \left(x, y \right) = xy - \lambda \left(x^2 + y^2 - 1 \right),

по переменным  x, y, \lambda , получим систему уравнений:

 \begin{cases} y - 2\lambda x = 0 \\ y - 2\lambda x = 0 \\ x^2 + y^2 - 1 = 0 \end{cases}

Решив её, получим четыре пары стационарных точек  x = \pm \frac{1}{\sqrt{2}},  y = \pm \frac{1}{\sqrt{2}}, соответствующих всевозможным распределениям  "+" и  "-" . Паре  x_{1} = y_{1} = \frac{ 1}{ \sqrt{2}}
соответствуют  \lambda_{1} = \frac{1}{2} и лагранжева функция

 F \left(x, y \right) = xy - \frac{\left(x^2 + y^2 - 1 \right)}{2}.

Второй дифференциал от F в точке  \left(x_{1}, y_{1} \right) имеет вид

 \partial_{2} F = - \partial x^2 + 2 \partial x \partial y - \partial y^2 = -\left( \partial x - \partial y \right)^2.

Тогда, в силу уравнения связи

 2x\partial x + 2y \partial y = 0,

откуда  \partial y = - \partial x, и окончательно

 \partial^2 F = -(2 \partial x)^2 = -4 \partial x^2,

где  \partial x — независимый дифференциал. Следовательно, в точке  \left(x_{1}, y_{1} \right) имеет место локальный относительный максимум задачи, равный  f \left( \frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}} \right) = \frac{1}{2}. Легко заключить, используя симметрические свойства  f , что в точке  \left( -\frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}} \right) имеет место другой локальный относительный максимум, равный  \frac{1}{2} .
Так как окружность  \Gamma есть ограниченное замкнутое множество и непрерывная на  \Gamma функция  f должна достигать на  \Gamma своего максимума, и так как максимум на  \Gamma необходимо есть максимум на  \Gamma, то

 \max_{\Gamma} F = f \left( \frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}} \right) = f \left( -\frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}} \right) = \frac{1}{2}

и, аналогично,

 \min_{\Gamma} F = f \left( \frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}} \right) = f \left( -\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}} \right) = -\frac{1}{2}.

[свернуть]

Литература

Тесты

Условный экстремум. Метод множителей Лагранжа.

Этот тест поможет вам освоить материал этой статьи.


Таблица лучших: Условный экстремум. Метод множителей Лагранжа.

максимум из 22 баллов
Место Имя Записано Баллы Результат
Таблица загружается
Нет данных

M1611. Построение прямого угла на пересекающихся окружностях

Задача из журнала «Квант» М1611 ( 1997, выпуск №5)

Задача:

Две окружности пересекаются в точках $A$ и $B$. Через точку $A$ проведена прямая, вторично пересекающая первую окружность в точке $C$, а вторую — в точке $D$. Пусть $M$ и $N$
— середины дуг $BC$ и $BD$, не содержащих точку $A$, а $K$ — середина отрезка $CD$. Докажите, что угол $MKN$ прямой.
(Можно считать, что точки $C$ и $D$ лежат по разные стороны от точки $A$)

Решение:

Пусть $N_{1}$ — точка, симметричная точке $N$ относительно $K$ (см. рисунок).

"Квант" M1611

Тогда $\bigtriangleup KCN_{1} = \bigtriangleup KDN$, поэтому $CN_{1} = ND$ и $\angle N_{1}CK = \angle NDK = \pi — \angle ABN$. Заметим ещё, что $\angle MCK = \pi — \angle ABM$. Складывая полученные равенства, находим, что $\angle N_{1}CM = \angle MBN$. Кроме того, из условия следует, что $CM = MB$ и $BN = ND$ (т.е. $BN = CN_{1}$). Значит, $\bigtriangleup MCN_{1} = \bigtriangleup MBN$, откуда $MN_{1} = MN$. Отрезок $MK$ — медиана в равнобедренном треугольнике $MNN_{1}$, поэтому $\angle MKN = 90^{\circ}$.

Замечание:

Задача имеет много других решений. Например, можно воспользоваться подобием треугольников $MEK$ и $KFN $, где $E $ и $F$ — середины отрезков $BC$ и $BD$ соответственно. Эти треугольники имеют две пары взаимно перпендикулярных сторон
($EK$ и $FN$, $ME$ и $KF$), следовательно, перпендикулярны и их третьи стороны.

Кроме того, соображения, использующие композицию поворотов, позволяют отказаться от дополнительного условия в задаче (о том, что точки $C$ и $D$ лежат по разные стороны от $A$), которое было задано лишь затем, чтобы избежать разбора различных случаев. Действительно, рассмотрим композицию поворотов $R^{\beta}_{M} \circ R^{\alpha}_{N}$ — на углы $\alpha = \angle DNB$ и $\beta = \angle BCM$ вокруг точек $N$ и $M$ соответственно (углы предполагаются ориентированными). Заметим, что $\alpha + \beta = 180^{\circ}$, поэтому $R^{\beta}_{M} \circ R^{\alpha}_{N} = Z_{x}$ — центральная симметрия относительно некоторой точки $X$. Но
$Z_{x}(D) = \left(R^{\beta}_{M} \circ R^{\alpha}_{N} \right) = R^{\beta}_{M}(B) = C$,
поэтому $X$ — середина отрезка $CD$, т. е. точка $K$. Если $N_{1} = Z_{K}(N)$, то $N_{1} = \left(R^{\beta}_{M} \circ R^{\alpha}_{N} \right) \left( N \right)$, т. е. $\bigtriangleup NMN_{1}$ — равнобедренный и $\angle MKN = 90^{\circ}$.

Д. Терешин