Multiplicadores de Lagrange
Quando uma função (contínua) de uma variável é estritamente crescente ou decrescente não temos pontos de máximo ou mínimo a menos que seja definido um intervalo fechado. Neste caso as bordas do intervalo serão os pontos de máximo e de mínimo. Para funções de duas variáveis podemos fazer o mesmo e definir um subdomínio para limitar a nossa busca por valores extremos. A diferença é que o domínio de uma função de duas variáveis esta no [math]\displaystyle{ \mathbb{R}^2 }[/math], o que significa que o subdomínio será um conjunto de pontos de um certo subconjunto. Uma circunferência por exemplo. Para funções de três variáveis não podemos ver o gráfico, mas podemos traçar superfícies de nível e visualizar as restrições no [math]\displaystyle{ \mathbb{R}^3 }[/math].
Muitos livros explicam os multiplicadores de Lagrange com derivadas parciais e sistema de equações. Eu vou começar pela interpretação gráfica para ficar mais fácil de entender o conceito:
A função é [math]\displaystyle{ f(x,y) = x + y }[/math] e a restrição é [math]\displaystyle{ x^2 + y^2 = 1 }[/math]. Como você pode ver o domínio da função foi restrito à todos os pontos que pertencem à equação da circunferência de raio 1. Se deslocarmos a circunferência ao longo do eixo vertical, [math]\displaystyle{ f(x,y) = z }[/math] neste caso, a superfície da função será tangenciada pela circunferência numa certa altura z. Agora a propriedade interessante do último ponto mencionado é que, se pensarmos na restrição como uma curva de nível de uma função de duas variáveis, então temos dois gradientes paralelos ali.
Como sabemos que ambos os gradientes são paralelos no ponto mencionado? Se você pensar em curvas de nível, toda função de duas variáveis pode ser vista como um conjunto de infinitas curvas de nível. Em cada ponto de uma curva de nível temos um gradiente que é perpendicular àquela curva. Numa certa altura z a circunferência tangenciará o gráfico de [math]\displaystyle{ f }[/math] e aquele ponto estará numa certa curva de nível de [math]\displaystyle{ f }[/math]. Por sua vez, a equação que nos dá a restrição pode ser uma curva de nível de uma função [math]\displaystyle{ g }[/math] e se ela é tangente a uma curva de nível de [math]\displaystyle{ f }[/math], então temos dois gradientes paralelos.
A maioria dos livros terá uma explicação gráfica dos multiplicadores de Lagrange na forma de múltiplas curvas de nível de [math]\displaystyle{ f }[/math] e a restrição, uma circunferência por exemplo. Algumas pessoas podem ficar confusas porque a restrição esta interceptando múltiplas curvas de nível. Lembre-se que quando traçamos curvas de nível todas estão no plano XY, mas cada uma tem a sua própria "altura". Não traçamos curvas de nível em 3D com o eixo Z. Pelo menos não à mão e no papel.
Todo exercício cairá num sistema de equações (não lineares porque quase sempre temos quadrados e produtos de variáveis). Lembre-se, uma igualdade entre vetores significa uma igualdade entre as coordenadas de cada vetor:
[math]\displaystyle{ \begin{cases} \nabla f(x,y) & = \ \ \lambda \nabla g(x,y) \\ \ \ \ \ g(x,y) & = \ \ 0 \end{cases} }[/math]
(para três ou mais variáveis o conceito é o mesmo)
Para explicar [math]\displaystyle{ g(x,y) = 0 }[/math] apenas pense sobre a restrição. Toda função de duas variáveis tem o seu domínio no plano XY, onde todos os pontos são da forma [math]\displaystyle{ (x,y,0) }[/math]. A restrição é um subconjunto do plano XY em si porque o que a restrição esta fazendo é restringindo quais pontos do domínio da função são permitidos. Alguns livros apresentam [math]\displaystyle{ g(x,y) = k }[/math]. É a mesma coisa, exceto que a restrição é interpretada como uma curva de nível de uma função secundária.
O [math]\displaystyle{ \lambda }[/math] é chamado de Multiplicador de Lagrange. Assumindo que [math]\displaystyle{ f }[/math] e [math]\displaystyle{ g }[/math] sejam funções distintas, os seus respectivos gradientes devem diferir em magnitude por alguma constante desconhecida. Em alguns casos a constante pode ser [math]\displaystyle{ \lambda = 1 }[/math] e os gradientes em questão são iguais um ao outro.
Método alternativo: No exemplo acima poderíamos ter isolado [math]\displaystyle{ y = \pm \sqrt{x^2 - 1} }[/math] e substituído na própria função. Assim teríamos reduzido o problema de duas variáveis para uma só. Por analogia, uma função de três variáveis com uma restrição na forma de uma superfície 3D também poderia ser reduzida a um problema de duas variáveis.
Múltiplas restrições: podemos ter mais de uma restrição. O domínio de uma função de três variáveis esta no [math]\displaystyle{ \mathbb{R}^3 }[/math]. Se temos uma restrição ela pode ser a superfície de uma esfera por exemplo. Se esta esfera for interceptada por um plano, temos uma circunferência. É um pouco mais complicado de visualizar. O que teremos é:
[math]\displaystyle{ \nabla f(x,y,z) = \lambda_1 \nabla g(x,y,z) + \lambda_2 \nabla h(x,y,z) }[/math]
Separadamente, [math]\displaystyle{ \nabla g }[/math] e [math]\displaystyle{ \nabla h }[/math] não serão paralelos a [math]\displaystyle{ \nabla f }[/math], mas a soma de ambos será. Assim como no caso anterior, o domínio são todos os pontos que pertencem à uma certa curva. Mas agora a curva esta no [math]\displaystyle{ \mathbb{R}^3 }[/math]. No caso anterior o domínio era uma circunferência no plano XY, enquanto que no [math]\displaystyle{ \mathbb{R}^3 }[/math] o domínio pode ser uma circunferência inclinada por exemplo.
Para além de 3D a álgebra existe mas apenas com cálculo não conseguimos resolver problemas mais complexos em dimensões maiores. Também podemos ter inequações e múltiplas condições para serem atendidas, mas para resolver estes tipos de problemas precisamos da programação linear ou da programação não linear.
Observação: nem todo exercício terá tanto um máximo quanto um mínimo. Às vezes a restrição não é fechada como uma circunferência. Pode ser uma parábola por exemplo. Se a restrição for uma circunferência, então [math]\displaystyle{ g }[/math] é diferenciável em todos os pontos. Tenha em mente que o multiplicador de Lagrange depende das funções serem diferenciáveis e o gradiente não pode ser nulo. Se, em algum ponto, não houver um gradiente, o gradiente for nulo ou tivermos [math]\displaystyle{ \lambda = 0 }[/math], precisaremos usar outras informações para saber o que acontece naquele ponto em particular.