17Применение производных

На прошлой лекции мы обсудили, как искать производные. Теперь поговорим о том, как их применять.

17.1Производные и локальное поведение функций

Производная показывает мгновенную скорость возрастания функции. Логично ожидать, что если производная положительна, то функция возрастает, а если отрицательна, то убывает. Мы обсудим различные формализации этого утверждения.

17.1.1Локальная монотонность

Теорема 1. Пусть функция

f

дифференцируема в точке

x_{0}

. Если

f^{'} (x_{0}) > 0

, то существует такая окрестность нуля, что для всех

Δ x

из этой окрестности верно следующее: если

Δ x > 0

, то

f (x_{0} + Δ x) > f (x_{0})

, а если

Δ x < 0

, то

f (x_{0} + Δ x) < f (x_{0})

Иными словами, если существует такая окрестность точки $x_{0}$ , что если мы сдвинемся из $x_{0}$ вправо, оставаясь в этой окрестности, то значение функции увеличится по сравнению с $f (x_{0})$ , а если влево, то уменьшится, см. рис. 17.1

Нарисован график функции y=f(x) и отмечена точка (x_0, f(x_0)).
В этой точке производная положительна, нарисована касательная с
положительных наклоном. Вблизи точки x_0 отмечена окрестность, в
которой f(x)>f(x_0) при x>x_0 и f(x)<f(x_0) при x<x_0. Отмечена
точка x_1 вне этой окрестности, x_1 > x_0 и f(x_1) < f(x_0).

Рис. 17.1: Если мы чуть-чуть сдвинемся из точки

x_{0}

вправо, значение функции увеличится по сравнению со значением в

x_{0}

, а если влево — то уменьшится. Но для точек вне окрестности это может быть неверно: например,

f (x_{1}) < f (x_{0})

, хотя

x_{1} > x_{0}

Доказательство. Напомним (см. утверждение 1 из лекции 15), что если функция

f

дифференцируема в

x_{0}

, то существует такая функция

α (Δ x)

, что

α (Δ x) \to 0

f (x_{0} + Δ x) = f (x_{0}) + f^{'} (x_{0}) Δ x + α (Δ x) \cdot Δ x .

Вынесем

Δ x

за скобку:

\begin{matrix} f (x_{0} + Δ x) = f (x_{0}) + (f^{'} (x_{0}) + α (Δ x)) Δ x . \\ (17.1) \end{matrix}

\begin{matrix} f (x_{0} + Δ x) = f (x_{0}) + + (f^{'} (x_{0}) + α (Δ x)) Δ x . \\ (17.1) \end{matrix}

Поскольку

α (Δ x) \to 0

при

Δ x \to 0

и по предположению

f^{'} (x_{0}) > 0

, существует такая окрестность нуля, что для всех

Δ x

из этой окрестности,

| α (Δ x) | < \frac{f^{'} (x_{0})}{2}

В этом случае

f^{'} (x_{0}) + α (Δ x) > f^{'} (x_{0}) / 2 > 0

. Значит в выражении (17.1) коэффициент при

Δ x

положительный, и следовательно при положительных

Δ x

правая часть больше, чем

f (x_{0})

(мы прибавили к

f (x_{0})

положительное число), а при отрицательных — меньше.∎

Замечание 1. Конечно, аналогично можно доказать аналогичное утверждение для случая

f^{'} (x_{0}) < 0

: существует такая окрестность нуля, что для всех

Δ x

из этой окрестности верно следующее: если

Δ x > 0

, то

f (x_{0} + Δ x) < f (x_{0})

, а если

Δ x < 0

, то

f (x_{0} + Δ x) > f (x_{0})

Замечание 2. Формулировка только что доказанной теоремы звучит немножко громоздко. Почему нельзя сказать проще: если производная в точке положительна, функция возрастает, а если отрицательна, то убывает? Проблема в том, что «возрастание» и «убывание» — это свойства, которыми функция может обладать на некотором промежутке (интервале, отрезке), а утверждение про производную касается конкретной точки. Чтобы сказать что-то про убывание или возрастание, нужно определить множество, на котором это свойство выполняется. Кажется естественным такая формулировка: «если производная в точке

x_{0}

положительна, то найдётся такая окрестность этой точки, что функция в ней будет возрастать». Оказывается, это утверждене неверно. Например, функция

f (x) = x / 10 + x^{2} sin (1 / x)

, доопределенная в нуле нулём, дифференцируема в нуле и имеет положительную производную, но нет никакой окрестности нуля, в которой она бы возрастала, см. рис. 17.2. (Докажите!) Поэтому упростить формулировку теоремы не получится. Это не означает, что нельзя сделать верное утверждение про монотонность функции, основываясь на её производной — можно и мы это сделаем. Но требовать мы там будем знакоопределенности производной не в одной точке, а тоже на каком-то промежутке.

import matplotlib.pyplot as plt
import numpy as np
import qqmbr.odebook as ob
# see https://github.com/ischurov/qqmbr/blob/master/qqmbr/odebook.py

x = np.linspace(-0.3, 0.3, 500)
plt.plot(x, x/10 + x ** 2 * np.sin(1 / x))

ob.center_spines(grid=False, minor_ticks=False)
ob.settle_axes(xmin=-0.32, xmax=0.32, ymin=-0.05, ymax=0.05, 
              xlabel="x", ylabel="y", axlabelshift=0.3) 
plt.xticks([])
plt.yticks([])

Рис. 17.2: Функция

f (x) = x / 10 + x^{2} sin (1 / x)

, доопределенная в нуле нулём, дифференцируема в нуле и имеет положительную производную, но из-за бесконечного количества колебаний нет такой окрестности нуля, в которой она бы возрастала.

17.1.2Необходимое условие экстремума

Одно из главных применений производных — поиск экстремумов.

Лемма 1. (Лемма Ферма) Пусть функция

f

имеет локальный экстремум (минимум или максимум) в точке

x_{0}

, определена в некоторой окрестности этой точки и дифференцируема в этой точке. Тогда её производная в точке

x_{0}

равна нулю, см. рис. 17.3

Нарисован график функции y=f(x) с двумя точками локального
минимума и одной точкой локального максимума, в точках минимумом
и максимумов проведены касательные, они горизонтальны.

Рис. 17.3: Иллюстрация лемме Ферма

Доказательство. От противного, пусть в

x_{0}

экстремум, но производная не равна нулю. Тогда она либо положительна, либо отрицательна. Пусть для определённости положительна. По теореме 1, значение функции можно увеличить, сдвинувшись из

x_{0}

немножко вправо. Это значит, что

x_{0}

не является точкой локального максимума. Но по той же теореме значение функции можно уменьшить, сдвинувшись из

x_{0}

немножко влево. Значит,

x_{0}

и не точка локального минимума. Случай отрицательной производной рассматривается аналогично.

Формально: если точка $x_{0}$ является точкой локального максимума, у неё существует такая $δ_{1}$ -окрестность, что для всякого $x$ из этой окрестности,

f (x_{0}) \geq f (x) .

Но по теореме 1 найдётся такая

δ_{2}

-окрестность точки

x_{0}

, что для всех

x

из этой окрестности, если

x > x_{0}

, то

f (x) > f (x_{0}) .

На пересечении этих окрестностей эти неравенства противоречат друг другу.

Аналогичный результат был бы справедлив и если бы в точке $x_{0}$ был минимум — в этом случае мы бы взяли значения $x < x_{0}$ и получили неравенство

f (x) < f (x_{0}) .

Аналогично рассматривается случай

f^{'} (x_{0}) < 0

.∎

Замечание 3. Доказанное утверждение позволяет искать локальные и глобальные экстремумы следующим образом. Сначала находим все точки, которые в принципе могут быть экстремумами, включая все нули производной. Затем анаизируем эти точки — смотрим, действительно ли они экстремумы, и если да, то в каких из них функция принимает самое большое или самое маленькое значение (если нас интересует глобальная оптимизация). Однако, при этом важно ничего не забыть.

Если функция не дифференцируема в какой-то точке, эта точка может быть или не быть экстремумом (например, $f (x) = | x |$ или $f (x) = | x | + 3 x$ при $x = 0$ ). То есть точки недифференцируемости являются «подозрительными на экстремум».
Если точка $x_{0}$ является граничной точкой области определения (или области, в которой нас интересует поведение функции), в ней может достигаться экстремум и без нулевой производной. Например, если рассматривать $f (x) = x$ на отрезке $[0, 1]$ , в точке $0$ будет локальный минимум, а в точке $1$ — локальный максимум, хотя производная во всех точках равна $1$ .
Если нас интересует глобальная оптимизация, важно учесть поведение функции на бесконечности. Например, у функции $f (x) = x^{3} - 3 x$ , определённой при всех вещественных $x$ , производная равна $f^{'} (x) = 3 x^{2} - 3 x = 3 (x - 1) (x + 1)$ . Она обращается в ноль в точках $- 1$ и $1$ , причём в $- 1$ у функции локальный максимум, а в $1$ — минимум. Однако глобального максимума и минимума у функции нет, поскольку при $x \to + \infty$ она стремится к плюс бесконечности, а при $x \to - \infty$ — к минус бесконечности.

Вопрос 1. Верно ли обратное? Иными словами, правда ли, что если производная функции в некоторой внутренней точке области определения функции равна нулю, то в этой точке обязательно экстремум?

Верно.

Неверный ответ. Как насчёт функции $f (x) = x^{3}$ ?

Неверно.

Верный ответ. Конечно! Например, у функции $f (x) = x^{3}$ в нуле производная равна нулю, а экстремума нет.

17.2Производные и поведение функции на отрезке

17.2.1Непрерывная на отрезке функция достигает наибольшего и наименьшего значения

Теорема 2. Пусть функция

f

непрерывна на отрезке

[a, b]

. Тогда на этом отрезке существуют точки

x_{m i n}

x_{m a x}

, в которых функция принимает минимальное и максимальное значения соответственно (точки глобального минимума и максимума).

Доказательство. Поскольку функция

f

непрерывна на отрезке, она ограничена на этом отрезке (см. теорему 1 из лекции 14). Значит у множества значений функции есть точная верхняя и точная нижняя грани. Обозначим их через

M

m

\begin{matrix} M & := sup {f (x) ∣ x \in [a, b]}, m := inf {f (x) ∣ x \in [a, b]} . \end{matrix}

\begin{matrix} M & := sup {f (x) ∣ x \in [a, b]}, m & := inf {f (x) ∣ x \in [a, b]} . \end{matrix}

Докажем, что эти верхние грани достигаются, то есть найдутся такие точки

x_{m i n}

x_{m a x}

, что

f (x_{m i n}) = m

f (x_{m a x}) = M

. Доказательство будет очень похожим на то, как доказывалась теорема об ограниченности непрерывной функции, упомянутая выше.

Поскольку $M$ является точной верхней гранью, для всякого $ε > 0$ найдётся такой $x = x (ε) \in [a, b]$ , что $f (x) > M - ε$ . Действительно, если бы это было не так, то существовал бы такой $ε > 0$ , что для всех $x \in [a, b]$ выполнялась оценка $f (x) < M - ε$ , то есть число $(M - ε)$ было бы верхней гранью для множества значений функции $f$ , причём меньшей, чем $M$ . Это противоречило бы предположению, что $M$ — точная верхняя грань.

Построим последовательность ${x_{n}}$ следующим образом. Для всех натуральных $n$ положим $ε_{n} = 1 / n$ и пусть

x_{n} = x (ε_{n}) = x (\frac{1}{n}) .

Тогда для всех натуральных

n

M \geq f (x_{n}) > M - \frac{1}{n} .

По теореме о двух милиционерах,

f (x_{n}) \to M

при

n \to \infty

Все $x_{n} \in [a, b]$ и следовательно последовательность ${x_{n}}$ ограничена. Пользуясь теоремой Больцано — Вейерштрасса, выберем сходящуюся подпоследовательность ${x_{n_{k}}}$ . Пусть $x_{n_{k}} \to x_{\infty}$ . Поскольку для всех $n$ , $a \leq x_{n} \leq b$ , по теореме о предельном переходе в неравенствах, $a \leq x_{\infty} \leq b$ . Рассмотрим последовательность ${f (x_{n_{k}})}$ . Она является подпоследовательностью последовательности ${f (x_{n})}$ и следовательно имеет тот же предел, то есть сходится к $M$ .

В силу непрерывности функции $f$ в точке $x_{\infty}$ , её предел в этой точке существует и равен её значению в этой точке. По определению предела по Гейне,

f (x_{n_{k}}) \to lim x \to x_{\infty} f (x) = f (x_{\infty}) .

Но мы знаем, что

f (x_{n_{k}}) \to M

. Следовательно,

f (x_{\infty}) = M

. Положим

x_{m a x} := x_{\infty}

Точка минимума $x_{m i n}$ находится аналогично.∎

Пример 1. Как обычно, условие непрерывности в теореме очень важно. Например, рассмотрим такую функцию:

f (x) = {\begin{matrix} x, & x \in [0, 1) 1 / 2, & x = 1. \end{matrix}

Она не является непрерывной и не достигает своего максимума: для любой точки

x

на полуинтервале

[0, 1)

всегда есть точка правее (например,

(x + 1) / 2

), значение в которой больше, а для точки

x = 1

есть точка левее (например,

x = 3 / 4

), значение в которой больше

1 / 2

17.2.2Теоремы Ролля и Лагранжа

Теорема 3. (Теорема Ролля) Пусть функция

f

непрерывна на

[a, b]

и имеет производную на

(a, b)

. Пусть

f (a) = f (b)

. Тогда существует такая точка

c \in (a, b)

, что

f^{'} (c) = 0

, см. рис. 17.4.

Нарисован график функции y=f(x) и точки a и b на горизонтальной оси
(b>a). Показано, что f(a)=f(b). Отмечена точка c, в которой
касательная горизонтальна. (На картинке две различные точки с
горизонтальной касательной, одна из них отмечена как c)

Рис. 17.4: Иллюстрация к теореме Ролля. Точка

c

с нулевой производной обязательно существует, но не обязательно единственна — на этой картинке есть две подходящие точки.

Доказательство. Поскольку функцию

f

непрерывна на

[a, b]

, по только что доказанной теореме 2, она достигает своего максимума и минимума в каких-то точках

x_{m a x}

x_{m i n}

. Если хотя бы одна из этих точек принадлежит интервалу

(a, b)

, в ней выполняются все условия леммы Ферма и значит производная в ней равна нулю — эту точку мы и возьмём за

c

. Остаётся разобрать случай когда обе точки

x_{m a x}

x_{m i n}

находятся на концах отрезка. Но значения на концах отрезка совпадают, и значит

f (x_{m a x}) = f (x_{m i n})

, то есть наибольшее значение функции равно её наименьшему значению. Такое может быть только если функция является константой: для всех

x \in [a, b]

f (x) = M = m

. Но константа имеет нулевую производную во всех точках. Значит, возьмём в качестве

c

любую точку интервала

(a, b)

— например, его середину

c = (a + b) / 2

.∎

Теорема 4. (Теорема Лагранжа о конечных приращениях) Пусть

f

непрерывна на отрезке

[a, b]

и дифференцируема на интервале

(a, b)

. Тогда существует такая точка

c \in (a, b)

, что

\begin{matrix} f^{'} (c) = \frac{f (b) - f (a)}{b - a} . \\ (17.2) \end{matrix}

Иными словами, на интервале $(a, b)$ найдётся такая точка, что касательная к графику функции, проведённая в этой точке, параллельна секущей, проходящей через точки $(a, f (a))$ и $(b, f (b))$ , см. рис. 17.5.

Нарисован график y=f(x), отмечены точки x=a и x=b, b>a, y=f(a) и
y=f(b), проведена секущая и точка c, такая, что касательная в этой
точке параллельна секущей

Рис. 17.5: Иллюстрация к теореме Лагранжа

Можно привести такую механическую интерпретацию: пусть мы стартовали в момент времени

a

и закончили движение в момент

b

. Правая часть равенства (17.2) — это средняя скорость. Из теоремы Лагранжа следует, что найдётся какой-то момент времени, в который мгновенная скорость будет равна этой средней. Это логично: не может быть такого, чтобы на протяжении всего пути скорость была бы больше средней (какая же она тогда средняя?), равно как и меньше.

Доказательство. Заметим, что если наклонить рисунок 17.5, так, чтобы секущая стала горизонтальной, касательная тоже станет горизонтальной и получится что-то очень похожее на рисунок 17.4. И это — не совпадение, а ключевая идея доказательства. Правда, буквально наклонить (то есть повернуть) не получится: если график повернуть, он может перестать быть графиком функции. Поэтому мы применим другую операцию — не повернём график, а «скосим» его.

Рассмотрим функцию

h (x) = (x - a) \frac{f (b) - f (a)}{b - a} .

Это линейная функция,

h (a) = 0

и её угловой коэффициент равен угловому коэффициенту секущей. Её график — прямая, проходящая через точку

(a, 0)

параллельно секущей, см. рис. 17.6.

Нарисован график y=f(x), отмечены точки x=a и x=b, b>a, y=f(a) и
y=f(b), проведена секущая и точка c, такая, что касательная в этой
точке параллельна секущей. Также проведена прямая y=h(x)

Рис. 17.6: Построение функции

g (x) = f (x) - h (x)

Теперь рассмотрим функцию

\begin{matrix} g (x) := & f (x) - h (x) = f (x) - (x - a) \frac{f (b) - f (a)}{b - a} . \end{matrix}

\begin{matrix} g (x) := & f (x) - h (x) = & f (x) - (x - a) \frac{f (b) - f (a)}{b - a} . \end{matrix}

Эта функция показывает, насколько график

y = f (x)

проходит выше графика

y = h (x)

. Таким образом, её график выглядит как скошенная версия графика

y = f (x)

Заметим, что $g (a) = f (a)$ и $g (b) = f (a)$ . Эта функция непрерывна на отрезке $[a, b]$ и дифференцируема на интервале $(a, b)$ . Значит, к функции $g$ можно применить теорему Ролля и найдётся такая точка $c \in (a, b)$ , что $g^{'} (c) = 0$ . Запишем производную:

g^{'} (x) = f^{'} (x) - \frac{f (b) - f (a)}{b - a} .

Значит в точке

x = c

0 = g^{'} (c) = f^{'} (c) - \frac{f (b) - f (a)}{b - a} .

∎

Замечание 4. Часто бывает удобно умножить равенство (17.2) на

(b - a)

и перенести

f (b)

в другую сторону:

\begin{matrix} f (b) = f (a) + f^{'} (c) (b - a) . \\ (17.3) \end{matrix}

17.2.3Применение теоремы Лагранжа

Теперь мы готовы доказывать утверждения о связи производной и монотонности функций.

Утверждение 1. Пусть функция

f

непрерывна на отрезке

[a, b]

и дифференцируема во всех точках интервала

(a, b)

. Пусть также для всех

x \in (a, b)

выполняется неравенство

f^{'} (x) > 0

. Тогда функция

f

строго возрастает на отрезке

[a, b]

Доказательство. Рассмотрим две произвольные точки

x_{1}

x_{2}

из отрезка

[a, b]

, и пусть

x_{2} > x_{1}

. Применим теорему Лагранжа к отрезку

[x_{1}, x_{2}]

. Получим точку

c \in [x_{1}, x_{2}]

, для которой верно равенство (см. (17.3)):

f (x_{2}) = f (x_{1}) + f^{'} (c) (x_{2} - x_{1}) .

По условию,

f^{'} (c) > 0

(потому что

c \in (x_{1}, x_{2}) \subset (a, b)

и во всех точках интервала

(a, b)

производная положительна) и по предположению

x_{2} - x_{1} > 0

. Значит,

f (x_{2}) > f (x_{1})

. Поскольку это утверждение справедливо для всех

x_{1}, x_{2} \in [a, b]

x_{2} > x_{1}

, функция строго возрастает на этом отрезке.∎

Вопрос 2. Верно ли обратное? Правда ли, что если функция строго возрастает на отрезке, то её производная положительна внутри этого отрезка?

Верно, это следует из теоремы Лагранжа.

Неверный ответ. А как насчёт функции $f (x) = x^{3}$ ?

Неверно, есть контрпример.

Верный ответ. Ага! Например, $f (x) = x^{3}$ , $f^{'} (0) = 0$ , хотя функция всюду строго возрастает.

Аналогично с помощью теоремы Лагранжа можно доказывать разные другие утверждение про монотонность функции и производные, вы потренируетесь это делать на семинаре.

17.3Заключение

Значение производной в какой-то точке описывает локальное поведение функции в этой точке. Переход от локальных свойств к глобальным не всегда является простым, и здесь легко ошибиться, как показывает замечание 2. Как правило для доказательства глобальных утвержедний пригождается теорема Лагранжа. Мы вернёмся к ней очень скоро — когда будем обсуждать понятие выпуклости.

← Предыдущая глава Следующая глава →

Математический анализ Записки лекций

17Применение производных

17.1Производные и локальное поведение функций

17.1.1Локальная монотонность

17.1.2Необходимое условие экстремума

17.2Производные и поведение функции на отрезке

17.2.1Непрерывная на отрезке функция достигает наибольшего и наименьшего значения

17.2.2Теоремы Ролля и Лагранжа

17.2.3Применение теоремы Лагранжа

17.3Заключение

Математический анализ
Записки лекций