Производная показывает мгновенную скорость возрастания функции. Логично ожидать,
что если производная положительна, то функция возрастает, а если отрицательна,
то убывает. Мы обсудим различные формализации этого утверждения.
Теорема 1. Пусть функция f дифференцируема в точке x0. Если f′(x0)>0, то
существует такая окрестность нуля, что для всех Δx из этой
окрестности верно следующее: если Δx>0, то f(x0+Δx)>f(x0), а если Δx<0, то f(x0+Δx)<f(x0).
Иными словами, если существует такая окрестность точки x0, что если мы
сдвинемся из x0 вправо, оставаясь в этой окрестности, то значение функции
увеличится по сравнению с f(x0), а если влево, то уменьшится, см.
рис. 17.1
Рис. 17.1: Если мы чуть-чуть сдвинемся из точки x0 вправо, значение функции
увеличится по сравнению со значением в x0, а если влево — то
уменьшится. Но для точек вне окрестности это может быть неверно:
например, f(x1)<f(x0), хотя x1>x0.
Доказательство. Напомним (см. утверждение 1 из
лекции 15), что если функция f дифференцируема в
x0, то существует такая функция α(Δx), что α(Δx)→0 и
f(x0+Δx)=f(x0)+f′(x0)Δx+α(Δx)⋅Δx.
Вынесем Δx за скобку:
f(x0+Δx)=f(x0)+(f′(x0)+α(Δx))Δx.(17.1)
f(x0+Δx)=f(x0)++(f′(x0)+α(Δx))Δx.(17.1)
Поскольку α(Δx)→0 при Δx→0 и по предположению
f′(x0)>0, существует такая окрестность нуля, что для всех Δx из
этой окрестности,
|α(Δx)|<f′(x0)2
В этом случае f′(x0)+α(Δx)>f′(x0)/2>0. Значит в выражении
(17.1) коэффициент при Δx положительный, и следовательно
при положительных Δx правая часть больше, чем f(x0) (мы прибавили
к f(x0) положительное число), а при отрицательных — меньше.∎
Замечание 1. Конечно, аналогично можно доказать аналогичное утверждение для случая
f′(x0)<0: существует такая окрестность нуля, что для всех Δx из
этой окрестности верно следующее: если Δx>0, то f(x0+Δx)<f(x0), а если Δx<0, то f(x0+Δx)>f(x0).
Замечание 2. Формулировка только что доказанной теоремы звучит немножко громоздко.
Почему нельзя сказать проще: если производная в точке положительна, функция
возрастает, а если отрицательна, то убывает? Проблема в том, что
«возрастание» и «убывание» — это свойства, которыми функция может обладать
на некотором промежутке (интервале, отрезке), а утверждение про производную
касается конкретной точки. Чтобы сказать что-то про убывание или
возрастание, нужно определить множество, на котором это свойство
выполняется. Кажется естественным такая формулировка: «если производная в
точке x0 положительна, то найдётся такая окрестность этой точки, что
функция в ней будет возрастать». Оказывается, это утверждене неверно.
Например, функция f(x)=x/10+x2sin(1/x), доопределенная в нуле нулём,
дифференцируема в нуле и имеет положительную производную, но нет никакой
окрестности нуля, в которой она бы возрастала, см.
рис. 17.2. (Докажите!) Поэтому упростить формулировку
теоремы не получится. Это не означает, что нельзя сделать верное утверждение
про монотонность функции, основываясь на её производной — можно и мы это
сделаем. Но требовать мы там будем знакоопределенности производной не в
одной точке, а тоже на каком-то промежутке.
import matplotlib.pyplot as plt
import numpy as np
import qqmbr.odebook as ob
# see https://github.com/ischurov/qqmbr/blob/master/qqmbr/odebook.py
x = np.linspace(-0.3, 0.3, 500)
plt.plot(x, x/10 + x ** 2 * np.sin(1 / x))
ob.center_spines(grid=False, minor_ticks=False)
ob.settle_axes(xmin=-0.32, xmax=0.32, ymin=-0.05, ymax=0.05,
xlabel="x", ylabel="y", axlabelshift=0.3)
plt.xticks([])
plt.yticks([])
Рис. 17.2: Функция f(x)=x/10+x2sin(1/x), доопределенная в нуле
нулём, дифференцируема в нуле и имеет положительную производную, но
из-за бесконечного количества колебаний нет такой окрестности нуля, в
которой она бы возрастала.
Одно из главных применений производных — поиск экстремумов.
Лемма 1. (Лемма Ферма)
Пусть функция f имеет локальный экстремум (минимум или максимум) в точке
x0, определена в некоторой окрестности этой точки и дифференцируема в
этой точке. Тогда её производная в точке x0 равна нулю, см.
рис. 17.3
Доказательство. От противного, пусть в x0 экстремум, но производная не равна нулю. Тогда
она либо положительна, либо отрицательна. Пусть для определённости
положительна. По теореме 1, значение функции можно
увеличить, сдвинувшись из x0 немножко вправо. Это значит, что x0 не
является точкой локального максимума. Но по той же теореме значение функции
можно уменьшить, сдвинувшись из x0 немножко влево. Значит, x0 и не
точка локального минимума. Случай отрицательной производной рассматривается
аналогично.
Формально: если точка x0 является точкой локального максимума, у неё
существует такая δ1-окрестность, что для всякого x из этой
окрестности,
f(x0)≥f(x).
Но по теореме 1 найдётся такая δ2-окрестность
точки x0, что для всех x из этой окрестности, если x>x0, то
f(x)>f(x0).
На пересечении этих окрестностей эти неравенства противоречат друг другу.
Аналогичный результат был бы справедлив и если бы в точке x0 был минимум
— в этом случае мы бы взяли значения x<x0 и получили неравенство
f(x)<f(x0).
Аналогично рассматривается случай f′(x0)<0.∎
Замечание 3. Доказанное утверждение позволяет искать локальные и глобальные экстремумы
следующим образом. Сначала находим все точки, которые в принципе могут быть
экстремумами, включая все нули производной. Затем анаизируем эти точки —
смотрим, действительно ли они экстремумы, и если да, то в каких из них
функция принимает самое большое или самое маленькое значение (если нас
интересует глобальная оптимизация). Однако, при этом важно ничего не забыть.
Если функция не дифференцируема в какой-то точке,
эта точка может быть или не быть экстремумом (например, f(x)=|x| или
f(x)=|x|+3x при x=0). То есть точки недифференцируемости являются
«подозрительными на экстремум».
Если точка x0 является граничной точкой области определения (или
области, в которой нас интересует поведение функции), в
ней может достигаться экстремум и без нулевой производной. Например,
если рассматривать f(x)=x на отрезке [0,1], в точке 0 будет
локальный минимум, а в точке 1 — локальный максимум, хотя
производная во всех точках равна 1.
Если нас интересует глобальная оптимизация, важно учесть поведение
функции на бесконечности. Например, у функции f(x)=x3−3x,
определённой при всех вещественных x, производная равна
f′(x)=3x2−3x=3(x−1)(x+1). Она обращается в ноль в точках −1 и
1, причём в −1 у функции локальный максимум, а в 1 — минимум.
Однако глобального максимума и минимума у функции нет, поскольку при
x→+∞ она стремится к плюс бесконечности, а при x→−∞ — к минус бесконечности.
Вопрос 1. Верно ли обратное? Иными словами, правда ли, что если производная функции в
некоторой внутренней точке области определения функции равна нулю, то в этой
точке обязательно экстремум?
17.2.1Непрерывная на отрезке функция достигает наибольшего и наименьшего значения
Теорема 2. Пусть функция f непрерывна на отрезке [a,b]. Тогда на этом отрезке
существуют точки xmin и xmax, в которых функция принимает
минимальное и максимальное значения соответственно (точки глобального
минимума и максимума).
Доказательство. Поскольку функция f непрерывна на отрезке, она ограничена на этом отрезке
(см. теорему 1 из лекции 14).
Значит у множества значений функции есть точная верхняя и точная нижняя
грани. Обозначим их через M и m:
M:=sup{f(x)∣x∈[a,b]},m:=inf{f(x)∣x∈[a,b]}.
M:=sup{f(x)∣x∈[a,b]},m:=inf{f(x)∣x∈[a,b]}.
Докажем, что эти верхние грани достигаются, то есть найдутся такие точки
xmin и xmax, что f(xmin)=m и f(xmax)=M. Доказательство
будет очень похожим на то, как доказывалась теорема об ограниченности
непрерывной функции, упомянутая выше.
Поскольку M является точной верхней гранью, для всякого ε>0 найдётся
такой x=x(ε)∈[a,b], что f(x)>M−ε. Действительно, если бы это было не
так, то существовал бы такой ε>0, что для всех x∈[a,b]
выполнялась оценка f(x)<M−ε, то есть число (M−ε) было бы верхней гранью
для множества значений функции f, причём меньшей, чем M. Это противоречило бы
предположению, что M — точная верхняя грань.
Построим последовательность {xn} следующим образом. Для всех
натуральных n положим εn=1/n и пусть
xn=x(εn)=x(1n).
Тогда для всех натуральных n
M≥f(xn)>M−1n.
По теореме о двух милиционерах, f(xn)→M при n→∞.
Все xn∈[a,b] и следовательно последовательность {xn}
ограничена. Пользуясь теоремой Больцано —
Вейерштрасса, выберем сходящуюся подпоследовательность
{xnk}. Пусть xnk→x∞. Поскольку для всех n, a≤xn≤b, по теореме о предельном переходе в неравенствах, a≤x∞≤b. Рассмотрим последовательность {f(xnk)}. Она
является подпоследовательностью последовательности {f(xn)} и
следовательно имеет тот же предел, то есть сходится к M.
В силу непрерывности функции f в точке x∞, её предел в этой
точке существует и равен её значению в этой точке. По определению предела по
Гейне,
f(xnk)→limx→x∞f(x)=f(x∞).
Но мы знаем, что f(xnk)→M. Следовательно, f(x∞)=M. Положим
xmax:=x∞.
Точка минимума xmin находится аналогично.∎
Пример 1. Как обычно, условие непрерывности в теореме очень важно. Например,
рассмотрим такую функцию:
f(x)={x,x∈[0,1)1/2,x=1.
Она не является непрерывной и не достигает своего максимума: для любой точки
x на полуинтервале [0,1) всегда есть точка правее (например,
(x+1)/2), значение в которой больше, а для точки x=1 есть точка левее
(например, x=3/4), значение в которой больше 1/2.
Теорема 3. (Теорема Ролля) Пусть функция f непрерывна на [a,b] и имеет производную на (a,b). Пусть f(a)=f(b). Тогда существует такая точка c∈(a,b), что
f′(c)=0, см. рис. 17.4.
Рис. 17.4: Иллюстрация к теореме Ролля. Точка c с нулевой производной обязательно
существует, но не обязательно единственна — на этой картинке есть две
подходящие точки.
Доказательство. Поскольку функцию f непрерывна на [a,b], по только что доказанной
теореме 2, она достигает своего максимума и минимума в каких-то точках
xmax и xmin. Если хотя бы одна из этих точек принадлежит интервалу
(a,b), в ней выполняются все условия леммы Ферма и
значит производная в ней равна нулю — эту точку мы и возьмём за c. Остаётся
разобрать случай когда обе точки xmax и xmin находятся на концах
отрезка. Но значения на концах отрезка совпадают, и значит
f(xmax)=f(xmin), то есть наибольшее значение функции равно её
наименьшему значению. Такое может быть только если функция является
константой: для всех x∈[a,b], f(x)=M=m. Но константа имеет нулевую
производную во всех точках. Значит, возьмём в качестве c любую точку
интервала (a,b) — например, его середину c=(a+b)/2.∎
Теорема 4. (Теорема Лагранжа о конечных приращениях) Пусть f непрерывна на отрезке [a,b] и дифференцируема на интервале
(a,b). Тогда существует такая точка c∈(a,b), что
f′(c)=f(b)−f(a)b−a.(17.2)
Иными словами, на интервале (a,b) найдётся такая точка, что касательная к
графику функции, проведённая в этой точке, параллельна секущей, проходящей через
точки (a,f(a)) и (b,f(b)), см. рис. 17.5.
Можно привести такую механическую интерпретацию: пусть мы стартовали в
момент времени a и закончили движение в момент b. Правая часть равенства
(17.2) — это средняя скорость. Из теоремы Лагранжа следует,
что найдётся какой-то момент времени, в который мгновенная скорость будет равна
этой средней. Это логично: не может быть такого, чтобы на протяжении всего пути
скорость была бы больше средней (какая же она тогда средняя?), равно как и
меньше.
Доказательство. Заметим, что если наклонить рисунок 17.5, так, чтобы
секущая стала горизонтальной, касательная тоже станет горизонтальной и
получится что-то очень похожее на рисунок 17.4. И это — не
совпадение, а ключевая идея доказательства. Правда, буквально наклонить (то
есть повернуть) не получится: если график повернуть, он может перестать быть
графиком функции. Поэтому мы применим другую операцию — не повернём график,
а «скосим» его.
Рассмотрим функцию
h(x)=(x−a)f(b)−f(a)b−a.
Это линейная функция, h(a)=0 и её угловой коэффициент равен угловому
коэффициенту секущей. Её график — прямая, проходящая через точку (a,0)
параллельно секущей, см. рис. 17.6.
Эта функция показывает, насколько график y=f(x) проходит выше графика
y=h(x). Таким образом, её график выглядит как скошенная версия графика
y=f(x).
Заметим, что g(a)=f(a) и g(b)=f(a). Эта функция непрерывна на
отрезке [a,b] и дифференцируема на интервале (a,b). Значит, к
функции g можно применить теорему Ролля и найдётся такая точка c∈(a,b), что g′(c)=0. Запишем производную:
g′(x)=f′(x)−f(b)−f(a)b−a.
Значит в точке x=c:
0=g′(c)=f′(c)−f(b)−f(a)b−a.
∎
Замечание 4. Часто бывает удобно умножить равенство (17.2) на (b−a) и
перенести f(b) в другую сторону:
Теперь мы готовы доказывать утверждения о связи производной и монотонности
функций.
Утверждение 1. Пусть функция f непрерывна на отрезке [a,b] и дифференцируема во всех
точках интервала (a,b). Пусть также для всех x∈(a,b) выполняется
неравенство f′(x)>0. Тогда функция f строго возрастает на отрезке [a,b].
Доказательство. Рассмотрим две произвольные точки x1 и x2 из отрезка [a,b], и пусть
x2>x1.
Применим теорему Лагранжа к отрезку [x1,x2]. Получим точку c∈[x1,x2], для которой верно равенство (см. (17.3)):
f(x2)=f(x1)+f′(c)(x2−x1).
По условию, f′(c)>0 (потому что c∈(x1,x2)⊂(a,b) и во
всех точках интервала (a,b) производная положительна) и по предположению
x2−x1>0. Значит, f(x2)>f(x1). Поскольку это утверждение
справедливо для всех x1,x2∈[a,b], x2>x1, функция строго
возрастает на этом отрезке.∎
Вопрос 2. Верно ли обратное? Правда ли, что если функция строго возрастает на отрезке, то её
производная положительна внутри этого отрезка?
Верный ответ.
Ага! Например, f(x)=x3, f′(0)=0, хотя функция всюду
строго возрастает.
Аналогично с помощью теоремы Лагранжа можно доказывать разные другие утверждение
про монотонность функции и производные, вы потренируетесь это делать на
семинаре.
Значение производной в какой-то точке описывает локальное поведение функции в
этой точке. Переход от локальных свойств к глобальным не всегда является
простым, и здесь легко ошибиться, как показывает замечание 2.
Как правило для доказательства глобальных утвержедний пригождается теорема
Лагранжа. Мы вернёмся к ней очень скоро — когда будем обсуждать понятие выпуклости.