Посмотрим на графики функций y=x2, x≥0, и y=√x. Что мы можем
сказать про их поведение при возрастании x? С одной стороны, они обе
возрастают. С другой — по графику видно, что возрастают они как-то по-разному.
График y=x2 загибается вверх — чем больше x, тем быстрее растёт x2, а
y=√x, наоборот, с увеличением x растёт все медленнее, загибается как
бы вниз (хотя и никогда не убывает). Это неудивительно: производная x2 равна
2x, это возрастающая функция, а у √x производная равна
1/(2√x), она убывает, хоть и остаётся всегда положительной.
Такого типа разница в поведении функций часто оказывается важной с практической
точки зрения. Например, в экономике известен закон убывающей предельной
полезности. Увеличение какого-нибудь ресурса приносит разную отдачу в
зависимости от того, много его в наличии или мало: чем больше ресурса есть, тем
меньший эффект от его увеличения. Бывают и обратные ситуации. Например,
экономический эффект от коммуникационной сети при увеличении количества её
участников (можно думать о периоде истории, когда только-только изобрели
телефоны) растёт с ускорением (можно считать, что для каждого владельца телефона
полезность телефонной сети растёт линейно с ростом числа человек, которым можно
позвонить, и значит эффект от всей сети в целом для общества будет расти
квадратично).
С математической точки зрения эта разница в поведении функций связана со
свойством выпуклости. Его-то мы и обсудим. Но сперва поговорим про
старшие производные.
Пусть у нас есть какая-нибудь функция f и мы хотим различать ситуации, когда
её график «загибается вверх» (то есть она растёт с ускорением) или «вниз» (то
есть замедляется). Поскольку скорость роста функции — это её производная, нас
интересует, возрастает производная или убывает. Чтобы исследовать функцию на
возрастание и убывание, мы можем воспользоваться производной, но что делать,
если мы хотим исследовать таким образом саму производную? Нужно посчитать
производную от производной! Она называется второй производной исходной
функции.
Пример 1. Рассмотрим функцию f(x)=x3+2x2+3x+1. Её производная равна
f′(x)=3x2+4x+3,
а вторая производная — это просто производная первой производной:
f′′(x)=(f′(x))′=(3x2+4x+3)′=6x+4.
Аналогично можно определить третью производную (производную от второй
производной) и т.д. Формальное определение такое:
Определение 1. Производной порядка n или просто n-й производной функции f называется
производная (n−1)-й производной этой функции. Производная первого порядка
— это обычная производная, f′. Как правило, первые три производные
обозначаются соответствующим количеством штрихов (f′, f′′, f′′′),
четвертая производная иногда обозначается fIV (от римского числа 4),
более старшие производные — числом в скобках: f(5) и т.д. (не путать со
степенью!). Нулевой производной часто удобно считать саму функцию f.
Вопрос 1. Пусть P — некоторый многочлен степени n:
Неверный ответ.
Нет, это (n+1)-я производная равна нулю: при каждом
дифференцировании степень уменьшается на 1, за n
дифференцирований мы получим константу, её производная — ноль.
Верный ответ.
Верно! Каждый раз при дифференцировании будет сноситься
очередная степень, и каждый раз она будет уменьшаться на 1. В
результате за n дифференцирований вынесется n!.
Неверный ответ.
Ну нет. Попробуйте взять n=3 и проверьте, что получится.
Замечание 1. Может так оказаться, что функция дифференцируема в какой-то точке, но её
вторая производная в этой точке не существует. Например, рассмотрим функцию
f(x)={x2,x<0;3x2,x≥0.
Её первая производная имеет вид:
f′(x)={2x,x<0;6x,x≥0.
Можно проверить по определению, что в нуле производная определена и
действительно равна нулю (проверьте!). Однако, вторая производная в нуле уже
не определена: функция f′ имеет в нуле излом.
Производные порядка больше двух нам понадобятся позже, когда мы будем обсуждать
формулу Тейлора. А вот вторая производная понадобится совсем скоро.
Допустим, я хочу сказать, что некоторая функция растёт с ускорением. Можно было
бы сказать, что её производная возрастает. Однако, не у всякой функции есть
производная. Оказывается, можно дать определение, которое будет выражать ту же
идею «роста с ускорением», но не требовать производных.
Посмотрим ещё раз на график функции x2. Возьмём две произвольные точки и
соединим их отрезком — он называется хордой (по аналогии с хордами
окружности). По графику y=x2 видно, что любая хорда лежит выше графика (не
считая концов, которые, конечно, лежат на графике). Если аналогичную штуку
проделать с графиком y=√x, там ситуация обратная: любая хорда лежит ниже
графика.
Определение 2. Пусть областью определения функции f является некоторый промежуток
(интервал, отрезок, полуинтервал, луч, вся прямая). Говорят, что fвыпукла вниз (соответственно, выпукла вверх), если любая хорда
лежит выше графика (соответственно, ниже графика). Выпуклость может
быть строгой и нестрогой. В первом случае хорде не разрешается иметь общие
точки с графиком, кроме концов. Во втором разрешается. Как правило, без
дополнительных уточнений обычно подразумевается нестрогая выпуклость.
Пример 2. Функция y=|x| является нестрого выпуклой вниз, а y=x2 — строго выпуклой
вниз. Эти факты можно строго доказать, но мы пока ограничимся картинками.
Замечание 2. Иногда вместо «выпуклость вверх» и «выпуклость вниз» говорят «выпуклость» и
«вогнутость». Мало того, что невозможно запомнить, кто из них кто, так ещё и
в разных источниках терминология отличается с точностью до наоборот. Мы не
будем использовать эти термины, чтобы не создавать путаницу.
Термины «выпуклость вниз» и «выпуклость вверх» кажутся достаточно
наглядными: достаточно представить себе график y=x2, который смотрит
«выпуклостью вниз», и y=−x2, который смотрит «выпуклостью вверх».
Геометрическое определение в терминах хорд достаточно наглядно, но для
доказательств полезно переформулировать его аналитически. Для этого нужно
научиться параметрически задавать точки на хорде.
Рассмотрим две точки на декартовой плоскости: A=(x1,y1) и B=(x2,y2). Пусть для определенности x2>x1 и y2>y1 (хотя рассуждения
будут верными и в других случаях). Пусть t∈[0,1] и
x(t)=(1−t)x1+tx2;y(t)=(1−t)y2+ty2.
Точка x(t) делит отрезок [x1,x2] в отношении t:(1−t), то есть отношение
длин отрезков [x1,x(t)] и [x(t),x2] равно t/(1−t). (Проверьте — это
простое вычисление!) Можно думать про x(t) как о «средневзвешенном» между
точками x1 и x2: при t=0 получается точка x1, по мере того, как t
увеличивается, точка сдвигается в сторону x2, при t=1 получается x2.
Если t=1/2, получается середина отрезка.
Аналогично ведёт себя точка y(t).
Утверждение 1. Рассмотрим точку на плоскости
C(t):=(x(t),y(t))=((1−t)x1+tx2,(1−t)y1+ty2).
C(t):=(x(t),y(t))==((1−t)x1+tx2,(1−t)y1+ty2).
Она лежит на отрезке с концами в точках A и B и делит этот отрезок в
отношении t:(1−t).
Доказательство. Это утверждение можно доказать аналитически: найти уравнение прямой,
проходящей через точки A и B, и показать, что C принадлежит этой
прямой, затем найти расстояния до A и до B и найти их отношение. Но мы
ограничимся геометрическим рассуждением.
Рассмотрим точку ~C(t), которая лежит на отрезке [A,B] и делит его в
отношении t:(1−t). Докажем, что ~C(t)=C(t).
Проведём через точки A, ~C(t) и B вертикальные прямые до
пересечения с горазонтальной осью в точках (x1,0), (~x(t),0) и
(x2,0). По теореме Фалеса точка ~x(t) разбивает отрезок [x1,x2] в том же отношении, в котором точка ~C(t) разбивает отрезок
[A,B]. Значит, ~x(t)=x(t).
Аналогично проведём через точки A, ~C(t) и B горизонтальные
прямые до пересечения в вертикальной осью в точках (0,y1), 0,~y(t)) и (0,y2). По той же теореме Фалеса точка ~y(t) должна
совпадать с точкой y(t). Значит, ~C(t) имеет координаты (x(t),y(t)), то есть совпадает с точкой C(t).∎
Теперь мы готовы дать аналитическое определение выпуклости.
Определение 3. Пусть областью определения функции f является некоторый промежуток
(интервал, отрезок, полуинтервал, луч, вся прямая). Говорят, что f
(нестрого) выпукла вниз , если для любых различных точек
x1,x2∈D(f), и любого t∈(0,1):
f((1−t)x1+tx2)≤(1−t)f(x1)+tf(x2).
Соответственно, (нестрого) выпукла вверх, если
f((1−t)x1+tx2)≥(1−t)f(x1)+tf(x2).
Чтобы получить строгую выпуклость, надо нестрогое неравенство заменить на
строгое.
Замечание 3. Пусть x(t)=(1−t)x1+tx2, y(t)=(1−t)f(x1)+tf(x2). Тогда точка
(x(t),f(x(t)) лежит на графике функции y=f(x), а точка (x(t),y(t))
— на соответствующей хорде. Таким образом, неравенства в
определении 3 говорят ровно то же самое, что
и в определении 2: что точка на графике лежит над или
под точкой на хорде.
Упражнение 1. Докажите, пользуясь определением 3, что линейная функция
нестрого выпукла вверх и нестрого выпукла вниз.
Определение 4. Скажем, что точка (x0,y0) лежит (нестрого) выше (или
над) графиком функции y=f(x), если y0≥f(x0). В
частности, точка (x0,y0) лежит над некоторой прямой y=kx+b, если
y0≥kx0+b.
Теорема 1. Пусть областью определения функции f является интервал (a,b) и она
дифференцируема в каждой его точке. В этом случае следующие утверждения
эквивалентны:
Функция f нестрого выпукла вниз на (a,b).
f′ нестрого возрастает на (a,b).
Для любой точки x∈(a,b) справедливо утверждение: все точки
графика f лежат нестрого над касательной к этому графику,
проведённой в точке (x,f(x)). Иными словами, график проходит выше
любой касательной.
Доказательство. Мы докажем, что из первого утверждения следует второе, из второго третье, а
из третьего — первое. Таким образом будет доказано, что все три утверждения
эквивалентны.
Из выпуклости следует возрастание производной.
Пусть f выпукла вниз. Докажем, что производная неубывает. Рассмотрим
две произвольные точки x2>x1∈(a,b). Пусть A=(x1,f(x1)) и
B=(x2,f(x2)) — соответствующие точки на графике функции. Пусть
t∈(0,1)x(t)=(1−t)x1+tx2y(t)=(1−t)y1+ty2C(t)=(x(t),y(t))F(t)=(x(t),f(x(t))
Точка C(t) находится над x(t) и лежит на хорде [A,B], а точка F(t) — на графике y=f(x). В силу выпуклости f, точка
F(t) лежит ниже C(t), то есть
f(x(t))≤y(t).
Рассмотрим секущую, проходящую через точки A и F(t). Обозначим её
угловой коэффициент через k(t). Он не больше, чем угловой коэффициент
K хорды [A,B], поскольку F(t) лежит не выше хорды. Действительно,
угловой коэффициент k(t) равен
k(t)=f(x(t))−y1x(t)−y1,
а угловой коэффициент хорды совпадает с угловым коэффициентом отрезка
[A,C(t)] (т.к. этот отрезок лежит на хорде [A,B]), который равен
K=y(t)−y1x(t)−y1,
и поскольку y(t)≥f(x(t)), эта дробь не меньше, чем k(t). (Несмотря
на наличие t в правой части, K на самом деле от t не зависит — меняя
t, мы меняем точку C(t), но она остаётся на хорде [A,B] и
следовательно угловой коэффициент [A,C(t)] не меняется: он всегда
совпадает с угловым коэффициентом хорды [A,B].)
Предел k(t) при t→0+ равен производной функции f в точке x1
(по условию функция дифференцируема, значит односторонний прдеел равен
обычному пределу). Предельный переход в неравенстве k(t)≤K теперь
гарантирует, что производная не больше K. Полностью аналогичными
рассуждениями (проведите их!) доказывается, что производная f′(x2) не
меньше K. Следовательно, f′(x2)≥f′(x1). Поскольку x1 и
x2 выбраны произвольно, это доказывает неубывание производной.
Из возрастания производной следует, что график лежит выше
касательных. Докажем, что если производная неубывает,
то любая точка на графике лежит выше любой касательной. От противного.
Пусть нашлась точка x1∈(a,b) и такая точка x2>x1, что точка
B:=(x2,f(x2)) лежит под касательной, проведённой в точке A:=(x1,f(x1)). Тогда хорда [A,B] имеет угловой коэффициент меньше, чем
угловой коэффициент касательной в точке A, то есть меньше, чем
f′(x1). По теореме Лагранжа из этого следует, что существует такая
точка c∈(x1,x2), что f′(c) равна угловому коэффициенту хорды
[A,B] и таким образом f′(c)<f′(x1). Противоречие.
Чтобы доказать, что из третьего утверждения следует первое, нам понадобится
несколько дополнительных понятий и утверждений.∎
Определение 5. Множество K⊂R2 на плоскости называется
выпуклым, если для любых точек A,B∈K, весь отрезок [A,B] лежит внутри K. Например, круг и треугольник выпуклы, а звезда
— нет.
Определение 6.Надграфиком функции f называется множество точек плоскости,
лежащих над её графиком (включая сам график). Формально:
supergraph(f):={(x,y)∈R2∣y≥f(x)}.
Упражнение 2. Догадайтесь, что такое подграфик функции.
Утверждение 2. Функция является выпуклой вниз тогда и только тогда, когда её надграфик выпуклый.
Доказательство. Пусть надграфик функции выпуклый. График является подмножеством
надграфика. Тогда для любых точек графика
весь отрезок, соединяющий эти точки, лежит в надграфике. То есть
весь отрезок проходит над графиком. Значит, функция выпукла вниз.
Наоборот, пусть функция выпукла вниз. Докажем, что надграфик является
выпуклым множеством. Рассмотрим две произвольные точки A=(x1,y1) и
B=(x2,y2) в надграфике f:
y1≥f(x1);y2≥f(x2).
Возьмём произвольное t∈[0,1]. Умножим первое неравенство на (1−t),
а второе на t, и сложим. Получим такое неравенство:
(1−t)y1+ty2≥(1−t)f(x1)+tf(x2).
Но в силу выпуклости вниз функции f, правая часть этого неравенста не
меньше f((1−t)x1+tx2). Таким образом, точка
C(t):=((1−t)x1+tx2,(1−t)y1+ty2)∈[A,B]
C(t):=((1−t)x1+tx2,(1−t)y1+ty2)∈∈[A,B]
лежит в надграфике f. Поскольку t произвольно, в качестве C(t) можно
получить любую точку отрезка [A,B], то есть весь отрезок лежит в
надграфике и надграфик является выпуклым множеством.∎
Замечание 4. Аналогично, если функция выпукла вверх, выпуклым является её подграфик.
Замечание 5. Рассмотрим произвольную невертикальную прямую на плоскости. Она является
графиком некоторой функции y=kx+b и делит плоскость на две полуплоскости
— надграфик этой функции и подграфик. По упражнению 1,
линейная функция одновременно выпукла вверх и вниз, и значит полуплоскости
являются выпуклыми множествами.
Утверждение 3. Пусть Kα — набор выпуклых множеств . Тогда их пересечение
W=⋂αKα
выпукло.
Множество W по определению состоит их тех точек плоскости, которые
содержатся во всех Kα.
Пример 3. Здесь α — «номер» очередного множества в наборе, но при этом α
не обязан быть натуральным числом. Например, можно рассмотреть набор
треугольников с вершинами (0,0), (2,0) и (1,α) для всех
α∈R (пусть каждый треугольник включает свои стороны).
Упражнение: найти W в этом примере. (Даже не пытайтесь двигаться
дальше, если вы не можете выполнить это упражнение.)
Доказательство. Рассмотрим две любые точки A,B∈W. Поскольку A∈W, то для
всех α, A∈Kα. Аналогично, для всех α, B∈Kα. Следовательно, для всех α, отрезок [A,B]⊂Kα (поскольку каждое Kα выпукло).
Следовательно, [A,B]⊂W.∎
Доказательство последней части теоремы 1. Теперь мы готовы доказать, что в теореме 1 из третьего
утверждения (график лежит над касательной) следует первое (функция выпукла
вниз). Пусть α∈(a,b).
Проведём касательную через точку (α,f(α)). Эта касательная
разбивает плоскость на две полуплоскости, верхнюю и нижнюю. Пусть
верхняя полуплоскость (включая саму касательную) — это Kα.
Рассмотрим их пересечение:
W=∩αKα.
Докажем, что это надграфик функции f. (Строго говоря, надграфиком будет
пересечение W с полосой x∈(a,b) — но эта полоса сама является
выпуклым множеством и ничего не портит.) Действительно, по условию, любая
точка графика лежит над любой касательной к этому графику. Значит, любая
точка графика и весь луч от неё вверх
лежит во всех Kα и значит лежит в W. Таким образом, весь надграфик
лежит в W. Докажем теперь, что в W нет
лишних точек. Пусть некоторая точка (x0,y0) лежит ниже графика, x0∈[a,b]. Тогда она лежит ниже точки (x0,f(x0)). Но это самая нижняя
точка в пересечении Kx0 и вертикальной прямой x=x0. Значит, (x0,y0) не лежит в Kx0 и не лежит в W. Следовательно, надграфик
является выпуклым как пересечение выпуклых множеств. По
утверждению 2, из этого следует, что функция выпукла вниз.
Доказательство теоремы 1 завершено.∎
Следствие 1. Если функция дважды дифференцируема на (a,b) и f′′(x)>0 для всех x,
то она выпукла вниз, а если f′′(x)<0, то вверх. Действительно, в первом
случае производная f′ должна возрастать, а во втором — убывать. По только
что доказанной теореме это влечёт соответствующую выпуклость.
Пример 4. Функция f(x)=x2 выпукла вниз. Действительно, f′(x)=2x, f′′(x)=2>0.
Доказать это утверждение вручную, пользуясь
определением 3 тоже можно, но гораздо тоскливее
(попробуйте!).
Выпуклость — важное свойство функций и с теоретической, и с практической
точки зрения. Мы доказали полезную теорему, связывающую выпуклость с
поведением производной — она позволяет находить промежутки выпуклости,
анализируя знак второй производной. К старшим производным мы скоро вернёмся
— когда будем обсуждать формулы Тейлора.