Статистические последствия жирных хвостов: О новых вычислительных подходах к принятию решений [Нассим Николас Талеб] (pdf) читать онлайн

-  Статистические последствия жирных хвостов: О новых вычислительных подходах к принятию решений  (пер. Виктор Борун) 16.01 Мб, 482с. скачать: (pdf) - (pdf+fbd)  читать: (полностью) - (постранично) - Нассим Николас Талеб

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

НАССИМ НИКОЛАС ТАЛЕБ

СТАТИСТИЧЕСКИЕ
ПОСЛЕДСТВИЯ
ЖИРНЫХ ХВОСТОВ
О НОВЫХ
ВЫЧИСЛИТЕЛЬНЫХ ПОДХОДАХ
К ПРИНЯТИЮ РЕШЕНИЙ

МОСКВА

УДК 336.7/519.2(075.4)
ББК 65.9(2)-97(3)
Т16
Nassim Nicholas Taleb
STATISTICAL CONSEQUENCES OF FAT TAILS
Real World Preasymptotics, Epistemology, and Applications
The Technical Incerto Collection
Перевод с английского Виктора Боруна

Талеб Нассим Николас
Т16 Статистические последствия жирных хвостов : О новых вычислительных подходах
к принятию решений / Нассим Николас Талеб ; [пер. с англ. В. Ф. Боруна]. — М. :
КоЛибри, Азбука-Аттикус, 2024. — 480 с. ; ил.
ISBN 978-5-389-19584-4
Новая книга всемирно известного мыслителя, автора «Черного лебедя» Нассима
Николаса Талеба открывает серию The Technical Incerto Collection и посвящена тем
классам статистических распределений, от которых можно ждать экстремальных
событий.
Если вы не дружите с графиками и формулами, то из этой книги почерпнете
информацию только про скандалы и разоблачение горе-ученых. Если вы учили математическую статистику, эта книга поможет вам переучиться. Если вы студент или
ученый, эта книга — бесценный мастер-класс. Впервые под одной обложкой собраны
исследовательские статьи Талеба и его учеников, где в неповторимом талебовском
стиле живо и ярко прослеживается ход мысли прикладного математика, сталкивающегося с жизненной задачей, не зная, можно ли ее решить аналитически, с чего начать, за
что хвататься, — но настроенного пустить в ход, если понадобится, весь арсенал классической и современной математики и всю мощь компьютеров. Автор и его последователи щедро делятся с читателем своими ранними догадками, интуицией и аналогиями, которые помогли им в итоге найти решение.
«Книги серии Incerto посвящены выживанию в реальном мире с его структурой
неопределенности, которая слишком сложна для нашего понимания. Цикл ставит
целью объединить пять областей знания, связанных с жирными хвостами и экстремальными событиями: в математике, философии, общественных науках, теории контрактов и теории принятия решений, — с опытом профессионалов». (Нассим Николас
Талеб)
УДК 336.7/519.2(075.4)
ББК 65.9(2)-97(3)
ISBN 978-5-389-19584-4
© Nassim Nicholas Taleb, 2020
© Борун В. Ф., перевод на русский язык, 2023
© Издание на русском языке, оформление.
ООО «Издательская Группа «Азбука-Аттикус», 2023
КоЛибри®

СОАВТОРЫ1
Паскуале Чирилло (главы 13, 15 и 16)
Рафаэль Дуади (глава 14)
Андреа Фонтанари (глава 13)
Эльетт Жиман (глава 25)
Дональд Жиман (глава 25)
Эспен Хог (глава 22)
Сотрудники хедж-фонда Universa Investments (глава 23)

Издание подготовлено на основе диссертации Андре Миду и адаптации Лоренцо Пантьери
для Ars Classica.
С глубочайшей признательностью Андре и Лоренцо.
В организации издательской деятельности поддержку оказала компания Scribe Media; особая благодарность Такеру Максу, Элли Коул, Заку Обронту и Эрике Хоффман.

1 Их статьи: [45, 46, 47, 48, 95, 106, 126, 165, 224, 227, 228, 229, 231, 232, 233, 234, 243, 244, 245]. — Прим.
автора.

Генеалогическая карта цикла Incerto

СКЕПТИЧЕСКИЙ
ЭМПИРИЗМ
(философия)

Немного
пересекаются

Вероятность
в эпистемологии:
Байес, Пирс,
Рамсей, Карнап,
Леви, Кайберг
Джеффрис, …

Пиррон из Элиды
и «прикладной» пирронизм
Менодот из Никомедии, Секст Эмпирик, Энесидем
из Кносса, Антиох из Лаодикеи, Геродот из Тарса, …
аль-Газали
Последователи аль-Газали
Академия
(Николай из Отрекура и др.)
Карнеад

Пересекаются
только психологией
индукции

Проблема
индукции

Негативный
эмпиризм

Симон Фуше Бейль,
Юэ, Юм, Милль, Рассел,
Эйер, Гудмен, …

Брошар —
Фавье — Поппер

Эвристика
вр
и смещенная
ще
оценка
Теория
ри принятия
решений
и Психология
вероятности
р

Экономика
неопределенности
Найтова

Проблема
бл
принципала
а – агента,
СТРАХОВАНИЕ
АН
(II))

«Найтова
неопределенность»
слишком груба
в математическом
и философском плане, чтобы
состыковать ее с другими
теориями

Экономика
неопределенности
не пересекается
с жирными хвостами?/
скептицизмом?/
эргодичностью
индукции

Опыты
Монтеня
Мо
(эссе
ссе
о методе)
е)

Эвристика
и смещенная
оценка
не пересекаются
с жирными
хвостами

Хайек
Шэкл

Incerto
ЭТИКА

Своя шкура
на кону

А
АСИММЕТРИЯ?
Я//
ХРУПКОСТЬ?/
ВЫПУКЛОСТЬ
ВНИЗ

Теория
контрактов

(академическая)
Петр Иоанн
П
О
Оливи

ПРИНЦИПЫ
ЖИРНОГО ТОНИ
Искусство трейдеров
Своя шкура на кону
Эргоди
Эргодичность

В литературе
идеальный мир
теорий не обращается
к ПРИНЦИПАМ ЖИРНОГО
ТОНИ, не считая
некоторых построений
об экологической
неопределенности

Выпуклость
вниз / хрупкость
не имеют видимого
пересечения
с теорией
контрактов

Философия
не пересекается
с жирными
хвостами

Теория
сложности
Поль Леви (II)
Мандельброт
ан
(II)

ЖИРНЫЕ ХВОСТЫ
(математика)
Парето, Леви (I)
Мандельброт (I)
Пойя, Феллер
Золотарев, Такку
Самородницкий

Эконофизика

Модели потерь?/
СТРАХОВАНИЕ

СТОХАСТИКА
Финансовая
математика
Теория
деривативов
Стохастический
матанализ

ТБО немного
пересекается
с жирными хвостами
(критерий Крамера для
экспоненциальных
моментов)

Теория экстремальных
значений
Гнеденко, Резник, Амбре,
Болкема де Гаан, Пикэндс

ЗАКОНЫ
СХОДИМОСТИ

ЗАДАЧИ О РА
РАЗОРЕНИИ,
ТЕОРИЯ
РИ
БОЛЬШИХ ОТКЛОНЕНИЙ
К
Крамер, Лундберг,
е Денбо,
Зеитуни, Варадхан
д
и др.

де Муавр, Марков,
Бьенеме, Чебышёв,
Бернштейн,
Колмогоров,
Лужин, Берри,
Эссеен, Петров,
братья Нагаевы,
Микош

Математика
Законы
сходимости
(ЗБЧ) немного
пересекаются
с философской
проблемой
индукции

Философия
Общественные науки
Теория права
Реальный мир

Нетехнические главы отмечены звездочкой *; главы, посвященные дискуссии, отмечены
типографским крестиком † ; адаптированные версии статей в рецензируемых журналах —
двойным типографским крестиком ‡.
Главы нумеруются арабскими цифрами, но вводные и другие короткие главки (отличные
от приложений и от полноценных глав) индексируются буквами A, B и т. д.

СОДЕРЖАНИЕ

1. Пролог*† ................................................................................................................................................15
ЗАМЕЧАНИЕ О ТЕРМИНАХ ............................................................................................................. 17
БЛАГОДАРНОСТИ .............................................................................................................................. 17

2. ГЛОССАРИЙ, ОПРЕДЕЛЕНИЯ И ОБОЗНАЧЕНИЯ ......................................................................19
2.1. ОБЩИЕ ОБОЗНАЧЕНИЯ И ЧАСТО ИСПОЛЬЗУЕМЫЕ СИМВОЛЫ .................................... 19
2.2. Систематический каталог общих и идиосинкразических понятий ........................................... 22
2.2.1. Класс степенного закона 𝔓 ................................................................................................. 22
2.2.2. Закон больших чисел (слабый) ........................................................................................... 23
2.2.3. Центральная предельная теорема (ЦПТ) ........................................................................... 23
2.2.4. Закон средних чисел, или Предасимптотика ..................................................................... 24
2.2.5. Показатель каппа .................................................................................................................. 24
2.2.6. Эллиптическое распределение ............................................................................................ 25
2.2.7. Статистическая независимость........................................................................................... 25
2.2.8. Устойчивое распределение (устойчивое по Леви) ............................................................ 25
2.2.9. Многомерное устойчивое распределение .......................................................................... 26
2.2.10. Точка Караматы .................................................................................................................. 26
2.2.11. Субэкспоненциальность .................................................................................................... 26
2.2.12. t-распределение Стьюдента как прокси ........................................................................... 27
2.2.13. Круг цитирования............................................................................................................... 27
2.2.14. Погоня за рентой в научном мире..................................................................................... 28
2.2.15. Псевдоэмпиризм, или Проблема Пинкера ....................................................................... 28
2.2.16. Предасимптотика................................................................................................................ 29
2.2.17. Стохастизация..................................................................................................................... 29
2.2.18. Стоимость под риском, условная стоимость под риском ............................................... 30
2.2.19. Своя шкура на кону ............................................................................................................ 30
2.2.20. График MS .......................................................................................................................... 31
2.2.21. Максимальный аттрактор (MDA) ..................................................................................... 31
2.2.22. Подмена интеграла в литературе для психологов ........................................................... 31
2.2.23. Попытка вынести вероятность за скобку (еще одна типичная ошибка) ....................... 32
2.2.24. Линейка Витгенштейна ..................................................................................................... 32
2.2.25. Черные лебеди .................................................................................................................... 32
2.2.26. Выборочная функция распределения ненаблюдаема эмпирически .............................. 33
2.2.27. Скрытый хвост ................................................................................................................... 34
2.2.28. Теневой момент .................................................................................................................. 35
2.2.29. Зависимость в хвосте ......................................................................................................... 35
2.2.30. Метавероятность ................................................................................................................ 35
2.2.31. Динамическое хеджирование ............................................................................................ 35

Часть I. ЖИРНЫЕ ХВОСТЫ И ИХ ПОСЛЕДСТВИЯ, ЗНАКОМСТВО

3. НЕТЕХНИЧЕСКИЙ ОБЗОР — ЛЕКЦИЯ В КОЛЛЕДЖЕ ДАРВИНА*‡ ......................................39
3.1. О РАЗЛИЧИИ МЕЖДУ ТОНКИМ И ЖИРНЫМ ХВОСТОМ................................................... 39
3.2. ХВОСТ, ВИЛЯЮЩИЙ СОБАКАМИ: ИНТУИТИВНО ............................................................ 44
3.3. ДОПОЛНИТЕЛЬНЫЕ КАТЕГОРИИ И ЧТО ИЗ НИХ СЛЕДУЕТ ............................................ 44
3.4. ОСНОВНЫЕ СЛЕДСТВИЯ И КАК ОНИ СВЯЗАНЫ С ДАННОЙ КНИГОЙ ........................ 49
3.4.1. Прогнозирование.................................................................................................................. 60
3.4.2. Закон больших чисел ........................................................................................................... 61
3.5. ЭПИСТЕМОЛОГИЯ И ДЕДУКТИВНАЯ АСИММЕТРИЯ ...................................................... 64
3.6. НАИВНЫЙ ЭМПИРИЗМ: НЕ НАДО СРАВНИВАТЬ ЭБОЛУ
И ПАДЕНИЯ СО СТРЕМЯНОК.......................................................................................................... 69
3.6.1. Как изменяется масштаб некоторых мультипликативных рисков................................... 73
3.7. АЗБУКА СТЕПЕННЫХ ЗАКОНОВ (ПОЧТИ БЕЗ МАТЕМАТИКИ)....................................... 74
3.8. ГДЕ ПРЯЧУТСЯ СКРЫТЫЕ СВОЙСТВА? ................................................................................ 77
3.9. БАЙЕСА-ШМАЙЕСА ................................................................................................................... 81
3.10. X И F(X): КАК ПУТАЮТ ВОЗДЕЙСТВИЕ ВЕЛИЧИНЫ X
С САМОЙ ВЕЛИЧИНОЙ X ................................................................................................................. 82
3.11. РАЗОРЕНИЕ И ЗАВИСИМОСТЬ ОТ ПУТИ ............................................................................ 86
3.12. ЧТО ДЕЛАТЬ? .............................................................................................................................. 89

4. ОДНОМЕРНЫЕ ЖИРНЫЕ ХВОСТЫ УРОВНЯ 1, С КОНЕЧНЫМИ МОМЕНТАМИ † ............91
4.1. ПРОСТАЯ ЭВРИСТИКА, КАК СОЗДАВАТЬ СЛЕГКА ЖИРНЫЕ ХВОСТЫ ....................... 91
4.1.1. Эвристика, сохраняющая дисперсию ................................................................................. 94
4.1.2. Ужирнение хвостов при помощи асимметричной дисперсии ......................................... 95
4.2. СПОСОБНА ЛИ СТОХАСТИЧЕСКАЯ ВОЛАТИЛЬНОСТЬ ГЕНЕРИРОВАТЬ
СТЕПЕННЫЕ ЗАКОНЫ? ..................................................................................................................... 98
4.3. ТУЛОВИЩЕ, ПЛЕЧИ И ХВОСТЫ .............................................................................................. 99
4.3.1. Точки перехода и туннельный эффект. ............................................................................... 99
4.4. ЖИРНЫЕ ХВОСТЫ, СРЕДНЕЕ ОТКЛОНЕНИЕ И ПОВЫШАЮЩИЕСЯ НОРМЫ.......... 103
4.4.1. Обычные ошибки ............................................................................................................... 103
4.4.2. Немного аналитики ............................................................................................................ 105
4.4.3. Влияние жирных хвостов на «эффективность» STD против MAD .............................. 108
4.4.4. Моменты и неравенство о средних разной степени ....................................................... 109
4.4.5. Комментарий: почему среднеквадратическое отклонение нужно отправить
в отставку, и немедленно!............................................................................................................ 112
4.5. ВИЗУАЛИЗИРУЕМ, КАК РОСТ p ВЛИЯЕТ НА ИЗО-НОРМЫ ............................................. 115

5. УРОВЕНЬ 2: СУБЭКСПОНЕНЦИАЛЬНЫЕ И СТЕПЕННЫЕ ЗАКОНЫ ..................................118
5.0.1. Вернемся к ранжированию................................................................................................ 118
5.0.2. Что такое пограничное распределение вероятностей? ................................................... 120
5.0.3. Давайте выдумаем распределение .................................................................................... 121
5.1. УРОВЕНЬ 3: МАСШТАБИРУЕМОСТЬ И СТЕПЕННЫЕ ЗАКОНЫ..................................... 123
5.1.1. Масштабируемое и немасштабируемое — более глубокий взгляд
на жирные хвосты ........................................................................................................................ 123
5.1.2. Серые лебеди ...................................................................................................................... 126
5.2. НЕКОТОРЫЕ СВОЙСТВА СТЕПЕННЫХ ЗАКОНОВ ........................................................... 126
5.2.1. Сумма случайных величин ................................................................................................ 126
5.2.2. Преобразования .................................................................................................................. 127
5.3. КОЛОКОЛООБРАЗНЫЕ И ДРУГИЕ СТЕПЕННЫЕ ЗАКОНЫ .............................................. 128
5.4. ИНТЕРПОЛЯЦИОННЫЕ ВОЗМОЖНОСТИ СТЕПЕННЫХ ЗАКОНОВ: ПРИМЕР ........... 129
5.5. СВЕРХЖИРНЫЕ ХВОСТЫ: РАСПРЕДЕЛЕНИЕ ЛОГ-ПАРЕТО .......................................... 130
5.6. ПСЕВДОСТОХАСТИЧЕСКАЯ ВОЛАТИЛЬНОСТЬ: РАССЛЕДОВАНИЕ ........................... 131

6. ЖИРНЫЕ ХВОСТЫ В ВЫСШИХ РАЗМЕРНОСТЯХ†.................................................................134
6.1. ТОЛСТЫЕ ХВОСТЫ ПРИ ВЫСОКОЙ РАЗМЕРНОСТИ, КОНЕЧНЫЕ МОМЕНТЫ ......... 134
6.2. СОВМЕСТНАЯ ЖИРНОХВОСТОСТЬ И ЭЛЛИПТИЧНОСТЬ РАСПРЕДЕЛЕНИЙ ........... 135
6.3. МНОГОМЕРНОЕ t-РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА ........................................................... 140
6.3.1. Эллиптичность и независимость при толстых хвостах.................................................. 140
6.4. ЖИРНЫЕ ХВОСТЫ И ВЗАИМНАЯ ИНФОРМАЦИЯ ........................................................... 141
6.5. ЖИРНЫЕ ХВОСТЫ И СЛУЧАЙНЫЕ МАТРИЦЫ, КРАТКОЕ ОТСТУПЛЕНИЕ ............... 142
6.6. КОРРЕЛЯЦИЯ И НЕОПРЕДЕЛЕННАЯ ДИСПЕРСИЯ .......................................................... 143
6.7. ЖИРНОХВОСТЫЕ ОСТАТКИ В МОДЕЛЯХ ЛИНЕЙНОЙ РЕГРЕССИИ ........................... 144

A. ОСОБЫЕ СЛУЧАИ ТОЛСТЫХ ХВОСТОВ ..................................................................................149
A.1. МУЛЬТИМОДАЛЬНОСТЬ И ЖИРНЫЕ ХВОСТЫ, ИЛИ
МОДЕЛЬ ВОЙНЫ И МИРА............................................................................................................... 149
A.2. ПЕРЕХОДНЫЕ ВЕРОЯТНОСТИ: ЧТО МОЖЕТ РАЗБИТЬСЯ, РАЗОБЬЕТСЯ ................... 152
Часть II. ЗАКОН СРЕДНИХ ЧИСЕЛ

7. ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ, КОНСОЛИДАЦИЯ*† ...........................................................157
7.1. НАПОМИНАНИЕ: СЛАБЫЙ И СИЛЬНЫЙ ЗБЧ .................................................................... 157
7.2. ЦЕНТРАЛЬНЫЙ ПРЕДЕЛ В ДЕЙСТВИИ................................................................................ 159
7.2.1. Устойчивое распределение ................................................................................................ 160
7.2.2. Закон больших чисел для устойчивого распределения .................................................. 160
7.3. СКОРОСТЬ СХОДИМОСТИ ЦПТ: НАГЛЯДНЫЕ ОПЫТЫ .................................................. 161
7.3.1. Быстрая сходимость: равномерное распределение ......................................................... 161
7.3.2. Полузамедленная сходимость: экспоненциальные распределения ............................... 162
7.3.3. Медленный Парето ............................................................................................................ 163
7.3.4. Полукубический Парето и его область сходимости ....................................................... 165
7.4. КУМУЛЯНТЫ И СХОДИМОСТЬ ........................................................................................... 166
7.5. ПОВТОРИМ ТЕХНИКУ: ТРАДИЦИОННЫЕ ВЕРСИИ ЦПТ ................................................ 169
7.6. ЗАКОН БОЛЬШИХ ЧИСЕЛ ДЛЯ ВЫСШИХ МОМЕНТОВ .................................................. 170
7.6.1. Высшие моменты ............................................................................................................... 170
7.7. СРЕДНЕЕ ОТКЛОНЕНИЕ ДЛЯ УСТОЙЧИВЫХ РАСПРЕДЕЛЕНИЙ ................................. 173

8. СКОЛЬКО НУЖНО ДАННЫХ? РАБОЧИЙ ПОКАЗАТЕЛЬ ЖИРНОХВОСТОСТИ ‡ ..............175
8.1. ВВЕДЕНИЕ И ОПРЕДЕЛЕНИЯ................................................................................................. 176
8.2. ПОКАЗАТЕЛЬ КАППА ............................................................................................................... 178
8.3. УСТОЙЧИВЫЙ БАССЕЙН СХОДИМОСТИ КАК ТОЧКА ОТСЧЕТА ................................ 179
8.3.1. Эквиваленты устойчивых распределений ....................................................................... 180
8.3.2. Практическая значимость при достаточной выборке ..................................................... 182
8.4. ТЕХНИЧЕСКИЕ СЛЕДСТВИЯ .................................................................................................. 184
8.4.1. Некоторые странности асимметричных распределений ................................................ 184
8.4.2. Скорость сходимости t-распределения Стьюдента к гауссову бассейну ...................... 184
8.4.3. Логнормальный хвост — ни тонкий, ни жирный ........................................................... 185
8.4.4. Возможна ли отрицательная каппа? ................................................................................. 185
8.5. ЗАКЛЮЧЕНИЕ И СЛЕДСТВИЯ................................................................................................ 185
8.5.1. Портфельная псевдостабилизация ................................................................................... 186
8.5.2. Другие аспекты статистических выводов ........................................................................ 187
8.5.3. Последний комментарий ................................................................................................... 187
8.6. ПРИЛОЖЕНИЕ, ВЫВОД ФОРМУЛ, ДОКАЗАТЕЛЬСТВА .................................................... 187
8.6.1. Кубическое t-распределение Стьюдента (гауссов бассейн) ........................................... 187
8.6.2. Логнормальные суммы ...................................................................................................... 190
8.6.3. Экспоненциальное распределение ................................................................................... 193
8.6.4. Отрицательная каппа, отрицательный эксцесс ............................................................... 193

9. ЭКСТРЕМАЛЬНЫЕ ЗНАЧЕНИЯ И СКРЫТЫЕ ХВОСТЫ*‡ ......................................................195
9.1. ПРЕДВАРИТЕЛЬНОЕ ВСТУПЛЕНИЕ К ТЭЗ ......................................................................... 197
9.1.1. Любой хвост степенного закона ведет к Фреше ............................................................. 198
9.1.2. Гауссов случай .................................................................................................................... 200
9.1.3. Теорема Пикэндса — Балкемы — де Гаана ..................................................................... 202
9.2. НЕВИДИМЫЙ ХВОСТ ПРИ СТЕПЕННОМ ЗАКОНЕ ...................................................... 202
9.2.1. Сравнение с нормальным распределением ..................................................................... 205
9.3. ПРИЛОЖЕНИЕ: ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ НЕ ЭМПИРИЧНО ................ 205

B. СКОРОСТЬ РОСТА И РЕЗУЛЬТАТ ПРИНАДЛЕЖАТ РАЗНЫМ КЛАССАМ
РАСПРЕДЕЛЕНИЙ ..........................................................................................................................207
B.1. ЗАГАДКА ..................................................................................................................................... 207
B.2. У ПАНДЕМИЙ ИСКЛЮЧИТЕЛЬНО ЖИРНЫЕ ХВОСТЫ................................................... 209

C. ПРИНЦИП БОЛЬШОГО ОТКЛОНЕНИЯ, ВКРАТЦЕ..................................................................211
Простой случай: оценка Чернова....................................................................................................... 212

D. КАЛИБРОВКА В СИТУАЦИИ ПАРЕТО .......................................................................................214
D.1. РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОЙ ОЦЕНКИ ПОКАЗАТЕЛЯ ХВОСТА ........................... 216

10. ПЕЧАЛЬНО, НО ФАКТ: ДИАГНОСТИКА S&P 500 ‡ ................................................................219
10.1. ПРИНАДЛЕЖНОСТЬ КЛАССУ ПАРЕТО И МОМЕНТЫ ................................................... 219
10.2. КРИТЕРИИ СХОДИМОСТИ .................................................................................................... 221
10.2.1. Критерий 1: эксцесс при агрегации ................................................................................ 221
10.2.2. Максимальные падения ................................................................................................... 222
10.2.3. Эмпирическая каппа ........................................................................................................ 224
10.2.4. Проверка 2: условное математическое ожидание избытка .......................................... 225
10.2.5. Проверка 3: неустойчивость 4-го момента .................................................................... 227
10.2.6. Проверка 4: график MS.................................................................................................... 227
10.2.7. Рекорды и экстремальные значения ............................................................................... 228
10.2.8. Асимметричность хвостов справа и слева ..................................................................... 231
10.3. ЗАКЛЮЧЕНИЕ: ПЕЧАЛЬНО, НО ФАКТ ............................................................................... 233

E. ПРОБЛЕМА С ЭКОНОМЕТРИКОЙ ...............................................................................................234
E.1. ЭФФЕКТИВНОСТЬ СТАНДАРТНЫХ ПАРАМЕТРИЧЕСКИХ ОЦЕНОК РИСКА............ 235
E.2. ЭФФЕКТИВНОСТЬ СТАНДАРТНЫХ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК РИСКА ...... 238

F. ОСОБЕННОСТИ МАШИННОГО ОБУЧЕНИЯ ............................................................................242
F.0.1. Калибровка по углам .......................................................................................................... 245
Часть III. ПРЕДСКАЗАНИЯ, ПРОГНОЗЫ И НЕОПРЕДЕЛЕННОСТЬ

11. КАЛИБРОВКА ВЕРОЯТНОСТИ ПРИ ЖИРНЫХ ХВОСТАХ ‡ ................................................249
11.1. Непрерывные и дискретные платежные функции: определения и комментарии ................ 250
11.1.1. Отходим от словесных формулировок ........................................................................... 251
11.1.2. При жирных хвостах нет стандартной величины «коллапса»,
«катастрофы» или «успеха» ........................................................................................................ 255
11.2. МНИМАЯ ПЕРЕОЦЕНКА ХВОСТОВОЙ ВЕРОЯТНОСТИ В ПСИХОЛОГИИ ................ 257
11.2.1. Тонкие хвосты................................................................................................................... 258
11.2.2. Жирные хвосты ................................................................................................................ 258
11.2.3. Что с чем путают .............................................................................................................. 259
11.2.4. Неопределенность распределения .................................................................................. 263
11.3. КАЛИБРОВКА И МНИМАЯ КАЛИБРОВКА ........................................................................ 264
11.4. ПОКАЗАТЕЛИ ДЛЯ КОЛИЧЕСТВЕННОЙ ОЦЕНКИ .......................................................... 264
11.4.1. Вывод распределений ...................................................................................................... 267
11.5. НЕВЕРБАЛЬНЫЕ ПЛАТЕЖНЫЕ ФУНКЦИИ И МАШИННОЕ ОБУЧЕНИЕ ................... 269
11.6. ЗАКЛЮЧЕНИЕ .......................................................................................................................... 271
11.7. ПРИЛОЖЕНИЕ: ДОКАЗАТЕЛЬСТВА И ВЫВОД ФОРМУЛ ............................................... 272

11.7.1. Распределение подсчета пари
................................................................................. 272
11.7.2. Распределение оценки Брайера ....................................................................................... 272

12. ПРЕДСКАЗАНИЯ ВЫБОРОВ КАК МАРТИНГАЛ: АРБИТРАЖНЫЙ ПОДХОД ‡ ................276
12.0.1. Основные результаты ....................................................................................................... 278
12.0.2. Организация...................................................................................................................... 279
12.0.3. Обсуждение нейтральности к риску .............................................................................. 281
12.1. СТОИМОСТЬ В СТИЛЕ БАШЕЛЬЕ ....................................................................................... 281
12.2. ОГРАНИЧЕННЫЙ ДВОЙСТВЕННЫЙ МАРТИНГАЛЬНЫЙ ПРОЦЕСС .......................... 283
12.3. СВЯЗЬ С ОЦЕНЩИКОМ ВЕРОЯТНОСТИ ДЕ ФИНЕТТИ .................................................. 285
12.4. ЗАКЛЮЧЕНИЕ И КОММЕНТАРИИ ...................................................................................... 286
ПРИЛОЖЕНИЕ: ВСЕ ДОРОГИ ВЕДУТ К ФИНАНСОВОЙ МАТЕМАТИКЕ ............................ 287
Некорректные претензии ............................................................................................................. 287
Неправильная арбитражная стоимость ...................................................................................... 287
Арбитражные вопросы ................................................................................................................ 288
БЛАГОДАРНОСТИ ........................................................................................................................... 290
Часть IV. ОЦЕНОЧНЫЕ НЕРАВЕНСТВА ПРИ ЖИРНЫХ ХВОСТАХ

13. ОЦЕНКА ДЖИНИ ПРИ БЕСКОНЕЧНОЙ ДИСПЕРСИИ ‡ .......................................................293
13.1. ВВЕДЕНИЕ................................................................................................................................. 293
13.2. АСИМПТОТИКИ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ
ПРИ БЕСКОНЕЧНОЙ ДИСПЕРСИИ ............................................................................................... 297
13.2.1. Краткое повторение α-устойчивых случайных величин .............................................. 299
13.2.2. α-устойчивый асимптотический предел индекса Джини ............................................. 300
13.3. ОЦЕНКА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ............................................................ 301
13.4. ИЛЛЮСТРАЦИЯ С РАСПРЕДЕЛЕНИЕМ ПАРЕТО ............................................................. 302
13.5. ПОПРАВКА НА МАЛУЮ ВЫБОРКУ .................................................................................... 304
13.6. ВЫВОДЫ .................................................................................................................................... 308
Доказательство Теоремы 1 .......................................................................................................... 310

14. СУПЕРАДДИТИВНОСТЬ И СМЕЩЕННЫЕ ОЦЕНКИ ВКЛАДА КВАНТИЛЕЙ ‡ a ..............315
14.1. ВВЕДЕНИЕ................................................................................................................................. 315
14.2. ОЦЕНКА ДЛЯ НЕСМЕШАННЫХ РАСПРЕДЕЛЕНИЙ С ХВОСТОМ ПАРЕТО .............. 317
14.2.1. Смещение и сходимость .................................................................................................. 317
14.3. НЕРАВЕНСТВО АГРЕГАЦИИ НЕРАВЕНСТВ ...................................................................... 320
14.4. СМЕШАННЫЕ РАСПРЕДЕЛЕНИЯ ПО ПОКАЗАТЕЛЮ ХВОСТА.................................... 323
14.5. ЧЕМ БОЛЬШЕ СУММА, ТЕМ ВЫШЕ .............................................................................. 326
14.6. ЗАКЛЮЧЕНИЕ И ТОЧНАЯ ОЦЕНКА КОНЦЕНТРАЦИИ .................................................. 326
14.6.1. Робастные методы и использование полных данных ................................................... 327
14.6.2. Как правильно оценивать концентрацию?..................................................................... 327
Часть V. СТАТЬИ О ТЕНЕВЫХ МОМЕНТАХ

15. ТЕНЕВЫЕ МОМЕНТЫ ЯВЛЕНИЙ С МНИМО БЕСКОНЕЧНЫМ СРЕДНИМ ‡ ....................331
15.1. ВВЕДЕНИЕ................................................................................................................................. 331
15.2. ДВОЙСТВЕННОЕ РАСПРЕДЕЛЕНИЕ ................................................................................... 332
15.3. ВЕРНЕМСЯ К Y: ТЕНЕВОЕ СРЕДНЕЕ, ИЛИ
СРЕДНЕЕ ПО ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ....................................................................... 334
15.4. СРАВНЕНИЕ С ДРУГИМИ МЕТОДАМИ .............................................................................. 337
15.5. ОБЛАСТИ ПРИМЕНЕНИЯ....................................................................................................... 338

16. О ХВОСТОВОМ РИСКЕ ОСТРОГО КОНФЛИКТА (СОВМЕСТНО С П. ЧИРИЛЛО)‡ ........340
16.1. ВВЕДЕНИЕ И РЕЗЮМЕ ........................................................................................................... 340
16.2. ОБЗОР СТАТИСТИЧЕСКОЙ ДИСКУССИИ .......................................................................... 343
16.2.1. Результаты ......................................................................................................................... 343
16.2.2. Заключение ....................................................................................................................... 345

16.3. ОБСУЖДЕНИЕ МЕТОДОВ ...................................................................................................... 345
16.3.1. Метод масштабирования ................................................................................................. 345
16.3.2. Условное математическое ожидание (в нестрогом изложении) .................................. 347
16.3.3. Надежность данных и влияние на хвостовые оценки .................................................. 347
16.3.4. Определение «события» .................................................................................................. 349
16.3.5. Пропущенные события .................................................................................................... 349
16.3.6. Систематическая ошибка выжившего ............................................................................ 350
16.4. АНАЛИЗ ДАННЫХ ................................................................................................................... 350
16.4.1. Превышения над порогом ............................................................................................... 350
16.4.2. Интервалы во временных рядах и автокорреляция....................................................... 351
16.4.3. Анализ хвоста ................................................................................................................... 352
16.4.4. Альтернативный взгляд на максимумы.......................................................................... 354
16.4.5. Анализ полных данных ................................................................................................... 355
16.5. ДОПОЛНИТЕЛЬНЫЕ ТЕСТЫ РОБАСТНОСТИ И НАДЕЖНОСТИ .................................. 356
16.5.1. Бутстрэп для GPD ............................................................................................................ 356
16.5.2. Внесение возмущений в границы оценок ...................................................................... 357
16.6. ЗАКЛЮЧЕНИЕ: МИР ОПАСНЕЕ, ЧЕМ КАЖЕТСЯ? ........................................................... 358
16.7. БЛАГОДАРНОСТИ ................................................................................................................... 359

G. КАКОВА ВЕРОЯТНОСТЬ ТРЕТЬЕЙ МИРОВОЙ ВОЙНЫ?*† ..................................................360
Часть VI. СТАТЬИ О МЕТАВЕРОЯТНОСТИ

17. КАК ТОЛСТЫЕ ХВОСТЫ ВОЗНИКАЮТ ИЗ РЕКУРСИВНОЙ ЭПИСТЕМОЛОГИЧЕСКОЙ
НЕОПРЕДЕЛЕННОСТИ† ...............................................................................................................367
17.1. МЕТОДЫ И ВЫКЛАДКИ ......................................................................................................... 368
17.1.1. Уровни неопределенности............................................................................................... 368
17.1.2. Интегралы высоких порядков в стандартном гауссовом случае ................................. 369
РЕЖИМ 1 (ВЗРЫВНОЙ): СЛУЧАЙ ПОСТОЯННОГО ПАРАМЕТРА a ....................................... 372
17.1.3. Влияние на малые вероятности ...................................................................................... 374
17.2. РЕЖИМ 2: СЛУЧАИ ЗАТУХАЮЩИХ ПАРАМЕТРОВ an .................................................. 375
17.2.1. Режим 2-a; «потери» погрешности высокого порядка.................................................. 375
17.2.2. Режим 2-b; второй метод, немультипликативная погрешность ................................... 376
17.3. ПРЕДЕЛЬНОЕ РАСПРЕДЕЛЕНИЕ .......................................................................................... 376
18. СТОХАСТИЧЕСКИЙ ПОКАЗАТЕЛЬ ХВОСТА ПРИ АСИММЕТРИЧНЫХ СТЕПЕННЫХ
ЗАКОНАХ † ................................................................................................................................................ 377
18.1. ИСТОРИЯ ВОПРОСА ............................................................................................................... 378
18.2. ОДНОХВОСТЫЕ РАСПРЕДЕЛЕНИЯ СО СТОХАСТИЧЕСКОЙ АЛЬФОЙ ...................... 378
18.2.1. Общие случаи ................................................................................................................... 378
18.2.2. Неравенство стохастической альфы ............................................................................... 379
18.2.3. Аппроксимации для класса 𝔓 ......................................................................................... 381
18.3. СУММЫ СТЕПЕННЫХ ЗАКОНОВ ........................................................................................ 381
18.4. АСИММЕТРИЧНЫЕ УСТОЙЧИВЫЕ РАСПРЕДЕЛЕНИЯ .................................................. 382
18.5. РАСПРЕДЕЛЕНИЕ ПАРЕТО С ЛОГНОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ АЛЬФЫ .... 383
18.6. РАСПРЕДЕЛЕНИЕ ПАРЕТО С ГАММА-РАСПРЕДЕЛЕНИЕМ АЛЬФЫ ........................... 384
18.7. ОГРАНИЧЕННЫЙ СТЕПЕННОЙ ЗАКОН В РАБОТЕ ЧИРИЛЛО И ТАЛЕБА (2016) ...... 385
18.8. ДОПОЛНИТЕЛЬНЫЕ КОММЕНТАРИИ ............................................................................... 386
18.9. БЛАГОДАРНОСТИ ................................................................................................................... 386
19. МЕТАРАСПРЕДЕЛЕНИЕ p-ЗНАЧЕНИЙ И p-ХАКИНГ ‡ ..................................................................... 387
19.1. ДОКАЗАТЕЛЬСТВА И ВЫВОД ФОРМУЛ ............................................................................. 389
19.2. ОБРАТНАЯ МОЩНОСТЬ ТЕСТА ........................................................................................... 393
19.3. ПРИЛОЖЕНИЕ И ВЫВОДЫ ................................................................................................... 394
БЛАГОДАРНОСТИ ........................................................................................................................... 395

H. НЕКОТОРЫЕ НЕДОРАЗУМЕНИЯ В ПОВЕДЕНЧЕСКОЙ ЭКОНОМИКЕ ........................................ 396
H.1. ПРИМЕР ИССЛЕДОВАНИЯ: ЛОЖНАЯ СПЕЦИФИКАЦИЯ БЛИЗОРУКОЙ БОЯЗНИ
ПОТЕРЬ................................................................................................................................................ 396
Часть VII. ТОРГОВЛЯ ОПЦИОНАМИ И ЦЕНЫ ПРИ ЖИРНЫХ ХВОСТАХ

20. НЕУДАЧИ ФИНАНСОВОЙ ТЕОРИИ КАСАТЕЛЬНО ЦЕН ОПЦИОНОВ†.............................403
20.1. БАШЕЛЬЕ, А НЕ БЛЭК — ШОУЛЗ......................................................................................... 404
20.1.1. Искажения из-за идеализации......................................................................................... 405
20.1.2. Фактическая процедура репликации .............................................................................. 406
20.1.3. Провал: погрешность хеджирования может сделать модель непригодной. ............... 406

21. ЕДИНСТВЕННАЯ МЕРА ДЛЯ ЦЕН ОПЦИОНОВ (БЕЗ ДИНАМИЧЕСКОГО ХЕДЖИРОВАНИЯ ИЛИ ПОЛНОГО РЫНКА)‡..............................................................................................407
21.1. ИСТОРИЯ ВОПРОСА ............................................................................................................... 407
21.2. ДОКАЗАТЕЛЬСТВО .................................................................................................................. 410
21.2.1. Случай 1: форвард как мера, нейтральная к риску ....................................................... 410
21.2.2. Вывод формул ................................................................................................................... 411
21.3. СЛУЧАЙ ФОРВАРДА БЕЗ НЕЙТРАЛЬНОСТИ К РИСКУ .................................................. 413
21.4. КОММЕНТАРИЙ ....................................................................................................................... 413

22. ТОРГОВЦЫ ОПЦИОНАМИ НЕ ПОЛЬЗУЮТСЯ ФОРМУЛОЙ БЛЭКА — ШОУЛЗА —
МЕРТОНА*‡ .....................................................................................................................................415
22.1. ПРЕРЫВАНИЕ ЦЕПИ ПЕРЕДАЧИ ......................................................................................... 415
22.2. ВВЕДЕНИЕ И РЕЗЮМЕ ........................................................................................................... 416
22.2.1. Теория Блэка — Шоулза была аргументом в дискуссии .............................................. 416
22.3. МИФ 1: ТРЕЙДЕРЫ НЕ ЗАДАВАЛИ ЦЕНЫ ОПЦИОНАМ ДО БШМ .............................. 420
22.4. МЕТОДЫ И ВЫВОД ФОРМУЛ ............................................................................................... 421
22.4.1. Формулы опционов и дельта-хеджирование ................................................................. 424
22.5. МИФ 2: СОВРЕМЕННЫЕ ТРЕЙДЕРЫ ПОЛЬЗУЮТСЯ БЛЭКОМ — ШОУЛЗОМ ........... 425
22.5.1. Когда мы оцениваем стоимость? .................................................................................... 426
22.6. О МАТЕМАТИЧЕСКОЙ НЕВОЗМОЖНОСТИ ДИНАМИЧЕСКОГО
ХЕДЖИРОВАНИЯ ............................................................................................................................. 426
22.6.1. Сбивающая с толку робастность гауссианы .................................................................. 428
22.6.2. Поток заказов и опционы ................................................................................................ 429
22.6.3. Башелье — Торп ............................................................................................................... 430

23. ЦЕНООБРАЗОВАНИЕ ОПЦИОНОВ ПРИ СТЕПЕННЫХ ЗАКОНАХ:
РОБАСТНАЯ ЭВРИСТИКА*‡ .......................................................................................................431
23.1. ВВЕДЕНИЕ................................................................................................................................. 432
23.2. ЦЕНООБРАЗОВАНИЕ «КОЛЛОВ» ЗА КОНСТАНТОЙ КАРАМАТЫ ................................ 432
23.2.1. Первый подход, S в классе правильно меняющихся функций .................................... 432
23.2.2. Второй подход, геометрическая доходность от S в классе правильно меняющихся
функций ......................................................................................................................................... 434
23.3. ЦЕНЫ ОПЦИОНОВ «ПУТ» ..................................................................................................... 437
23.4. ГРАНИЦЫ АРБИТРАЖА .......................................................................................................... 438
23.5. КОММЕНТАРИИ ....................................................................................................................... 438

24. ЧЕТЫРЕ ОШИБКИ В ФИНАНСОВОЙ МАТЕМАТИКЕ*‡ .......................................................439
24.1. ПУТАНИЦА МЕЖДУ ВТОРЫМ И ЧЕТВЕРТЫМ МОМЕНТАМИ .................................... 439
24.2. НЕУЧЕТ НЕРАВЕНСТВА ЙЕНСЕНА ПРИ АНАЛИЗЕ ДОХОДНОСТИ ОПЦИОНОВ .... 440
24.3. НЕРАЗРЫВНАЯ СВЯЗЬ МЕЖДУ СТРАХОВКОЙ И ПРЕДМЕТОМ СТРАХОВАНИЯ .... 442
24.4. НЕОБХОДИМОСТЬ МАСШТАБА ЦЕН В ФИНАНСОВОЙ МАТЕМАТИКЕ ................... 442
24.5. ПРИЛОЖЕНИЕ (СТАВКИ НА ХВОСТЫ РАСПРЕДЕЛЕНИЯ) ........................................... 443

25. ОГРАНИЧЕНИЯ ХВОСТОВОГО РИСКА И МАКСИМАЛЬНАЯ ЭНТРОПИЯ
(СОВМЕСТНО С Д. И Э. ЖИМАН)‡ .............................................................................................445

25.1. РИСК ЛЕВОГО ХВОСТА КАК ЦЕНТРАЛЬНОЕ ОГРАНИЧЕНИЕ ПОРТФЕЛЯ .............. 445
25.1.1. Штанга с точки зрения Э. Т. Джейнса ............................................................................ 448
25.2. ВЕРНЕМСЯ К ЗАДАНИЮ СРЕДНЕГО И ДИСПЕРСИИ .................................................... 449
25.2.1. Анализ ограничений ........................................................................................................ 450
25.3. ВЕРНЕМСЯ К ГАУССОВУ СЛУЧАЮ .................................................................................... 450
25.3.1. Смесь двух нормальных распределений ........................................................................ 452
25.4. МАКСИМАЛЬНАЯ ЭНТРОПИЯ ............................................................................................. 453
25.4.1. Случай A: ограничиваем глобальное среднее ............................................................... 453
25.4.2. Случай B: ограничиваем абсолютное среднее .............................................................. 455
25.4.3. Случай C: степенные законы для правого хвоста ......................................................... 455
25.4.4. Расширение на несколько периодов: комментарий ...................................................... 457
25.5. КОММЕНТАРИИ И ЗАКЛЮЧЕНИЕ ...................................................................................... 458
25.6. ПРИЛОЖЕНИЕ / ДОКАЗАТЕЛЬСТВА ................................................................................... 458

ПЕРСОНАЛИИ ......................................................................................................................................459
БИБЛИОГРАФИЯ ..................................................................................................................................467

1
ПРОЛОГ *†

Чем хуже вы понимаете мир,
тем проще вам принять решение.

ДАЛЕЕ ВОЗЬМЕМ
РАСПРЕДЕЛЕНИЯ С ЖИРНЫМ
ХВОСТОМ И ПРЕДСКАЖЕМ
РЕДКИЕ СОБЫТИЯ.

©STEFAN GASIC — OFFSHORECOMIC.COM

Экономист из журнала The Economist

МЫ НИЧЕГО
НЕ ЗНАЕМ О ЖИРНЫХ
ХВОСТАХ!

САМОНАДЕЯННЫЙ
ТАЛЕБ В СВОЕМ
РЕПЕРТУАРЕ.

В СТАТИСТИКЕ
НЕТ ТАКОГО
ТЕРМИНА,
«САМОНАДЕЯННЫЙ».

Рисунок 1.1: Проблема не в том, что люди не слышали о «жирном хвосте», а в том, что не понимают серьезность его последствий. Когда вам встретился «жирный хвост», нельзя выбрать
из привычного арсенала статистики соответствующий вариант комплекта инструментов;
нужно сменить весь подход к принятию решений. © Stefan Gasic

Главная идея в основе проекта Incerto — та, что при всей неопределенности
и непроницаемости мира и при нехватке информации и понимания все равно
в каждой конкретной ситуации оказывается совершенно ясно, какие действия
нужно предпринять на основе того немногого, что известно и понятно.

Эта книга состоит из (1) опубликованных статей и (2) бесцензурного комментария,
посвященных тем классам статистических распределений, от которых можно ждать
экстремальных событий. Мы изучим, как использовать эти распределения для статистических выводов и принятия решений.

16

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Рисунок 1.2: Усложнение
из-за непонимания. Что
творится в головах профессионалов, когда они
применяют статистику
и анализ данных, не имея
ясного представления
об основных понятиях.
© Wikimedia

«Стандартная» статистика по большей части работает на основе теорем, выведенных для тонких хвостов. Чтобы работать с предасимптотикой1 жирных хвостов, эти
методы придется либо адаптировать нетривиальным образом, либо вовсе исключить
из арсенала полезных инструментов.
Автору не раз приходилось слышать фразы вроде «Это и так все знают» и «В жирных хвостах нет ничего нового» — ими пытались защищаться преподаватель или
практик, пойманные на совершенно бессмысленной в конкретной ситуации попытке
использовать дисперсию, обобщенную авторегрессию, коэффициент эксцесса, коэффициент Шарпа или стоимость под риском или указать статистическую значимость там, где она не значит ничего.
Автор обогатил свой опыт, когда осуществил программу научных исследований
и выпустил ряд книг серии Incerto [226], посвященных выживанию в реальном мире
с его структурой неопределенности, которая слишком сложна для нашего понимания.
Цикл Incerto ставит целью объединить пять областей знания, связанных с жирными хвостами и экстремальными событиями: в математике, философии, общественных науках, теории контрактов и теории принятия решений, — с опытом профессионалов. Если вы спросите, при чем здесь теория контрактов и теория принятия
решений, то ответ таков: математика опционов основана на идее условной вероятности и объединении контрактов с целью изменить класс воздействия в хвостах
распределения; некоторым образом теория опционов — это математическая теория
контрактов. Теория принятия решений ставит целью не понять мир, а выбраться из
неприятностей и выжить. Этой задаче будет посвящен следующий том Технического
Incerto, его текущее рабочее название — Convexity, Risk, and Fragility («Выпуклость
вниз, риск и хрупкость»).
1 По аналогии с терминами «предыстория» и «доисторический» неологизмы preasymptotics и preasymptotic
можно заимствовать в русский язык как «предасимптотика» и «доасимптотический». — Здесь и далее,
если не указано иное, прим. перев.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

17

ЗАМЕЧАНИЕ О ТЕРМИНАХ
В академическом контексте при описании распределения часто используется термин
«толстые хвосты» (thick tails). Мы вместо этого будем говорить, что «коэффициент эксцесса выше, чем у гауссианы»; это ближе к профессиональному жаргону финансиста.
Термин «жирные хвосты» (fat tails) мы оставим за особо толстыми хвостами,
которые характерны для распределений по степенно́му закону или эквивалентному
(жирный хвост и степенной закон, как мы покажем в Главе 8, неотделимы друг от
друга). Некоторые авторы придают «жирным хвостам» более узкий смысл, требуя
точного степенного закона или хотя бы правильно меняющейся функции. Однако мы,
хотя и будем иногда применять степенные законы (в тех случаях, когда известно, что
процесс работает именно так), жирными хвостами будем называть все экстремально
толстые хвосты.
Во избежание путаницы не будем пользоваться дополнительными терминами
вроде «тяжелых хвостов» (heavy tails) или «длинных хвостов» (long tails).
Термины «толстые хвосты» и «жирные хвосты» будут прояснены в следующих
двух главах.

ТИПИЧНЫЙ ТАЛЕБ…
ДОКАЗЫВАЕТ, ЧТО
ВСЁ НЕПРАВИЛЬНО,
НО НЕ ПРЕДЛАГАЕТ
АЛЬТЕРНАТИВ.

©STEFAN GASIC — OFFSHORECOMIC.COM

РЕЦЕНЗИЯ НА КНИГУ ТАЛЕБА

НЕПРАВДА!
В МОЕЙ КНИГЕ
КУЧА АЛЬТЕРНАТИВ.

НЕ-ЕТ.

ЭТИ
ПРЕДЛОЖЕНИЯ
НЕ ПОМОГУТ
МОЕЙ КАРЬЕРЕ.

ЗАТО ОНИ
ДАДУТ ТЕБЕ
ПОД ЗАД,
ШАРЛАТАН!

Рисунок 1.3: Классическая реакция, когда «альтернативой» считается только тот анализ,
который рекомендует одобрить кредит. © Stefan Gasic

БЛАГОДАРНОСТИ
Помимо уже названных соавторов, автор благодарен Чжуо Си, Жан-Филипу Бушо,
Роберту Фраю, Спиросу Макридакису, Марку Шпицнагелю, Брэндону Яркину,
Рафаэлю Дуади, Питеру Карру, Марко Авельянеде, Дидье Сорнетту, Полю Амбре,
Бруно Дюпиру, Джамилю Базу, Дамиру Деличу, Яниру Бар-Яму, Диего Цвивовичу,
Джозефу Норману, Оле Петерсу, Читпьюниту Манну, Гарри Крейну — и, разумеется,
долгим, нескончаемым дискуссиям с великим Бенуа Мандельбротом.
Много опечаток исправили добровольные редакторы в социальных сетях, такие
как Максим Бьет, Чао Винчи, Джейсон Торелл и Петри Хэло. Обширный список опечаток и потенциальных нотационных двусмысленностей прислал Кевин Ван Хорн.
Часть статей, ставших главами этой книги, была представлена на конференциях;
автор благодарит Лоренца де Гаана, Берта Цварца и других за комментарии по проблемам, связанным с экстремальными значениями. Более точные благодарности сформулированы в конкретных главах. Как обычно, автор хотел бы поблагодарить штат
ресторана Naya в Нью-Йорке.

18

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Автор представил данную книгу и главные тезисы на ежемесячной конференции Блумберг — Квант1 в Нью-Йорке в сентябре 2018 года. После лекции ко
мне подошел один выдающийся профессор финансовой математики.
— Типичная талебщина, — сказал он. — Вы доказываете, что так-то
и так-то нельзя, но взамен не предлагаете альтернатив.
Понятно, что в бизнесе и любой другой сфере, где действует суровая
школа реального мира, такой работник долго бы не выжил. Но кто не рискует
собственной шкурой [236], до того не доходит, как важно, смотря по обстоятельствам, отложить свои убеждения и как ценны сведения о ненадежности
для принятия решений: не передавай пилоту неточные данные, научись передавать только надежную информацию; сообщая пилоту о неисправности
самолета, ты спасаешь жизни. И до них не доходит, как эффективен подход via negativa — когда наука, по Попперу, развивается отсечением неудачных теорий. Покойный Дэвид Фридман предпринял безуспешную попытку
укротить маньяков бессмысленного и обманчивого моделирования в статистике, продемонстрировав, как их прогнозы с большим отрывом проигрывают
соревнование «ничему», пустой теории.
Между тем в ряде статей и глав этой книги предлагаются решения и альтернативы. Увы, некоторых они не обрадуют, поскольку требуют математических усилий, чтобы построить совершенно другие модели, модели для ситуаций с жирными хвостами.

1 Семинар агентства«Блумберг» по финансовой математике (Bloomberg Quantitative Finance Seminars).

2
ГЛОССАРИЙ, ОПРЕДЕЛЕНИЯ
И ОБОЗНАЧЕНИЯ

Это систематический каталог с пояснениями основных разделов и обозначений. Все обозначения разъясняются и в основном тексте; здесь те же пояснения дублируются для удобства читателя, решившего посмотреть только
отдельные отрывки. Некоторые обозначения отличаются в той или иной главе,
созданной на основе конкретной статьи; здесь это указывается. Иногда наша
терминология расходится с терминологией других исследовательских групп,
хотя мы старались не противоречить существующим терминам.

2.1. ОБЩИЕ ОБОЗНАЧЕНИЯ И ЧАСТО ИСПОЛЬЗУЕМЫЕ СИМВОЛЫ
ℙ — вероятность случайного события; обычно в форме ℙ(X > x), где X — случайная величина, а событием считается, что ее реализация превзошла значение x. Более
формальные определения событий и вероятностей по канонам теории меры и прочий французский встречаются в Главе 11 и других местах, где этот формализм имеет
смысл.
𝔼 — оператор математическое ожидание1.
𝕍 — оператор дисперсия2.
𝕄 — среднее абсолютное отклонение;3 если центрируется, то относительно среднего (а не медианы).
1 От англ. expected value или mathematical expectation. В русской литературе обозначается также M, но
в этой книге обозначение M(k) = μk зарезервировано за статистическим моментом порядка k. Если случайная величина X принимает значения на множестве всех действительных чисел ℝ, то 𝔼 X = ∫ℝ x fX (x) dx,
где fX (x) — плотность вероятности. В этой книге часто используется линейность математического ожидания: 𝔼(aX) = a𝔼X и 𝔼(X + Y) = 𝔼X + 𝔼Y, даже если между случайными величинами X и Y есть корреляция, — и мультипликативность математического ожидания в случае независимых случайных величин:
𝔼 XY = 𝔼X 𝔼Y.
2 От англ. variance. В русской литературе обозначается также D. Если случайная величина X принимает значения на ℝ, то 𝕍X = ∫ℝ (x – 𝔼X)2 fX(x) dx, где fX (x) — плотность вероятности. Другими словами,
𝕍X = 𝔼(X – 𝔼X)2. В этой книге часто используется тождество 𝕍X = 𝔼X 2 – (𝔼X)2.
3 От англ. mean absolute deviation. В литературе встречается также обозначение MAD, но в этой книге MAD
зарезервировано за средним абсолютным отклонением от медианы, а не от среднего. Если случайная
величина X принимает значения на ℝ, то 𝕄X = ∫ℝ|x – 𝔼X| fX (x) dx, где fX(x) — плотность вероятности.

20

Н АС С И М Н И К ОЛ АС ТА Л Е Б

φ(.) и f (.) обычно зарезервированы за плотностью вероятности заранее указанного
распределения. В некоторых главах делается различие между fX (x) и fY (y), особенно
когда случайные величины X и Y следуют двум разным распределениям.
n обычно зарезервировано за числом слагаемых.
p обычно зарезервировано за порядком момента.
НСВ — непрерывная случайная величина1.
F(.) обычно зарезервировано за функцией распределения, то есть F(x) = ℙ(X < x).
Функция выживания ℙ(X > x) записывается с чертой сверху, F̅ (.) или обозначается
буквой S 2.
~ означает, что случайная величина по одну сторону от тильды распределена согласно закону, указанному по другую сторону от тильды.
χ(t) = 𝔼 eitXs — характеристическая функция случайной величины XS. Иногда для
аргумента t ∈ ℝ используется другая буква — ω. Сама характеристическая функция
иногда обозначается заглавной Ψ 3.
означает сходимость по распределению, то есть следующее. Пусть X1, X2, … —
последовательность случайных величин; тогда
означает, что последовательность соответствующих функций распределения Fn имеет предел:

при всяком действительном x, при котором F непрерывна.
означает сходимость по вероятности, то есть что при ε > 0 для описанной выше
последовательности
означает сходимость почти наверное4, то есть более сильное требование:

Sn обычно обозначает сумму n слагаемых.
α, а также αP и αS. Во избежание двусмысленности мы будем прибегать к двум
обозначениям: αS ∈ (0, 2] для показателя хвоста платонического (предельного) устойчивого распределения; αP ∈ (0, ∞) для показателя хвоста в распределении Парето
(доасимптотическом). В недвусмысленном контексте можем обходиться просто α.
𝒩 (μ1, ) — нормальное (гауссово) распределение со средним μ1 и дисперсией 5.

1
2

3
4
5

Другими словами, 𝕄 X = 𝔼|X – 𝔼X|. Известна теорема: 𝕄 X ≤
; это следствие неравенства Йенсена.
«Центрировать», то есть вычитать 𝔼X, приходится в тех случаях, где 𝔼X ≠ 0.
Это традиционное сокращение в русской литературе. В оригинале традиционное английское сокращение,
r. v. от random variable.
От англ. survival function. В русской литературе называется также функцией надежности и обозначается
буквой R, от англ. reliability function. Вместо особых обозначений F̅(.), S(.), R(.) часто просто выписывают
разность 1–F(.).
В литературе можно встретить также обозначение φ(t).
От англ. almost sure. Синонимы: сходимость почти всюду (almost everywhere), сходимость почти всегда
(almost always).
Случай 𝒩 (0, 1) называется стандартным нормальным распределением, и его функцию распределения
иногда обозначают Φ, без параметров. Тогда для произвольного нормального распределения 𝒩 (μ, σ2)

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

21

ℒ (., .) или ℒ𝒩 (., .) — логнормальное распределение, с плотностью f (L)(.). Здесь
обычно параметры указываются как ℒ
и дисперсия

1

; тогда математическое ожидание X0

.

𝒮 (αS, β, μ, σ) — устойчивое распределение с показателем хвоста αS ∈ (0, 2], коэффициентом симметрии β в интервале (–1, 1), коэффициентом положения μ ∈ ℝ и коэффициентом масштаба σ > 0.
𝔓 — класс степенного закона (см. ниже).
𝔖 — субэкспоненциальный класс (см. ниже).
δ(.) — дельта-функция Дирака.
ϑ(.) — тета-функция Хевисайда2.
erf(.) — функция ошибок, представляющая собой интеграл плотности гауссова
распределения3

функция распределения Φμ, σ представима через стандартную: Φμ, σ (z) =
. Автор поступает так
в разделе 2.2.3 Центральная предельная теорема (ЦПТ).
Параметр σ > 0 называют коэффициентом масштаба или среднеквадратическим отклонением; встречаются также синонимы среднеквадратичное отклонение, стандартное отклонение, STD.
Для гауссова распределения со средним μ и масштабом σ плотность вероятности f (x) =
, дисперсия σ2, коэффициент асимметрии 0, эксцесс 3, четвертый кумулянт 0
и прочие кумулянты 0. Для суммы n случайных н. о. р. по Гауссу величин последовательность кумулянтов
,
,
и далее только нули; соответственно
.
1 Логнормальное распределение — это распределение случайной величины eY, где Y — гауссова случайная величина. Если гауссова случайная величина Y имеет среднее μ и дисперсию σ2, то логнормальная
случайная величина X = eY имеет среднее X0 = e µ+σ /2 и дисперсию (e σ –1) . Величина X = eY принимает
только положительные значения; ее распределение одногорбое и несимметричное. Плотность вероятно2

; медиана e μ = X0 e –σ /2, мода e µ–σ = X0 e –3σ /2, коэффициент асимметрии
2

сти
2

(e σ +2)

2

2

2

2

2

2

, коэффициент эксцесса e 4σ + 2 e 3σ + 3 e 2σ –6.

2 (Heaviside step function) Функция ступенька в нуле,

. Если нужна ступенька в произвольной

точке K, используют

; можно представить и через индексную функцию 𝟙x ≥ K.

Иногда считают, что

; такое разночтение ϑ (0) несущественно при моделировании вероят-

ностных распределений, потому что не влияет на интегралы..
В этой книге функция Хевисайда обозначается некурсивной ϑ, чтобы отличать от локального использования ϑ для произвольного параметра или функции. Аналогичным образом мнимая единица обозначается
некурсивной i, а число Архимеда обозначается некурсивной π, чтобы отличать от локального использования i или π для произвольного параметра или функции.
3 Связь с нормальным распределением такая: интегрируется функция плотности
ния 𝒩

распределе-

, нормального распределения со средним 0 и среднеквадратическим отклонением

, при-

чем нижний предел интеграла 0 и результат умножен на 2.. Можно связать со стандартным нормальным
распределением и так:

.

Более удобная связь: в пределы μ ± aσ попадает
Например, в пределы ± σ попадает

всех нормально распределенных наблюдений.

≈ 68,2 % наблюдений.

22

Н АС С И М Н И К ОЛ АС ТА Л Е Б

erfc(.) — дополнительная функция ошибок, 1 – erf (z).
∥.∥p — норма; в этой книге1 применяется к действительному вектору X = (X1, …, Xn)T
и определяется как

Обратите внимание, что компоненты вектора берутся по абсолютной величине.
1F1(.; .; .) — вырожденная гипергеометрическая функция:

F̃2(., .; ., .; .) — регуляризация обобщенной гипергеометрической функции 2F2:

2

,

где обобщенная гипергеометрическая функция pFq(.; .; .) раскладывается в ряд

с использованием символа Похгаммера2 (a)n =

(a + i).

2.2. СИСТЕМАТИЧЕСКИЙ КАТАЛОГ ОБЩИХ
И ИДИОСИНКРАЗИЧЕСКИХ ПОНЯТИЙ
Ниже дублируются определения из основных разделов.
2.2.1. Класс степенного закона 𝔓
Принято определять класс степенного закона по свойству функции выживания следующим образом.
Пусть X — случайная величина из класса распределений с правым хвостом, подчиняющимся степенному закону, то есть:

ℙ(X > x) = L(x) x –α,

(2.1)

где L: [xmin, +∞) → (0, +∞) — медленно меняющаяся функция, определяемая требованием
для всех k > 0 [22].
1 В литературе также p-нормой называют Гёльдерову ℓp-норму

, без деления на n.

2 Так символ Похгаммера используется в литературе по гипергеометрической функции.. В литературе по
комбинаторике как (a)n обозначают убывающий факториал
(a + i) там обозначают (a)(n).

(a−i), тогда как возрастающий факториал

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

23

Тогда говорят, что функция выживания случайной величины X принадлежит
классу правильно меняющихся на бесконечности функций RVα1.
Давайте уточним: функция f: ℝ+ → ℝ+ меняется на бесконечности с показателем ρ,
то есть f ∈ RVρ, когда

2

.

С практической точки зрения это значит, что рано или поздно L(x) подходит к своему пределу l и становится константой, которую мы будем называть константой
Караматы; рубеж, где достигается константа, будем называть точкой Караматы. За
этой точкой хвосты степенного закона калибруются стандартными методами, такими
как характеристика Хилла. Б. Мандельброт называл распределение в этой области
сильным законом Парето [162], [75].
То же верно при соответствующих оговорках для левых хвостов.
2.2.2. Закон больших чисел (слабый)
Обычно его представляют так. Пусть X1, X2, …, Xn — бесконечная последовательность независимых одинаково распределенных случайных величин, интегрируемых
по Лебегу, с математическим ожиданием 𝔼 Xi = μ (вообще говоря, требование н. о. р.
можно до некоторой степени ослабить).
Тогда выборочное среднее первых n величин
(X1 + X2 + … + Xn) сходится
к математическому ожиданию, X̅ n → μ при n → ∞.
Конечность дисперсии не обязательна (однако весьма желательна: если дисперсия
и прочие высшие моменты распределения конечны, то X̅ n сходится быстрее).
Когда потребуется, рассмотрим и сильный закон больших чисел.
2.2.3. Центральная предельная теорема (ЦПТ)
Классический вариант ЦПТ, теорема Линдеберга-Леви, утверждает следующее. Пусть
дана последовательность Xi н. о. р. величин с 𝔼 Xi = μ и 𝕍 Xi = σ2 < +∞, и пусть X̅ n — это
среднее по выборке первых n величин. Тогда по мере приближения n к бесконечности центрированное и нормированное среднее (X̅ n–μ) сходится по распределению
к гауссову [20] [21]
𝒩 (0, σ2).
1 От англ. regularly varying.
2 Теория строится так. Функция f (t) правильно меняется на бесконечности, если ∀x∈ℝ+ существует и конечен предел

. Согласно теореме Караматы, такая функция представима в виде степенного закона t ρ

с точностью до медленно меняющегося сомножителя L(t): f (t) = L(t) t ρ..
Очевидным образом верно и обратное: для функции вида f (t) = L(t) t ρ и числа x ∈ ℝ+ предел
.

24

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Сходимость по распределению означает, что функция распределения для
(X̅ n–μ) поточечно сходится к 𝒩 (0, σ2), то есть что для всякого действительного z

где Φ(z) — значение стандартного нормального распределения в точке z.
Есть ряд других вариантов ЦПТ, которые мы представим по мере надобности.
2.2.4. Закон средних чисел, или Предасимптотика
Это центральная тема этой книги. Нас интересует поведение случайной величины для
умеренно большого n, или предасимптотика. Вопрос не так актуален для гауссова распределения, поскольку оно сходится быстро (в силу ЗБЧ и ЦПТ); другое дело — негауссовы случайные величины.
Смотрите далее в разделе о показателе каппа.
2.2.5. Показатель каппа
Здесь показатель не в алгебраическом смысле, как показатель степени, а в инженерном, как количественный параметр машины1. Каппа оценивает доасимптотическое
поведение случайной величины. Этот показатель разработан автором, как описано
в Главе 8 и статье [235]. Каппа пробегает интервал [0, 1]; κ = 0 для гауссовой случайной величины и κ = 1 для распределения Коши или иной случайной величины, не
имеющей математического ожидания2.
Пусть X1, …, Xn, … — случайные величины н. о. р. с конечным математическим
ожиданием, то есть 𝔼 X < +∞. Пусть Sn = X1 + X2 + … + Xn — частичная сумма. Пусть
𝕄(n) = 𝔼|Sn– 𝔼 Sn| — математическое ожидание абсолютного отклонения частичной
суммы n слагаемых от математического ожидания этой суммы (как мы уже предупреждали, у нас отклонение отсчитывается не от медианы, а от среднего). Определим
скорость сходимости при увеличении числа слагаемых от n0 до n:

,

(2.2)

где n0, n = 1, 2, … и n > n0 ≥ 1; соответственно
(2.3)

1 В оригинале автор делает другую оговорку, из-за иной омонимии: что Kappa metric — не метрика
в смысле расстояния в той или иной геометрии, а метрика в инженерном смысле.
2 Как и дисперсии.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

25

В дальнейшем мы будем часто пользоваться значениями n = n0 + 1 и сокращать
обозначение до κn .
0

2.2.6. Эллиптическое распределение
О случайном векторе X размерности p × 1 говорят, что у него эллиптическое распределение (или распределение с эллиптическим контуром) с параметрами положения μ,
неотрицательной матрицей Σ и некоторой скалярной функцией Ψ, если характеристическая функция представима в виде exp(it ′μ)Ψ(tΣt ′).
С практической точки зрения эллиптическое распределение должно собираться из
распределений с одной и той же ковариационной матрицей. Переключение режима или
стохастические ковариации (корреляции) мешают распределению быть эллиптическим.
И мы покажем в Главе 6, что линейная комбинация случайных величин, следующих
распределениям с тонким хвостом, способна генерировать взрывные толстохвостые
свойства, когда эллиптичность нарушается. Этот эффект, наряду со случаями жирного
хвоста, делает несостоятельной значительную часть современной финансовой науки.
2.2.7. Статистическая независимость
Независимость между двумя случайными величинами X и Y с частными функциями
плотности вероятности fX (x) и fY (y) и совместной функцией плотности вероятности
f (x, y) определяется тождеством:

независимо от коэффициента корреляции. В классе эллиптических распределений,
когда совместное гауссово распределение имеет коэффициент корреляции 0, случайные величины и независимы, и некоррелированы. Иначе обстоит дело с многомерными формами t-распределения Стьюдента или распределения Коши.
2.2.8. Устойчивое распределение (устойчивое по Леви)
Это обобщение ЦПТ.
Пусть X1, …, Xn — независимые одинаково распределенные случайные величины.
Рассмотрим их сумму Sn. Теорема утверждает, что

,

(2.4)

где XS следует устойчивому распределению 𝒮, an и bn — нормирующие константы, а ,
как вы помните, означает сходимость по распределению (распределению X при n → ∞).
Свойства 𝒮 будут должным образом определены и рассмотрены в следующей
главе. Пока заметим, что про случайную величину XS говорят, что она следует устой-

26

Н АС С И М Н И К ОЛ АС ТА Л Е Б

чивому (или α-устойчивому) распределению, и пишут XS ~ 𝒮 (αS, β, μ, σ), если ее характеристическая функция χ(t) = 𝔼eitXS имеет вид:

, где αS ≠ 1.

(2.5)

Ограничения: –1 ≤ β ≤ 1 и 0 < αS ≤ 21.
2.2.9. Многомерное устойчивое распределение
О случайном векторе X = (X1, …, Xk)T говорят, что он имеет многомерное устойчивое
распределение, если каждая линейная комбинация его компонент Y = a1X1 + ⋯ + akXk
имеет устойчивое распределение. То есть каждая векторная константа a ∈ ℝk должна
давать устойчивое одномерное распределение для случайной величины Y = aX.
2.2.10. Точка Караматы
См. Класс степенного закона.
2.2.11. Субэкспоненциальность
Естественной границей между Медиокристаном2 и Экстремистаном служит субэкспоненциальный класс, обладающий следующим свойством.
Пусть X1, …, Xn — последовательность независимых одинаково распределенных случайных величин с носителем в (ℝ+) и кумулятивной функцией распределения F.
Субэкспоненциальный класс определяется требованием (см. [248], [196]):
,

(2.6)

где F *2 = F ′ ⁎ F — это кумулятивное распределение X1 + X2, суммы двух независимых
копий случайной величины X. Требование означает, что вероятность того, что сумма
X1 + X2 превысит значение x, вдвое выше вероятности того, что значение x будет пре1 Устойчивому распределению, оно же α-устойчивое по Леви, следует в пределе сумма n независимых
случайных величин при n → ∞; в случае слагаемых с конечной дисперсией сумма в пределе гауссова, а в
более общем случае — нет. Устойчивым это распределение названо потому, что для двух н. о. р. X1 и X2
линейная комбинация вида aX1 + bX2 следует распределению вида cX1 + d.
При αS < 1 и β = 1 устойчивое распределение одностороннее, X ∈ [μ, +∞); при αS < 1 и β = −1 устойчивое
распределение одностороннее, X ∈ (−∞, μ]; в остальных случаях носитель ℝ. При β = 0 устойчивое распределение симметричное. При αS = 1 превращается в распределение Коши, при αS = 2 превращается в
гауссово распределение. При 1 < αS < 2 и β = 1 называется распределением Парето.
Среднее равно коэффициенту положения μ при αS > 1; иначе не существует. Дисперсия 2σ2 при αS = 2;
иначе бесконечна. Коэффициент асимметрии 0 при αS = 2; иначе не существует. Эксцесс 3 при αS = 2;
иначе не существует.
2 Медиокристан и Экстремистан — вымышленные области, от англ. mediocre (заурядность) и extreme
(крайность).

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

27

вышено любым отдельно взятым слагаемым. Значит, для больших x все случаи, когда
сумма превышает x, она обязана этим только одному из слагаемых — большему из
двух, — тогда как вклад другого пренебрежимо мал1.
Обобщая, можно доказать, что и в сумме n величин преобладает одна из них, максимальная. Формально следующие два свойства эквивалентны условию субэкспоненциальности [43], [84].
и Mn = max1≤ i ≤ n Xi. Тогда
Для данного n ≥ 2 пусть
a)
b)

.

Таким образом, сумма Sn сравнима по величине с наибольшим слагаемым Mn, другими словами — хвосты играют главную роль.
На интуитивном уровне важно понять, что частота событий в хвосте субэкспоненциальных распределений падает медленнее, чем в экспоненциальном распределении,
где событиями в далеком хвосте можно пренебречь.
В самом деле, можно доказать, что у субэкспоненциальных распределений нет
экспоненциальных моментов:
(2.7)
для всех ε больше нуля. Однако обратное неверно, поскольку распределения могут не
иметь экспоненциальных моментов и все равно не удовлетворять субэкспоненциальному условию.
2.2.12. t-распределение Стьюдента как прокси
Мы используем t-распределение Стьюдента с α степенями свободы как удобное распределение степенного закона с двумя хвостами. При α = 1 оно превращается в распределение Коши, а при α → ∞, естественно, в гауссово.
t-распределение Стьюдента — это главный колоколообразный степенной закон,
то есть плотность вероятности непрерывная и гладкая, асимптотически приближается
к нулю для больших x, отрицательных или положительных, и унимодальна, то есть ее
максимум — единственный (кроме того, плотность вероятности квазивыпукла вверх,
хотя и не выпукла вверх).
2.2.13. Круг цитирования
Замкнутый механизм, помогающий академической карьере авторов статей, которые
считаются выдающимися, поскольку их цитируют, без фильтрации по внешним критериям; в результате исследоватили оседают по уютным углам, сосредоточившись
1 Имеется в виду, что в хвосте события редкие и при некотором x в хвосте вероятность превзойти x увеличится вдвое, если разрешить две попытки: ℙ(X1 > x или X2 > x) ≈ 2ℙ(X1 > x). Вообще говоря, если разрешить
суммировать результаты двух попыток, шансы превзойти x еще увеличатся: ℙ(X1 + X2 > x) > 2ℙ(X1 > x или
X2 > x). Но заметной эта прибавка будет только в ситуации, где существенна вероятность совпадения, что
в каждой из двух попыток результат сравним с x.

28

Н АС С И М Н И К ОЛ АС ТА Л Е Б

на несущественных частных вопросах. Этот механизм сложился в условиях функционирования академической системы без контроля извне и без собственной шкуры
на кону.

Примеры областей исследований, которые по сути шарлатанство, так как их
результаты непереносимы в реальную жизнь и пригодны только как пища
для новых статей, которые, в свою очередь, произведут только новые статьи:
современная портфельная теория1, эконометрика (особенно в части макроэкономических параметров), процедуры GARCH2, психометрия, модели стохастического управления финансами, поведенческая экономика и финансирование, принятие решений в условиях неопределенности, макроэкономика
и прочее.

2.2.14. Погоня за рентой в научном мире
Существует конфликт интересов3 между исследователем и его темой. Целью кафедры
и ее сотрудников становится цитируемость, награды и прочее в ущерб собственно
исследованию; например, чтобы не браться за трудные задачи, многие разбредаются
по углам, где исследование полезно для личной карьеры и для кафедры, а не для дела.
2.2.15. Псевдоэмпиризм, или Проблема Пинкера4
Привлечение «доказательств», лишенных статистической значимости, или использование показателей, которые неинформативны, поскольку неприменимы к рассматриваемым случайным величинам (например, вывод на основе средних значений или
корреляция величин с толстым хвостом). Причина болезни в том, как учат будущих
исследователей в общественных науках:
i) статистике учат на примере гауссовых величин или величин с тонким хвостом,
ii) не учат теории вероятностей и плохо учат терминам статистики,
iii) вовсе не учат работать с многомерностью.

1 Англ. Modern Financial Theory или Modern Portfolio Theory. Идея портфельных инвестиций на основе
гипотезы эффективного рынка. Разработана Гарри Марковицем в 1950-е годы.
2 Прогнозирование на основе анализа регрессии; предложено Робертом Энглом в 1982 (ARCH —
AutoRegressive Conditional Heteroscedasticity) и развито Тимом Боллерслевом в 1986 (Generalized
ARCH — GARCH).
3 Погоня за рентой (rent-seeking) — это злоупотребление своим положением или иные нечестные способы
конкуренции.
4 Имеется в виду книга канадско-американского социопсихолога и популяризатора Стивена Пинкера The
Better Angels of Our Nature: Why Violence Has Declined (2011), русское издание «Лучшее в нас. Почему
насилия в мире стало меньше» (2021). Нассим Талеб выступил с разоблачением традиционно легкомысленных статистических рассуждений в книге Пинкера; последовала шумная баталия в СМИ. Для тех, кто
станет искать подробности, важно знать, что та полемика не имела отношения к недавней атаке на Стивена Пинкера за недостаток политической корректности; в последнем случае Талеб высказался в защиту
прав Пинкера.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

29

Вот примеры псевдоэмпиризма: сравнивают число смертей от террористических
актов или при эпидемиях вроде эболы (где у случайной величины хвост жирный)
и несчастные случаи при падении со стремянок (где хвост тонкий).
Смещение в сторону подтверждения наблюдений — бич современной науки; оно
приводит к ложно-позитивным выводам как в случаях многомерных случайных величин, так и в случаях жирного хвоста.
На самом деле даже не обязательно знать разницу между величинами с жирным
хвостом и гауссовыми, чтобы заметить шаткость таких рассуждений, поскольку они
не удовлетворяют простому критерию статистической значимости. Впрочем, рассуждающие обычно вовсе не разбираются в статистической значимости.
2.2.16. Предасимптотика
Математическая статистика любит работать с суммой n слагаемых при n = 1 или n = ∞.
Посередине находится то, что мы называем реальностью и чему главным образом
посвящена эта книга. Некоторые суммы (скажем, те, где у слагаемых конечная дисперсия) ведут себя, как гауссова величина, асимптотически, при n = ∞, однако не делают
этого даже при некоторых огромных n < ∞.
2.2.17. Стохастизация
Замена детерминированного параметра на случайный; можно (i) простым способом,
можно (ii) с применением более сложного непрерывного или дискретного распределения.
i) Пусть s — детерминированный параметр; стохастизируем его простейшим
способом, заменив на случайную величину S, следующую распределению1 Бернулли
с двумя значениями: s1, которое принимается с вероятностью p, и s2, которое принимается с вероятностью 1 – p. Стохастизация сохранит среднее, если ps1 + (1 – p)s2 = s,
то есть когда значение параметра s сохраняется в виде среднего значения случайной
величины S. Вообще говоря, заменить некоторый параметр s некоторого распределения f на случайную величину S можно так, чтобы сохранить дисперсию распределения или какие-то другие характеристики.
ii) Можно использовать полноценное распределение вероятностей. Обычно берут
гауссово, если нужна случайная величина с двумя хвостами, а когда нужен один хвост,
берут логнормальное или экспоненциальное распределение, реже степенной закон.
Когда s — это среднеквадратическое отклонение некоторой случайной величины,
можно стохастизировать s2, создав стохастическую волатильность; дисперсию или
среднеквадратическое отклонение параметра s называют волатильностью волатильности и обозначают V-vol.

1 По Бернулли, распределена случайная величина X, принимающая только два значения: 0 или 1. Если
вероятность ℙ(X = 1) = p, то вероятность ℙ(X = 0) = 1 – p; среднее p; дисперсия p(1 – p); коэффициент
асимметрии

; эксцесс (3p2 – 3p + 1) / p (1 – p). Здесь, очевидно, используется случайная

величина S = s2 + (s1 – s2) X; такая случайная величина принимает значения s1 и s2 с вероятностью p и 1 – p
соответственно; среднее ps1 + (1 – p) s2.

30

Н АС С И М Н И К ОЛ АС ТА Л Е Б

2.2.18. Стоимость под риском, условная стоимость под риском
Математически стоимость под риском (value at risk, VaR) при пороге1 λ ∈ [0, 1] для
случайной величины X с функцией распределения F выражается как

VaRλ X = –inf{x ∈ ℝ | F(x) > λ}2,

а соответствующая условная стоимость под риском (conditional value at risk, CVaR),
она же ожидаемые потери (expected shortfall, ES)3 при пороге λ, как

ESλ X = 𝔼(–X | X ≤ –VaRλ X)

или, рассматривая положительную величину потерь, работают с положительным хвостом распределения 4.
Обобщая, ожидаемые потери при пороге K определяют как 𝔼(X | X > K)5.
2.2.19. Своя шкура на кону
Фильтрующий механизм, который заставляет повара отведать собственное блюдо
и пострадать, если оно не удалось; так система избавляется от опасных участников.
Ставят на кон свою шкуру, например, сантехники, дантисты, хирурги, инженеры.
Их работа приносит осязаемый результат, или предприятие разоряется.
Где нет своей шкуры на кону: в академических кругах. Участники оценивают
друг друга, не ощущая давления со стороны реальности, угрожающего их существованию.
1 Встречается синоним: доверительный уровень.
2 Подразумевается задача, в которой X — величина платежа, положительная в случаях прибыли и отрицательная в случаях убытков, и обсуждаются как раз убытки. Стоимость под риском при заданной пороговой вероятности λ, обычно VaR 0,05 X, противоположна такому платежу –VaR 0,05 X (в рассматриваемой
задаче отрицательному), что вероятность этих или худших убытков равна 0,05. Говорят: если реализуются угрозы, имеющие вероятность 5 %, вы потеряете стоимость VaR 0,05 X или хуже того.
Иногда тот же термин определяют через квантиль. Для этого рассматривают величину –X, положитель. Это квантиль
ную в случаях убытков. С вероятностью λ величина –X ≥ VaRλ X, то есть
уровня 1 – λ случайной величины –X, Q–X(1 – λ); стоимость под риском 5 % — это квантиль уровня 0,95,
или 95-й процентиль величины –X.
3 Есть еще несколько синонимов: средняя стоимость под риском (average value at risk, AVaR), математическое ожидание хвостовых потерь (expected tail loss, ETL), надквантиль (superquantile). Часто используется уровень λ = 0,05, то есть среднее по потерям хуже 5-го процентиля.
4 В последнем случае, очевидно, рассматриваемая случайная величина –X положительна в случае убытков.
Соответственно формула в определении ожидаемых потерь примет вид ESλ(X) = 𝔼(–X | –X ≥ VaRλ X), среднее вычисляется в положительном хвосте –X | –X ≥ VaRλ X.
5 Здесь величина X не платеж, как выше, а противоположная величина, «величина потерь», и здесь
«порог» K не по вероятности, как порог λ в приведенных выше определениях VaRλ и ESλ, а по величине
потерь.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

31

2.2.20. График MS
График MS (maximum to sum, максимум к сумме) показывает проявление ЗБЧ на данный момент, вклад максимального наблюдения в итог и поведение итога по мере
роста n.
Чтобы узнать для НСВ X, существует ли 𝔼 X p, нужно пронаблюдать сходимость
согласно закону больших чисел или ее отсутствие, изучив поведение высших статистических моментов в данной выборке. Удобно это делать по графику MS, как показано на Рисунке 10.3.
График MS опирается на следствие из закона больших чисел [184], касающегося максимального значения случайной величины. Для последовательности X1, X2, …, Xn, …
неотрицательных случайных величин н. о. р., если 𝔼 X p < ∞ при p = 1, 2, 3, … то отношение

где

— частичная сумма, а

— частичный максимум.

(Заметим, что в качестве X можно взять абсолютную величину случайной величины,
если НСВ может принимать отрицательные значения, и тогда данный подход будет
применим и к нечетным статистическим моментам.)
2.2.21. Максимальный аттрактор (MDA)
Теория экстремальных значений рассматривает распределение максимума по n экземплярам НСВ, когда это распределение при x → x*, где x* = sup{x: F(x) 0 ожидаемый платеж при условии превышения K недооценивается теми, кто умножает g (K) на pK.
2 Бывает, что столяр уверен в линейке и проверяет ею новый стол; бывает, что столяр не уверен в линейке
и проверяет ее по старому столу, в котором уверен. Исследователь должен быть готов усомниться
и в своей «линейке», и в измеряемом ею «столе».
3 Если по линейке размер стола невероятно большой, разумно в ней усомниться.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

33

По сути, это вещи, которые выпадают из вашего горизонта планирования и моделирования, но могут иметь значительные последствия. Речь не о том, чтобы предсказать их, а только о том, чтобы иметь для них выпуклую вниз (или хотя бы не выпуклую вверх) оценку воздействия: хрупкость по отношению к определенному классу
событий поддается обнаружению и даже измерению (путем оценки эффектов второго
порядка и асимметрии реакций), даже если статистические параметры этих событий
установить не удастся.
Тяжело объяснить разработчикам модели, что им нужно научиться работать
с вещами, которых они никогда не видели (и даже не представляли), но это нужно
сделать1.
Примечание об эпистемологическом измерении: черные лебеди зависят от
наблюдателя; одно и то же событие может быть черным лебедем для индейки и белым
лебедем для торговца мясом. 11 сентября стало черным лебедем для жертв нападения, но не для террористов. Зависимость от наблюдателя — неотъемлемое свойство
черного лебедя, и его объективная теоретико-вероятностная модель не просто недоступна, она логически невозможна, ибо разрушит моделируемый объект, нарушив
существенную для него неполноту информации и ее распространения.

Серые лебеди: так называются большие отклонения со значительными
последствиями и низкой частотой, но все же не нарушающие статистических параметров. Разумеется, серость лебедя зависит от наблюдателя:
лебедь, который сер для разработчика модели с распределением по степенному закону, окажется черен для наивного статистика, тщетно перебирающего стандартные системы моделирования и репрезентации тонких хвостов.

Повторим лишний раз: черные лебеди возможны и вне жирных хвостов, но в жирных хвостах они важнее. Связь между жирными хвостами и черными лебедями та,
что в области жирных хвостов большие отклонения оказывают более сильное воздействие.
2.2.26. Выборочная функция распределения ненаблюдаема эмпирически2
Выборочная функция распределения F̂ (t) определяется так.
Пусть X1, X2, …, Xn — действительные случайные величины н. о. р. с функцией
распределения F(t). Тогда

где 𝟙𝒜 — индикаторная функция множества 𝒜.
1 Как любит приговаривать Пол Портеси (ссылаясь — кажется, безосновательно — на автора этой
книги): «Вы еще не видели другую сторону распределения». — Прим. автора.
2 В оригинале игра слов: по-английски такая функция распределения называется empirical distribution
function.

34

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Согласно теореме Гливенко — Кантелли, независимо от исходного распределения F(t) статистика Колмогорова1 равномерно сходится к распределению2 Колмогорова — Смирнова, причем
(2.9)
Эта «сходимость почти наверное» независимо от распределения гарантирована
для вероятности, но не для высших моментов; такой результат автор получил и обобщил для «скрытого момента» выше максимума.
Отметим главный результат3 (который Донскер в дальнейшем обобщил, выведя
теорему броуновского моста, для случая ограничения t интервалом от 0 до 1):
(2.10)
Когда говорят, что «выборочная функция распределения ненаблюдаема эмпирически», имеют в виду, что выборочные распределения неизбежно цензурируются на
интервале [xmin, xmax], и в случае жирного хвоста исследователь попадает в трудное
положение: хвост не удается проанализировать в вероятностном пространстве, только
в пространстве платежей.
Смотрите также главку о скрытом хвосте (следующую).
2.2.27. Скрытый хвост
Рассмотрим Kn — максимум по выборке из n независимых одинаково распределенных случайных величин: Kn = max(X1, X2, …, Xn). Пусть φ(.) — плотность исходного
распределения. Разложим его статистический момент порядка p на два слагаемых, где
«скрытый» вклад вносится хвостом выше Kn:

Здесь μL — вклад наблюдаемой части распределения и μK — вклад скрытой части
(выше K).
Согласно теореме Гливенко — Кантелли, распределение μK, 0 не может зависеть
от исходного распределения X, но на высшие статистические моменты эта теорема
не распространяется, так что у исследователя, полагающегося на критерий4 Колмогорова — Смирнова, могут быть проблемы.
1 Отклонение выборки от исходного распределения, по формуле
2 Определяется как распределение случайной величины вида

.
, где B(t) — броуновский мост,

вероятность того, что за время t броуновское движение приведет частицу обратно в точку, где она была
в момент 0.
3 Считается вариантом центральной предельной теоремы.
4 Можно ли при заданной доверительной вероятности утверждать, что наблюдаемая выборка порождена
процессом с заданным распределением (критерий согласия Колмогорова) или что две наблюдаемые
выборки порождены процессами с одним и тем же распределением (критерий однородности Смирнова).

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

35

2.2.28. Теневой момент
В этой книге рассматривается «дополнительная оценка». Бывает, что недостаточно
найти среднее по наблюдаемой выборке: в случае распределений с жирным хвостом
оно дает систематическую ошибку. Мы показываем, как оценить методом максимального правдоподобия основные параметры распределения, такие как показатель хвоста α, и рассчитать соответствующее теневое математическое ожидание или высшие
статистические моменты.
2.2.29. Зависимость в хвосте
Пусть X1 и X2 — две случайные величины, не обязательно из одного класса распределений. Пусть F ←(q) — функция, обратная функции распределения для вероятности q,
то есть F ←(q) = inf {x ∈ ℝ: F(x) ≥ q}, тогда зависимость в верхнем хвосте λu определяется как
1
.
(2.11)
Аналогично определяется показатель зависимости в нижнем хвосте.
2.2.30. Метавероятность
Вероятность вероятности возникает, когда два вероятностных распределения сравнивают методами, включающими в себя стохастизацию параметров. Или когда параметр
стохастизируют, чтобы рассчитать распределение цен опционов «колл» или показателей риска вроде VaR (см. соответствующую главку), CVaR и т. д. и проверить робастность или выпуклость вниз полученного распределения.
2.2.31. Динамическое хеджирование
Выигрыш по европейскому опциону «колл» C с установленным сроком T при стоимости исходного актива S следует хеджировать потоком динамических хеджей от настоящего времени t до T со следующим пределом:
(2.12)
Мы разбиваем интервал на n частей с инкрементом ∆t. Здесь хедж-отношение
вычисляется на промежутке времени t + (i – 1) ∆t,, но мы получаем непредвосхищающую разность между ценой на время инициации хеджа и результирующей ценой на
время t + i ∆t.
Предполагается, что таким путем выигрыш становится детерминированным
в пределе ∆t → 0. В мире гауссовых распределений пределом будет интеграл Ито —
Маккина.
Мы покажем, в каких случаях жирного хвоста специальные доасимптотические
свойства делают хеджирование невозможным.
1 При этом вне хвоста q → 1 те же две величины могут вести себя как независимые.

Часть I
ЖИРНЫЕ ХВОСТЫ
И ИХ ПО СЛЕДСТВИЯ,
ЗНАКОМСТВО

3
НЕТЕХНИЧЕСКИЙ ОБЗОР —
ЛЕКЦИЯ В КОЛЛЕДЖЕ ДАРВИНА *‡

Abyssus abyssum invocat1.
Псалтирь

В этой главе2 представлены нетехнически, но полно все статистические
эффекты проекта жирных хвостов. Все основные идеи кратко изложены
в одном месте. Главным образом это список доброй дюжины последствий,
которые жирные хвосты имеют для статистических выводов.

3.1. О РАЗЛИЧИИ МЕЖДУ ТОНКИМ И ЖИРНЫМ ХВОСТОМ
Начнем с понятия толстого хвоста и как оно связано с экстремальными значениями.
Представим себе два воображаемых царства, Медиокристан (где хвосты тонкие)
и Экстремистан (где хвосты толстые).

• В Медиокристане, как только выборка изучаемых событий станет большой, дальнейшие наблюдения перестанут влиять на оценку статистических
свойств.
• В Экстремистане на эти свойства непропорционально сильно влияют хвосты (редкие события).

1 Бездна бездну призывает (Псалтирь 41: 7).
2 Краткая версия была представлена Колледжу Дарвина (Кембридж, Великобритания) 27 января 2017 года
в цикле Darwin College Lecture Series on Extremes. Автор горячо благодарит Ди-Джей Нидема и Юлиуса
Вайцдёрфера, а также их невидимых помощников, которые кропотливо переписали лекцию в виде связного текста. Автор также благодарен Сьюзен Пфанненшмидт и Оле Петерсу, исправившим несколько
ошибок. Джамиль Баз переупрямил меня, уговорив добавить в эту главу комментарии для экономистов
и эконометристов, вдруг они со временем примут что-то из изложенного. — Прим. автора.

40

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Гауссово распределение
с большой дисперсией

3,0
2,5
2,0
1,5
1,0
0,5

0

2000

4000

6000

8000

10000

Распределение Парето 20 на 80

2,5
2,0

Рисунок 3.1: Закон больших чисел,
то есть сходимость среднего по
выборке к устойчивому значению,
медленно работает в Экстремистане (в данном примере взято
распределение со степенным закоn ном при показателе хвоста 1,13,
обеспечивающем «правило Парето
20 на 80»). В обоих распределениях
одно и то же среднеквадратическое отклонение. Заметим, что
феномен наблюдается и для других
форматов выборки, например, тех,
что используются в портфельной
теории

1,5
1,0
0,5

0

2000

4000

6000

8000

10000

n

Посмотрим с другого бока. Рассмотрим большое отклонение X.

• В Медиокристане вероятнее два раза подряд встретить в выборке отклонение больше X, чем встретить один раз отклонение больше 2X.
• В Экстремистане скорее попадется отклонение выше 2X, чем два раза подряд отклонение выше X.

Пусть в Медиокристане мы выбрали двоих жителей, и оказалось — редкий, хвостовой случай, — что их суммарный рост 4,1 метра. При гауссовом распределении
(точнее, в данном случае речь о его брате с одним хвостом) самое вероятное сочетание
ростов окажется 2,05 метра и 2,05 метра. Никак не 10 сантиметров у одного жителя
и 4 метра у другого.
Упрощая, можно сказать, что вероятность отклониться дальше чем на 3 сигмы
составляет 0,00135, и вероятность отклониться дальше чем на 6 сигм, то есть вдвое
сильнее, составляет 9,86 × 10–10. Значит, вероятность совпадения двух трехсигмовых
событий равна 1,8 × 10–6, и это гораздо вероятнее, чем одно шестисигмовое событие.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

ЗБЧ для Гаусса

ЗБЧ для жирного хвоста
2,0

2,0

1,5

1,5

1,0

1,0

n=1
n = 30

–2

0

2

n=1
n = 30

0,5

0,5

–4

41

4

–4

–2

0

2

4

Рисунок 3.2: Что происходит с распределением среднего по выборке при росте числа наблюдений? Представлен тот же феномен, что на Рисунке 3.1, но в пространстве вероятностных распределений. Сжать распределение с жирным хвостом труднее, чем гауссово. Выборка потребуется гораздо бо́льшая. Такие дела
2,4

2,2

Рисунок 3.3: Изолинии плотности вероятности для двух
независимых гауссовых распределений. Прямая показывает случаи x + y = 4,1. Видно,
что самый высоковероятный
из них — при x = y = 2,05

2,0

1,8

1,6

1,4
1,4

1,6

1,8

2,0

2,2

2,4

Так рассуждают, если хвост распределения не толстый.
На Рисунке 3.4 показано, что если продвигаться дальше по хвосту, перейти от
отношения вероятности совпадения двух 3-сигмовых событий к вероятности одного
6-сигмового к отношению вероятности совпадения двух 4-сигмовых и к вероятности
одного 8-сигмового, то окажется, что большое отклонение возможно только при сочетании (сложении) умеренных отклонений; см. правую часть Рисунка 3.4. Другими
словами, большая беда может грянуть только в результате серии редких событий,
никак не из-за одного-единственного. Такова логика в Медиокристане.
Теперь отправимся в Экстремистан и выберем двух жителей. Пусть оказалось,
что в сумме их состояние составляет 36 млн долларов. Но вряд ли это будет сочетание

42

Н АС С И М Н И К ОЛ АС ТА Л Е Б

(S(K))2
S(2K)
25000
20000
15000
10000
5000

1

2

3

4

K (в сигмах)

Рисунок 3.4: Отношение функций выживания S(.) для двух аномалий размером K и одной аномалии размером 2K при гауссовом распределении*. Чем больше K, то есть чем дальше мы уходим
в хвост, темрешительнее составная аномалия, то есть совпадение двух независимых аномалий
размером K, с функцией выживания, преобладает над единичной аномалией величиной 2K
* Здесь ради наглядности сделано незаконное упрощение. При добросовестном подходе нужно отнести две
аномалии размером K к одной аномалии размером (2K плюс одно обычное отклонение); впрочем, график
в итоге получится тот же самый.

50

40

30

x + y = 36

20

Низкая плотность

10

0
0

10

20

30

40

50

Рисунок 3.5: Изолинии плотности для двух независимых распределений с толстым хвостом
(в классе степенного закона). Прямая показывает случаи x + y = 36. Видно, что самые высоковероятные из них — при x = 36 – ε или при y = 36 – ε и что ε будет стремиться к нулю, если рассмотреть бо́льшие x + y

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

43

40

Рисунок 3.6: Та же ситуация, что на Рисунке 3.5,
только показаны оси действительных чисел, включая
отрицательные. Видно, что,
в отличие от Рисунка 3.3,
изолинии степенного закона
напоминают крест, особенно
при низких плотностях, где
эллиптичность совершенно
утрачивается

20

0

–20

–20

0

20

40

18 млн долларов и 18 млн долларов. Скорее окажется, что это 35 999 000 долларов
и 1000 долларов.
Мы подчеркнули четкое различие между двумя областями. В классе субэкспоненциальных распределений катастрофа скорее наступит из-за одного редкого события, чем
из-за серии аварий. Эта логика лежит в основе классической теории рисков, намеченной
страховым статистиком Филипом Лундбергом в начале XX века [155] и формализованной в 1930-е Харальдом Крамером [51], но забытая современными экономистами. Чтобы
имело смысл страховать убытки, у них должно быть много ожидаемых причин, а не однаединственная; только при большом числе ожидаемых причин возможна диверсификация.
Это показывает, что страховой бизнес работает только в Медиокристане; не выписывайте страховки без верхнего предела возмещаемого ущерба, если рискуете разориться
на одной-единственной катастрофе. Это правило называется принципом катастрофы1.
Как мы видели ранее, при распределениях с толстым хвостом экстремальные
события, далекие от центра распределения, играют весьма важную роль. Не то чтобы
черные лебеди здесь встречаются чаще, это недоразумение, просто их последствия
существеннее. Самый жирный хвост — это когда в распределении всего одно отклонение, зато огромное, а не многочисленные умеренные аномалии. На Рисунке 4.4 показано, что, если взять распределение вроде гауссова и начать ужирнять его хвосты,
число событий за пределами одного стандартного отклонения падает. При гауссовом
1 Принцип катастрофы (catastrophe principle), он же принцип большого скачка (single big jump), эквивалентен следующему критерию субэкспоненциальности хвоста распределения: если такому распределению
следуют независимые случайные величины X1, X2, …, Xn, то ℙ(X1 + X2 + … + Xn > x) → ℙ(max{X1, X2, …,
Xn} > x) при x → ∞. Достаточным признаком субэкспоненциальности хвоста оказывается такой:
ℙ(X1 + X2 > x) → ℙ(max{X1, X2} > x) при x → ∞, что эквивалентно требованию 1– F(x – y)dF(y) ~ 2(1 – F(x))
при x → ∞, где F(x) = ℙ(X > x) — кумулятивная функция распределения.

44

Н АС С И М Н И К ОЛ АС ТА Л Е Б

распределении вероятность того, что случайное событие попадет в интервал плюсминус одного стандартного отклонения от математического ожидания, составляет
68 процентов. По мере ужирнения хвостов, скажем, до уровней, типичных для финансовых рынков, вероятность того, что событие останется в пределах одного стандартного отклонения от математического ожидания, возрастает до 75–95 %. Чем жирнее
хвосты, тем выше и у́же пик и вместе с тем сильнее эффект очень больших отклонений. Поскольку сумма всех вероятностей дает 1 (даже во Франции), при добавлении
жира в хвосты худеют склоны пика.
3.2. ХВОСТ, ВИЛЯЮЩИЙ СОБАКАМИ: ИНТУИТИВНО
Эффект хвоста, виляющего собакой
Центральная идея та, что чем толще хвост распределения, тем больше хвост
виляет собакой, то есть важная информация сосредотачивается в хвосте, покидая «туловище» (центральную часть) распределения. В случае очень жирного
хвоста все отклонения, кроме больших, делаются информационно стерильными.

Центр становится просто шумом. Хотя «доказательная наука» еще не вполне осознала этот феномен, но есть обстоятельства, когда основной корпус данных ни о чем
не свидетельствует.
Это свойство также объясняет, почему закон больших чисел медленно срабатывает при наблюдении таких областей, ведь хвостовые наблюдения, где сосредоточена
главная информация, по определению хвоста случаются редко.
Это свойство объясняет, например, почему наблюдение миллиона белых лебедей
не доказывает несуществование черных лебедей или почему миллион подтверждающих наблюдений стоит меньше, чем одно опровергающее. Мы свяжем этот феномен
с асимметрией в духе Поппера позже в этой главе.
Оно также объясняет, почему нельзя сопоставлять случайные величины, определяемые своим хвостом (например, число жертв пандемии), со случайными величинами, определяемыми своим телом (например, число утонувших в своем бассейне).
О следствиях системных рисков для политики смотрите статью Чирилло и Талеба
2020 года [48].
3.3. ДОПОЛНИТЕЛЬНЫЕ КАТЕГОРИИ И ЧТО ИЗ НИХ СЛЕДУЕТ
Рассмотрим разные степени толстохвостости, для начала бегло; позже в этой книге
нам еще предстоит углубиться, и не раз. Упорядочим их по серьезности.

Распределения бывают:
Толстохвостые ⊃ Субэкспоненциальные ⊃
⊃ По степенному закону (по Парето)

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

45

Во-первых, есть толстохвостые начального уровня. Чтобы попасть в «толстые»,
хвосту достаточно всего лишь быть толще, чем у гауссова распределения; это значит, что в пределы ± среднеквадратическое отклонение должно попасть больше чем
erf

≈ 68,2 % наблюдений, или что эксцесс (представляющий собой функцию чет-

вертого центрального момента1, 2) превышает 33.
Во-вторых, есть субэкспоненциальные распределения, которые соответствуют
приведенному выше мысленному эксперименту — тому, где иллюстрируется принцип
катастрофы. У чисто субэкспоненциального распределения, не вошедшего в класс степенного закона, хвост лишь умеренно толст и не ставит распределение под чудовищное, непропорциональное воздействие со стороны редких событий. А именно у чисто
субэкспоненциального распределения в наличии все статистические моменты.
Распределения третьего уровня называют по-всякому — степенной закон, правильно меняющийся класс, класс «с хвостом Парето»; речь о самых толстых, жирных
хвостах, но и среди таких различают разную жирность. Определения различий внутри
этого класса зависят от выбираемой системы параметров; не углубляясь пока в подробности того или иного показателя хвоста, заметим, что у всякого жирнохвостого
распределения некоторый статистический момент обращается в бесконечность, и все
моменты более высоких порядков также бесконечны.
Рассмотрим пирамиду на Рисунке 3.7, снизу вверх. Слева внизу вырожденное распределение, когда случайная величина может принимать только одно значение, то есть
никакой случайности и никакой изменчивости нет. Этажом выше распределение Бернулли, при котором возможны ровно два исхода. Еще выше два гауссовых распределения. Есть естественное гауссово распределение (с носителем от минус бесконечности до
плюс бесконечности) и есть приближения, полученные сложением случайного блуждания
(с более-менее компактным4 носителем, если не допустить бесконечно большого числа
слагаемых). Это две разные вещи, ведь первое разрешает бесконечно большие значения,
1 Момент порядка p случайной величины X — это математическое ожидание p-той степени случайной
величины X, т. е. 𝔼(X p). — Прим. автора.
2 Однако центральный момент порядка p — это математическое ожидание p-той степени не самой случайной величины X, а разности X – 𝔼X, т. е. μp = 𝔼(X – 𝔼X) p.
3 Знакомые с коэффициентом эксцесса, принятым в русской математической литературе: ɣ2 =
,
где 𝔼(X – 𝔼 X)4 — 4-й центральный момент и σ — среднеквадратическое отклонение случайной величины X, — привыкли к другому: если X имеет стандартное нормальное распределение, то ɣ2 = 0. Однако
в английской литературе эксцессом (kurtosis) называют Kurt(X) =

; если X следует нормаль-

ному распределению, то Kurt(X) = 3. Коэффициент эксцесса ɣ2 в английской литературе называют «избыточным эксцессом» (excess kurtosis).
Смысл эксцесса поясняют так. Распределению с самым малым эксцессом, 1, следует случайная величина, принимающая только два значения, причем с равной вероятностью. Представляя эти значения как
μ ± σ, получаем среднее μ и среднеквадратическое отклонение σ.
Для произвольной случайной величины X cо средним μ и среднеквадратическим отклонением σ эксцесс
оценивает рассеяние случайной величины X вокруг двух значений, μ ± σ. Распределение с одним горбом
может иметь большой эксцесс в двух случаях: (1) если больша́я масса сосредоточена в узком пике
вблизи μ или (2) если больша́я масса находится в хвостах x > μ + σ. Строгая формула Kurt(X) =
; здесь величина (X – μ)2 имеет среднее σ2, и дисперсия этой величины оценивает ее рассея=
ние вокруг σ2 и, тем самым, рассеяние величины X вокруг двух значений μ ± σ.
4 Компактный носитель означает, что действительная случайная величина X ограничена интервалом вида
[a, b], (a, b], [a, b) и т. д. Хвост гауссианы убывает по экспоненциальному закону exp(–x 2), то есть чем

46

Н АС С И М Н И К ОЛ АС ТА Л Е Б

а второе — нет (не считая асимптотического приближения к бесконечным значениям).
Над гауссовыми распределениями расположен класс субэкспоненциальных, не принадлежащих классу степенного закона. В субэкспоненциальном классе у распределения
существуют все моменты. К этому классу относятся логнормальные распределения, и это
самые коварные звери во всей статистике, способные ввести исследователя в заблуждение. При низкой дисперсии они тонкохвостые; при высокой дисперсии обнаруживают
ярко выраженное толстохвостое поведение. Некоторые спешат обрадоваться, когда данные оказываются распределены не по Парето, а логнормально, однако иногда радоваться
не стоит. В причудливые свойства логнормальных распределений мы углубимся в Главе 8.
ЦПТ И БЕРРИ — ЭССЕЕНА

α≤1

Безнадега

Устойчивое по Леви, α < 2
ℒ1
Суперкубическое, α ≤ 3

Субэкспоненциальное

УСЛОВИЕ
КРАМЕРА

Тонкохвостое, сходящееся к гауссовому

Приближение к гауссовому
при блуждании по решетке
КОМПАКТНЫЙ
НОСИТЕЛЬ

Бернулли
Вырожденное
ЗАКОН БОЛЬШИХ ЧИСЕЛ (СЛАБЫЙ)

СХОДИМОСТЬ
ПРОБЛЕМАТИЧНА

Рисунок 3.7: Пирамида толстых хвостов и ряд классификаций по сходимостям (сходимость по закону больших чисел и др.) и по серьезности проблем для выводов. Распределения по степенному закону на белом фоне, остальные на желтом. См. Амбре
и др. [82]

Принадлежность субэкспоненциальному классу не обеспечивает условия Крамера, разрешающего заниматься страхованием, как мы видели в мысленном эксперименте в начале главы и проилюстрировали на Рисунке 3.4. Говоря техничнее, условие
теоремы Крамера означает существование математического ожидания для экспоненты
случайной переменной1.
больше отклонение, тем быстрее; поэтому некоторые авторы, например Адриен Дуади, считают действующий носитель гауссианы компактным. — Прим. автора.
1 Вот строгая формулировка условия Крамера. Пусть X — случайная величина. Для всех r > 0
𝔼erX < +∞,
где 𝔼 — оператор математическое ожидание. — Прим. автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

47

Покинув желтую зону, где закон больших чисел (ЗБЧ) более-менее работает1, мы
перейдем в классы, где не будет работать центральная предельная теорема (ЦПТ)2
и начнутся проблемы со сходимостью. Это зона степенных законов. Мы ранжируем их
по показателю хвоста α, о котором поговорим позже; пока примем, что чем ниже показатель хвоста, тем жирнее хвост. При α ≤ 3 распределение называется субкубическим
и при α = 3 — кубическим. Эта часть жирнохвостой зоны неформально приграничная:
у распределений есть моменты первого и второго порядка, а значит, закон больших
чисел и центральная предельная теорема применимы… теоретически.
Следом идет класс с α ≤ 2, который мы для простоты называем классом устойчивости по Леви, хотя распределение степенного закона с показателем степени меньше 2
не является устойчивым по Леви; мы, однако, обращаем внимание на то, что по мере
сложения все большего числа случайных величин распределение суммы приблизится,
хотя бы теоретически, именно к устойчивости по Леви, а не гауссовому; это гарантируется так называемой обобщенной центральной предельной теоремой (ОЦПТ).
Еще выше по пирамиде жирность хвоста усиливается и пропадает дисперсия. При
1 ≤ α ≤ 2 дисперсии нет, но еще существует абсолютное среднее отклонение (то есть
математическое ожидание абсолютной величины отклонения).
Еще выше, в верхней секции, пропадает даже математическое ожидание. Мы
назвали этот класс Безнадегой3. Если вы что-то увидели в потоке данных этой категории, вернитесь домой и никому не рассказывайте.
У статистиков сложилась традиция в отношении толстых хвостов: пообещать, что
будут использоваться особые распределения, а потом как ни в чем не бывало опять
использовать старые показатели, критерии и оценки значимости. Но после выхода из
желтой зоны, для которой раньше разрабатывались статистические методы, ничто не
работает по плану. В следующем разделе представлен целый ворох проблем, и почти
все безнадежны. С этого места развернем технические подробности и начнем использовать математический жаргон.

Обзор проблемы со злоупотреблением стандартной статистикой
Статистическая оценка основана на двух элементах: на центральной предельной теореме (предполагающей работу с «большими» суммами, когда

1 Примем пока следующую грубую формулировку закона больших чисел. Если у распределения существует конечное среднее, то с ростом выборки — т. е. накоплением все новых наблюдений данной случайной величины — рано или поздно наблюдаемое среднее сходится к среднему распределения. Другой
вопрос, сколько потребуется наблюдений; этот вопрос в данной книге исследуется. — Прим. автора.
2 Мы еще наедимся центральной предельной теоремой ad nauseam, а пока вот первый интуитивный взгляд.
Она утверждает, что сумма n независимых случайных величин, имеющих конечные статистические
моменты второго порядка, рано или поздно начинает напоминать гауссово распределение. При каких n
произойдет такое чудо? Для случайных слагаемых из класса степенного закона теория требует бесконечно
большого числа слагаемых, т. е. предсказывает, что сумма так и не станет гауссовой. В Главе 7 рассматриваются предельные распределения и ищется ответ на центральный вопрос: сколько ждать? — для обеих
теорем, ЦПТ и ЗБЧ. Вопрос важен в реальном мире, который отличается от случая n = ∞. — Прим. автора.
3 В оригинале Fuhgetaboudit, кличка персонажа из гангстерской комедии «Клан Сопрано», искаженное
forget about it.

48

Н АС С И М Н И К ОЛ АС ТА Л Е Б

почти всякое явление в мире становится уютным и нормальным) и на законе
больших чисел, согласно которому дисперсия оценки падает по мере роста
выборки. К сожалению, не все так просто; есть ограничения. В Главе 8 мы
покажем, что нужная выборка сильно зависит от того, какому распределению
следует исходный процесс, и драматически различается даже в одном классе.
Как показали Бушо и Поттерс в [27] и Сорнетт в [214], хвосты с конечной дисперсией даже при бесконечных высших моментах могут сходиться, с ростом
числа слагаемых n, к гауссовому в области ±
, то есть центральная часть
распределения в этой полосе становится гауссовой, тогда как далекие части,
то есть хвосты, этого не делают; надо понимать, что многие свойства определяются как раз хвостами.
Жизнь протекает в доасимптотических областях.
К сожалению, в статье про статистические оценки в монументальной
«Энциклопедии статистических наук» [147] Василий Хёфдинг пишет:
«Обычно точное распределение статистического параметра оказывается сложным и неудобным. Отсюда потребность приблизить его более
простой формулой, имеющей более прозрачные свойства. Важный инструмент для таких приближений дают предельные теоремы теории вероятностей. В частности, классические центральные предельные теоремы
утверждают, что сумма большого числа независимых случайных величин
распределена приблизительно по нормальному закону при весьма общих
условиях. Собственно, нормальное распределение преобладает среди возможных предельных распределений. Процитируем из текста Гнеденко
и Колмогорова [[111], Гл. 5]:
…если для сходимости функций распределения сумм независимых слагаемых к нормальному закону на слагаемые помимо
требования их бесконечной малости (или предельного постоянства) приходится налагать лишь ограничения весьма общего
характера, то для сходимости к другим предельным законам от
слагаемых требуется наличие некоторых весьма специальных
свойств1.
Более того, многие статистические распределения асимптотически
ведут себя как суммы независимых случайных величин. Все это помогает
объяснить важную роль нормального распределения как приближающего
распределения».

1 Цит. по: Б. В. Гнеденко и А. Н. Колмогоров. Предельные распределения для сумм независимых случайных
величин. Государственное издательство технико-теоретической литературы. М.; Л., 1949.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

49

Но что, если мы не успели достичь нормального распределения, если жизнь
настигла нас до выхода на асимптоту? Вот о чем рассказывается в данной
книгеa.
a Приглашаем читателя поискать статью про «статистическую оценку» в любом учебнике или
онлайн-энциклопедии. Вполне вероятно, что вопрос «а что, если мы не достигли асимптоты»
так и не будет поднят, как этого не случилось на 9500 страницах монументальной Энциклопедии
статистики. Еще спросите обычного пользователя статистических инструментов, какой объем
данных нужен для использования того или иного распределения, и постарайтесь не показать
удивления, когда услышите ответ. Проблема в том, что головы забиты готовыми комплектами
статистических инструментов, и никому не приходится самостоятельно выводить формулы для
своей задачи. В данной же книге девиз такой: статистика никогда не бывает стандартной.

3.4. ОСНОВНЫЕ СЛЕДСТВИЯ И КАК ОНИ СВЯЗАНЫ
С ДАННОЙ КНИГОЙ
Вот некоторые следствия выхода за пределы желтой части пирамиды, зоны статистического комфорта:

Следствие 1
Закон больших чисел в реальном мире даже если работает, то слишком медленно.

Это невообразимый шок — большинство статистических оценок отменяется.
Иллюстрацию смотрите на Рисунке 3.1 в этой главе. Тема рассматривается в Главе 8,
где проводится соответствующая классификация распределений1.

Следствие 2
Среднее по выборкам редко концентрируется вокруг среднего, присущего
генерирующему процессу; чаще проявляется стойкое смещение малой
выборки в одну сторону, особенно сильное, когда распределение генерирующего процесса асимметрично (или однохвостое).

Это еще одна проблема из-за недостаточности выборки. Собственно, ни при каком
толстохвостом или однохвостом распределении невозможно правильно оценить среднее генеральной совокупности по среднему выборки — первое зависит от редких
1 Поведение суммы или последовательности, когда n велико, но не бесконечно, мы называем предасимптотикой. Это одна из центральных тем данной книги. — Прим. автора.

50

Н АС С И М Н И К ОЛ АС ТА Л Е Б

событий, а такие события становятся видны только при большом объеме данных1.
Возьмем некоторые степенные законы. При законе, дающем пресловутые «20 к 80»,
в 92 % наблюдений по выборке среднее занижается. Чтобы на основании среднего по
выборкам можно было как-то судить о распределении, требуются объемы данных на
порядки больше, чем практически доступный объем (исследователи в области экономики до сих пор этого не понимают, хотя трейдеры инстинктивно чувствуют). Проблема кратко обсуждается ниже в главке 3.8 и с более детальным формализмом в главах о теневом среднем — 15 и 16. Кроме того, в главке 3.8 мы представим концепцию
скрытых свойств. Понятно, что дисперсия при малой выборке недооценивается.
y (x)

y (x)

15

15
10

10

5

5

20
20
–5

40

60

80

100

40

60

80

100

–5
–10

Рисунок 3.8: При наличии толстого хвоста можно подогнать весьма различные линейные
регрессии к одним и тем же данным (а теорема Гаусса — Маркова 2, на которую опирается
метод линейной регрессии, неприменима). Слева: обычная (наивная) регрессия. Справа: линейная
регрессия, которая пытается адаптироваться к большой дисперсии — так сказать, домножить на хеджирующий коэффициент, то есть защитить агента от большого отклонения,
идя на худшее приближение слабых отклонений. Иногда фатально именно пропустить большое
отклонение. Заметим, что выборка не содержит критических наблюдений, об их существовании
лишь делаются допущения методами теневого среднего.

Следствие 3
Такие показатели, как среднеквадратическое отклонение и дисперсия, неприменимы.

1 Среднее генеральной совокупности — это среднее выборки, если бы мы могли выбрать всю генеральную
совокупность целиком. Среднее по выборке — это то, чем мы располагаем на практике. Даже в тех случаях собраны данные по всей существующей на текущий момент генеральной совокупности — например, о благосостоянии населения или военных потерях, — среднее по этим данным может не совпасть со
средним, отвечающим процессу или механизму генерирования данных. Последнее называют «теневым
средним». — Прим. автора.
2 Теорема Гаусса — Маркова утверждает, что если корреляцию между двумя случайными величинами X
и Y представлять линейной регрессией yt = a + bxt + εt, то оценка коэффициентов a и b по методу наименьших квадратов оптимальна. Посылка этой теоремы: (1) корреляция представима линейной зависимостью,
(2) все наблюдения Xi известны, (3) ошибки не содержат систематической ошибки, 𝔼ε = 0, (4) дисперсия
ошибок конечна и постоянна, (5) ошибки не коррелированы между собой, Cov(εi, εj) = 0 при всех i, j.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

51

Выборка не отражает их, даже если они существуют, даже если статистические моменты существуют. Всяческие подробности обсуждаются в Главе 4. Научный предрассудок, будто концепция среднеквадратического отклонения (которую пользователи вдобавок
путают со средним отклонением) — универсально полезный показатель вариативности;
на самом деле этот параметр в лучшем случае работает в предписанной ему узкой области.

Следствие 4
Бета-коэффициент, коэффициент Шарпа и прочие расхожие финансовые
показатели неинформативны.

Это простое следствие предыдущего пункта1. Для этих показателей либо требуется
слишком много данных, на много порядков величины больше имеющегося объема,
либо исходная модель нужна не та, что используется, а другая, которую еще не изобрели. На Рисунке 3.6 было показано, как коэффициент Шарпа, разработанный, чтобы
предсказывать эффективность, провалился по выборке и даже сработал обратно своему назначению. То, что такой показатель по-прежнему используется, демонстрирует,
как легко люди ведутся на цифирь.
10

Убытки в сигмах

5
0
–5
–10
–15
–20
–25
–30
–3

–2

–1

0

1

2

Коэффициент Шарпа

3

4

5

Рисунок 3.9: Данные
о хедж-фондах: по горизонтали коэффициент Шарпа
накануне кризиса 2008 года,
по вертикали потери
в период кризиса, в среднеквадратических отклонениях. Коэффициент Шарпа
не только не предсказал
эффективность хеджфонда в выборке, он скорее
показал себя как слабый
предиктор неудачи. С разрешения Рафаэля Дуади

Практически каждая экономическая величина и стоимость ценных бумаг
имеет толстый хвост. Из 40 000 изученных ценных бумаг ни одна не оказалась
тонкохвостой. В этом главная причина неудач в финансах и экономике.

1 Грубо говоря, бета-коэффициент показывает, насколько изменится актив A в ответ на изменение на рынке
в целом (оговаривается конкретный вид рыночного индекса); вычисляется как отношение ковариации
между A и рынком к дисперсии рынка.
Коэффициент Шарпа показывает среднюю или избыточную доходность (average return, excess return)
актива или стратегии, поделенную на ее среднеквадратическое отклонение. — Прим. автора.

52

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Финансовые теоретики делают вопиюще безосновательные заявления вроде «если
у распределения толстый хвост, но существуют математическое ожидание и дисперсия, то портфельная теория на основе среднего и дисперсии работает»; иногда делают
оговорку насчет эллиптичности, которую мы обсудим позже. Беда в том, что даже
когда дисперсия существует, мы не имеем сколько-нибудь точного представления
о ее величине; будучи вторым статистическим моментом, дисперсия подчиняется
закону больших чисел еще медленнее, чем среднее, потому что имеет еще более толстый хвост, чем исходная случайная величина. Хуже того, стохастические корреляции
или ковариации проявляют толстые хвосты своего рода (или теряют эллиптичность),
тем самым обесценивая такие показатели.

Практически всякая статья по экономике, где используются ковариационные
матрицы, — подозрительна.

Подробности приведены в Главе 4 для одномерной ситуации и в Главе 6 — для
многомерной.

Следствие 5
Робастная статистика не робастна, а выборочное распределение не эмпирично.

Старая история. Название советской газеты Правда стало восприниматься как
издевательство; робастная статистика врет не меньше, но в среде профессиональных
статистиков прозрение пока не наступило.
Во-первых, робастная статистика гонится за параметрами, которые слабо реагируют на хвостовые события, наблюдения больших значений. Такое понимание
робастности порочно, потому что отсутствие реакции показателя на хвостовое событие вполне может быть следствием неинформативности этого показателя. Более того,
такие параметры не помогут оценить ожидаемый платеж.
Во-вторых, типичная робастная статистика строится в рамках так называемой «непараметрической» ветви статистической науки, где исследователи мнят, будто без параметров анализ будет меньше зависеть от распределения. На протяжении всей этой книги
будет демонстрироваться, что зависимость от распределения только обостряется.
Винсоризация данных, устраняя выбросы, уродует процесс сходимости к математическому ожиданию и, по сути, сокращает доступные данные, хотя бывает полезно
перепроверить достоверность выброса — вдруг это случайная ошибка, такая как опечатка или компьютерный глюк; в финансовом мире мы называем такие выбросы bad
print («непропечатка»).
В непараметрической статистике популярно выборочное распределение1, которое
не работает эмпирически, поскольку, как мы покажем в Главе 10, оно неправильно
1 В английской литературе — empirical distribution.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

53

представляет ожидаемые платежи в хвостах, во всяком случае, та версия, которая
используется в управлении финансами и рисками. Пока поясним только, что будущие
максимумы плохо отслеживаются по прошлым данным, если не применить разумную
экстраполяцию.
Представим себе, что планируется построить систему дамб для защиты от наводнения. Данные по уровню воды покажут наихудшее в истории наводнение, и этот
уровень будет историческим максимумом. Наивно построенное выборочное распределение предскажет, что вероятность более страшного наводнения ноль (или около
того). Но исторический максимум, по определению, являет пример, дискредитирующий оценку по историческому максимуму: в том году, когда случился исторический
максимум, он превзошел предыдущий исторический максимум. И если бы к тому году
мы столь же наивно построили эмпирическое распределение по имевшимся данным,
мы не предвидели бы явление нового исторического максимума. При толстом хвосте
различие между историческим максимумом и ожидаемым максимумом много драматичнее, чем при тонком хвосте.

Следствие 6
Линейная регрессия по методу наименьших квадратов не работает (провал
теоремы Гаусса — Маркова).

Посмотрите на Рисунок 3.8 и подпись к нему. Логика за методом наименьших
квадратов та, что по теореме Гаусса — Маркова наилучшая прямая по точкам данных
оказывается единственной, когда у распределения тонкий хвост. Вывод: когда теорема
Гаусса — Маркова применима и минимизировать квадраты отклонений можно, данных потребуется гораздо больше, чем бывает в реальном, доасимптотическом мире
конечных данных; если же второй статистический момент не существует, то минимизация квадратов отклонений невозможна ни при каком объеме данных. В последнем
случае можно попробовать минимизировать средние абсолютные отклонения (mean
absolute deviations, MAD), но тогда, как мы увидим в 4.1, можно не только столкнуться
с недостаточностью данных для хорошей сходимости, но и угловой коэффициент
линейной регрессии может оказаться не единственным.
Эту проблему мы обсудим подробнее в Главе 6.7 и покажем, как из-за эффекта малой
выборки при толстом хвосте завышается коэффициент детерминации (R 2). В случае
бесконечной дисперсии R-квадрат должен быть нулем. Но по конечной выборке получаются ложные значения выше 0. Вывод: при толстом хвосте R-квадрат бесполезен,
неинформативен, и им злоупотребляют шарлатаны (например, в исследованиях IQ).

Следствие 7
Методы максимального правдоподобия могут работать в отношении некоторых параметров распределения (это хорошая новость).

54

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Возьмем степенной закон. Форму хвоста по степенному закону можно оценить
параметром — показателем хвоста (который мы в этой книге обозначаем греческой α1),
и при добавлении еще одного параметра (масштаба) мы получаем лучшую связь со
средним, чем непосредственное взятие среднего по выборке.
Пример: для простого распределения Парето с минимальным значением L, показателем хвоста α и плотностью вероятности αLαx–α–1 среднее зависит от α как
.
Есть смысл оценивать среднее именно по этой формуле, особенно если один из двух
параметров уже известен (этот метод мы и назвали выше дополнительной статистической оценкой). Можно оценить α с небольшой погрешностью, пользуясь визуальным
инструментом, а можно использовать методы максимального правдоподобия и получить оценку с низкой дисперсией — у нее обратное гамма-распределение; найдя α,
можно получить среднее. И выйдет лучше, чем просто среднее по выборке.
Логика этого метода стоит того, чтобы ее выделить:

Показатель хвоста экстраполирует низковероятные отклонения, которые не
встретились в собранных данных, но которые вносят непропорционально
большой вклад в среднее.

Этот общий подход к статистическим оценкам применим, в частности, к индексу
Джини и другим оценкам социального неравенства.

Рисунок 3.10: Показатели неравенства, такие как коэффициент
Джини, требуют других методов оценки при толстом хвосте, как мы
увидим в Части III. Наука дается трудно

Итак, возможно получить надежные (или хотя бы менее шаткие) оценки для, так
сказать, функции показателя хвоста в некоторых ситуациях. Но никоим образом не во
всех.
1 Поясним термины. Разные авторы разные параметры хвоста обозначают буквой α. В этой книге это предел
отношения логарифма функции выживания после K к ln K; такой параметр достигает 1 в случае распределения Коши. Некоторые исследователи используют α – 1, где α — показатель степени в функции плотности. — Прим. автора. [У такого распределения бесконечны моменты, порядок которых выше α – 1.]

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

55

Здесь неизбежен вопрос из реального мира: а что делать, когда у нас нет надежной
статистической оценки? Сидеть дома. Не следует подставляться при наличии хрупкости; можно тем не менее принимать рискованные решения, если нас несет к максимальным потерям (Рисунок 3.11).
Рисунок 3.11: «Я УЧИЛСЯ НА
СВОИХ ОШИБКАХ, Я СТАЛ
МУДРЕЕ. ХОЧУ СДЕЛАТЬ
ЕЩЕ ПАРОЧКУ». Дело в том,
что учиться на собственных
ошибках хорошо, только пока
хвосты тонкие. При жирных
хвостах ошибки фатальны.
Источник: сетевой фольклор
с хештегом #youhadonejob (У тебя
была одна задача)

Следствие 8
В отличие от обычной статистики, в случае жирных хвостов возникает
пропасть между эмпиризмом опровержений и конфирматорным эмпиризмом; отсутствие доказательств здесь не служит доказательством отсутствия. (Так называемая доказательная наука, если не ограничивается строго
одними опровержениями, обычно оказывается интерполяторской, бездоказательной и ненаучной.)
Из полемики с когнитивным лингвистом и популяризатором Стивеном Пинкером
автор вынес следующее: нельзя делать выводы и строить теории на основе последних
отклонений в данных, если не следовать стандартам значимости, а по ним в ситуации
толстого хвоста требуется больше данных (эта логика аналогична рассуждениям касательно медленного ЗБЧ).
Утверждение Пинкера, что «уровень насилия упал», поскольку уменьшилось
число убитых в войнах по сравнению с предыдущим годом или десятилетием, —
ненаучно; научное суждение основывается не на анекдотическом свидетельстве, а на
выборке, и учитывает такую вещь, как статистическая значимость.
Повторим лишний раз: утверждения, лишенные статистической значимости, не принадлежат миру науки. Практика вычитывать описательную статистику бывает оправданной в случае тонкого хвоста (где не требуется огромного размера выборки); в случае
толстого хвоста так делать не надо — за исключением, повторимся, ситуации, когда
наблюдалось большое отклонение; так, утверждение о росте числа острых конфликтов
может вполне научным образом базироваться на одном-единственном наблюдении.

Следствие 9
Метод главных компонент и факторный анализ, скорее всего, нагенерируют
кучу паразитных факторов и насчитают иллюзорные нагрузки.

56

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Это техническая область; понятие недостаточной выборки применяется к так
называемому методу главных компонент (principal component analysis, PCA), который
призван сократить размерность больших случайных векторов. Проблемы с законом
больших чисел имеют свою версию для высоких размерностей. Лучше всего эту историю разъясняет Рисунок 3.26, демонстрирующий предыскаженное восприятие так
называемого «эффекта Вигнера» из-за недостаточности данных для PCA. Кроме того,
говоря о технике дела, заметим, что распределение случайных матриц Марченко —
Пастура неприменимо, когда не существует конечный четвертый момент (или, как
показано в [23], когда показатель хвоста превышает 4)1.

Следствие 10
Метод моментов (method of moments, MoM) не работает. Высшие моменты
неинформативны или не существуют.

То же относится к ОММ, обобщенному методу моментов, увенчанному премией
Банка Швеции по прозвищу Нобелевка. Это долгая история, а пока ограничимся тем,
что оценка данного распределения путем подбора моментов проваливается, если
моменты не конечны, и от выборки к выборке оценка момента скачет — как мы скоро
увидим на примере 4-го момента S&P 5002.
Попросту говоря, высшие моменты в толстохвостых распределениях вообще
склонны взрываться, а в экономике и подавно.

Следствие 11
Такой вещи, как типичное большое отклонение, не существует.

При условии «большого» изменения величина изменений расходится, особенно
при серьезной толщине хвоста (класс степенного закона). Ситуация похожа на принцип катастроф, который мы описали выше. В Гауссовом мире математическое ожидание изменения при условии, что величина изменения больше 4 среднеквадратических
отклонений, примерно 4 среднеквадратических отклонения. При степенном законе
получается в разы больше. Мы называем это свойством Линди; оно обсуждается отчасти в Главе 5, а главным образом в Главе 11.

1 Еще дальше углубляясь в технику дела, укажем, что главные компоненты независимы при корреляциях 0.
Однако для распределений с толстым хвостом, как мы увидим в технической главке 6.3.1, отсутствие
корреляции еще не означает независимости. — Прим. автора.
2 Фондовый индекс компании Standard & Poor’s. В корзину включено 505 акций пятисот публичных компаний, торгуемых на фондовых биржах США и имеющих наибольшую капитализацию.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

57

Следствие 12
Коэффициент Джини теряет аддитивность.

Данные выборки для коэффициента Джини измеряют интерполяционно —
по существу, с ними та же проблема, что мы видели выше с недооценкой среднего,
если использовать выборочное среднее. Теперь дополнительное осложнение возникает из-за сверхаддитивности коэффициента Джини при толстом хвосте. По мере
роста объема выборки условное измерение коэффициента Джини создает иллюзию
суперконцентрации богатств. (Например, для Европы в целом можно насчитать неравенство доходов жителей, которое превысит средневзвешенное среднее по странам,
составляющим Европу.)
Дело не просто в коэффициенте Джини, та же ситуация и с другими показателями концентрации, такими как процент национального богатства в собственности
1 % самых богатых и т. д. Формулы выводятся в Главах 13 и 14.

Следствие 13
Теория больших отклонений к толстым хвостам неприменима.

Я не оговорился, именно так: неприменима1. Методы, связанные с принципом большого отклонения ([260], [59] и др.), очень полезны в мире тонких хвостов.
И только там. Обсуждение и вывод формул смотрите в Приложении C, а также в главах, затрагивающих центральную предельную теорему, особенно в Главе 7.

Следствие 14
Динамическое хеджирование не снижает риски опционов.

Возможно, эта тема технически слишком сложна и при этом недостаточно интересна для тех, кто не занимается финансами, но сама основа хеджирования по модели2 ценообразования опционов Блэка — Шоулза покоится на возможности и необходимости динамического хеджирования, и оба предположения несостоятельны, как
показано в Главах 20, 21 и 22. Для этой модели требуется экспоненциальное падение
частоты отклонений вдали от центра, то есть исключается распределение вероятности
1 Не путаем теорию больших отклонений (large deviation theory, LDT) с теорией экстремальных значений
(extreme value theory, EVT); последняя охватывает все основные классы распределений. — Прим. автора.
2 Связывает цены опционов с ожидаемой рынком волатильностью базового актива. Статья с такой формулой была опубликована Блэком и Шоулзом в 1973 году.

58

Н АС С И М Н И К ОЛ АС ТА Л Е Б

в субэкспоненциальном классе. Здесь мы опять говорим о вещах, связанных с условием Крамера, то есть в сухом остатке — с экспоненциальным моментом.
Вспомните, что автор занимался торговлей опционами, а среди трейдеров цена на
опцион устанавливается отнюдь не путем динамического хеджирования, с которым,
как показали Хог и автор, в прошлые века биржа не имела ничего общего.

Следствие 15
Прогнозирование в пространстве частот расходится с ожидаемым платежом.

А также:

Следствие 16
Львиная доля утверждений в литературе по психологии и по принятию решений, где говорится о якобы переоценке вероятностей в хвосте и якобы иррациональном поведении из-за редких событий, делается из-за непонимания
исследователями природы хвостового риска, смешения вероятности и ожидаемого платежа, злоупотребления распределениями вероятностей и незнакомства с теорией больших отклонений.

Правильная частота
1,0

0,8

0,6

0,4

Точная калибровка
Переоценка

0,2

Недооценка
0,2

0,4

0,6

0,8

1,0

Прогноз

Рисунок 3.12: Калибровка вероятностей, встречаемая в литературе по психологии. На оси x
показана оценка вероятности, данная прогнозистом, а на y — что происходит в действительности; например, если после того, как некий метеоролог объявил вероятность дождя 30 %, дождь
происходит именно в 30 % случаев, оценка этого метеоролога объявляется «откалиброванной».
Мы утверждаем, что калибровка в пространстве частот (вероятностей) — академическая
тема (в плохом смысле), создающая неверное представление о реальной жизни за пределами
узкой области пари о двух возможных исходах. Данный подход особенно обманчив при толстых
хвостах. Подробно вопрос разбирается в Главе 11

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

59

Этот вопрос рассматривается в следующем разделе и в Главе 11: дурацкая идея
сфокусироваться на частотах вместо математического ожидания может дать небольшой эффект, но только при тонком хвосте, никак не при толстом. Эффект показан на
Рисунках 3.12 и 3.13.
Соответствующая ошибка
калибровки по вероятности
1,0
0,8
0,6
0,4
0,2

0,2

0,4

0,6

0,8

Рисунок 3.13: Как ошибка калибровки
по вероятности отвечает ошибке
калибровки по платежу при степенном законе. Рассматривается
распределение Парето с показателем
хвоста α = 1,15. Подробнее этот
вопрос будет рассмотрен опять-таки
в Главе 11

1,0

Ошибка калибровки по платежу
4000

3000

2000

1000

0

1000

2000

3000

4000

Следствие 17
Проблемы с разорением обостряются, и эргодичность становится неизбежной при толстых хвостах.

Здесь без технических деталей не обойтись, но мы разберемся с этой темой
к концу данной главы.
Обсудим несколько вопросов.

60

Н АС С И М Н И К ОЛ АС ТА Л Е Б

3.4.1. Прогнозирование
В «Одураченных случайностью»1 одного персонажа спрашивают про некоторый
рынок, что вероятнее к концу месяца — подъем или падение. «Подъем, — отвечает
персонаж, — намного вероятнее». После чего оказывается, что он заключил сделки,
выгодные в случае падения. Разумеется, эта ситуация парадоксальна только на взгляд
тех, кто незнаком с теорией вероятностей; для трейдеров это обычное дело, особенно
когда распределение отличается от нормального: да, у подъема рынка вероятность
была выше, но при этом у падения, если оно случится, ожидалась много бо́льшая
глубина.
ОБВАЛ,
ЕСЛИ СЛУЧИТСЯ,
БУДЕТ КУДА
БОЛЬШЕ
РОСТА.
ГАБИШ?

А ПО
КОРОТКИМ
ВЫИГРЫШ
СЕЙЧАС
БОЛЬШЕ.

ДА-ДА,
НО ЭТО
ПРОРЕДКИЙ
СЛУЧАЙ.

Я ОПИРАЮСЬ
НА ОЦЕНКИ, КОТОРЫЕ
ПОСТОЯННО ОПРАВДЫВАЮТСЯ.

©STEFAN GASIC 2018

В ПРОГНОЗЕ
РОСТ,
Я ПОКУПАЮ
ДЛИННЫЕ
ПОЗИЦИИ.

Рисунок 3.14: В жизни важен ожидаемый выигрыш, а не бинарный прогноз, и различие особенно
велико в Экстремистане. (Почему «габиш», а не «капиш»2? Воспроизведен сицилийско-калабрезский акцент: «п» звучит как «б», а «к» звучит как семитский коф, твердое карфагенское «K».
Примерно так же «капиколи» превращается в «габагул».) © Stefan Gasic

Это иллюстрирует распространенное смешение бинарного прогноза, который
сообщает вероятность одного из двух исходов, с прогнозом эффекта, который учитывает больше нюансов и зависит от распределения вероятностей. Это самая элементарная, хотя и распространенная ошибка: называть в прогнозе одну-единственную
вероятность, когда в действительности возможен целый диапазон различных исходов
и ему отвечает распределение вероятностей. По мере углубления в тему мы встречаемся с менее очевидными парадоксами, которые не так известны. Но суть в том, что,
по мнению автора, ненаучно говорить о вероятности как некой итоговой оценке, по
которой принимают решение.
В реальном мире платеж представляет собой не проценты вероятности, а доллары, выживание и т. д. Чем жирнее хвост, тем важнее пространство платежей;
как говорят в Экстремистане, «платеж поглотил вероятность» (см. текст в рамке
в начале следующей главки). Можно позволить себе то и дело ошибаться и проигрывать, если потери невелики и выпуклы вниз по платежу (благодаря большому
доходу при выигрышах). И наоборот, можно делать верные ставки в 99,99 % случаев и обанкротиться (собственно, такого рода правота даже делает банкротство
1 См.: Талеб Н. Н. Одураченные случайностью: О скрытой роли шанса в бизнесе и в жизни. М.: КоЛибри,
Азбука-Аттикус, 2022. Первая книга философских эссе в Incerto, четырехтомном цикле Нассима Талеба.
Этот цикл продолжается данной книгой — первой в техническом цикле Incerto.
2 Итал. capisce, «понимаешь?».

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

61

более вероятным: именно фонды с безупречным послужным списком разорились
во время краха 2008–2009)1. Прозвучит немного сложно для незнакомых с финансовой математикой, но дело в том, что есть разница между «ванильным»2 опционом и бинарным3 опционом с той же страйк-ценой, как описано в «Динамическом
хеджировании» [225]: против интуиции, толстый хвост снижает стоимость бинарного опциона и повышает стоимость ванильного. Отсюда авторская поговорка:
«В жизни не видел ни одного богатого прогнозиста». Мы глубже изучим вопрос
в главке 4.3.1, где покажем, что ужирнение хвоста снижает вероятность событий
с отклонением больше 1 среднеквадратического, однако усиливает их последствия
(в терминах вклада в статистический момент — повышает влияние на среднее
и прочие показатели).
На Рисунке 3.12 показан размах этой проблемы.

Замечание 1
Неточный прогноз вероятности («ошибка калибровки») лежит в другом
классе распределений вероятности, нежели колебания прибылей и убытков
в реальном мире (или чистых платежей).
«Калибровка» (мера точности) при прогнозе вероятности принадлежит
пространству вероятностей, то есть диапазону от 0 до 1. Всякая стандартная мера этого рода обязательно имеет тонкий хвост (скорее даже сверхтонкий хвост, поскольку эта величина ограниченная) — даже когда случайная
величина, в отношении которой делается прогноз, имеет толстый хвост.
Платежи в реальном мире, напротив, могут иметь толстый хвост,
и у их «калибровки» свойства распределения должны следовать свойствам
распределения случайной величины.

Вывод всех формул и доказательства утверждений мы покажем в Главе 11.
3.4.2. Закон больших чисел
Обсудим теперь закон больших чисел, основу основ статистики. Он утверждает, что
по мере накопления наблюдений среднее значение становится все более устойчивым,
1 Р. Дуади, по данным об оценке рисков для фондов, рухнувших в кризис 2008. — Прим. автора.
2 «Ванильный» (не экзотический) опцион охватывает два наиболее распространенных вида: американский
опцион, который владелец имеет право погасить (то есть продать по страйк-цене оговоренное количество
базового актива продавцу опциона, если это опцион «пут», put, или купить, если это опцион «колл», call)
в любой день до истечения срока опциона; европейский опцион, который владелец имеет право погасить
только в последний день. Страйк-цена базового актива прописана в опционе, и рыночная цена того же
базового актива в день погашения опциона может отличаться; владелец воспользуется правом погасить
опцион, если разность будет в его пользу (опцион окажется «в деньгах», in the money), и не воспользуется,
если разность будет не в его пользу (опцион окажется «вне денег», out of the money) или нулевой (опцион
окажется «на деньгах», at the money).
3 Бинарный опцион считается экзотическим. В зависимости от выполнения оговоренного условия в оговоренное время он либо обеспечивает фиксированную премию, либо не приносит ничего.

62

Н АС С И М Н И К ОЛ АС ТА Л Е Б

и скорость этой стабилизации около . На Рисунке 3.1 показано, что в случае распределения с жирным хвостом (нижний график) для выхода на устойчивое среднее
требуется гораздо больше наблюдений.
В таком случае теоретическая эквивалентность наблюдаемого среднего
и среднего, которое на самом деле присуще порождающему процессу, может вас
подвести.

В Экстремистане платеж поглотил вероятность: чтобы увидеть главное
различие между Медиокристаном и Экстремистаном, рассмотрим такое событие, как авиакатастрофа. Последствия тяжелые, много погибших; допустим,
от 100 до 400. Даже одно такое событие — трагедия. В рамках прогнозирования и управления рисками мы стараемся минимизировать такую вероятность,
сделать ее пренебрежимо малой.
А теперь представим себе катастрофу, которая убивает всех, кто когдалибо летал самолетом, даже в далеком прошлом, всех. Считать ли ее событием того же типа? Такого рода события известны в Экстремистане, и, работая
с ними, фокусируются не на снижении вероятности события, а на снижении
его величины.
• Для первого типа управление рисками состоит в том, чтобы снизить вероятность, то есть частоту, происшествий. Мы подсчитываем число событий
и стараемся его уменьшить.
• Для второго типа мы стараемся уменьшить масштаб катастрофы, если она
все-таки разразится. Мы заняты не числом событий, а ущербом от одного
события.
Если вам наш мысленный пример показался странным, примите во внимание, что центральные банки потеряли в 1982 году больше денег, чем заработали за всю свою историю, и что в 1991 году та же участь постигла в США
ссудо-сберегательную отрасль (ныне не существующую), а в 2008–2009 годах
вся американская банковская система потеряла все нажитое до последнего
пенни. На финансовом рынке сплошь и рядом видишь, как люди лишаются
всех накоплений в рамках одного-единственного события. То же относится
ко многим другим отраслям (например, производителям автомобилей и самолетов).
Ладно банки, они теряют только деньги; примем во внимание войны —
уж для них-то мы точно не можем сфокусироваться на частоте в ущерб
масштабу, как сделал научно-популярный писатель Стивен Пинкер в [194];
см. обсуждение в Главе 16. А ведь мы еще даже не коснулись проблемы
разорения (и неэргодичности), которую приберегаем на конец данного раздела.
Говоря техничнее, только при выполнении условия Крамера, исключающего субэкспоненциональность последовательных событий (даже если их

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

63

величины просто складываются), можно придать какой-то смысл работе просто с вероятностью.
Аналогия с авиакатастрофами была предложена изобретательным Рассом
Робертсом во время передачи EconTalk с участием автора данной книги.

Один из самых известных феноменов статистики — это открытое Парето распределение 20 на 80; например, 20 % итальянцев владеет 80 % земли. В Таблице 3.1 показано, что при гауссовом распределении устойчивость достигается за 30 наблюдений,
а при распределении Парето требуется 10 наблюдений, чтобы достичь той же выборочной ошибки для такого же среднего (если оно существует).
Хотя построить и обсчитать это все нетрудно, мало кто заморачивается. Что
достойно сожаления: на таком примере убеждаешься, что про распределение с толстым хвостом нельзя утверждать, что накопленная выборка достигла устойчивого
среднего. Способ узнать среднее этой случайной величины существует, но это ни
в коем случае не простое отслеживание выборочного среднего.
Таблица 3.1: Разные альфы и соответствующие nα, или Сколько требуется наблюдений,
чтобы разброс выборочного среднего стал как при α-устойчивом распределении (параметр
подробно обсуждается в Главе 8). В гауссовом случае α = 2. Если рассматривать распределения с хвостом 20 на 80, то требуемое число наблюдений при распределении Парето больше,
чем при гауссовом, в 1011 раз
α

1



(nα)

(nα)

Симметричное

Скошенное

Однохвостое

Безнадега





6,09 × 1012

2,8 × 1013

1,86 × 1014

574 634

895 952

1,88 × 106

5027

6002

8632

567

613

737

165

171

186

64

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Продолжение таблицы 3.1

2

75

77

79

44

44

44

30

30

30

3.5. ЭПИСТЕМОЛОГИЯ И ДЕДУКТИВНАЯ АСИММЕТРИЯ
Определение 3.1 (Асимметрия в распределениях)
Скорее преступник постарается выдать себя за честного человека, чем честный
человек — выдать себя за преступника. Аналогичным образом легче принять жирнохвостое распределение за тонкохвостое, чем тонкий хвост за жирный.
f(x)

f(x)
Случай кажется
вырожденным

Дополнительные данные
открывают невырожденность

Дополнительное
отклонение

1

2

3

4

x

10

20

30

40

x

Рисунок 3.15: Проблема маскарада (фундаментальная асимметрия статистического
вывода). Слева вырожденная случайная величина все время принимала одно и то же значение,
и гистограмма наблюдений похожа на шест Дирака1. Однако исключить невырожденность
невозможно. На графике справа случайная величина принимает более одного значения. Здесь
можно исключить вырожденность. Такую фундаментальную асимметрию можно обобщить
и сформулировать соответствующие принципы. Например, можно придать строгий смысл словам «не удалось отвергнуть». Асимметрию можно учесть в строгой системе правил вывода

Принцип 3.1 (Эпистемология: невидимость генератора)
• Наблюдаемо не вероятностное распределение, а только его реализация.
• Зная свойства некоторого вероятностного распределения, невозможно
утверждать, что ему принадлежит известная реализация.
• Для обсуждения хвостовых событий требуется метавероятностное распределение (т. е. распределение условных вероятностей того, что случайная величина следует тому или иному вероятностному распределению).

1 Имеется в виду δ-функция Дирака — спектральная функция для спектра, состоящего из одной-единственной спектральной линии. При любом экспериментальном наблюдении δ-функция Дирака в какой-то
степени размазывается; площадь наблюдаемого пика при любой степени размазывания остается равной
единице, но толщина кажется больше нуля, а высота кажется конечной.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

65

Изучим эпистемологические следствия. Рисунок 3.15 иллюстрирует Проблему
маскарада (она же Фундаментальная асимметрия статистического вывода). Слева
вырожденная случайная переменная принимает постоянные на вид значения, порождая гистограмму вида Шест Дирака.
Со времен самое позднее Секста Эмпирика1 мы знаем, что не можем вывести
заключение о вырожденности, однако в некоторых ситуациях можем вывести заключение о невырожденности. Если я вижу распределение, в котором нет случайности,
я не имею права заявить, что величина неслучайная. То есть не могу заявить, что
черных лебедей не существует. Если же появится хотя бы одно наблюдение в стороне,
я увижу, что величина случайная, и могу исключить вырожденность. Могу утверждать, что величина «не неслучайная».
На рисунке справа мы видим черного лебедя и заключаем, что утверждение,
которое отрицало существование черных лебедей, оказалось ложным. Так работает
негативный эмпиризм, легший в основу западной науки. По мере сбора информации
удается исключить те или иные вещи. Невырожденное распределение могло до поры
скрываться под видом распределения слева, но вырожденное распределение никогда
не сможет выдать себя за распределение справа. Тем самым мы получаем некоторые
возможности для работы со случайностью. Рисунок 3.16 обобщает процедуру исключения тех или иных распределений.
Увидев событие в 20 сигм, мы можем исключить тонкохвостость распределения.
Не увидев ни одного большого отклонения, мы не можем исключить толстый хвост,
если не знаем порождающего принципа. Исходя из этого, ранжируем возможные распределения. Возвращаясь к Рисунку 3.7, начнем снизу и по мере наблюдения отклонений будем исключать распределения одно за другим. Ранг отвечает способности
распределения проявлять хвостовые события. Принцип оказался прост: порядок
отвечает приоритету при вынесении суждений. Логика здесь та, что, когда кажется,
что произошло десятисигмовое событие, скорее всего, это не событие десятисигмовое, это распределение выбрано не то и сигма посчитана не та (мы уточним этот
довод позже в этой главе). Дальше в том же духе: как мы уже видели, толстохвостые
распределения выдают мало отклонений от среднего, зато порой случается большое
отклонение. Встретив такое, можно исключить 𝔖-распределение и понять, что мы
не в Медиокристане. Можно объявить данное распределение толстохвостым, в силу
устранения других возможностей. Другое дело, что никакое наблюдаемое распределение нельзя объявить тонкохвостым. Такова принципиальная проблема черного
лебедя.
Применение Проблемы маскарада: аргентинский фондовый рынок до и
после 12 августа 2019. В качестве иллюстрации дедуктивной асимметрии применительно к параметрам распределения и того, как распределение может маскироваться
под относительно тонкохвостое, рассмотрим наши сведения об аргентинском рынке
до и после обвала 12 августа 2019 (как показано на Рисунке 3.21). Рассуждая, как
описано выше, нам иногда приходится со временем пересматривать хвосты в сторону
ужирнения, но не в сторону утоньшения. Рафал Верон показал [264], что при подгонке
устойчивого распределения мы рискуем преувеличить показатель хвоста и тем самым
преуменьшить толщину хвоста.
1 Скептицизм (а философ Секст Эмпирик был главой школы скептиков) признает, что иногда можно опровергнуть теорию (указав противоречия), но не признает, что теорию можно доказать.

66

Н АС С И М Н И К ОЛ АС ТА Л Е Б

распр. 1

«Истинное»
распределение

распр. 2
распр. 3
распр. 4
распр. 5
распр. 6

Распределения,
которые нельзя
исключить

распр. 7
распр. 8
распр. 9
распр. 10
распр. 11
распр. 12

Исключенные
распределения

распр. 13
распр. 14

Наблюдаемое
распределение

Наблюдаемое

Порождающие
распределения

ВУАЛЬ

Ненаблюдаемое

Рисунок 3.16: «Теоретико-вероятностная вуаль неведения» . Талеб и Пильпель в [245]
обсуждают вопрос с эпистемологической точки зрения, и в мысленном эксперименте
с вуалью наблюдатель получает данные, которые производятся владельцем идеальной статистической информации при помощи генератора временного ряда. Задача наблюдателя:
видя только поступающие данные и не зная ничего о порождающем процессе, оценить статистические свойства (вероятностное распределение, среднее, дисперсию, стоимость под
риском и т. д.). Понятно, что наблюдатель без доступа к полной информации о генераторе
и без надежной теории о принципе, порождающем данные, неизбежно будет ошибаться,
но в его ошибках будет некоторая система. Исследовать эту систему — центральная
задача в управлении рисками
1

1 Вуаль неведения (veil of ignorance) в американской философии появилась в книге Джона Роллза
«Теория справедливости» (A Theory of Justice, 1971) в мысленном эксперименте, предложенном
Уильямом Викри и Яношем Харшаньи. Представьте, что вам разрешено выбрать общественную
систему, при которой вам предстоит жить, но вы не будете знать заранее, в каком окажетесь исходном положении (original position): какая у вас будет расовая принадлежность, социальный статус
и гендер; та же вуаль неведения скрывает, каковы будут представления о счастливой жизни у вас
и у других.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

67

Рисунок 3.17: Поппер дал проблеме индукции асимметричное решение: полагаясь на
конфирматорный эмпиризм, действовать
в негативном стиле — то есть исключать
то, что не сработало. Мы распространяем этот подход на статистические
выводы с учетом вероятностной вуали
и последовательно класс за классом
исключаем опровергнутые вероятностные
распределения

Научная строгость и асимметричные законы согласно российско-советской школе теории вероятностей
Можно доверять математической строгости утверждений о вероятностях, не
попадаясь в ловушку наивных расчетов, уязвимых к ошибкам моделирования.
Чудесный пример осознания асимметрии мы видим в работах российско-советской школы теории вероятностей — эта асимметрия составляет математическую аналогию идее Поппера.
Школа насчитывала три поколения: П. Л. Чебышёв, А. А. Марков,
А. М. Ляпунов, С. Н. Бернштейн, Е. Е. Слуцкий, Н. В. Смирнов, Л. Н. Большев, В. И. Романовский, А. Н. Колмогоров, Ю. В. Линник, а также новое поколение: В. В. Петров, С. В. Нагаев, А. Н. Ширяев и ряд других.
Они сделали большое дело в истории научной мысли: стали работать не
с равенствами, а с неравенствами (самые знаменитые — Маркова1, Чебышёва2, Бернштейна3, Ляпунова4). Вместо оценок они нашли границы. Даже для
центральной предельной теоремы они построили версии, в которых делалось утверждение о границах, и мы воспользуемся ими позже и посмотрим,

1 Неравенство Маркова:

.

2 Неравенство Чебышёва:

.

3 Неравенство Бернштейна:: пусть X1, …, Xn — независимые случайные величины, принимающие значения
1 и –1 с вероятностью ; тогда для всякого ε > 0
.

4 Неравенство Ляпунова: если 0 < r < s < ∞, то

.

68

Н АС С И М Н И К ОЛ АС ТА Л Е Б

что делается за этими границами. Они ушли далеко вперед по сравнению
с нынешним поколением пользователей, мыслящим в терминах точной вероятности — или, того хуже, механистических общественных наук. Их метод
учитывает скептицизм, рассуждение в одну сторону. Они рассматривали
условия не вида A = x, а вида A > x или AO(x) — заглавное O перед x означает
«порядка x».
Это великий источник для тех, кто работает над интеграцией математической строгости в теорию рисков. Мы всегда знаем только одну сторону.
Мы знаем минимальную сумму, которую готовы заплатить за страховку, и не
знаем верхней границы (или наоборот)a.
a Вот связь между асимметрией и робастностью. Робастный параметр не перескакивает в другой
класс при изменении параметров вероятностного распределения. Если же класс изменяется, но
асимметрично, т. е. проявляя выпуклость вниз или вверх при этих возмущениях, то этот класс
соответственно хрупкий или антихрупкий; смотрите [223].

Рисунок 3.18: Проблема индукции. Философскую проблему
перечислительной индукции
можно сформулировать как
вопрос:
— Сколько белых лебедей
нужно насчитать, прежде чем
исключить появление черного
лебедя в будущем?
Он на удивление точно ложится
на вопрос к работе закона больших чисел:
— Сколько нужно собрать данных, чтобы сделать утверждение с приемлемой частотой
ошибок?
Оказывается, что статистический вывод по самой своей
природе основывается на ясном
определении и количественном
измерении механизма индукции,
и в случае толстого хвоста требуется гораздо больше данных.
Как мы увидим в Главах 7 и 8,
есть способ измерить относительную скорость индуктивного
механизма, несмотря на то, что
сама проблема индукции так и не
получает идеального решения.
Постановку проблемы индукции
часто и ошибочно приписывают
Юму [227]

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

69

Рисунок 3.19: Трактат о пользе
скептической философии для
науки1, автор Франсуа де ла Мот
ле Вайе (1588–1672). По-видимому,
послужил источником для епископа
Юэ. Всякий раз, натыкаясь на очередного мыслителя, открывшего
скептическое решение проблемы
черного лебедя, я обнаруживаю, что
бедолага повторил предшественников — не плагиатом, а по неумению
отыскать корни. Мы настаиваем,
что «проблема Юма» лишь в малой
степени поставлена Юмом, возившим с собой по всей Европе многотомный Словарь2, изданный его
предшественником Пьером Бейлем.
Некоторое время я полагал, что
первым был Юэ, но историки еще
раз нашли более раннего предшественника

3.6. НАИВНЫЙ ЭМПИРИЗМ: НЕ НАДО СРАВНИВАТЬ ЭБОЛУ
И ПАДЕНИЯ СО СТРЕМЯНОК
Давайте проиллюстрируем проблему тонкохвостого мышления в области толстых
хвостов примером из реального мира. Некоторые цитируют так называемые «эмпирические» данные и объявляют, что мы зря тревожимся из-за эболы, от которой за
2016 год умерло всего двое американцев. Объявляют, что больше надо тревожиться
из-за смертей от диабета и несчастных случаев, когда человек запутался в простынях.
Давайте подумаем в терминах хвостов. Если однажды вы прочитаете в газетах о внезапной смерти 2 млрд человек, что вероятнее: что их убьет эбола или что они погибнут
от курения, диабета и опутавших простыней?

Принцип 3.2
Не сравнивай толстохвостый процесс субэкспоненциального класса в Экстремистане, оказывающий мультипликативное воздействие, и тонкохвостый процесс в Медиокристане, особенно если он ограничен оценками Чернова3…

1 Discours pour montrer que les doutes de la philosophie sceptique sont de grand usage dans les sciences; издан
в 1669.
2 Исторический и критический словарь (Dictionnaire historique et critique) в последнем, 16-томном издании
выходил в 1820–1824 годах.
3 Оценки Чернова — серия теорем, полученных Германом Черновым для оценки вероятности больших
отклонений сумм независимых случайных величин.

70

Н АС С И М Н И К ОЛ АС ТА Л Е Б

S

S

200

400

600

время
1000

800

200

400

Толстый хвост

Толстый хвост

Тонкий хвост

Тонкий хвост

600

800

1000

время

Рисунок 3.20: Невозможно «подтвердить» тонкохвостость, но опровергнуть ее удается — как
только случатся резкие скачки. Спокойные дни не позволяют исключить возможность скачков

P>

ДО

0,100
0,050

0,010
0,005

α = 4,3556
0,005
5 × 10

–4

0,05

P>

0,10

0,20

0,50

x

ПОСЛЕ

0,100
0,050

Сюрприз
0,010

α = 2,48323

0,005

0,005
5 × 10–4

0,05

0,10

0,20

0,50

x

Рисунок 3.21: Один день,
открывший глаза на истинную природу распределения.
Фондовый рынок Аргентины
до и после 12 августа 2019.
Иногда приходится резко
пересмотреть хвосты в сторону утолщения (снизить
показатель α); пересмотр
в обратную сторону займет
долгое время. Данные получены благодаря Диего Цвивовичу

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

71

Что нас убивает
Число смертей в день в пораженных эболой странах*
Новейшие данные
100
10

4

Эбола†

14

110

Лихорадка
Ласса‡

Туберкулез

404
Диарея

552

Малярия

685
ВИЧ/СПИД

* Гвинея, Либерия, Нигерия и Сьерра-Леоне.
† декабрь 2013 — 11 августа 2014
‡ Западная Африка
Источники: ВОЗ, Центры по контролю и профилактике заболеваний США,
журнал The Economist

Рисунок 3.22: Наивный эмпиризм: не сравнивайте толстохвостые величины с тонкохвостыми,
поскольку их выборочные средние из разных классов распределений. Данная ошибка генерализации сделана журналом The Economist, но она вообще обычна в так называемом ученом дискурсе.
Однажды на это купилось само Королевское статистическое общество, предложив руководящий пост по «коммуникации риска» человеку с опытом работы в социологии и журналистике

Это простое следствие принципа катастрофы, который мы уже упоминали и иллюстрировали на Рисунке 3.4.
К сожалению, немногие из зацикленных на доказательной науке осознают (когда
пишут статью), как работает эффект хвоста, виляющего собакой.
Это наивный эмпиризм — сравнить такие процессы и заявить, что мы слишком
беспокоимся об эболе (эпидемиях, пандемиях) и недостаточно о диабете. На самом
деле все наоборот. Мы слишком беспокоимся о диабете и недостаточно об эболе
и других болезнях с мультипликативным воздействием. Ошибочное суждение делается из-за непонимания толстых хвостов, которое прискорбным образом ширится.
Хуже того, подобные ошибки в рассуждениях продвигаются эмпирической психологией, которая не отличается особой эмпиричностью. Кроме того, они используются
пропагандистами промышленности, которые под видом «коммуникаторов риска»
впаривают нам пестициды и заверяют, что нет причин для беспокойства, потому что
в прошлом ущерб был ничтожным.
Корректные рассуждения не приняты в кругах, занимающихся теорией решений
и управления рисками; исключение составляют работающие над теорией экстремальных значений и отдел «Адаптивное поведение и познание»1 в берлинском Обществе
Макса Планка, руководимый Гердом Гигеренцером [108], — эти люди скажут вам,
что не стоит игнорировать инстинкты и наставления вашей бабушки; когда ее советы
1 Adaptives Verhalten und Kognition, отдел в Институте человеческого развития Общества Макса Планка
(Max-Planck-Institut für Bildungsforschung). В англоязычной литературе известен как The Center for Adaptive Behavior and Cognition (ABC).

72

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Причины смерти в США
От чего американцы умирают, что ищут в Google и о чем сообщают СМИ

Наш мир
в данных

100%
2,0%

30,2%

1,9%

80%

37%

5%
2,4%

Доля в общем итоге

70%

5,2%

1%
0,4%
0,2%

1,6%

2,8%

0. С соответствующим преобразованием применимо и к отрицательной.области. — Прим.
автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

75

Таблица 3.2: Пример степенного закона
Богаче 1 млн
Богаче 2 млн
Богаче 4 млн
Богаче 8 млн
Богаче 16 млн
Богаче 32 млн

1 из
62,5
1 из
250
1 из 1000
1 из 4000
1 из 16 000
1 из ?

У распределения Парето нет высших моментов: они либо не существуют, либо
статистически неустойчивы. Поэтому займемся теперь проблемой экономики и эконометрики. В 2009-м я взял данные за 55 лет и попробовал оценить эксцесс (функция
четвертого момента) по самым обширным наблюдениям — смотрите Таблицу 3.3. Для
гауссова распределения максимальный вклад за такой период времени должен быть
в диапазоне 0,008 ± 0,0028. Но для портфеля S&P 500 получилось 80 %. Это говорит
о том, что мы понятия не имеем, каков эксцесс для биржевой стоимости этих ценных
бумаг. Ошибка определения значения по выборке огромная; возможно, параметр вообще
не существует, и оттого наша оценка критически зависит от выборки. Раз мы ничего
не знаем о четвертом моменте, мы ничего не знаем об устойчивости второго момента.
Значит, мы не в том классе распределений, чтобы работать с дисперсией, даже если она
существует. Гранит науки тверд, и финансовая математика — тоже трудное дело.

Таблица 3.3: Вклад одного наблюдения в эксцесс в финансовых данных,

Ценные бумаги
Серебро
Индекс S&P 500
Сырая нефть
Процентный фьючерс
Топочный мазут
Индекс Никкей
Индекс FTSE
Японские гособлигации
1-месячный евродоллар
Сахар
Иена
Индекс Bovespa
3-месячный евродоллар
CT
Индекс DAX

Max Q
0,94
0,79
0,79
0,75
0,74
0,72
0,54
0,48
0,31
0,3
0,27
0,27
0,25
0,25
0,2

Годы
46
56
26
17
31
23
25
24
19
48
38
16
28
48
18

Для серебра за 46 лет 94 % эксцесса имело источником одно-единственное наблюдение. Для финансовых данных не годятся стандартные статистические методы.
GARCH (метод, популярный в академических кругах) не работает, потому что мы
имеем дело с квадратами. Дисперсия в квадратах аналогична четвертому моменту.

76

Н АС С И М Н И К ОЛ АС ТА Л Е Б

0,20

0,15

0,10

0,05

0,00

10 000

8000

6000

4000

2000

0

Рисунок 3.26: Ложные главные компоненты при толстых хвостах: эксперимент Монте-Карло
показывает, насколько острее проблема ложных корреляций и ковариаций при толстых хвостах.
На верхней гистограмме главные компоненты ранжированы по дисперсии для 30 гауссовых
некоррелированных величин, когда число точек данных n = 100 (закрашено) и 1000 (не закрашено). На нижней гистограмме главные компоненты ранжированы по дисперсии для 30 величин с устойчивым распределением (показатель хвоста α = , коэффициент симметрии β = 1,
коэффициент положения μ = 0, коэффициент масштаба σ = 1) при том же числе точек данных
n = 100 (закрашено) и n = 1000 (не закрашено). На обеих диаграммах представлены случайные
величины «некоррелированные» и одинаково распределенные. Мы видим уплощение спектра главных компонент при росте числа n гауссовых величин — различие между главными компонентами
тает. При жирном хвосте подобное уплощение за разумное число наблюдений не достигается

Мы не знаем дисперсию. Зато с распределениями Парето можем работать очень даже
легко. Они дают меньше информации, но более строги, если данные неограниченные
или если есть открытые переменные.
Таблица 3.3, с финансовыми данными, опровергает все нынешние вузовские учебники. Куча эконометрики, работающей с квадратами, идет на помойку. Становится

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

77

понятно, почему экономисты не могут предсказывать события — они пользуются не
теми методами и строят неверные доверительные интервалы. Что работает на выборке,
не будет работать за пределами выборки — а выборки по определению всегда конечны
и всегда имеют конечные статистические моменты. Как объявить дисперсию или эксцесс бесконечными, когда мы не наблюдаем ничего бесконечного в выборке?
Метод главных компонент (см. Рисунок 3.26) сокращает размерность больших
данных и нормально работает при тонких хвостах (по крайней мере иногда). Но при
недостаточности данных предлагает иллюзорную структуру n переменных, которая
уплощается с ростом объема данных — это так называемый эффект Вигнера для случайных матриц (в честь Юджина Вигнера. Не путать с открытиями Вигнера о дислокациях атомов в материале под действием радиации). В этой симуляции данные не
имеют никакой структуры и главные компоненты должны оказаться все одной величины (асимптотически, при большом объеме данных); однако эффект малой выборки
придает главным компонентам уклон вниз.
Для главных компонент нужно получить матрицу с нулевой корреляцией. При
распределении с толстым хвостом (нижняя часть рисунка) требуется гораздо больше
данных для устранения ложных корреляций, т. е. при толстых хвостах сократить размерности не удается.
3.8. ГДЕ ПРЯЧУТСЯ СКРЫТЫЕ СВОЙСТВА?
Следующее резюмирует все, что я написал в «Черном лебеде» (почему-то неискаженная версия этой идеи пробивалась больше десяти лет). Распределения бывают с одним
хвостом (левым или правым) или с двумя. Толстохвостое распределение бывает однохвостым или двухвостым. Толстохвостое однохвостое бывает с хвостом слева или
с хвостом справа.
Интуитивную подсказку смотрите на Рисунке 3.28: при толстом хвосте редкие
события скрылись от наблюдения, и наивный наблюдатель неверно оценивает среднее однохвостого распределения. Хвостовые события еще внесут свой вклад, но, по
определению, они редки.

Если судить об эффективности инвестиций по временному ряду с краткосрочной волатильностью (скошенность влево, угроза чувствительных
потерь), скорее окажешься одураченным случайностью, чем если судить по
ряду с долгосрочной хвостовой волатильностью (скошенность вправо, возможность крупных выигрышей). Говоря по-простому, краткосрочная волатильность завышает оценку эффективности, а долгосрочная — занижает
(см. Рисунок 3.28). Это еще один вариант несимметричности по Попперу,
о которой говорилось выше в этой главе.

Фокус в том, что нужно каким-то образом оценить распределение и потом уже
выводить среднее (опираясь на экстраполяцию). В этой книге метод называется
«дополнительной оценкой»; смотрите Таблицу 3.4. Не стоит полагаться просто на
среднее по выборке наблюдений; оно при распределениях с толстым хвостом имеет

78

Н АС С И М Н И К ОЛ АС ТА Л Е Б

систематическую ошибку. По этой причине кажется, пока не грянул кризис, что банки
приносят большие прибыли. А потом оказывается, что они потеряли все, что имели,
и даже больше, и что их приходится выкупать на деньги налогоплательщиков. Чтобы
не попадаться в ловушку, мы отличаем истинное среднее (которое я называю теневым) от реализовавшегося среднего, что и показано в Таблице 3.4.
Таблица 3.4: Выборочное среднее, теневое среднее и их отношение при различном минимальном пороге L. Теневое среднее получено с дополнительными оценками по методу максимального правдоподобия. Масштаб изменен. По Чирилло и Талебу [46]. Подробности в Главах
16 и 13
L

Выборочное среднее

Среднее по ММП

Отношение

10 тыс.

9,079 × 106

3,11 × 107

3,43

25 тыс.

9,82 × 106

3,62 × 107

3,69

50 тыс.

1,12 × 107

4,11 × 107

3,67

100 тыс.

1,34 × 107

4,74 × 107

3,53

200 тыс.

7

1,66 × 10

6,31 × 10

7

3,79

500 тыс.

2,48 × 107

8,26 × 107

3,31

ВАШИ ДЕНЬГИ
В БЕЗОПАСНОСТИ.
НИКАКИХ ПРИЗНАКОВ
ЧЕРНЫХ ЛЕБЕДЕЙ.

©STEFAN GASIC — OFFSHORECOMIC.COM

Аналогичным образом можно обработать коэффициент Джини, чтобы оценить
«теневое», а не наивно наблюдаемое социальное неравенство.
Вот что мы имеем в виду, когда говорим, что выборочное распределение «не
эмпирично». Другими словами: (1) есть разница между атрибутами генеральной совокупности и выборки и (2) даже на исчерпывающие исторические данные следует смотреть как на выборку из более широкого диапазона (прошлое

А ЕСТЬ ПРИЗНАКИ
ТОГО, ЧТО ЧЕРНЫХ
ЛЕБЕДЕЙ НЕТ?

КАКАЯ
РАЗНИЦА?
50 БАЛЛОВ
IQ САМОЕ
МАЛОЕ.

Рисунок 3.27: Фундаментальная асимметрия — различие между отсутствием свидетельств
и свидетельством отсутствия — усложняет исследование толстых хвостов. Требуется более
продвинутое понимание случайных событий — или более реалистичное. (Прошу не понимать
здесь баллы IQ буквально, как в обычной психометрике. Есть подозрение, что как раз лица
с высоким IQ не разберутся с данной асимметрией. Считайте, что здесь речь об идеальном IQ,
отвечающем «настоящей» рациональности, а не результатам тестирования.) © Stefan Gasic

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

79

Вероятность

Невидимые
редкие события

–140

–120

–100

–80

–60

–40

Исходы

–20

Вероятность

Невидимые
редкие события

20

40

60

80

100

120

140

Исходы

Рисунок 3.28: Теневое среднее за работой. Нижний график: обратная проблема индейки — невидимое редкое событие позитивное. Наблюдая позитивно скошенный (антихрупкий) временной
ряд и делая выводы о невидимом без учета параметров, вы упускаете из виду хорошее и недооцениваете выгоды. Верхний график: противоположная проблема. Закрашенная область соответствует тому, что мы обычно упускаем в малых выборках, из-за недостаточного числа точек
данных. Интересно, что закрашенная площадь растет с ростом ошибки модели (благодаря
выпуклой вниз зависимости хвостовых вероятностей от неопределенности)

является выборкой; выводы из него являются статистическими суждениями на
основе выборки).
Разобравшись в типе распределения, можно оценить математико-статистическое
среднее. Оценка будет намного точнее, чем простое измерение среднего по выборке.
Так, при распределении Парето 98 % наблюдений ниже среднего; наблюдения недооценивают среднее. Но после того, как мы поняли, что имеем дело с распределением
Парето, мы можем игнорировать выборочное среднее и использовать другие методы.
Техника дела обсуждается в Главах 13 и 15.
Заметим, что исследователи теории экстремальных значений [115] [82] [116]
фокусируются на свойствах хвоста, а не на поиске среднего или статистических
выводов.

80

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ЛИНЕЙКА ВИТГЕНШТЕЙНА: ЧТО, ЭТО ПРАВДА БЫЛО
10-СИГМОВОЕ СОБЫТИЕ?
Летом 1998 хедж-фонд с громким названием Long Term Capital Management
(«Долгосрочное управление капиталом») приказал долго жить, разорившись из-за «неожиданных» отклонений на рынках. Это была чувствительная
утрата: двое партнеров успели получить премию шведского госбанка, рекламируемую как «Нобелевка в экономике». Фонд привлек многочисленных
профессоров финансовой математики и имел подражателей, также привлекших профессоров (и по самому скромному счету, 60 докторов наук разорились в тот период благодаря трейдерам, похожим на LTCM и использующим
идентичные методы управления рисками). Минимум двое партнеров выступили с заявлением, что произошло 10-сигмовое событие (отклонение в 10 раз
больше среднеквадратического) и что это снимает с них обвинения в некомпетентности (я лично был свидетелем двух таких заявлений).
Давайте применим в этой ситуации подход, который автор называет витгенштейновской линейкой: спросим себя, правда ли мы измеряем линейкой
стол, как обычно, или на этот раз мы измеряем столом линейку?
Примем для простоты, что есть только две возможности: гауссово распределение и распределение по степенному закону. При гауссовом вероятность,
которую мы определим как функцию выживания для события величиной
10 среднеквадратических отклонений, составит 1 из 1,31 × 1023. Для степенного закона в том же масштабе — t-распределения Стьюдента с показателем
хвоста 2, — функция выживания составит 1 из 203.
Ну и какова вероятность, что распределение гауссово при условии наблюдения 10-сигмового события и выбора из наших двух альтернатив?
Начнем с правила Байеса. ℙ(A | B) =
. Заменим ℙ(B) =
= ℙ(A) ℙ(B | A) + ℙ(A̅ ) ℙ(B | A̅ ) и применим к нашему случаю.
ℙ(Гаусс|Событие) =
.

=
ℙ(Гаусс)1

ℙ(Гаусс|Событие)

0,5
0,999
0,9999
0,99999
0,999999
1

2 × 10–21
2 × 10–18
2 × 10–17
2 × 10–16
2 × 10–15
1

1 Очевидно, имеется в виду априорная вероятность того, что распределение гауссово (до известия о 10-сигмовом событии).

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

81

Мораль: если до наблюдения была хоть крошечная, < 10–10, вероятность
того, что распределение не гауссово, после случившегося можно сделать твердый выбор в пользу альтернативы — распределения с толстым хвостом.
Простое эвристическое правило: смело отвергайте гипотезу о гауссовости, если случилось хотя бы одно событие > 4 или 5 среднеквадратических
отклонений. Никакие заплатки вроде условной дисперсии, как мы увидим
в этой книге, не дают адекватного результата и должны быть признаны мошенничествомa.
a Великий человек Бенуа Мандельброт крайне критически относился к методам, дополняющим
гауссовость разрывами или иными трюками ad hoc, чтобы объяснить, что не так с данными (например, процесс диффузионных скачков Мертона [173]). Задним числом всегда можно подогнать нужные разрывы. Мандельброт цитировал слова, приписываемые Джону фон Нейману: «С четырьмя
параметрами я могу подогнать кривую под слона, а с пятью — заставить его вилять хоботом».

3.9. БАЙЕСА-ШМАЙЕСА
Если нет надежных сведений, от Байесовых методов мало помощи. Автора этой
книги не раз спрашивали после выхода «Черного лебедя», нельзя ли решить проблемы с неведомыми толстыми хвостами при помощи чего-нибудь такого байесовского. Но невозможно заменить отсутствующие наблюдения сфабрикованной информацией, и никакие байесовские-шмайесовские ухищрения не помогут. Прежде всего,
Байесовы методы срабатывают при наличии надежной априорной вероятности, но
она в обычных наблюдательных данных отсутствует (смотрите у Диакониса и Фридмана [66] о том, как трудно агенту сформулировать априорную вероятность).
Проблема в скорости обновления, которая, как мы увидим в Главе 7, сильно зависит от распределения. В литературе по теории рациональных ожиданий делается
ошибочное предположение, что два наблюдателя по одной и той же информации обязательно придут к одному и тому же мнению. К сожалению, требуются весьма специальные условия, чтобы это случилось в реальном времени или вообще случилось.
Разумеется, можно пользоваться методами Байеса (при наличии адекватных априорных оценок) для оценки параметров — если (1) есть ясное представление о диапазоне значений (например, по классу универсальности или по иным бассейнам
устойчивости) и (2) эти параметры следуют поддающемуся анализу распределению
с низкой дисперсией — например, для распределения Парето наблюдаемый показатель степени хвоста следует обратному гамма-распределению [11].

МОРАЛЬНЫЙ РИСК1 И ПОГОНЯ ЗА РЕНТОЙ в финансовом образовании:
одно из самых депрессивных воспоминаний в жизни автора — как он читал
курс о жирных хвостах в недолгую пору работы в Школе бизнеса Массачусетского университета в Амхерсте. Один аспирант по финансам прямо за-

1 От англ. moral hazard, риск обмана со стороны участника договора.

82

Н АС С И М Н И К ОЛ АС ТА Л Е Б

явил, что идеи ему нравятся, но карьера в финансовом образовании требует
«добиться самого высокого жалованья в стране» (в академической сфере). Он
выбрал специализацию по методам Марковица (зная, что они не работают
в области толстого хвоста), поскольку их применяли остальные профессора,
и такой выбор открывал дорогу к публикации статей и получению высокооплачиваемой должности.
Я был разочарован, но предсказал ему в будущем успешную карьеру
автора нестатей. Он ее добился.

3.10. X И F(X): КАК ПУТАЮТ ВОЗДЕЙСТВИЕ ВЕЛИЧИНЫ X
С САМОЙ ВЕЛИЧИНОЙ X
Рассмотрим случайную или неслучайную величину X и ее воздействие на вас F(X)1,
например платеж, ущерб, итоговый баланс. (Нередко величина X многомерная, но
примем для простоты, что у нас она одномерная.)
Практики и венчурные инвесторы часто замечают такое недоразумение: не-практики начинают рассказывать практикам об X, считая, что практикам это интересно,
тогда как те думают об F(X) и ни о чем другом. Смешение X с ее последствиями
F(X) — хроническая болезнь со времен Аристотеля; она обсуждается в Антихрупкости [230] как главная тема книги. Иные делают шаг от X к функции полезности, но не
доходят до итоговогоплатежа. Путаница происходит и на бытовом уровне, и в литературе по теории принятия решений; в теории различие признается, но не осознается,
что действовать удобнее с оглядкой на F(X), а не на X.
Вероятностное распределение X

Вероятностное распределение F(X)

Рисунок 3.29: Проблема смешения случайной величины X и ее платежа, F(X). Когда знаешь, что
функция F выпукла вниз, подробностями X можно не интересоваться. Когда стоит задача изменить ситуацию, надежнее изменить F, а не X



Величина X может быть показателем безработицы в Сенегале, F1(X) — ее воздействием на итоговый отчет МВФ, а F2(X) — ее воздействием на финансы
вашей бабушки (надо полагать, минимальным).

1 Тем самым в данной главе F(x) обозначает не функцию распределения случайной величины X,
F(x) = ℙ(X < x), как в других местах книги, а функцию платежа, или последствий того, что случайная
величина X примет значение x.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ





83

X может быть курсом акций, причем вы владеете опционом, и F(X) — воздействие X на стоимость вашего опциона или даже еще хитрее — функция
полезности этого воздействия на стоимость опциона.
X может быть изменением вашего богатства, а F(X) — его выпукло-вогнутым воздействием на ваше благополучие. Можно заметить, что F(X) намного
устойчивее, или робастнее — то есть имеет более тонкие хвосты, — чем X.

Выпуклые и линейные функции случайной величины X. Рассмотрим Рис. 3.30:
чем меньше зависимость F (по вертикали) от X (по горизонтали) похожа на линейную1,
тем меньше остается общего между вероятностным распределением X и F(X). Даже
при небольшой выпуклости F статистические и прочие свойства F(X) отличаются от
свойств X. Например, математическое ожидание F(X) отличается от F(𝔼 X) согласно
неравенству Йенсена2. При резкой нелинейности F влияние вероятностного распределения X на вероятностное распределение F(X) тает. Мораль: чтобы что-то изменить,
фокусируйтесь на F и не гонитесь за измерением трудноуловимых свойств X.
F

F

1,0
0,8

F

0,4

2,0

0,3

1,5

0,6
0,4
0,2

0,2

1,0

0,1

0,5

x

x

x

Распределение X

Преобразование
F

Распределение F(X)

F

1,0
0,8

F

0,4

2,5

0,3

2,0

0,6

1,5

0,2

0,4

1,0

0,1

0,2

x

x

0,5

x

Рисунок 3.30: Проблема смешения: выпуклая вниз-вверх S-образная функция F(x) превращает
случайную величину X с толстохвостым распределением на бесконечном промежутке (–∞, +∞)
в случайную величину F(X) с бесхвостым распределеним на промежутке (0, 1). Сильная выпуклость (нижний пример) способна превратить пик в яму с вертикальными стенками на краях,
аналогичную арксинусу

Ограниченные знания. Важно, что ограниченность наших знаний касательно
распределения X не обязательно транслируется в неопределенность распределения
F(X). Бывает, что мы не управляем X, но можем повлиять на F. Иногда это дает нам
весьма существенное влияние на F(X).

1 Платежная функция на графиках слева. В верхнем примере она близка к линейной, в нижнем примере
далека от линейной.
2 Неравенство Йенсена гласит: если функция F(x) выпуклая вниз, то F(𝔼X) ≤ 𝔼F(X).

84

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Опасное заблуждение относительно проблемы черного лебедя — фокусироваться
на X, пытаться предсказать X. Я пытаюсь всем объяснить, что, даже не понимая X,
можно работать с понятным нам F; другие же упорно бьются над предсказанием X —
бесплодно, потому что маловероятные события не поддаются расчету, особенно
в области толстого хвоста. Между тем итоговое воздействие на нас оказывает как раз
F(X).
Вероятностное распределение у F(X) не такое, как у X, когда функция F нелинейная. Чтобы получить F(X) из X, нужно выполнить нелинейное преобразование. Только
в 1964 началось обсуждение «выпуклого преобразования случайной величины», см.
ван Звет [259], так как до того тема не считалась важной.
Повсеместная распространенность S-образных кривых. Функция F практически всегда нелинейная (лично я не знаю ни одного исключения) и часто «S-образная», то есть выпуклая вниз-вверх возрастающая. Более подробное обсуждение см.
в Приложении F к Главе 10.
Хрупкость и антихрупкость. Когда F выпуклая вверх (хрупкая), ошибки
относительно X могут преобразоваться в огромные отрицательные отклонения F(X). Когда F выпуклая вниз, мы защищены от суровых отрицательных отклонений. Если мы действуем методом проб и ошибок или выбираем
опцию или опцион, нам важно не столько понимать про случайную величину X, сколько про создаваемые риски. Грубо говоря, статистические свойства X тонут в свойствах F. Книга Антихрупкость посвящена тому, что воздействие X важнее и наивна установка «хочу все знать», то есть понимать X.
Чем сильнее нелинейность F, тем меньше вероятностное распределение X
влияет на вероятностное распределение итогового пакета, F(X).
Многие авторы путают вероятности тех или иных значений X с вероятностями F(X). Я не шучу: чуть ли не вся литература базируется на этой ошибке.
Ради Ваала, фокусируйтесь на F, а не на X.
F

F

F

x

x
Преобразование,
выпуклое вверх-вниз

Распределение X

x
Распределение F(X)

Рисунок 3.31: Преобразование выпуклое вверх-вниз (такое, как пробит-функция1 —
обратная к интегральной функции стандартного нормального распределения; другой
пример — логит-функция2 ) делает хвосты распределения F(X) толще

1 probit (p) = Φ –1(p) =
2 logit (p) =

erf –1(2p – 1), где p ∈ (0, 1).

, где p ∈ (0, 1).

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

85

Будь хоть сто раз прав, нужна выпуклость вниз. Осенью 2017 одна фирма
обанкротилась, делая ставки по поводу волатильности. Эти люди прогнозировали дисперсию ниже той, что ожидалась рынком… и были правы. Почему
же они обанкротились? Потому что использовали выпуклую вверх функцию
платежа. Вспомним, что случайная величина X распределена не так, как F(X),
и что в реальном мире практически все функции F нелинейны.
Разобраться нам поможет следующий пример. Рассмотрим платежную
функцию на рисунке ниже1. Это функция F(x) = 1 – x2, где x — отклонение цены
закрытия; таков ваш платеж за этот день, и если x не превышает единицу (допустим, единица — это среднеквадратическое отклонение цены закрытия), то вы
в плюсе, а иначе несете убытки. Типичный договор типа «вариационный своп»2.
F(X) = 1 − x2
4

2

–3

–2

–1

1

2

3

x

–2

–4

Теперь рассмотрим следующие две последовательности отклонения x
в течение 7 дней (в тех же единицах, среднеквадратических отклонениях).
Последовательность 1 (тонкохвостая): {1, 1, 1, 1, 1, 0, 0}. Среднее отклонение 0,71. Ваша чистая прибыль 2.
Последовательность 2 (толстохвостая): {0, 0, 0, 0, 0, 0, 5}. Среднее отклонение 0,71 (то же самое). Ваша чистая прибыль = –18, прямо разорение.
В обоих примерах прогноз среднего 0,71 сбудется, но одна и та же стратегия
в первом примере принесет прибыль, а во втором — убытки; все испортит неоднородность в волатильности — жирный хвост вероятностного распределения.
Вот почему в реальном мире из «плохих» прогнозистов получаются
успешные трейдеры и ответственные руководители. Все профессионалы об
этом знают, но литература по «прогностике», математически беспомощная
и практически наивная, до сих пор не разобралась, в чем дело, после столетий
кипучей активности.

1 Эта функция выпуклая вверх.
2 Современный финансовый жаргон; от англ. variance swap.

86

Н АС С И М Н И К ОЛ АС ТА Л Е Б

3.11. РАЗОРЕНИЕ И ЗАВИСИМОСТЬ ОТ ПУТИ
Напоследок поговорим о зависимости от пути и о вероятности по времени. Наши
прабабушки разбирались в толстых хвостах. Не так страшен черт, как его малюют;
мы разобрались, как выживать, принимая рациональные решения с учетом фундаментальных статистических свойств.
Зависимость от пути означает следующее. Если я сначала поглажу рубашки,
а потом постираю, результат будет не такой, как если сначала постирать, а потом
погладить. В своей первой книге, Динамическое хеджирование [225], я писал про то,
как трейдеры стараются не «врезаться в барьер»: если разоришься, то выйдешь из
игры; если стратегия окончилась банкротством, потерян весь выигрыш.
Физики Оле Питерс и Мюррей Гелл-Манн [186] пролили новый свет на этот
вопрос и революционизировали теорию принятия решений, показав ложность
принципа, на котором базировалась традиционная прикладная теория вероятностей в экономике. Физики обнаружили, что все учебники экономики делают
общую ошибку; избежали ее только специалисты по теории информации, такие
как Келли и Торп.
Разберемся сначала, что такое вероятности для статистического ансамбля.
Допустим, что мы — это 100 случайно выбранных человек и что мы отправились
в казино и играем там в азартные игры. Если 28-й игрок разорился, это не помешало
29-му играть дальше. Значит, можно посчитать доход от похода в казино, сложив наши
100 результатов. Закон больших чисел позволяет нам повторить опыт 2–3 раза и точно
измерить так называемое преимущество данного казино.
Проблема появится при попытке применить это ансамблевое свойство к 100 визитам одного человека. Прежний подход не сработает, потому что если кто-то на 28-й день
разорится, то на 29-й день уже не придет. По этой причине Крамеру пришлось сформулировать условие Крамера, за пределами которого страхование не работает; по
этому условию недопустим риск разорения из-за одного потрясения. Аналогичным
образом отдельный инвестор не может достигнуть доходности, равной среднему показателю фондового рынка, потому что ресурсы отдельного инвестора конечны (или, как
заметил Оле Питерс, отдельный инвестор не может много раз прогнать свою жизнь по
множеству ветвящихся вселенных).
Добиться дохода на фондовом рынке можно лишь при выполнении строгих условий.
Вероятность по времени и вероятность по ансамблю — не одно и то же. Активному инвестору удается приблизиться к вероятности по ансамблю, только если этот
инвестор использует политику распределения ресурсов, отвечающую критерию
Келли [142], [250] с диаграммами. Питерс написал три статьи о вероятности по времени (одну в соавторстве с Мюрреем Гелл-Манном) и показал, что ряд парадоксов
устраняется.
Посмотрим, как работать с этими вероятностями и что не так в литературе.
Для наглядности подействуем на трейдера небольшим, но часто повторяющимся
риском разорения; со временем вероятность разорения приблизится к единице.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

87

Рисунок 3.32: Вероятность по
ансамблю и вероятность по времени. Трейдеры на рынке опционов
рискуют врезаться в барьер. Я все
время указываю на это, и в «Динамическом хеджировании» [225],
и в «Антихрупкости» [223], как,
например, смешения случайной
величины X с ее действием F(X),
когда последнее содержит барьер

Рисунок 3.33: Харальд Крамер,
автор условия Крамера и анализа
разорения

88

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Если мы решим кататься на мотоцикле с небольшим риском катастрофы, но много
раз, мы заметно сократим ожидаемую продолжительность жизни. Измерить это
можно так.

Принцип 3.3 (Повторение воздействия)
Фокусируйтесь на сокращении ожидаемого срока службы того модуля, который подвергается многократному воздействию с некоторой плотностью, или
частотой.

Финансовые теоретики-бихевиористы пока что выводят свои суждения из статики,
а не динамики, и поэтому данную картину не видят. Они вырывают компромиссы из
контекста и приходят к консенсусу, будто человеку свойственно иррационально преувеличивать хвостовые риски (и его надо подталкивать к более смелым действиям).
Но катастрофическое событие является барьером. Смелые действия нельзя анализировать по отдельности: риски накапливаются. Если мы катаемся на мотоцикле, курим,
водим винтовой самолет и вступаем в мафию, перечисленные риски складываются
в весьма вероятную преждевременную гибель. Хвостовые риски — не то же, что риск
потерять заменимый ресурс.
Каждый выживший венчурный инвестор это понимает. Уоррен Баффетт это понимает. Группа «Голдман Сакс»1 это понимает. Их не удовлетворяют низкие риски, им требуются нулевые риски, и этим фирма, выжившая на протяжении двадцати, тридцати,
ста лет, отличается от разорившейся. Такой подход к рискам объясняет, почему группе
«Голдман Сакс» исполнилось 149 лет. Она управлялась как партнерство с неограниченной ответственностью первые примерно 130 лет, но в 2009 получила финансовую
помощь от правительства, после того как стала банком. Понимание хвостовых рисков
не отражено в литературе по принятию решений, но для практиков, рискующих своей
шкурой, это повседневная работа. Рассматриваем уязвимый модуль, оцениваем, какой
желателен для него срок службы и насколько ожидаемый срок службы сократится при
многократном воздействии риска.

Замечание 2: Психология принятия решений
Психологическая литература фокусируется на воздействии одного эпизода
и опирается на узкое определение анализа «затраты — выгоды». Иногда анализ объявляет людей параноиками, преувеличивающими небольшие риски;
авторам такого анализа не приходит в голову, что при малейшей терпимости
к набиранию хвостовых рисков мы не выжили бы на протяжении миллионов
лет2.

1 Goldman Sachs — инвестиционный конгломерат со штаб-квартирой в Нью-Йорке.
2 По молекулярно-генетическим данным, эволюционные пути человека и шимпанзе разошлись 5–12 млн
лет назад.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

89

Рассмотрим теперь разные уровни и почему системный риск попадает в другую
категорию по сравнению с риском идиосинкразическим (индивидуальным). Посмотрим на перевернутую пирамиду на Рисунке 3.34: худший сценарий не тот, где
индивидуум погибает. Хуже, если погибают ваши родные, близкие и питомцы. Хуже,
если вы погибаете, а ваш заклятый враг выживает. В этих сценариях набирается бо́льшая потеря ожидаемой продолжительности жизни из-за одного хвостового терминального события.
Экосистема
Человечество
Племя в расширенном понимании
Племя
Родные,
близкие
и питомцы

Рисунок 3.34: Иерархия
выживания. Объекты
на верхних уровнях содержат
больший объем ожидаемой
продолжительности жизни,
и хвостовые риски для этих
объектов важнее. Объекты
на нижних уровнях, вроде нас
с вами, заменимы

Вы

Отсюда разные уровни. Самая большая угроза — гибель всей экосистемы. Принцип предосторожности строит структуру на идее риска для тех или иных модулей
с учетом их ожидаемого срока службы.
Эргодичность в этом контексте означает перенос результатов анализа вероятностей по ансамблю на вероятности по времени. Если перенос невозможен, игнорируйте
вероятность по ансамблю.
3.12. ЧТО ДЕЛАТЬ?
Резюмируя, отметим как первую задачу необходимость различать Медиокристан
и Экстремистан, две области, которые практически не перекрываются. Если мы не
научимся видеть разницу, наши попытки анализа будут бессмысленны. Во-вторых, если мы не будем отличать вероятность по времени (зависящую от пути) и по
ансамблю (независимую от пути), наши попытки анализа будут бессмысленны.
Следующий этап нашего проекта Incerto — познакомиться с хрупкостью, робастностью и, наконец, антихрупкостью. Узнав о жирном хвосте, можно использовать
эвристику и исследовать, как на отдачу от вложений в этой области влияют хвостовые
события — какой ущерб они наносят одному модулю. Намного эффективнее изолировать ущерб от случайных событий, чем пытаться установить с достаточной точностью
параметры их распределения (поскольку, как мы видели, ошибки вывода при толстых

90

Н АС С И М Н И К ОЛ АС ТА Л Е Б

хвостах огромны). Надежнее, мудрее, этичнее и эффективнее сфокусироваться на
эвристике и политиках обнаружения, чем производить статистические параметры.
Хорошая новость — наше открытие того, что все хрупкое обязательно представлено воздействием, выпуклым вверх [223], аналогичным и равным отдаче от вложений в шорты, то есть отрицательному воздействию волатильности. Оно должно быть
нелинейным. Ущерб должен расти с величиной события, вплоть до полного краха.
Если я спрыгну с высоты 10 м, я получу повреждения серьезнее, чем если 10 раз
спрыгну с высоты один метр. Это обязательное свойство хрупкости. Нам достаточно
посмотреть, как ускоряется ущерб с уходом в хвост. Основываясь на этом свойстве,
аналогичном опциону, мы построили эффективную эвристику для стресс-тестов [240].
В реальном мире нужны простые и работающие решения [109]; нам нужно произвести впечатление на нашего бухгалтера, а не на коллег-рецензентов. (Мой довод
в последней книге серии Incerto — Своя шкура на кону — был тот, что в системах,
где успехом считается суждение коллег, а не эволюционный отбор, происходит переусложнение и загнивание.) Чтобы выжить, нужны понятные методы, отвечающие
нашей методологической интуиции.
Перенесем фокус на то, как обнаружить и измерить выпуклость вниз и вверх. Это
узнать намного проще, чем вероятностное распределение.
ДАЛЕЕ
В следующих трех главах в дискуссионной форме и без лишних формальностей
изучается методическая интуиция в основе толстых хвостов. Вывод формул и строгие
доказательства отложим на главы, излагающие, в адаптированной версии, статьи из
научных журналов.

4
ОДНОМЕРНЫЕ ЖИРНЫЕ ХВОСТЫ УРОВНЯ 1,
С КОНЕЧНЫМИ МОМЕНТАМИ †

Следующие две главы устроены так. Мы посмотрим на три уровня жирных
хвостов, делая ударение скорее на интуиции и эвристике, чем на математических различиях, которые покажем позже, во время обсуждения предельных
теорем. Эти три уровня называются так:
• Жирные хвосты начального уровня, с конечными моментами
• Субэкспоненциальный класс
• Класс степенно́го закона
О первом уровне мы будем говорить дольше всего, поскольку на его примере построим интуитивные понятия. Хотя этот уровень менее всего фигурирует в математических статьях (обычно под жирными хвостами понимают
степенной закон и сходящееся к нему предельное поведение сумм), на этот
нижний уровень больше всего полагаются в аналитических моделях и на
практике. Мы без особого труда извлекаем непосредственные следствия жирнохвостости — например, производная функции дает хорошое представление
о локальной чувствительности. Как трейдер, автор сумел получить максимальный эффект от жирнохвостости, пользуясь простенькой эвристикой при
усреднении цен опциона по двум волатильностям; этой эвристики при всей ее
простоте оказалось достаточно.
4.1. ПРОСТАЯ ЭВРИСТИКА, КАК СОЗДАВАТЬ СЛЕГКА
ЖИРНЫЕ ХВОСТЫ
Пара напоминаний о выпуклости вниз и неравенстве Йенсена.
Пусть 𝒜 — выпуклое множество в векторном пространстве над ℝ, и пусть φ:
𝒜 → ℝ — функция; φ называется выпуклой вниз, если ∀x1, x2 ∈ 𝒜, ∀t ∈ [0, 1]:
φ(tx1 + (1 – t)x2) ≤ tφ(x1) + (1 – t)φ(x2)1.
1 Это определение можно прочитать так. Пусть φ(x) — высота рельефа в каждой точке x на физической
карте. Эта функция называется выпуклой вниз на участке 𝒜, если автострада — прямолинейная и, возможно, наклонная — между любыми точками рельефа (x1, φ(x1)) и (x2, φ(x2)) в пределах участка 𝒜, прой-

92

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Для произвольной случайной величины X и выпуклой вниз функции φ(.) согласно
неравенству Йенсена [135]:
φ(𝔼 X) ≤ 𝔼 φ(X).

Замечание 3: Жирные хвосты и неравенство Йенсена
Для гауссова распределения (и членов его семейства распределений с коэффициентами сдвига и масштаба1) хвосты вероятностного распределения выпуклы
вниз «в масштабе распределения», в данном случае — при отклонении, равном
среднеквадратическому отклонению распределения σ (оно же корень из дисперсии). Это дает возможность построить более жирные хвосты так: «стохастизировать» среднеквадратическое отклонение или дисперсию и посмотреть,
изменилось ли вероятностное распределение согласно неравенству Йенсена.

Гетероскедастичность — это общий технический термин, которым при анализе
временного ряда характеризуют процесс с непостоянным масштабом2. Согласно
нашему методу нужно «стохастизировать», то есть пробовать изменять дисперсию
или среднеквадратическое отклонение3 распределения так, чтобы сохранять среднее.
Заметим, что, вообще говоря, и для процесса со сколь угодно жирным хвостом,
даже с хвостом по степенному закону, наблюдаемую выборку (то есть конечное число
дискретных наблюдений) можно описать как гауссов процесс с непостоянной дисперсией, процесс с переключением режима или сочетание гауссова процесса и нескольких скачков случайной величины; исключение составляют процессы со скачками
равной величины, смотрите резюме в [174])4.

1

2
3

4

дет не ниже рельефа; пусть с мостами, но без туннелей. Пусть автомобиль проезжает по автостраде за
промежуток времени t ∈ [0, 1] на постоянной скорости; тогда положение автомобиля на карте изменяется
от x1 до x2 по закону x (t) = tx1 + (1 – t)x2. Высота рельефа в точке x(t) изменяется от φ (x1) до φ (x2) по закону
φ(tx1 + (1 – t ) x2) и во все моменты времени t ∈ [0, 1] остается не выше автомобиля, который на прямолинейной автостраде находится на высоте, изменяющейся от φ(x1) до φ(x2) по закону tφ(x1) + (1 – t) φ (x2).
Далее в этой книге критерий выпуклости вниз чаще применяется в одномерном случае, когда вместо
карты рассматривается профиль рельефа, φ: ℝ → ℝ, и участок 𝒜 представляет собой отрезок числовой
прямой ℝ, на котором профиль рельефа изображается графиком функции и автострада — хордой этого
графика.
Семейство распределений с коэффициентами сдвига и масштаба (location–scale family) — множество
распределений всех случайных величин, полученных из данной случайной величины X линейным преобразованием; другими словами, множество распределений всех случайных величин вида aX + b, где a > 0
(это коэффициент масштаба, изменяющий среднеквадратическое отклонение) и b любое (это коэффициент положения, изменяющий среднее).
Другими словами, с непостоянным среднеквадратическим отклонением.
На жаргоне финансовых математиков «волатильность» приписывается среднеквадратическому отклонению, хотя обычно «стохастической волатильностью» называют стохастическую дисперсию. — Прим.
автора.
Но и для такого процесса скачки можно смоделировать как переключение гауссова процесса в режим
с низкой дисперсией, большим средним и низкой вероятностью переключения в этот режим. Таким
образом, формально даже скачки распределения Пуассона представимы как смесь гауссовых распределений. — Прим. автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

93

Описанный ниже метод позволит смоделировать процессы со слегка ужирненными хвостами и заодно, в главке 4.3, ответить на великий вопрос: где начинаются
хвосты?
Обозначим
плотность нормального распределения в точке x при математическом ожидании 0 и дисперсии σ 2.
Сравним распределение со средним корнем из дисперсии
и среднее от распределений с дисперсиями 1 ± a,

; разли-

чия будут отражать выпуклость согласно неравенству Йенсена. Мы сохранили постоянной среднюю дисперсию σ 2 = 1, хотя метод сработал бы и в том случае, если мы
заботились вместо этого о постоянстве среднеквадратического отклонения σ. Среди
математиков давно идет борьба традиций добиваться постоянной дисперсии или
добиваться постоянного среднеквадратического отклонения, хотя (1) оба способа
работают, лишь бы придерживаться чего-то одного, и (2) для целей нашей иллюстрации разницы не будет никакой.
0,8

Пик выше

0,6

0,4

Хвост толще

f (√ 1–a)
f (√ 1+a)

0,2

–4

–2

2

4

0,5

Среднее двух
распределений

0,4

f ( 1 (√ 1+a + √ 1–a))
2

1
f (√ 1–a) + f (√ 1+a)
2

(

Рисунок 4.1: Как внесение случайной волатильности1 создает
более жирные хвосты благодаря
выпуклости вниз тех частей
распределения плотности вероятности, где отклонение от
нуля примерно равно масштабу
распределения

)

0,3

Распределение
со средними
параметрами

0,2

0,1

–4

–2

2

4

1 На всех графиках использовано a = 0,75, то есть вверху сравниваются две гауссианы со среднеквадратическим отклонением
и
, а внизу сравнивается гауссиана с усредненным среднеквадратическим отклонением

≈ 0,91 (зеленая кривая) и стохастизированное распределение,

возникающее при усреднении двух гауссиан вверху (красная кривая).

94

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Поскольку при жирных хвостах моменты высокого порядка растут, даже когда
низшие моменты остаются те же, мы сможем повысить жирнохвостость (судя по четвертому моменту), сохранив неизменными два или три низших момента1.
4.1.1. Эвристика, сохраняющая дисперсию
Попробуем так «стохастизировать» дисперсию распределения, чтобы сохранять
постоянное 𝔼X 2, но добиться большего 𝔼X 4. За величиной 𝔼 X 4 проще следить, чем за
дисперсией случайной величины 𝔼 X 2, то есть центральной величиной, 𝔼(X 2 – 𝔼X 2) 2,
и мы сфокусируемся на простой величине, пока центральность не важна. Позже мы
проследим за «стохастизацией» подробнее, в дальнейших разделах этой главы.
Эффективная эвристика, поддерживающая интуицию при попытках ужирнить
хвосты, состоит в том, чтобы воспроизвести случайную величину опять со средним
значением 0 и с той же дисперсией, но применив следующий прием ужирнения хвоста: рассмотреть случайную величину, которая с вероятностью
следует распределению 𝒩

и с вероятностью

следует распределению 𝒩

,

где 0 ≤ a < 1. .
Характеристическая функция3 будет такая:
2

.

(4.1)

Нечетные моменты нулевые. Второй момент сохранен, поскольку
,

(4.2)

а четвертый момент оказывается
(4.3)
что дает традиционный эксцесс (без вычитания 3 ради сравнения с гауссовым) равный
3(a2 + 1). Таким образом, всякий эксцесс можно представить через «предположительное» значение a. Грубо говоря, a — это среднее отклонение стохастизированного параметра дисперсии, «волатильность волатильности»; в формулах будем обозначать Vvol .
Ограничения простой эвристики. Данный эвристический прием полезен для
первого интуитивного понимания, но его возможности ограничены: поднять экс1 Повторим сказанное в прошлой главе: в литературе иногда тщатся различать «жирный хвост» и «тяжелый хвост», резервируя первый исключительно за степенным законом, а второй — за субэкспоненциальным распределением (о котором поговорим позже). Безнадега. Мы называем «жирным хвостом» просто
всякое распределение, эксцесс которого больше, чем гауссов, или не определен. Такое употребление слов
работает для практиков, имеющих дело с жирными хвостами, то есть трейдеров, торгующих опционами,
и удобно при обсуждении «ужирнения хвостов», как мы увидим далее в этом разделе. — Прим. автора.
2 Здесь в 𝒩 (., .) указаны параметры среднее и среднеквадратическое отклонение, а не так, как в справочном Разделе 2.1, где параметры нормального распределения — среднее и дисперсия.
3 Заметим, при среднем 0 нет никакой разницы между характеристической функцией и производящей
функцией моментов; это свойство пригодится нам потом, в более технических главах. — Прим. автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

95

цесс удается максимум вдвое1 по сравнению с гауссовым. Тем самым ценность этого
метода в основном педагогическая, познакомиться с тем, как работает выпуклость
вниз. В Разделе 4.1.2 будет представлена более развитая техника.

Замечание 4: Пики
Как показывает Рисунок 4.4, жирные хвосты проявляются более высокими
пиками — наблюдения концентрируются в центре распределения.

Многие этого не понимают.
4.1.2. Ужирнение хвостов при помощи асимметричной дисперсии
Можно следующим образом усовершенствовать эвристику получения жирных хвостов, описанную в главке 4.1 (ограниченную эксцессом только вдвое больше, чем
гауссов). Будем переключаться между гауссовыми распределениями с дисперсией:
(4.4)
,
где p ∈ [0, 1) и

; это даст характеристическую функцию

с эксцессом

, что позволяет регулировать контраст между состояниями

и повышать эксцесс, сохраняя дисперсию2.
Так, при p =

и соответствующем максимально допустимом3 a = 999 можно

добиться эксцесса около 3000.
Эта эвристика отлично приближает действие, которое оказывает на вероятности
логнормальное взвешивание с характеристической функцией

(4.5)

где v — дисперсия и Vv — дисперсия второго порядка, так называемая волатильность
волатильности. Благодаря интегрированию по частям преобразование Фурье позво1 Чтобы смоделировать более жирный хвост, как при степенном законе fX (x) ~ x –α–1 с α ≤ 4, нужно добиться
бесконечно большого эксцесса.
2 Средневзвешенная дисперсия получится

.

3 Подразумевается, что в формуле (4.4) во втором состоянии, с вероятностью 1 – p, дисперсия σ2 (1 + b)
должна быть неотрицательной. С учетом

требуется

, и при

требуется a ≤ 999.

96

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ляет получить все разновидности функции платежа (см. Гезерал [102]). С другой стороны, можно поправить отсутствие аналитической формулы и следующим способом,
при помощи более удобных для анализа распределений дисперсии.
Гамма-дисперсия. Гамма-распределение1 выгодно применить к дисперсии гауссова распределения, чтобы быстро получить полное распределение дисперсии и
выйти за узкие рамки эвристического нащупывания [36]. Его удобнее анализировать,
чем логнормальное.
Примем, что дисперсия гауссова распределения следует гамма-распределению

. На Рисунке 4.2 показано соот-

со средним V и среднеквадратическим отклонением

ветствие логнормальному с теми же первыми двумя моментами, где мы откалибровали логнормальное распределение под математическое ожидание
неквадратическое отклонение

и сред-

.

Итоговое распределение получается такое (снова предполагая, что средняя стохастизированная дисперсия та же, что была фиксированная):
(4.6)
откуда удается получить явный вид
1 Гамма-распределение с коэффициентом формы a > 0 и коэффициентом масштаба b > 0 (или со средним
V = ) в частном случае a ∈ ℕ присуще случайному времени X > 0 ожидания a событий, когда события происходят случайно, независимо друг от друга и со средней частотой
. В этом частном случае гамма-распре,

деление называется также распределением Эрланга; плотность вероятности

x > 0. В общем случае a ∈ ℝ+; плотность вероятности

, x > 0. Как в частном

случае a ∈ ℕ, так и в общем случае a ∈ ℝ>0 среднее
, эксцесс

. Кумулянты

,

, дисперсия

,

Для суммы n н. о. р. X1 + … + Xn кумулянты
, …,

, коэффициент асимметрии

,
,

, …,
;

.
,

,

.

Характеристическая функция

.

Случайную величину X ∈ ℝ , следующую гамма-распределению с коэффициентом формы a > 0 и коэффициентом масштаба b > 0, принято обозначать как Gamma(a, b –1); этой традиции следуют надписи на
графиках Рисунка 4.2.
+

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

Gamma (1, 1) и логнормальное распределение
для стохастизации дисперсии

Gamma (4, 41 ) и логнормальное
распределение для стохастизации
дисперсии. Достигается α = 4

Pr

Pr

1,0

97

1,0

0,8

0,8

0,6

0,6

0,4

0,4

0,2

0,2

1

2

3

4

5

V

1

2

3

4

5

V

Рисунок 4.2: Чем можно стохастизировать дисперсию: гамма-распределением и логнормальным
распределением с теми же математическим ожиданием и дисперсией

(4.7)
где Kα(z) — K-функция Бесселя1, удовлетворяющая дифференциальному уравнению
–y(α2 + z2) + z2y″ + zy′ = 0 2.
Стохастизация гауссова распределения
гамма-распределением дисперсии

Рисунок 4.3: Стохастизация дисперсии
гамма-распределением при различных a в формуле 4.7

–4

–2

0

2

4

Углубимся теперь в различные формы стохастической волатильности.
1 В русской литературе называется также модифицированной функцией Бесселя второго рода, или функцией Макдональда. K-функции Бесселя экспоненциально убывают, и чем больше параметр α, тем позже
начинается хвост функции
.
2 Как одно из двух решений этого дифференциального уравнения (это т. н. модифицированное уравнение Бесселя). Еще одно решение обозначают Iα(z); в русской литературе называют модифицированной функцией Бесселя первого рода, или функцией Инфельда. I-функции Бесселя экспоненциально возрастают.

98

Н АС С И М Н И К ОЛ АС ТА Л Е Б

4.2. СПОСОБНА ЛИ СТОХАСТИЧЕСКАЯ ВОЛАТИЛЬНОСТЬ
ГЕНЕРИРОВАТЬ СТЕПЕННЫЕ ЗАКОНЫ?
Мы еще не дали определение степенны́м законам; примем пока как критерий то, что
хотя бы один из статистических моментов должен оказаться бесконечным.
И вот ответ на вопрос: нет, не способна, до тех пор, пока мы стохастизируем σ или
σ2, но будет способна, когда стохастизируем или .
Пусть исходное распределение гауссово, то есть случайная величина X ~ 𝒩 (μ, σ).
Есть несколько способов стохастизировать масштаб σ. Заметим, что σ может быть
только положительной; значит, для ее стохастизации требуется однохвостое распределение.







Можем заставить σ 2 (вариант: σ) следовать логнормальному распределению.
Из него не получить аналитические решения, но можно узнать статистические моменты сгенерированного распределения и убедиться, что его хвост не
следует степенному закону.
Можем заставить σ 2 (вариант: σ) следовать гамма-распределению. Можно
получить аналитические решения, как мы видели в примере выше, формула 4.7.
— параметр точности — следовать гамма-распределеМожем заставить
нию.
Можем заставить следовать логнормальному распределению.

Результаты, приведенные в Таблице 4.1, происходят из следующих простых
свойств функций плотности и операторов математического ожидания. Пусть X — случайная величина с функцией плотности вероятности f (.) в семействе распределений
с коэффициентами сдвига и масштаба, λ — случайная величина с функцией плотности
вероятности g (.); X и λ предполагаются независимыми. В силу стандартных теорем
(о преобразованиях Меллина) моменты порядка p для произведения Xλ и для отношения представимы в виде:
𝔼 (X λ) p = 𝔼 X p 𝔼 λp
и
𝔼

=𝔼

𝔼 X p.

Заметим, что в силу свойств семейства распределений с коэффициентами положения и масштаба
,
поэтому, в частности, если случайная величина X следует нормальному распределению X ~ 𝒩 (0, σ), то ~ 𝒩 (0, 1).

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

99

Таблица 4.1: Преобразования, стохастизирующие волатильность. По плотности после преобразования

или

можно понять, удалось ли получить степенной закон. ℒ𝒩, 𝒩, 𝒢 и 𝒫 —

cоответственно логнормальное, нормальное, гамма-распределение и распределение Парето.
Распределение

f (x)

ℒ𝒩 (μ, σ)

𝒩 (μ, σ)

𝒢 (a, b)
𝒫 (1, α)

αx –α–1

αx α–1

2α x 2α–1

Таблица 4.2: p-тые моменты возможных распределений для дисперсии
Распределение

𝔼 Xp

𝔼

𝔼

ℒ𝒩 (μ, σ)
𝒢 (a, b)

b p(a)p

Безнадега

𝒫 (1, α)

4.3. ТУЛОВИЩЕ, ПЛЕЧИ И ХВОСТЫ
Где начинаются хвосты?
Примем, что хвосты начинаются на уровне выпуклости вниз сегмента вероятностного распределения, отвечающем масштабу распределения, — другими словами,
в сегменте, на который влияет стохастизация.
4.3.1. Точки перехода и туннельный эффект
На Рисунке 4.4 обратите внимание на переходные зоны, не зависящие от a. У так называемых колоколообразных распределений выпуклость направлена вниз-вверх-вниз,
это то, что называется «квазивыпуклость вверх».
Пусть X — случайная величина, у которой плотность вероятности p(x) принадлежит некоторому общему классу pσ всех унимодальных1 непрерывных функций с одним
параметром, определенных на носителе 𝒟 ⊆ ℝ параметром масштаба σ. Пусть p(.)
1 В русской литературе унимодальность называется также одновершинностью (unimodality). Имеется
в виду функция одного аргумента, возрастающая до точки максимума и убывающая после точки макси-

100

Н АС С И М Н И К ОЛ АС ТА Л Е Б

квазивыпукла вверх на области определения, но не является выпуклой вниз или вверх.
Плотность вероятности p(x) удовлетворяет для всех ε > 0 неравенству p(x) ≥ p(x + ε)
1
при x > x* и неравенству p(x) ≥ p(x – ε) при x < x*, где
.
Квазивыпуклость вверх функции p означает, что для любых двух точек x, y и любой
точки между ними ωx + (1 – ω)y, где ω ∈ [0, 1],
p(ωx + (1 – ω)y) ≥ min(p(x), p(y)).
Рассмотрим две возможности.
A. Случайная величина двухвостая, то есть определена на множестве 𝒟 = (–∞, ∞);
, находим, что

тогда, обозначив

1) существует «туннель под вершиной», такой интервал AT = (a2, a3), что возмущенное на величину δ вероятностное распределение pδ(x) ≥ p(x) при x ∈ (a2, a3);
2) существуют два «периферийных туннеля», такие «хвосты», что pδ(x) ≥ p(x) при
x ∈ (–∞, a1) или x ∈ (a4, ∞);
3) существуют два промежуточных моста, такие «плечи»2, где pδ(x) ≤ p(x) при
x ∈ (a1, a2) или x ∈ (a3, a4).

Проблема черного лебедя. Как мы видели, дело не только в том, что события
в хвостах распределения имеют значение, случаются, играют важную роль
и т. п. Суть в том, что эти события играют главную роль, а их вероятности не
то что трудно вычислить, их даже оценить не удается. Вывод тот, что не обязательно винить за черных лебедей жирные хвосты; проблема может заключаться в неполной оценке хвостовых событий.

Найдем A = {ai} как множество решений уравнения,

.

Для гауссова распределения с параметрами (μ, σ) уравнение примет вид:3

откуда точки перехода

мума; другие, локальные максимумы запрещены. Для функции одного аргумента унимодальность равносильна квазивыпуклости вверх.
1 Обозначение
f (x) (от arguments of the maxima, аргументы максимизации) в русской литературе
встречается также в виде xmax — точки максимума функции f (x). В данном случае x* — положение горба.
2 В русской литературе плечи (shoulders) называются также склонами. Антитуннели можно также назвать
мостами.
3 В самом деле, если допустить μ ≠ 0, то плотность

.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

101

0,6

0,5

«Плечи»
(a1, a2), (a3, a4)

«Пик»
(a2, a3)

0,4

0,3

0,2

Левый «хвост»

Правый «хвост»

0,1

α1
–4

α2

α3

α4

–2

2

4

Рисунок 4.4: Где начинаются хвосты? Чтобы сделать хвосты жирнее, стохастизируем гауссово распределение, сделав переменным параметр масштаба σ. В одних местах плотность
вероятности повысится, в других понизится. Средние по величине отклонения от нуля станут
менее вероятными, а хвостовые и малые — более. Обратим внимание на точки пересечения,
от a1 до a4. Собственно «хвосты» простираются от a4 вправо и от a1 влево*
* Изображено семейство

при δ = 0, 0,2, 0,5 и 0,8; синяя кривая — гауссиана, без

стохастизации; зеленая кривая — при δ = 0,8. — Прим. перев.

{a1, a2, a3, a4} =
.

(4.8)

На Рисунке 4.4 эти точки1 показаны численно, как {–2,13σ, –0,66σ, 0,66σ, 2,13σ}.
Для симметричного степенного закона (как мы увидим ниже) можно использовать
t-распределение Стьюдента с масштабом s и показателем хвоста α:

,

где бета-функция Β(., .) определяется как

.

1 При μ = 0. Этим точкам отвечают пересечения гауссианы (синяя кривая) со слабо стохастизированным
распределением (лиловая кривая, δ = 0,2).

102

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Отсюда точки перехода следующие:
{a1, a2, a3, a4} =

При «кубическом» t-распределении Стьюдента, т. е. при α = 3:
.

Итак, где начинается хвост?
Для общего класса симметричных распределений по степенным законам
s. В случае стохастизиро-

хвост начинается в точке

ванного гауссова распределения α бесконечно, а s — среднеквадратическое
отклонение; хвост располагается между 2–3 среднеквадратическими отклонениями. Это вытекает из нашего определения хвоста как промежутка, где
распределение выпукло вниз к изменениям коэффициента масштаба.
Впрочем, на практике из-за эффектов малой выборки историческая оценка
среднеквадратического отклонения занижается (как мы любим повторять, жирные хвосты усиливают эффекты малой выборки), так что хвостовые отклонения будут больше, чем от 2 до 3 среднеквадратических отклонений по выборке.

Мы можем доказать, что при α → ∞ точки перехода превращаются в гауссовы.
Например, точка a1:

B. Некоторые однохвостые распределения тоже колоколообразны, то есть выпуклы
вниз-вверх-вниз, и для них по-прежнему существуют 4 точки перехода. Частный случай — логнормальное распределение:
{a1, a2, a3, a4} =

Стохастические параметры. Проблема с эллиптическими распределениями в том,
что они не отображаются в доходность ценных бумаг, поскольку ни в какой момент времени не имеют одной дисперсии; смотрите у Бушо и Шишпортика (2010) [42]. Когда
масштабы распределений индивидуальных участников изменяются не в тандеме, резуль-

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

103

тирующее распределение уже не эллиптическое. На Рисунках 6.2–6.5 показан эффект от
применения аналога методов стохастической волатильности, создающего более сильное
возмущение, — метода стохастической корреляции. Вместо того чтобы вносить возмущение в корреляционную матрицу S как единое целое, подобно тому, что мы делаем в Разделе 6, начнем вносить возмущения в корреляции — и получим удивительный эффект.
4.4. ЖИРНЫЕ ХВОСТЫ, СРЕДНЕЕ ОТКЛОНЕНИЕ
И ПОВЫШАЮЩИЕСЯ НОРМЫ
Далее рассмотрим использование среднеквадратического отклонения и то, как его
интерпретировать.
4.4.1. Обычные ошибки
Сначала рассмотрим среднеквадратическое отклонение и дисперсию как свойства
высших моментов. Но придется пояснить, что такое среднеквадратическое отклонение. Потому что распространившаяся путаница с жирными хвостами отравила и наше
понимание среднеквадратического отклонения тоже.

Есть различие между среднеквадратическим отклонением и средним абсолютным отклонением, и это различие усиливается в случае жирных хвостов.
Примем для простоты, что среднее и медиана равны 0; тогда среднеквадрати, а среднее абсолютное отклонение

ческое отклонение

.

Рисунок 4.5 дает общее представление о том, как растет различие между этими
статистическими моментами при больших средних отклонениях.

3,0

2,5

2,0

1,5

–3

–2

–1

1

2

3

Рисунок 4.5: Сравним поведение взвешивающих функций
и K + |x|. Оно расходится при больших значениях случайной величины x, показывая, почему при жирном хвосте среднеквадратическое отклонение расходится со средним абсолютным отклонением; это обобщается и на моменты более высоких порядков

104

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Дэн Голдстайн и автор [113]ставили такой вопрос перед профессиональными
инвесторами и студентами выпускных курсов по финансовому инжинирингу — то
есть людьми, которые постоянно работают с рисками и отклонениями.
Акция (или фонд) имеет среднюю доходность 0 %. Она изменяется в абсолютном выражении в среднем на 1 % за день; рост в среднем составляет 1 %, падение
в среднем составляет 1 %.
Это не значит, что рост всегда на 1 % — в некоторые дни рост 0,6 %, в другие
дни 1,45 % и пр.
Допустим, что мы живем в гауссовом мире, где доходность (или процент изменения за день) надежно моделируется нормальным распределением. Допустим,
что в году 256 рабочих дней. Каково среднеквадратичное отклонение доходности (то есть процента изменения), параметр σAdj, характеризующий волатильность
в финансовых прикладных программах?
Каково среднеквадратическое отклонение за день?
Каково среднеквадратическое отклонение за год?
Как может видеть читатель, в условии задачи было описано среднее абсолютное
отклонение, а найти требовалось отклонение среднеквадратическое. Ответы на задачу
в подавляющем большинстве оказались ошибочными. Почти все указали отклонение
за день 1 %. На самом деле гауссова переменная величина, которая за день изменяется в абсолютном выражении в среднем на 1 %, имеет среднеквадратическое отклонение выше процента, около 1,25 %. В выборочных распределениях должно быть еще
больше, до 1,7 %. Про отклонение за год больше всего ответов было 16 % или около
того, что составляет около 80 % от правильного ответа.
Профессиональные инвесторы для перехода от волатильности за день к волатильности за год умножали на
, и это дало бы правильный результат, если бы применялось к правильной оценке волатильности за день.
Итак, испытуемые были склонны сообщать MAD, когда их спрашивали о среднеквадратическом отклонении. Когда профессионалы финансовых рынков, постоянно
слышащие, как обсуждают волатильность, говорят о «стандартном отклонении»,
они имеют в виду не среднеквадратическое отклонение, а среднее абсолютное, из-за
чего недооценивают отклонения на 20–40 %; для некоторых рынков недооценка
может доходить до 90 %. И когда им указывали на ошибку, мало кто из них понимал,
что ошибся. При всем при том на просьбу выписать формулу стреднеквадратического отклонения они успешно рисовали квадратный корень из среднего квадрата
отклонения. Некоторые удивлялись, первый раз услышав от нас о существовании
MAD.
Почему это важно: сложилась ситуация, где руководители, принимающие решения, рассуждают о «волатильности», имея о ней смутное представление. В финансовой печати отмечаем, что в ряде мест ту же ошибку делает и журналист, пытаясь объяснить термин VIX (от volatility index, индекс волатильности). Даже на официальном
сайте Министерства торговли США волатильность определена неверно.
Ошибка ведет к недооценке отклонений, потому что MAD, согласно неравенству
Йенсена, меньше среднеквадратического отклонения (или равно ему).
Как растет отношение этих параметров. Для гауссовой случайной величины
отношение ~1,25, а для жирных хвостов — больше.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

105

Пример. Возьмем распределение с чрезвычайно жирным хвостом, в котором из
n = 106 наблюдений одно-единственное показало миллион, а все остальные — минус
единицу:
X = {–1, –1, …, –1, 106}.
Среднее абсолютное отклонение
MAD(X) = 2.
Среднеквадратическое отклонение
STD(X) = 1000.
Отношение среднеквадратического отклонения к среднему абсолютному отклонению составило 500.
STD/MAD

Рисунок 4.6: Отношение
STD/MAD для ежедневной доходности S&P 500
за последние 47 лет по
скользящему временному
окну 1 месяц. На уровень

1,7
1,6
1,5
1,4

≈ 1,253 (как приблизи-

1,3
1,2
1,1

Время

тельное значение для гауссовых отклонений) можно
смотреть как на точку
отсечения жирнохвостости

4.4.2. Немного аналитики
Отношение при тонких хвостах. Как полезную эвристику рассмотрим отношение h:
,
где 𝔼 — оператор математического ожидания (применяемый к исследуемому вероятностному параметру), а X — центральная случайная величина, то есть 𝔼 X = 0; это
отношение растет с ростом жирности хвостов распределения. Пока речь об отношении для статистического момента второго порядка; в общем случае можно рассмотреть

, где p > 1 и для X существуют конечные статистические моменты до

p-того, а наш случай будет при p = 21.
Упрощая, X p можно считать взвешивающим оператором, умножающим каждое
слагаемое xi на вес xip – 1; этот вес велик при больших значениях x и мал при малых.
1 Термин «бесконечный» несколько двусмыслен; лучше представить проблему как «неопределенный»
момент, в том смысле, что он зависит от выборки и не воспроизводится за ее пределами. Заметим, что,
например, у двухвостого распределения, то есть определенного на всей оси действительных чисел, может
быть бесконечно большой момент четвертого порядка, но не третьего. — Прим. автора.

106

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Эффект недооценки волатильности по среднему абсолютному отклонению порождается выпуклостью вниз разности между двумя функциями. Вторая функция, |X|,
кусочно-линейная и не имеет выпуклости за пределами области вокруг нуля.
Среднее абсолютное отклонение против среднеквадратического, подробнее
Почему в статистике предпочли STD, а не MAD? Рассказываю, добавляя аналитические выкладки, которых не вижу в доступной литературе. Читаем у Хьюбера [131]:
Был спор между Эддингтоном и Фишером, примерно в 1920 году, об относительных достоинствах dn (среднее абсолютное отклонение) и Sn (среднеквадратическое отклонение). Потом Фишер указал, что для в точности нормальных
наблюдений Sn на 12 % эффективнее, чем dn, и, видимо, это решило исход спора
(выделение мое. — Авт).
Давайте реконструируем выкладки Фишера и поймем, что он имел в виду.
Пусть n — число слагаемых.
Асимптотическую относительную эффективность (Asymptotic Relative Efficiency,
ARE) можно определить как
1

.
Примем, что Xi , компоненты выборки, следуют гауссову распределению, нормализованному к математическому ожиданию 0 и среднеквадратическому отклонению 1.
Относительная погрешность среднеквадратического отклонения
Характеристическая функция Ψ1(t) для распределения квадрата отклонения, X 2:

Обозначая сумму квадратов отклонения Z, выпишем плотность вероятностного
распределения при n слагаемых

где z > 02. Тогда для

получаем3 распределение

1 Здесь STD обозначает STD(X1, …, Xn) и MAD обозначает MAD(X1, …, Xn).
2 Это распределение известно как хи-квадрат с n степенями свободы; таково распределение суммы квадратов n независимых случайных величин, которые все гауссовы, со средним 0 и дисперсией 1.
3 Пользуясь тем, что если для случайной величины Z с распределением плотности вероятностей по закону
fZ (z) рассматривается гладкое возрастающее отображение y = τ (z), то существует обратное отображение
z = τ –1(y), существует производная (τ –1(y))′ > 0 и Y = τ(Z) является случайной величиной с распределением
плотности вероятностей по закону fY (y) = fZ(τ –1(y))(τ –1(y))′.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

107

где y > 0, что соответствует хи-распределению с n степенями свободы1. Интегрируя,
находим дисперсию: 𝕍 STD(n) =

ожидание равно

. С учетом того, что математическое

, получаем отношение

Относительная погрешность абсолютного отклонения
Характеристическая функция для |x| — просто сложенное нормальное распределение,
но давайте повторим выкладки:

где т. н. мнимая функция ошибок
Первый момент

.

Второй момент

Значит 2,

В самом деле, здесь рассматривается случайная величина Z с распределением

в области

z > 0 и возрастающее отображение
. Поэтому в рассматриваемой области существует обратное отображение z = y 2, при y > 0, и положительная производная обратного отображения, (y 2)′ = 2y > 0 при y > 0, и
является случайной величиной с распределением

.

1 Распределение квадратного корня суммы квадратов n независимых случайных величин, которые все гауссовы, со средним 0 и дисперсией 1.
2 Использовано тождество 𝕍X = 𝔼X 2 – (𝔼X)2 применительно к X = MAD.

108

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Вуаля, асимптотическая относительная эффективность для гауссианы

то есть среднеквадратическое отклонение на 12,5 % «эффективнее» среднего абсолютного отклонения, когда данные Гауссовы, и наши герои приняли такой довод. Хотя от
этого отношения ничего не останется при малейшем загрязнении данных. Мы покажем далее, почему норма ℓ2 не подходит почти нигде, а пока просто бросим взгляд на
то, как хрупко среднеквадратическое отклонение STD.
4.4.3. Влияние жирных хвостов на «эффективность» STD против MAD
Рассмотрим волатильность в обычной модели смешения, где с вероятностью p происходит случайное переключение на одно из двух распределений. Пусть они оба будут
гауссовы и с математическим ожиданием 0; тогда и у модели математическое ожидание будет такое же. Дисперсию будем смешивать:

.
Как простой способ исследовать модель используем метод Монте-Карло. Пусть
загрязнение выбросами будет скромное, с вероятностью p = 0,01. На Рисунке 4.7 показано, что уже начиная с a = 2 ничего не остается от преимущества в эффективности
у среднеквадратического отклонения по отношению к среднему абсолютному. С появлением выбросов MAD становится эффективнее, чем STD. Даже такие скромные
«выбросы», как 5 сигм, делают MAD впятеро эффективнее, чем STD1.
RE
8

Рисунок 4.7: Моделирование
эффективности (Relative
Efficiency, RE) среднеквадратического отклонения
сравнительно со средним
абсолютным отклонением,
если подмешать в выборку

6

4

выбросы величиной
σ,
где σ — среднеквадратичное
отклонение

2

5

10

15

20

a

1 Обычно MAD центрируют вокруг медианы, но мы находим, что для многих задач в этой книге (и вообще
в теории принятия решений) важнее видеть отклонения от среднего. Делая соответствующую оговорку,
мы не раз будем центрировать MAD относительно среднего. — Прим. автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

109

4.4.4. Моменты и неравенство о средних разной степени
Определим n-мерный вектор:1

и норму степени p:2
.
Для любых 1 ≤ p < q выполняется неравенство:
,

(4.9)

где веса́ wi в сумме дают 13. (Заметим, что избегаем случая p < 1, поскольку в нем нарушается неравенство треугольника.)
Доказательство. Пользуясь тем, что p и q положительные, определим функцию
.
Поскольку f — степенна́я функция, ее вторая производная тоже степенная:

и строго положительна на всей области определения функции f, так как p < q; значит,
f выпукла вниз. Следовательно, в силу неравенства Йенсена,

поэтому

Возведя обе части в степень 1/q (это возрастающее преобразование, поскольку
1/q положительно), получаем требуемое неравенство.
В нашей задаче, как и вообще в изучении влияния жирных хвостов, важно, что для
нормы данной степени с ростом дисперсии исследуемых данных растет норма.
Начнем с примера плоского4 распределения X = {1, 1}5. Нормы всех степеней
ǁXǁ1 = ǁXǁ2 = … = ǁXǁn = 1.
1 Обозначен жирным шрифтом; в литературе встречается также обозначение .
2 То же самое, что среднее степени p данных n чисел x1, x2, …, xn; в литературе встречается также обозначение Ap(x1, x2, …, xn).
3 Оба участника неравенства — так называемое среднее взвешенное степени p или q данных n чисел x1, x2,
…, xn с весами w1, w2, …, wn; в литературе встречается также обозначение x̅.
4 «Плоская» последовательность значит константа. В русской литературе обычно эта метафора относится
только к области постоянства функции: участок плато на графике.
5 Цепочка чисел выписана в фигурных скобках; в литературе встречается также запись с другими скобками — круглыми: (1, 1) или угловыми: ⟨1, 1⟩.

110

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Внесем возмущение, сохранив ǁXǁ1. Для
степени:

получим рост нормы с ростом
(4.10)

Если усилить возмущение, дальше отклонившись от постоянного значения,
и взять

, получим еще большие нормы:

(4.11)
Как можно видеть, высшие моменты демонстрируют взрывной рост.
Полезно знать свойство степенных законов с бесконечными моментами:
(4.12)
Гауссов случай. Рассмотрим гауссову случайную величину X ~ 𝒩 (0, σ2); мы полагаем математическое ожидание 0, не теряя общности.
Пусть 𝔼 — оператор математического ожидания. Тогда1

или, как удобнее для работы с четными p,
(4.13)
где Γ(z) — это эйлерова гамма-функция2

Для нечетных моментов отношение равно 0. Для четных моментов

откуда

1 Здесь использованы свойства гауссова распределения:
если p нечетно, 𝔼 X p = 0;
если p четно,
;
.
2 Поскольку для четного p эйлерова гамма-функция
.

, удобнее

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

111

отношение четвертого момента к среднему абсолютному отклонению

и т. д.
Для распределения по степенному закону с показателем хвоста α = 3, скажем для
t-распределения Стьюдента,

Вернемся к другим показателям и определениям жирного хвоста при распределении по степенному закону с так называемыми «бесконечными» моментами, то
есть с несуществующими моментами. Наша эвристика — рассматривать отношение
момента к среднему абсолютному отклонению — работает только внутри выборки, не
распространяясь за ее пределы.
Случай Парето1. Для стандартного распределения Парето с минимальным значением (и масштабом) L, плотностью вероятности f (x) = αLαx–α – 1 и среднеквадратичным
отклонением

имеем

(4.14)

центрируя MAD относительно математического ожидания.
«Бесконечные» моменты. Любой бесконечный момент любого порядка, например бесконечная дисперсия, в наблюдаемой выборке проявляется как вычисляемая
величина, то есть как конечный момент, просто потому, что выборка конечна. Скажем,
распределение Коши, имеющее неопределенное математическое ожидание, в конечной выборке даст измеримое математическое ожидание; другое дело, что разные
выборки будут давать совершенно разные математические ожидания. На Рисунках
4.8 и 4.9 иллюстрируется «дрейф» моментов по мере поступления информации.

1 Случайная величина Парето порождается средой, где неравномерности усиливаются до масштабов,
сопоставимых с размерами всей среды; например, таково распределение богатства в условиях, когда
действует принцип «деньги к деньгам», семейные богатства передавались наследникам из поколения
в поколение и выросли до размеров, сравнимых с богатством всей страны.
Случайная величина X следует распределению Парето с коэффициентом масштаба L > 0 и коэффициентом формы, он же показатель степени хвоста α > 0, если X ∈ [L, ∞), то есть имеет минимальное значение
L > 0, и функция распределения имеет вид степенного закона
Плотность вероятности fX (x) = αLαx–α – 1 однохвостая с максимумом на краю x = L; среднее ∞ при α ≤ 1,
иначе
иначе

; дисперсия ∞ при α ≤ 2, иначе

; коэффициент асимметрии не существует при α ≤ 3,

; коэффициент эксцесса не существует при α ≤ 4, иначе

..

112

Н АС С И М Н И К ОЛ АС ТА Л Е Б

4
3
2
1

2000

4000

6000

8000

10 000

T

Рисунок 4.8: Как изменяется
математическое ожидание
выборки для последовательности
данных, когда для их распределения (распределение Коши)
математическое ожидание
не определено

–1
–2

4,0

Рисунок 4.9: Квадратный корень
из второго момента выборки
для последовательности данных,
когда у их распределения бесконечная дисперсия. Наблюдаем
кажущееся схождение, но только
до очередного скачка

3,5

3,0

2000

4000

6000

8000

10 000

T

4.4.5. Комментарий: почему среднеквадратическое отклонение нужно отправить
в отставку, и немедленно!
Понятие среднеквадратического отклонения сбило с толку толпы ученых; пора отправить его в отставку из общего употребления и заменить на более эффективное среднее
абсолютное отклонение. Среднеквадратическое отклонение (Standard deviation, STD)
следует оставить математикам, физикам и специалистам по математической статистике, выводящим предельные теоремы. Нет научных резонов рекомендовать его для
статистических исследований в нашу компьютерную эпоху, ибо от него больше вреда,
чем пользы — особенно когда растущий класс специалистов в общественных науках
применяет готовые статистические инструменты к научным проблемам.
Скажем, пусть кто-то попросил вас оценить «среднее отклонение за день» для
температуры в вашем городе (или биржевой стоимости компании, или артериального давления вашего дядюшки) на протяжении пяти последних дней. Данные об
отклонениях в эти пять дней такие: (–23, 7, –3, 20, –1). Как вам оценить среднее
отклонение?
Может быть, взять каждое наблюдение, возвести в квадрат, найти среднее по всем
квадратам и извлечь из него квадратный корень? Или удалить знаки минус и посчитать среднее? Между этими двумя методиками серьезные различия. Первая оценит
среднее отклонение как 15,7, а вторая — как 10,8. Первая в английской литературе

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

113

величается «стандартным» отклонением, а вторая — «средним» отклонением (mean
absolute deviation, MAD). На самом деле вторая куда лучше соответствует «практическим задачам» и отражает реальность. Интуитивно мы часто ожидаем услышать
именно о второй величине; нередко человеку сообщают среднеквадратическое отклонение, а он затем действует так, будто принял эту величину за среднее отклонение.
Причиной всему историческая случайность: в 1893 великий Карл Пирсон употребил термин «стандартное отклонение» (standard deviation) вместо употреблявшегося
более громоздкого «среднеквадратическая ошибка» (root mean square error). И положил начало великому заблуждению: публика решила, что это значит среднее абсолютное отклонение. Предрассудок пустил корни и затвердел, как скала; всякий раз,
когда какая-нибудь газета пыталась уточнить понятие рыночной «волатильности»,
она сбивалась в словесных описаниях на среднее абсолютное отклонение, даже если
приводила формулу, по которой насчитала среднеквадратическое отклонение, более
высокое.
И если бы только журналисты; я видел то же смешение в официальных документах Министерства торговли США и Федерального резерва — в заявлениях
о рыночной волатильности, сделанных регуляторами рынка. Хуже того, мы с Голдстайном обнаружили многочисленных специалистов по анализу данных (зачастую
с докторскими научными степенями), которые путали эти вещи в практических
задачах.
Вот что натворил неудачный термин для неинтуитивного понятия. Психологический феномен склонность к упрощению (attribute substitution) толкает людей принимать STD за MAD, потому что о MAD легче думать — это эффект Линди1, хорошо
известный мошенникам и иллюзионистам.
Вот наши аргументы за революцию.
1) MAD точнее оценивается по выборке и менее волатильно, чем STD, поскольку
не взвешивает наблюдения, тогда среднеквадратическая ошибка приписывает
бо́льшим отклонениям больший вес, переоценивая хвостовые события.
2) Мы часто используем STD в формулах, но в итоге приходим к необходимости преобразовать его в MAD (скажем, в финансах — для определения стоимости
опциона). Поправка существенная. В Гауссовом мире STD примерно в 1,25 раза
больше MAD — если точно, то в

раз. Но нам надо выживать при стохастической

волатильности, где STD нередко превосходит MAD в 1,6 раза.
3) Многие статистические явления и процессы характеризуются «бесконечной
дисперсией» (то же знаменитое правило Парето 80/20), хотя обладают конечным
и часто спокойно ведущим себя средним абсолютным отклонением. Во всех случаях,
где существует STD, существует и MAD. Риска в эту сторону (бесконечное MAD при
конечном среднеквадратическом отклонении) не существует.
4) Многие экономисты побоялись рассмотреть модели с бесконечной дисперсией,
подумав, что это значит бесконечное среднее абсолютное отклонение. Прискорбно, но
факт. Когда великий Бенуа Мандельброт выдвинул свои модели с бесконечной дисперсией пятьдесят лет назад, экономисты испугались, потому что в их головах смешалось одно с другим.
1 См. определение Lindy в главке 5.0.2. — Прим. автора.

114

Н АС С И М Н И К ОЛ АС ТА Л Е Б

0,15

0,10

0,05

0,00

1

2

3

4

5

0,035
0,030
0,025

Рисунок 4.10: Как распределено
среднее абсолютное отклонение (синим) и среднеквадратическое отклонение (желтым),
если исходное распределение
следует степенному закону
с конечной дисперсией. Как
обычно, у MAD более узкое
распределение; в данном случае
его даже трудно сравнить с
распределением STD, имеющим бесконечную дисперсию
(потому что квадрат случайной величины, распределенной
по Парето с показателем α,
распределен по Парето с показателем α/2). Можно, впрочем,
сравнить распределения MAD
и STD по их среднему абсолютному отклонению: у распределения STD оно в 5 раз больше

0,020
0,015
0,010
0,005
0,000

0,6

0,7

0,8

0,9

1,0

1,1

Рисунок 4.11: Если исходное
распределение гауссово, различие между формами пика
распределений MAD и STD невелико. Здесь для наглядности
оба распределения приведены
к одинаковому среднему

Печально, что такая мелочь способна создать столько путаницы. Наши научные
инструменты вышли далеко за нашу бытовую интуицию, и это стало проблемой для
развития науки. В завершение приведу заявление сэра Роналда Фишера: «Статистик
несет ответственность за понимание процедуры, которую применяет или рекомендует».
Примечание. Обычно нас учат, что если случайные величины X1, …, Xn независимы, то
𝕍 (X1 + … + Xn) = 𝕍 X1 + … + 𝕍 Xn
в силу линейности дисперсии. Если же нужна другая характеристика, ради суммирования ее приходится преобразовывать в линейную1. Как мы покажем, для гауссовой величины MAD
нужен коэффициент

, для t-распределения Стьюдента с 3 степенями свободы
и так далее.

1 Например, цена опциона по формуле Блэка — Шоулза вычисляется через дисперсию, но цену приводят в MAD; стрэддл «на деньгах» вычисляется как условное среднее абсолютное отклонение. Таким
образом, мы переводим MAD в среднеквадратическое отклонение ради суммирования, а потом результат
переводим обратно в MAD. — Прим. автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

115

4.5. ВИЗУАЛИЗИРУЕМ, КАК РОСТ p ВЛИЯЕТ НА ИЗО-НОРМЫ
Рассмотрим область

— множество всех векторов X = (x1, …, xd), для которых

то есть границей служит единица1. Объем этого шара растет с ростом порядка нормы:

На Рисунках 4.12 и 4.13 показаны два эффекта.
На первом показано, как с ростом порядка нормы растет занимаемая доля пространства2.
Второй показывает краешек так называемого проклятия размерности, весьма
полезного принципа для задач в самых разных областях, и прежде всего — для оценки
погрешностей модели. Сравним Рисунки 4.12 и 4.13: на первом (о размерности 2)
самая малая область, при p = 1, занимает половину площади квадрата. Область при
p = ∞ занимает всю площадь квадрата. Значит, отношение величин единичных кругов
с разными нормами достигает 1:2. На втором рисунке (о размерности 3) шар с нормой
куба, тогда как при p = ∞ опять занимает все место. Значит,

p = 1 занимает

отношение величин единичных шаров с разными нормами достигает 1:6. Так и отношение высших моментов к низшим растет с ростом размерности, и что происходит
при больших размерностях, можно видеть на Рисунке 4.14.
1,0

0,5

Рисунок 4.12: Отношение круг/квадрат при растущем порядке нормы. Показаны изо-нормы вида
(|x1|p + |x2|p)1/p = 1. Видно, что площадь внутри изо-

p=1
p = −₂³

нормы (область, где норма ≤ 1) растет от

p=2

0,0

= 2 до

p=4
p=∞

= 4. Закон роста

*

–0,5

–1,0
–1,0

* По этому закону = π. Другими словами, норма
порядка 2 — это обычное расстояние, и круг этой
нормы — обычный круг единичного радиуса.
–0,5

0,0

0,5

1,0

1 Эта область — единичный d-мерный «шар», если радиус понимать не обязательное как евклидово расстояние ℓ2, а как любую гёльдерову ℓp-норму.
2 То есть доля в объеме d-мерного единичного куба.

116

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Рисунок 4.13: Отношение шар/
куб при растущем порядке
нормы. Показаны изо-нормы
вида (|x1|p + |x2|p + |x3|p)1/p = 1
для p = 1, , 2, 3, 4 и ∞. Объем
области, где норма ≤ 1, растет
с

при p = 1 до

при p = 2

(единичный шар) и далее до 23
при p = ∞ (единичный куб); прирост получился в большее число
раз, чем на Рисунке 4.12. Так
работает проклятие размерности — с ростом n уменьшается
объем при p = 1 по отношению
к объему при p = ∞

Нормы и размерность

Рисунок 4.14: Проклятие размерности, важнейший феномен
в разных областях статистики, играет критическую роль
для погрешности модели высокой размерности. С ростом
размерности d отношение
к демонстрирует взрывной рост. Если при d = 2 оно
составляет 2, то при d = 9 оно
уже шестизначное

10142

1092

1042

5

10

50

100

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА: Остановимся здесь и представим книги
по теории вероятностей.
Для общего представления о вероятности прочитайте книги Бореля [85],
Колмогорова [145], Лоэва [154], Феллера [92], [91].
О теории меры — Биллингсли [20].
О субэкспоненциальности — Питмана [196], Амбре и Голди (1982) [83],
Амбре (1979, эта книга, по-видимому, близка к его докторской диссертации) [84], Чистякова (1964) [43], Голди (1978) [112] и Тойгелса [248].
О распределениях экстремальных значений — Амбре и др. [82],
де Гаана и Феррейры [116].
Об устойчивых распределениях — Учайкина и Золотарева [257], Золотарева [271], Самородницкого и Самородницкого и Такку [209].
О стохастических процессах — Карацаса и Шрива [141], Оксендала [182], Варадхана [261].

117

5
УРОВЕНЬ 2: СУБЭКСПОНЕНЦИАЛЬНЫЕ
И СТЕПЕННЫЕ ЗАКОНЫ

В этой главе кратко представлены «истинно жирные хвосты» — классы субэкспоненциального и степенного закона (уже определенные в Главе 3) —
и некоторые капризные особенности их поведения. Чисто субэкспоненциальные распределения (то есть без масштабируемости, вне класса степенного
закона) составляют узкую категорию, куда попадают только пограничные
экспоненциальные и гамма-распределения, такие как лапласово, и еще логнормальное.
5.0.1. Вернемся к ранжированию
В Таблице 5.1 уточнены ранги, показанные в Главе 3. Вспомним, что диапазон вероятностных распределений простирается от крайне тонких хвостов (Бернулли) до крайне
жирных. Выбор категорий, в которые попадают те или иные распределения, в ряде
случаев мотивирован разной сходимостью моментов:
1. С компактным носителем (невырожденным).
2. Субгауссовы.
3. Субэкспоненциальные.
4. Степенного закона с показателем больше 2.
5. Степенного закона с показателем больше 1 и меньше или равным 2. Такие распределения отличаются, в частности, тем, что имеют конечное математическое ожидание — потому что показатель степени больше 1, — но не конечную дисперсию —
потому что показатель степени меньше или равен 2.
6. Степенного закона с показателем меньше или равным 1.
Наш интерес в том, чтобы формально выделить категории распределений с преобладающим влиянием хвостовых наблюдений, то есть определить границу между
Медиокристаном и Экстремистаном.
Центральную роль играет субэкспоненциальное распределение, расположенное
между «тонкими» и «жирными» хвостами.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

119

Оно определяется так.
Таблица 5.1: Ранжирование распределений
Класс

Описание

Истинно тонкие хвосты

Компактный носитель (напр., распределение Бернулли,
биномиальное распределение)

Тонкие хвосты

Гауссово распределение, которое естественно получается
при сложении тонкохвостых случайных величин, в силу
центральной теоремы; также суммы случайных величин
с компактным носителем до предельного перехода n → ∞,
сами имеющие компактный носитель

Условно-тонкие хвосты

Гауссово приближение естественных феноменов

Хвосты на начальной ступени
ожирения

Эксцесс выше, чем у гауссианы, но при суммировании нескольких таких слагаемых сумма стремительно сходится
к гауссиане

Субэкспоненциальное

(напр., логнормальное)

Суперкубический показатель α

Условие Крамера нарушается при t > 3, ∫e–txdF(x) = +∞

Бесконечная дисперсия

Устойчивые по Леви с α < 2, ∫e–txdF(x) = +∞

Неопределенный первый
момент

Безнадега

В математике все точно: при тонких хвостах вероятность превышения, или
функция выживание, должна быть экспоненциальна, без тонких хвостов — нет. Где
проходит граница?
Естественной границей между Медиокристаном и Экстремистаном оказывается
субэкспоненциальный класс, обладающий следующим свойством:
Пусть X = X1, …, Xn — последовательность независимых и одинаково распределенных случайных величин с носителем ℝ+ и интегральной функцией распределения F. Субэкспоненциальный класс распределений определяется таким критерием
(см. [248], [196]):
(5.1)
где F*2 = F ′ ⁎ F — интегральное распределение для суммы двух независимых случайных величин, X1 + X2. Смысл этого требования: вероятность того, что сумма X1 + X2
превысит значение x, должна быть вдвое больше вероятности того, что это сделает
одно отдельно взятое слагаемое. Значит, все случаи, когда сумма превысила x, объясняются тем, что это сделало большее из слагаемых, тогда как вклад другого слагаемого был несущественен.
Критерий можно обобщить: и в сумме n случайных величин доминирует одна
наибольшая. Формально критерию субэкспоненциальности эквивалентны следующие
и
.
два свойства [43], [84]. Для данного n ≥ 2 обозначим

120

Н АС С И М Н И К ОЛ АС ТА Л Е Б

a)

b)
Оба они означают, что каждый раз, когда сумма Sn превысила x, она сделала это
благодаря наибольшему слагаемому, Mn, то есть главную роль сыграло единственное
хвостовое событие.
Интуитивно кажется, что с равным успехом от субэкспоненциальных распределений можно потребовать более медленного исчезновения хвостовых событий, чем
в экспоненциальном распределении, у которого в той же области хвостовые события
уже стали несущественными. Действительно, можно показать, что у субэкспоненциальных распределений нет экспоненциальных статистических моментов:
(5.2)
для любых ε больше нуля. Однако обратное неверно, поскольку возможны распределения, не имеющие экспоненциальных моментов, и все же не удовлетворяющие критерию субэкспоненциальности.
Отметим, что если бы мы решили представить отклонения отрицательными значениями случайной величины X, то в силу симметрии получили бы тот же результат
для экстремальных отрицательных значений, заменив x → +∞ на x → –∞. Для случайных величин с двумя хвостами можно по отдельности рассмотреть положительную
и отрицательную область определения.
5.0.2. Что такое пограничное распределение вероятностей?
Лучший способ нащупать нужное распределение вероятностей — это изобрести его.
Чем мы и займемся в следующей главке, 5.0.3 — получим распределение, которое
по построению расположено точно на границе между тонкими и жирными хвостами.
Пока же обсудим требуемые свойства.
Пусть F̅ — функция выживания. Это отображение вида F̅ : ℝ → [0, 1] такое, что
(5.3)

и

Примечание: еще одно демаркационное свойство — отсутствие недооценки
Лукреция, описанной в «Черном лебеде» (т. е. что при жирных хвостах будущие экстремальные события будут отличаться от прошлых экстремальных событий, и это различие растет с ростом жирности хвостов).
Пока посмотрим на уже выписанные демаркационные свойства. Пусть X — случайная величина, существующая в промежутке (0, ∞) или (–∞, ∞), а 𝔼 — оператор

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

121

математического ожидания в «практическом» (физическом) распределении. Согласно
классическим результатам [82]:

(5.4)
• Если λ = 1, то случайную величину X относят к классу тонких хвостов 𝒟1,
и у нее есть характерный масштаб;
• Если λ > 1, то случайную величину X относят к классу 𝒟2, классу с жирными хвостами и правильно меняющимися на бесконечности функциями,
и у нее нет характерного масштаба;
• Если

где μ > 0, то случайную величину X относят к пограничному субэкспоненциальному классу.

Первый случай называется «эффект Линди»1, если случайная величина X — это
время выживания. Данная тема изучена вне этого проекта, посвященного жирным
хвостам. Смотрите о ней у Иддо Элиазара [77].
5.0.3. Давайте выдумаем распределение
Поворотной точкой для субэкспоненциального класса служит экспоненциальное распределение, однако его носитель [0, ∞). Построим сами пограничное распределение
с носителем (–∞, ∞)2. Найдем функцию выживания F̅: ℝ → [0, 1] такую, что:

и

1 Термин сложился вокруг ресторана Lindy’s на Бродвее, где обсуждали живучесть спектаклей и телепрограмм. Ранняя версия закона Линди предсказывала, что чем выше частота выхода телешоу, которое соглашается вести комик, тем скорее оно закроется; это утверждалось в статье «Lindyʼs Law» арт-критика
Алберта Голдмана (Albert Harry Goldman, 1927–1994) в журнале The New Republic в 1964. В дальнейшем
появились другие интуитивные приметы живучести, которые также назывались «законами Линди»; они,
в частности, сулили долгое продолжение успеха у публики при наличии уже прожитой долгой истории успеха. Потом так же назвали свои признаки живучести математики — сначала Бенуа Мандельброт
в книге «Фрактальная геометрия природы» (The Fractal Geometry of Nature; 1982), затем Нассим Талеб
в «Черном лебеде».
2 Распределение Лапласа — экспоненциальное убывание по обе стороны от нуля — не обладает требуемым свойством, поскольку для него отношение квадрата вероятности к вероятности двойного значения
составляет . — Прим. автора.

122

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Допустим, что найдется подходящая сигмоида1, использующая гиперболический
тангенс

Используем ее как ядро, которое потом смикшируем с другими распределениями,
чтобы получить нужный эксцесс.
Тогда плотность вероятности
(5.5)
Характеристическая функция
(5.6)
Поскольку все величины действительные, можно предположить, что математическое ожидание 0, как и все нечетные моменты.
Второй момент будет
,
а четвертый момент будет

; хвосты будут лишь немногим жирнее, чем у гауссианы.

так что эксцесс получится
Плотность
0,5

0,4

0,3

Рисунок 5.1: Сравним выдуманное распределение (на краю
субэкспоненциальности)
с гауссовым при одинаковой
дисперсии (k = 1). Мы добились
субэкспоненциальных свойств,
не уходя далеко от гауссианы

Выдуманное распределение
Гауссиана

0,2

0,1

1

2

3

4

x

1 Сигмоида (sigmoid function) — сглаженная ступенька, используется для сглаживания произвольной
функции. Часто используются такие сигмоиды, как логистическая функция
тангенс

.

и гиперболический

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

123

5.1. УРОВЕНЬ 3: МАСШТАБИРУЕМОСТЬ И СТЕПЕННЫЕ ЗАКОНЫ
Перейдем к серьезным делам.
Почему речь о степенных законах? Нет числа теориям в оправдание степенным
законам в тех или иных ситуациях, как будто речь идет об исключениях из теории
вероятностей. Нет бы встать и сказать: все наоборот, степенные законы — в порядке
вещей, а в оправданиях как особый случай нуждается гауссиана ([223]); но мы так
заявили в книге Антихрупкость и покажем подробно в следующем томе Технического
цикла Incerto). Это для тонких хвостов нужно искать механизм, выпуклый вверх-вниз
отклик, который будет амортизировать шарахания хрупкости и антихрупкости.
5.1.1. Масштабируемое и немасштабируемое — более глубокий взгляд
на жирные хвосты
До сих пор, обсуждая жирные хвосты, мы оставались в ситуации конечных моментов.
Для разных классов распределений, имеющих конечные моменты, отношение вероятностей

по-разному зависит от n и от K. Для безмасштабных распределений,

если K находится «где-то в хвосте», то есть для всех достаточно больших K, отношение

перестает зависеть от K и зависит только от n. У таких распределений

нет характерного масштаба, и вдали их хвост становится как в распределении Парето;
другими словами, при больших x
ℙ(X > x) = Cx–α,
где α — показатель хвоста и C — масштабирующая константа.
Примечание: Как видно из масштабирующих различий между распределениями
Стьюдента и Парето, более строго распределение случайной величины X по степенному закону определяется условием
ℙ(X > x) = L(x)x –α,
где «медленно меняющаяся» функция L удовлетворяет требованию

для любого постоянного t > 0.
сходится к константе, а именно показателю
При больших x отношение
хвоста –α. Масштабируемое распределение должно в дважды логарифмическом масштабе показать наклон α в хвостах, при x → ∞. Сравним с гауссовым распределением
(имеющим среднеквадратическое отклонение σ и математическое ожидание μ); в этот
раз будем сравнивать не вероятность превышения, а плотность вероятности. Функция
плотности f (x) гауссова распределения на логарифмической шкале

то есть уходит в –∞ быстрее, чем растет ln x при x → ∞1.
1 Следовательно, в дважды логарифмическом масштабе правый хвост кривой уйдет вниз быстрее, чем по
прямой.

124

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Таким образом, пока что мы получили интуитивное представление о различии
между классами распределений. «Подлинно» жирные хвосты есть только у масштабируемых распределений, тогда как прочие при суммировании превращаются в гауссовы. И показатель хвоста — параметр асимптотический; мы можем так и не увидеть
характерных хвостовых значений, и наша попытка оценить показатель хвоста забуксует на полдороге. Ясно видимые на Рисунке 5.2 различия относятся к идеальным
распределениям из готового пакета; на практике процессы с большими отклонениями
могут протекать сумбурно, переключаясь между разными показателями.
Определение 5.1 (класс 𝔓)
Класс 𝔓 степенных законов (правильно меняющихся на бесконечности функций)
определяется для НСВ X так:
𝔓 = {X: ℙ (X > x) ~ L(x)x–α}

(5.7)

ℙ(X > x)
0,1

10–4

10–7

10–10

Гауссово
10–13

Логнормальное-2
Стьюдента (3)

2

5

10

20

x

Рисунок 5.2: Три типа распределений. Дойдя до хвоста, видим, как распределение Стьюдента остается масштабируемым, а стандартное
логнормальное некоторое время удерживается на промежуточной
позиции и затем его наклон в дважды логарифмическом масштабе становится бесконечно крутым. Однако бойтесь логнормальных, они иногда
приносят сюрпризы (Глава 8)

Таблица 5.2: Масштабируемость: сравнение правильно меняющихся функций, или степенных
законов, с другими распределениями
k

2
4
6
8

Гаусс
44
31600
1,01 × 109
1,61 × 1015

Гаусс
720
5,1 × 1010
5,5 × 1023
9 × 1041

Стьюдент (3) Стьюдент (3)
14,4
4,9
71,4
6,8
216
7,4
491
7,6

Парето (2)
8
64
216
512

Парето (2)
4
4
4
4

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

125

Продолжение таблицы 5.2
1,31 × 10

23

5,63 × 10

32

14

1,28 × 10

44

16

1,57 × 1057

18

10
12

20

9 × 10

65

940

7,7

1000

4

безнадега

1610

7,8

1730

4

безнадега

2530

7,8

2740

4

безнадега

3770

7,9

4100

4

1,03 × 10

72

безнадега

5350

7,9

5830

4

3,63 × 10

88

безнадега

7320

7,9

8000

4

ℙ(|X| > |x|)
1

Скачок при объявлении о брекзите:
вполне совместим со статистическими
свойствами степенных законов

0,5

Рисунок 5.3: В дважды логарифмическом масштабе показан график фунта стерлингов,
британской валюты. Видно,
что «серый лебедь» брекзита
(скачок валюты при появлении
неожиданных результатов
референдума) укладывается
в статистические свойства
больших отклонений по степенному закону

0,1
0,05

0,01
0,005

0,001
0,01

0,02

0,03

0,04

0,05

0,06 0,07 0,08

|x|

ℙ(X > x)
1

Рисунок 5.4: Продажи книг.
Ближняя часть хвоста поддерживает надежное предсказание продаж по рейтингу,
и наоборот — и робастность
сохраняется, пока не попытаешься вычислить ожидание по
генеральной совокупности или
высшие неусеченные моменты

0,1

α = 1,3
0,01

0,001

10–4
1

100

104

106

x

10
200

400

600

800

1000

–10
–20
–30
–40
–50

Рисунок 5.5: Проблема индюка.
Бывает, что ничто в прошлых
свойствах не указывало на возможность скорого обвала

126

Н АС С И М Н И К ОЛ АС ТА Л Е Б

5.1.2. Серые лебеди
Зачем нам t-распределение Стьюдента, если мы моделируем степенные законы?
Исключительно ради нашего удобства. Мы отнюдь не полагаем, что порождающий
события процесс отвечает t-распределению Стьюдента. Просто средняя часть распределения неважна для тех свойств, которые важны в интересующих нас сейчас ситуациях принятия решений.
Чем ниже показатель степени, тем меньшую роль играет центр. Чем выше показатель степени, тем больше t-распределение Стьюдента напоминает гауссово, вплоть до
ситуации, где будет оправдано использование гауссианы.
В асимметричном случае могут пригодиться более сложные методики с использованием законов Леви; впрочем, без этих сложностей можно обойтись, используя
просто два распределения Парето с двумя разными показателями степени для левого
и правого хвостов.
Проблемы с оценкой. Заметим, что есть много методик, как оценить показатель
степени, исходя из данных; это так называемая калибровка. Однако мы увидим, что
судить о показателе степени хвоста трудно, что калибровка чревата ошибками из-за
неэффективного сбора данных в хвостах. Вообще говоря, по данным выборки хвост
рисуется тоньше, чем должен быть.
Мы обсудим эту проблему глубже в следующих главах.
5.2. НЕКОТОРЫЕ СВОЙСТВА СТЕПЕННЫХ ЗАКОНОВ
Два центральных свойства.
5.2.1. Сумма случайных величин
Свойство 1: Показатель степени хвоста для суммы
Пусть X1, X2, …, Xn — случайные величины, без требований независимости
и одинакового распределения, и пусть каждый Xi следует распределению
со своим асимптотическим показателем степени хвоста αi (мы предполагаем,
что у случайных величин вне класса степенного закона будет асимптотическая альфа = +∞). Допустим далее, что нас интересует правый хвост распределения (наши доводы останутся в силе и применительно к левому хвосту).
Дополнительные подробности смотрите в [99].
Рассмотрим взвешенную сумму

, причем все веса wi строго

положительны. Рассмотрим αS , показатель степени хвоста для суммы.
При любых wi > 0
αS = min(αi).

Это очевидно для двух слагаемых, потому что при α2 ≤ α1 и w2 > 0

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХХВО СТОВ

127

Следствие: если в сумму добавить одно-единственное слагаемое с неопределенным (или бесконечным) средним, дисперсией или высшими моментами, то у всей
суммы сделается неопределенное (или бесконечное) среднее, дисперсия или высшие
моменты.
Принцип 5.1 (Степенные законы + Тонкие хвосты = Степенные законы)
При смешении в одной сумме величин, распределенных по степенному закону и тонкохвостых, результат будет распределен по степенному закону, независимо от подробностей состава.
5.2.2. Преобразования
Следующее свойство звучит безобидно, но способно доставить кучу неприятностей.

Свойство 2
p

Пусть X — случайная величина с показателем степени хвоста α. Для X показатель степени хвоста составит .

Тем самым эксцесс случайной величины с конечной дисперсией, но показателем
степени хвоста < 4 будет бесконечен1. Мы еще увидим, как это создает проблемы для
стохастических моделей волатильности, когда в практике действительно встречается
бесконечная дисперсия дисперсии.
Глядя на это, можно догадаться, не вдаваясь в технические выкладки, каким образом выпуклое вниз преобразование случайной величины утолщает хвост.
Доказательство. В общем случае подход такой. Пусть f(.) — плотность распределения вероятностей, и φ(.) — преобразование (с некоторыми ограничениями). Распределение преобразованной случайной величины (в предположении, что преобразование не изменяет носитель случайной величины):2

(5.8)

Допустим, что x > l и l велико (т. е. это точка, с точностью до порядка величины,
после которой медленно меняющаяся функция «перестает изменяться»). Плотность
1 Например, если случайная величина X имеет показатель хвоста 3,5, то у нее существует дисперсия
𝕍X = 𝔼(X – 𝔼X)2 = 𝔼X 2 – (𝔼X)2, ведь у X 2 показатель хвоста
Kurt X =
𝔼X 4, ведь у X 4 показатель хвоста

больше 1, и 𝔼X 2 конечное. Однако эксцесс

уже будет бесконечным из-за бесконечности
меньше 1.

2 Далее использована нотация f (φ(x)) вместо fφ (X)(φ(x)).

128

Н АС С И М Н И К ОЛ АС ТА Л Е Б

вероятности при таких значениях x упрощается до f (x) ∝ x –α – 1. Рассмотрим преобразование y = φ(x) = x p; обратной функцией для y = x p будет
натель формулы (5.8), получаем

. Подставляя ее в знаме-

.

Интегрируя выше l, получаем функцию выживания

1

.

◾2

5.3. КОЛОКОЛООБРАЗНЫЕ
И ДРУГИЕ СТЕПЕННЫЕ ЗАКОНЫ
Влияние медленно меняющейся функции, расследование
Чем жирнее хвосты, тем меньше влияет «туловище» на моменты (которые, начиная
с некоторой жирности, становятся бесконечными). Но при степенных законах с более
тонкими хвостами область вне степенного хвоста (медленно меняющаяся часть) всетаки играет роль; «медленное изменение» более-менее формально определено в разделах 5.1.1 и 18.2.2. В этом разделе будет показано, насколько различаются формы
у распределений, которые кажутся3 одинаковыми.
Сравним двойное распределение Парето, имеющее плотность вероятности
,

и t-распределение Стьюдента, имеющее тот же параметр центральности 0, параметр
масштаба s и плотность вероятности

где Β(., .) — бета-функция Эйлера

1 В самом деле, для рассматриваемого преобразования по степенному закону φ(x) = x p производная
. У рассматриваемой исходной случайной велиφ′ (x) = px p–1 и обратное преобразование
чины X в далекой части хвоста, при x → ∞, плотность вероятности fX (x) ∝ x –α–1, значит, для случайной
величины Y = φ(X) плотность вероятности в далекой части хвоста, при y → ∞

Соответственно функция выживания в далекой части хвоста, при y → ∞

2 Этим знаком обозначают, чаще в английской литературе, окончание доказательства. Вместо «ЧТД», «что
и требовалось доказать».
3 Если судить по младшим статистическим моментам.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

129

У нас есть два удобных способа сравнить эти распределения.


Выровнять распределения по хвостам: потребовать

и подобрать

«равнохвостое» t-распределение Стьюдента с параметром масштаба



Выровнять распределения по среднеквадратичным отклонениям (если они
конечны). Пока что у нас, при α > 2,

Растянем второй график так, что

Теперь мы совместили хвостами «колоколообразное» квазивыпуклое вверх распределение и «треугольное» дважды выпуклое вниз; см. Рисунок 5.6.

Плотность
3

Рисунок 5.6: Сравним два
симметричных распределения
степенного закона: у одного
медленно меняющаяся компонента короткоживущая,
у другого действует в расширенной области. Все моменты в итоге одинаковы,
хотя в центре, в области
небольших отклонений, формы разные

2,5
2

fp(.)

1,5

fs(.)

1

0,5

–4

–2

2

4

x

5.4. ИНТЕРПОЛЯЦИОННЫЕ ВОЗМОЖНОСТИ
СТЕПЕННЫХ ЗАКОНОВ: ПРИМЕР
Рассмотрим заявки на пособие по безработице во время пандемии COVID-19:
в марте 2020 безработица подскочила на много так называемых среднеквадратических отклонений. Считать ли этот скачок выбросом? Да, если смотреть на Рисунок 5.7
взглядом, обученным на примерах тонких хвостов. Но это неправильный взгляд. Как
видно на Рисунке 5.8, показатель степени хвоста практически не изменился. Пусть
масштаб распределения изменился, показатель степени оказался робастным, устойчивым к добавлению в выборку новых наблюдений.

130

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Логарифм изменений числа заявок
на пособие по безработице

2,5

Рисунок 5.7: Число заявок
на пособие по безработице
подскочило сверх ожиданий? Только для неопытных экономистов. Как
показывает Рисунок 5.8,
неожиданностей не случилось. Опытный взгляд
(а-ля Бенуа Мандельброт)
и раньше видел бы, что,
хотя дисперсия небольшая, данное распределение
отнюдь не гауссово

2

1,5

1

0,5

0

ℙ(X > x)
0,1
0,05

Рисунок 5.8: График Ципфа1
с числом заявок на пособие по
безработице. Не обязательно
было дожидаться скачка в пандемию COVID-19 (крайняя справа
точка), чтобы заметить степенной закон

0,01
0,005

0,001
5×10–4
0,1

0,2

0,5

x

5.5. СВЕРХЖИРНЫЕ ХВОСТЫ: РАСПРЕДЕЛЕНИЕ ЛОГ-ПАРЕТО
Матерь всех жирных хвостов — распределение лог-Парето — не представлено
в обычных списках распределений, но мы сейчас сами выведем его из распределения
Парето по аналогии с логнормальным распределением.

Замечание 5: Заново открываем распределение лог-Парето
Если X ~ 𝒫 (L, α) — случайная величина с распределением Парето, имеющим
плотность вероятности
f (P) (x) = α Lα x –α –1, x ≥ L
и функцию выживания
S (P)(x) = Lα x –α,

1 Графиком Ципфа называют график, линейный в дважды логарифмическом масштабе; такова плотность
распределения, порожденного по закону Ципфа, или Парето.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

131

то e X ~ ℒ𝒫 (L, α) — случайная величина с распределением лог-Парето, имеющим плотность вероятности

и функцию выживания
S (LP)(x) = Lα (ln x)–α.

В то время как при обычном степенном законе на диаграмме в дважды логарифмическом масштабе график приближается к линейному склону, т. е.

при лог-Парето наклон стремится к нулю:

и очевидно, что никакие моменты существовать не могут ни при каком параметре
хвоста α. Различие в асимптотическом поведении видно на Рисунке 5.9.
S(x)

Парето

10

Рисунок 5.9: Сравним графики
функций выживания для Парето
и лог-Парето на дважды логарифмической диаграмме

лог-Парето

5

1
0,5

0,1
0,05
5

10

50

100

x

5.6. ПСЕВДОСТОХАСТИЧЕСКАЯ ВОЛАТИЛЬНОСТЬ: РАССЛЕДОВАНИЕ
Мы упомянули ранее, в Главе 3, что заявления о событиях величиной «10 сигм» на самом
деле означают, что мы не в гауссовом мире. Кроме того, мы обсудили проблему ненаблюдаемости распределения вероятностей: мы видим данные, а не порождающий процесс.
Поэтому так легко обмануться, приняв степенной закон за гетероскедастичный
процесс. Задним числом всегда можно сказать: «Условная волатильность высока,
и при новом среднеквадратическом отклонении данное событие оценивается уже не
как 10 сигм, а всего лишь 3 сигмы».
Чтобы развенчать заявления этого рода, можно прибегнуть к рассуждению от
обратной задачи: показать, как степенной закон постоянного масштаба может выда-

132

Н АС С И М Н И К ОЛ АС ТА Л Е Б

вать себя за гетероскедастичный процесс. В Приложении мы увидим, что опора на
гетероскедастичность (т. е. изменяющуюся дисперсию)1 в эконометрике имеет серьезные дефекты, поскольку дисперсия дисперсии лишена структуры.
На Рисунке 5.10 показана волатильность для доходности на некотором рынке,
которая ужасно похожа на результат простого процесса со стохастической волатильностью; будем считать, что дисперсия ведет себя как случайная величина, и подберем
параметры ее распределения2.
σ22
100

80

60

40

20

500

1000

1500

2000

2500

t

Рисунок 5.10: 22-дневная (за рабочий месяц) оценка исторической волатильности (среднеквадратического отклонения) доходности по ежедневным выборкам, сгенерированным
t-распределением Стьюдента. Производит впечатление стохастической волатильности,
хотя на самом деле масштаб распределения не изменялся

Пусть X — доходность с математическим ожиданием 0, масштабом σ и плотностью вероятности φ(.):

Преобразованная случайная величина Y = X 2 (распределение которой даст нам
распределение второго момента) будет иметь плотность

1 От др.-греч. ἕτερος «другой» и σκέδασις «дисперсия».
2 Есть модель, стохастизирующая дисперсию, и есть модель, стохастизирующая среднеквадратическое
отклонение; это две разные модели с разными ожиданиями. — Прим. автора.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

133

и хвост этой функции можно преобразовать асимптотически в степенной закон с показателем степени . Характеристическую функцию χY (ω) = 𝔼 eiωY можно записать как

(5.9)

Отсюда получаем среднее абсолютное отклонение второго момента:1
α

MAD второго момента

3

4

5

ДАЛЕЕ
В следующей главе мы ринемся в высшие размерности. Некоторые следствия очевидны, другие не столь очевидны — например, существование корреляций даже там,
где не существует ковариаций.

1 Как обычно, мы не пользуемся таким показателем, как среднеквадратическое отклонение, поскольку он
неустойчив и малоинформативен; вместо него берем среднее абсолютное отклонение. — Прим. автора.

6
ЖИРНЫЕ ХВОСТЫ В ВЫСШИХ
РАЗМЕРНОСТЯХ †

В этом обсуждении рассматривается максимально упрощенная работа с высокими размерностями. Мы познакомимся с (1) простым влиянием жирнохвостости на многомерную случайную величину, (2) эллиптичностью и распределениями, (3) случайными матрицами и связанными с ними распределениями
собственных значений, (4) как можно смотреть на ковариацию и корреляции,
когда моменты не существуют (например, в случае распределения Коши).
6.1. ТОЛСТЫЕ ХВОСТЫ ПРИ ВЫСОКОЙ РАЗМЕРНОСТИ,
КОНЕЧНЫЕ МОМЕНТЫ
Построим интуитивную картину толстых хвостов от выпуклости вниз до масштаба
подобно тому, как действовали в предыдущей главе, но для многомерных случайных
величин.
Пусть = (X1, X2, …, Xm) — случайный вектор, или случайная величина размерности m × 1, где все компоненты гауссовы. Рассмотрим совместное распределение
вероятности с плотностью f (x1, …, xm). Будем обозначать m-мерное нормальное распределение 𝒩 ( , Σ ), где вместо математического ожидания вектор математического
ожидания , вместо дисперсии ковариационная матрица Σ, плотность совместного
распределения вероятностей
(6.1)
= (x1, x2, …, xm) ∈ ℝm и Σ — симметричная положительно-определенная1 матрица
размерности m × m.
Для ужирнения хвостов мы можем применить упрощенную эвристику, сохраняющую дисперсию, как в главе 4.1:
1 В английской литературе под положительно-определенной матрицей подразумевается матрица с действительными элементами, удовлетворяющая требованию zTΣz > 0 для всякого столбца z. В русской литературе подразумевается более широкое толкование: эрмитова матрица, т. е. с комплексными элементами,
но с такой комплексно-сопряженной матрицей, что Σ̅ = Σ T и по-прежнему требуется zTΣz > 0 для всякого
столбца z.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

135

(6.2)
где скалярный параметр a регулирует интенсивность вносимой стохастической волатильности: Σ1 = Σ (1 + a) и Σ2 = Σ (1 – a)1.
Отметим на Рисунке 6.1, что, как и в одномерном случае, наблюдения концентрируются в средней части распределения2.
2
2

0

0

–2
–4

–2

4
2

2
0

0

–2
–2
–4
–4
–2

–2
0

0

2

2

4

Рисунок 6.1: Толстые хвосты в высших размерностях. 3-мерный случайный вектор с тонкими
хвостами (слева) или толстыми хвостами (справа) при одной и той же дисперсии. Если в одномерном случае была колоколообразная кривая плотности вероятности, у которой по мере утолщения хвостов становился выше пик (над «туннелем»), здесь мы видим рост плотности точек
вблизи центра

6.2. СОВМЕСТНАЯ ЖИРНОХВОСТОСТЬ И ЭЛЛИПТИЧНОСТЬ
РАСПРЕДЕЛЕНИЙ
С переходом от одномерной случайной величины к случайному вектору появляется
новый аспект в определении жирнохвостости.
Что такое распределение с эллиптическими контурами? Согласно стандартному определению [88], случайный вектор X размерности p × 1 имеет эллиптическое
распределение (или распределение с эллиптическими контурами) с параметрами
положения μ, неотрицательной матрицей Σ и некоторой скалярной функцией Ψ, если
характеристическая функция φ имеет вид
φ(t) = exp(it ′μ)Ψ(tΣt ′).

(6.3)

1 Как и в одномерном случае, мы можем без малейшей потери общности предположить для простоты, что
= (0, …, 0). — Прим. автора.
2 Мы создали жирные хвосты, стохастизировав дисперсию, но сохранив постоянными корреляции; тем
самым мы сохранили положительную определенность матрицы. — Прим. автора.

136

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Есть эквивалентные определения, которые фокусируются на плотности; давайте
пока ограничимся главным атрибутом — тем, что Ψ оказывается функцией однойединственной ковариационной матрицы Σ.
Интуитивное представление дает эллиптическая форма линий равной плотности
на диаграмме распределения; посмотрите на 2-мерную диаграмму плотности (для совместного распределения двух случайных величин) и на 3-мерную диаграмму плотности (для совместного распределения трех случайных величин) на Рисунках 6.2 и 6.4.
Неэллиптическое распределение нарушает эту форму, как показано на Рисунках
6.3 и 6.5.

Рисунок 6.2: Эллиптические
контуры совместной доходности, распределенной по степенному закону (t-распредение
Стьюдента)

X

Y

Y

Рисунок 6.3: Неэллиптическая
совместная доходность, полученная при стохастических
корреляциях

X

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

137

Y

Рисунок 6.4: Совместная
доходность с эллиптическим
контуром, полученным из многомерного распределения
(X, Y, Z) как множество точек
равной плотности

Z

X

Y

Z

X

Рисунок 6.5: Неэллиптическая
совместная НСВ, полученная
при стохастических корреляциях
из многомерного распределения
(X, Y, Z) как множество точек
равной плотности

138

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Важнейшее свойство класса эллиптического распределения — замкнутость при
линейных преобразованиях. Интуитивно его можно понять по аналогии с примером
в Главе 31, про суммарный рост или благосостояние двоих людей (это совместное распределение двух случайных величин). Совместные хвостовые события двойного размера чаще происходят при отклонениях двойного размера, чем при совпадении двух
отклонений.
Эллиптичность и коренные изъяны в финансовой теории. Замкнутость
при линейных преобразованиях ведет к заманчивым свойствам, помогающим
строить портфели, и ко всем результатам портфельной теории (собственно, нельзя
построить портфельную теорию без предположения об эллиптичности распределений).
В ситуации эллиптичности все портфели можно полностью характеризовать
положением и масштабом в пространстве доходности, и любые два портфеля с одинаковыми положением и масштабом обладают одинаковыми распределениями доходности.
Ирония в том, что распределения, устойчивые по Леви, действительно эллиптичны — по определению.
Итак, эллиптичность (при условии конечной дисперсии) позволяет распространить результаты современной портфельной теории2 (modern portfolio theory,
MPT) при так называемой «ненормальности», впервые описанной здесь: [183];
см. также [121]. Однако, как очевидно тем, кто работает со стохастической ковариацией, доходность отнюдь не эллиптична, ни по каким мыслимым меркам; см.
Бушо и Шишпортик [42] и простые наглядные диаграммы на Рисунке E.8, отслеживающие корреляцию между доходностью и S&P 500.
Простой учебный пример, использующий эвристику 1 ± a, мы представили
в главе 4.1. Рассмотрим двумерное нормальное распределение с характеристической
функцией

Теперь стохастизируем параметр ρ, задав с вероятностью p значение ρ1 и с вероятностью (1 – p) значение ρ2:

(6.4)
На Рисунке 6.6 показаны результаты при p = и различных ρ1 = –ρ2.

1 См. Раздел 3.1.
2 В русской литературе — портфельная теория Марковица.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

2

2

2

1

1

1

0

0

0

0,2

–1

0,3

–1

–2
–1

0

1

–2
–2

2

–1

0

1

–2

2

2

2

2

1

1

1

0

0

0,5

–1

–1

0

1

1

2

1

2

0,7

–2
–2

2

0

–1

–2
–2

–1

0

0,6

–1

–2

0,4

–1

–2
–2

139

–1

0

1

–2

2

–1

0

3
2

2

1

1

0
–1

1

–2

2
–1

0

1

0

0,8

–2

2

1

2

0

0,9

0,99

–1
–2
–2

–1

0

1

2

–3

–3 –2

–1

0

1

2

3

Рисунок 6.6: Стохастическая корреляция для обычного двумерного нормального распределения.
Показаны изолинии плотности для различных сочетаний параметров. Мы используем совсем
простую технику формулы 6.4, переключаясь с вероятностью между ρ1 = ρ и ρ2 = –ρ при различных ρ

Рассуждая более формально, можно показать различие, возникающее при стохастической Σ между Ψ (t (𝔼 Σ) t′) и 𝔼 Ψ(t Σt ′) в формуле 6.3.

Диверсификация
Вспомним, что финансовая теория перестает работать при толстых хвостах
(и никакие поправки не устранили проблему вне «чрезмерной подгонки»,
которую мы обсуждали в предыдущих главах). Отсутствие эллиптичности закрывает вопрос. Следствие: все методики на основе портфелей в духе
Марковица, то есть основанные на идее диверсификации, не способны снижать риск, хотя способны порождать обманчиво сглаженную суточную волатильность. Добавление рычагов гарантирует взрыв конструкции в конечном
итогеa.
a

Это относится и к шарлатанскому «паритету рисков» (risk parity) и «сбору активов» (asset
gathering), псевдотеоретической и псевдоакадемической дымовой завесе ради привлечения
денег.

140

Н АС С И М Н И К ОЛ АС ТА Л Е Б

6.3. МНОГОМЕРНОЕ t-РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Многомерное t-распределение Стьюдента удобно для моделирования степенного
закона, поскольку при ν = 1 схлопывается в распределение Коши. Другой вариант,
многомерное устойчивое распределение, как мы увидим, не обладает плотностью.
Пусть X — случайный вектор размерности p × 1 с многомерным t-распределением
Стьюдента, X ~ St(Μ, Σ, ν), где Σ — матрица размерности p × p, Μ — вектор длины p
и ν ≥ 1;1 тогда плотность вероятности

(6.5)

В простейшем случае, при p = 2, Μ = (0, 0) и Σ =

, получаем2

(6.6)

6.3.1. Эллиптичность и независимость при толстых хвостах
Возьмем произведение двух плотностей Коши по x и по y (как мы уже делали на
Рисунке 3.1):
(6.7)
которое, как мы видели в Главе 3 (на примере вероятности того, что два случайно
выбранных человека имеют в сумме состояние 36 млн долларов), заведомо не эллиптично. Сравним с совместным распределением, имеющим коэффициент корреляции ρ:
(6.8)

и, задав ρ = 0 для ситуации без корреляции, получим
(6.9)

1 Со средним Μ, если ν > 1, с дисперсией
2 Пользуясь тем, что:

Σ, если ν > 2, и числом степеней свободы ν.

; |Σ| =
.

; Σ–1 =

; (X – Μ).Σ–1.(X – Μ) =

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

141

и это распределение эллиптическое. Наш пример иллюстрирует, каким образом отсутствие корреляции не означает независимости, поскольку



независимость между случайными величинами X и Y определяется равенством



независимо от коэффициента корреляции. В классе эллиптических распределений двумерная гауссиана с коэффициентом 0 и независима,
и некоррелирована. Это неприменимо к t-распределению Стьюдента или
к распределению Коши.

Поясним, почему многомерное устойчивое распределение с нулевым коэффициентом корреляции не гарантирует независимость.
О случайном векторе X = (X1, X2, …, Xk ) говорят, что его многомерное распределение устойчиво, если устойчиво распределение каждой линейной комбинации компонент Y = a1X1 + … + akXk. Другими словами, для всякого постоянного вектора a ∈ ℝk
требуется устойчивое распределение одномерной случайной величины Y = aTX. Если
линейная комбинация всегда остается в том же классе, которому принадлежат комбинируемые компоненты, класс эллиптичен. По нашему построению, напротив, плотность f0(x, y) не обязана совпадать с f (x) f (y). Рассмотрим случай Коши, где плотность
задана явно. Знаменатель произведения плотностей содержит дополнительный член,
x 2y 2 1, который сдвигает изолинии плотности в том или ином направлении, как мы
видели во вступительных примерах в Главе 3.
6.4. ЖИРНЫЕ ХВОСТЫ И ВЗАИМНАЯ ИНФОРМАЦИЯ
Отметим, что при искусственном построении многомерных распределений взаимная информация отлична от 0, несмотря на независимость, поскольку отношение совместной плотности к произведению плотностей отлично от 1, несмотря на нулевой
коэффициент корреляции ρ.
Какова взаимная информация при t-распределении Стьюдента (включая распределение Коши)?

где математическое ожидание берется от совместного распределения X и Y. Благодаря
логарифмированию взаимная информация аддитивна (заметим, что если требуется

1 В самом деле, для стандартных распределений Коши с плотностью
ведение

.

и

произ-

142

Н АС С И М Н И К ОЛ АС ТА Л Е Б

считать информацию в битах, вместо натурального логарифма ln нужно взять log2 или
оставить ln, но результат потом разделить на ln 2).
Таким образом, 𝕀(X, Y) = 𝔼 ln f (x, y) – 𝔼 ln f (x) – 𝔼 ln f (y), или ℍX + ℍY – ℍ(X, Y), где
ℍ — энтропия, и ℍ(X, Y) — совместная энтропия.
Заметим, что для гауссовых случайных величин взаимная информация представима как

при любой параметризации. Поэтому для случайных величин

X, Y ~ многомерное t-распределение Стьюдента с параметрами (α, ρ) взаимная информация
,

(6.10)

где

(6.11)

где cosec(.) — косеканс, Β(., .) — бета-функция и H — гармоническое число, в общем
случае

, в нашем случае

. Заметим, что λα → 0 при α → ∞.

В завершении этой главки подчеркнем, что показатели, связанные с энтропией,
такие как взаимная информация, говорят куда больше, чем корреляция; взаимная
информация способна обнаруживать нелинейности.
6.5. ЖИРНЫЕ ХВОСТЫ И СЛУЧАЙНЫЕ МАТРИЦЫ,
КРАТКОЕ ОТСТУПЛЕНИЕ
У собственных значений матриц есть аналог гауссовой сходимости: распределение по
полукруговому закону, как показано на Рисунке 6.9.
Пусть Μ — симметричная матрица n × n. Собственные значения — это такие λi
при 1 ≤ i ≤ n, что Μ. Vi = λiVi, где Vi — это i-тый собственный вектор.
Распределение по полукруговому закону Вигнера с носителем [–R, R] и плотностью f в форме полуокружности радиуса R с центром в точке (0, 0) после полной
нормализации имеет вид
(6.12)
Это распределение возникает как предельное распределение собственных значений симметричной матрицы n × n с конечными моментами, когда размер матрицы n
стремится к бесконечности.
Ниже мы совершим экскурсию по «жирнохвостости» случайной матрицы и сходимости.
Таков эквивалент толстых хвостов для матриц. Ограничимся пока тем, что когда
4-й момент достигает гауссовых уровней (например, 3) для одномерной ситуации, то
это эквивалентно тому, что собственные значения приближаются к полукруговому
закону Вигнера.

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

p = 10–4 a = 9998

Гауссово

–100

–100 000

0

143

100

200

–200

0

200

(а) Гауссово

(b) Стохастическая волатильность

Распределение Стьюдента при ν = ₂³

Распределение Стьюдента при ν = 1

–50 000

0

50 000

(c) Стьюдента при ν = ₂³

100 000

–6×108

–4×108

–2×108

0

2×108

4×108

400

6×108

(d) Коши

Рисунок 6.7: Как различаются формы распределения собственных значений случайной
матрицы, которое в Гауссовом случае следует полукруговому закону Вигнера. Случай Коши
представим как t-распределение Стьюдента при числе степеней свободы ν = 1

6.6. КОРРЕЛЯЦИЯ И НЕОПРЕДЕЛЕННАЯ ДИСПЕРСИЯ
Мы сейчас обсудим один парадокс: даже при бесконечных ковариациях корреляции
остаются конечны. Правда, они информативны только при огромных выборках, та же
проблема, что мы обсуждали в связи с методом главных компонент в Главе 3.
Вопрос: каким образом распределение с жирными хвостами в классе степенных
законов 𝔓 с бесконечным или неопределенным математическим ожиданием (и высшими моментами) может в многомерном случае, имея неопределенную (или бесконечную) ковариацию, иметь конечную корреляцию?
Рассмотрим распределение с носителем (–∞, ∞). У него нет моментов: 𝔼 X неопределенное, 𝔼 X 2 = ∞, ковариации нет, 𝔼 X Y неопределенное. Но корреляция (не центральная) для n переменных ограничена –1 и 1.

144

Н АС С И М Н И К ОЛ АС ТА Л Е Б

В силу свойства субэкспоненциальности мы имеем ℙ(X1 + … + Xn > x) ~ ℙ(max(X1,
…, Xn) > x) при x → ∞. Заметим, что класс степенного закона включен в субэкспоненциальный класс 𝔖.
Отсортируем переменные по абсолютному значению так, что |x1| ≤ |x2| ≤ … ≤ |xn|.
Пусть

и

при всех n ≥ 2.
Пример распределения корреляции показан на Рисунке 6.8. К сожалению, конечная корреляция не подразумевает низкую дисперсию: корреляция существует, но
может оказаться бесполезна для статистических исследований из-за зашумленности
и медленной сходимости.
Частота
10

Рисунок 6.8: Распределение корреляции по выборке, когда размер выборки 103. Для двумерного
t-распределения показатель сте-

8

6

пени ρ = , корреляция

. Корре-

4

ляция существует… однако бесполезна

2

0

–0,5

0

0,5

1

ρ

6.7. ЖИРНОХВОСТЫЕ ОСТАТКИ В МОДЕЛЯХ ЛИНЕЙНОЙ РЕГРЕССИИ
Мы упоминали в Главе 3, что линейная регрессия неинформативна при жирных хвостах. Как ни прискорбно, она все равно практикуется. Например, величина дохода
или благосостояния обычно распределена по степенному закону (что вызывает поток
проблем, смотрите наше обсуждение индекса Джини в Главе 13). Баллы за тест IQ,
напротив, распределены по Гауссу (по-видимому, тест специально настроен для полу-

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

145

чения такого распределения). Часто приходится видеть, как применяется регрессия
с целью доказать зависимость первого от второго, в полном неведении о неприменимости данной методики.
Рассмотрим линейную регрессию, в которой независимая и зависимая случайные
величины принадлежат разным классам распределения:
Y = aX + b + ε,
где X имеет стандартное гауссово распределение 𝒩 (0, 1) и ошибка ε распределена по
степенному закону с 𝔼 ε = 0 и 𝔼 ε 2 < +∞. Никаких ограничений на параметры нет.
Очевидно1, что можно вычислить коэффициент детерминации R 2 как 1 минус
отношение ожидаемой суммы квадратов остатков регрессии к сумме квадратов
отклонений, получив общий ответ на наш частный вопрос. X ~ 𝒩 (0, 1), поэтому
aX + b ~ 𝒩 (b, |a|) и

Можно доказать, что при больших n
(6.13)
А при бесконечной дисперсии, очевидно,

Если случайная величина ε следует t-распределению Стьюдента с α степенями
свободы, очевидно, что ε2 следует распределению Фишера с числом степеней свободы
(1, α), и хвост подчиняется степенному закону с показателем 2.
Заметим, что то же самое «ожидание» можно насчитать и просто для квадрата корреляции между X и Y. Например, положим ε ~ t-распределение Стьюдента с нулевым
математическим ожиданием, масштабом σ и показателем хвоста α > 2 (как мы видели
ранее, результаты не изменяются, коль скоро мы ограничиваемся случаями математического ожидания 0). Вычислим сначала корреляцию: числитель — это ковариация
1 В принятых в литературе обозначениях коэффициент детерминации — мера зависимости случайной
величины Y от другой или других по подогнанному линейному закону — определяется как

где yi — значения зависимой случайной величины Y, ŷi — значения, рассчитанные согласно подогнанному линейному закону и y̅ — среднее арифметическое по всем yi . Также принято обозначать сумму
квадратов как SS (от sums of squares); соответственно

.

2 В самом деле, плотность вероятности при распределении Фишера с числом степеней свободы (d1, d2)

представима как

. Соответственно плотность вероятности при распределении Фи-

шера с числом степеней свободы (1, α) представима как

при x далеко в хвосте.

146

Н АС С И М Н И К ОЛ АС ТА Л Е Б

cov(X, Y) = 𝔼 (aX + b + ε)X = a1. Знаменатель, среднеквадратическое отклонение для Y 2,
представим как

. Т. о.,
(6.14)

Переходя к описанному выше пределу,
3

.

Мы скрупулезно рассматриваем 𝔼 R 2 вместо обычного в детерминистском случае
показателя R 2, поскольку у нас случайная величина — стохастическая и крайне зависима от выборки, достигая устойчивости только при больших — подчас астрономически больших — n. В самом деле, вспомним, что для любой выборки математическое
ожидание всегда конечно, даже когда ε задают распределения Коши! Этот феномен
проиллюстрирован на Рисунках 6.10 и 6.11. На практике, когда для R 2 берут оценку
максимального правдоподобия через 𝔼ε2 с учетом α (метод «теневого математического
ожидания», в частности, в Главах 13 и 14), мы замечаем в примере с IQ, использованном на диаграмме, что остатки среднего по выборке составляют около половины
оценки максимального правдоподобия4, отчего R 2 падает еще ниже (практически до 0).
P>
0,1

0,01

0,001

2×106

5×106

1×107

ε2

Рисунок 6.9: Так выглядит
в дважды логарифмическом
масштабе функция выживания для квадратов остатков ε2 от линейной регрессии
IQ — доход по стандартным
данным WLS 5. Видно, что
величина дохода винсоризована6. Отрезание хвостов
создает иллюзию высокого R 2.
Да и без отрезания хвоста
коэффициент детерминации
существенно завышается
из-за свойств малой выборки
при попытке оценить дисперсию степенного закона

1 В самом деле, по определению ковариация cov(X, Y) = 𝔼((X – 𝔼X)(Y – 𝔼Y)). В нашем случае у случайных
величин X и Y = aX + b + ε средние значения нулевые, так что cov(X, Y) = 𝔼(XY) = 𝔼(X(aX + b + ε)) = a𝔼X 2 +
+ (b + ε)𝔼X = a.
2 В самом деле, по определению корреляция
. В нашем случае X ~ 𝒩 (0, 1), поэтому σX = 1
и знаменатель просто σY .
3 Разумеется, выражение (6.14) стремится к 0 и при α → 2. Односторонний предел α → 2+0 лишний раз
напоминает, что исследуются толстые хвосты, с показателем α > 2.
4 2,2 ⋅ 109 против 1,24⋅109. — Прим. автора.
5 Сквозное исследование выпускников 1957 года школ в штате Висконсин (Winsconsin Longitudinal Studies,
WLS), содержит данные по 2011 год.
6 Винсоризация — очистка статистических данных от сомнительных значений. Удаляются все значения,
нарушающие некоторый порог (т. н. выбросы).

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

147

R2

Рисунок 6.10: Пример
с бесконечной дисперсией,
где выборка поначалу показывает высокий R 2, хотя
в итоге его значение 0.
Вспомним, что R 2 стохастичен. Ошибки в его
оценке весьма похожи
на проблему p-значений1
в Главе 19 из-за усложнения
метараспределения в промежутке [0, 1]

2

1,5

1

0,5

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Это обстоятельство лишает достоверности добрую половину статистических
исследований взаимосвязи IQ — богатство и IQ — доход, аналогичных [268]; драматический пример видим на Рисунке 6.9. Если R в пределах [0, 1], оценка приблизится
к истинному значению крайне медленно; смотрите о проблеме p-значений в Главе 19.
Y
4000

2000

–4

–3

–2

–1

1

–2000

2

3

X

Рисунок 6.11: Пример
с распределениями Коши.
Математическое ожидание R2 у данной регрессии
нулевое, однако на малой
выборке она показывает обманчиво высокий
R2 = 0,985

1 Кроме термина p-значение (p-value) в русской литературе также встречаются синонимы: p-уровень значимости и p-критерий. Имеется в виду готовность научного журнала признать, что в некотором исследовании гипотеза о некотором явлении подтверждена наблюдениями «статистически значимым» образом,
если без этой гипотезы (говорят: при нулевой гипотезе) вероятность, что наблюдения все равно окажутся
такими же или более резкими, — вероятность, называемая p-значением, — окажется ниже принятого
в этом научном журнале порога, обычно 0,05 или 0,01.

148

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Свойство 3
Если проверять регрессией зависимость толстохвостой случайной величины
от тонкохвостой, коэффициент детерминации R 2 получается завышенным
и сходится только при огромных выборках, если вообще сходится.

Заметим, что иногда исследователи пытаются решить проблему, подвергнув толстохвостую случайную величину нелинейному преобразованию (например, прологарифмировав), в надежде добиться линейной зависимости. Если требуемое преобразование известно в точности, прием сработает — но если нет, то нет. Неудачное
преобразование может привести к ошибкам, потому что корреляция вещь хрупкая
и, в отличие от взаимной информации, неаддитивна и зачастую неинформативна.
Вопрос исследован автором этой книги в [238].
ДАЛЕЕ
В Главе 8 мы изучим медленную сходимость случайных величин, распределенных
по степенному закону, согласно закону больших чисел (ЗБЧ): замедление может оказаться в 1013 раз по сравнению со сходимостью гауссовой случайной величины.

A
ОСОБЫЕ СЛУЧАИ
ТОЛСТЫХ ХВОСТОВ

Для распределений с одной вершиной толстые хвосты — обычное явление: можно
просмотреть десятки тысяч временных рядов социально-экономических случайных
величин и ни разу не наткнуться на «платикуртическое»1 распределение. Но для распределений с несколькими вершинами возможны сюрпризы.
A.1. МУЛЬТИМОДАЛЬНОСТЬ И ЖИРНЫЕ ХВОСТЫ, или
МОДЕЛЬ ВОЙНЫ И МИРА
Мы отмечали ранее в 4.1, что стохастизация (построение стохастической случайной
величины из детерминистских случайных величин) даже при небольшом возмущении
дисперсии делает хвосты распределения толще, как показывает рост эксцесса; при
этом мы сохраняли прежнее среднее.
Но если стохастизировать и среднее (сохраняя его в среднем на прежнем уровне)
и если достаточно широко расставить два стохастических значения среднего, добившись мультимодальности, то эксцесс, то есть четвертый статистический момент,
может упасть. Сочетая разные стохастические дисперсии с разными стохастическими
средними, мы получим разнообразие «режимов», каждый со своим набором возможностей.
При мультимодальности приходится либо признать, что понятие «толстых хвостов» теряет смысл, либо переосмыслить его так, что «середина», область вблизи
математического ожидания, теряет свою важность [7, 156].
Начнем с того, что все мы на практике сталкиваемся с вещами, которые могут
переключаться между разными режимами, или состояниями. Пусть во всех состояниях интересующая нас случайная величина имеет конечные статистические
моменты, и пусть их структура такая: есть спокойный режим s1, в котором математическое ожидание μ1 и среднеквадратичное отклонение σ1, и есть тревожный
режим s2, в котором математическое ожидание μ2 и среднеквадратичное отклонение σ2. Можно рассмотреть и много тревожных режимов, каждый со своей вероятностью pi.
Пусть для простоты все распределения, между которыми мы переключаемся,
гауссовы. Пусть с вероятностью рассматриваемая случайная величина распределена

1 С эксцессом меньше, чем у гауссова (от kurtosis — эксцесс).

150

Н АС С И М Н И К ОЛ АС ТА Л Е Б

в режиме X ~ 𝒩 (μ1, σ1) и с вероятностью
пределена в режиме X ~ 𝒩 (μ2, σ2). Тогда

рассматриваемая случайная величина рас-

эксцесс =

(A.1)

Как мы видим, эксцесс зависит от разности d = μ1 – μ2. В случае σ1 = σ2, μ1 ≠ μ2
дробь окажется положительной и эксцесс окажется меньше, чем у обычной гауссианы. Чтобы сохранить эксцесс равным 3, потребуется сделать коэффициенты масштаба разными:

тогда стохастизация математического ожидания будет компенсирована стохастизацией волатильности.
Допустим для простоты периодическую модель и что мы смотрим на хронологию
конечного отрезка, видя все новые результаты. (Мы могли бы усложнить наш мысленный эксперимент, добавив матрицы переходов между режимами, но главный вывод не
изменился бы.)
Характеристическая функция φ(t) смешанного распределения с N режимами

При N = 2 статистические моменты примут вид
M1 = p1 μ1 + (1 – p1)μ2

Рассмотрим те разновидности, где p1 < 1 – p1, μ1 < μ2, а лучше μ1 < 0 < μ2, и, главное,
σ1 > σ2.
Разновидность 1: Война и мир. Спокойный период с положительным математическим ожиданием и очень низкой волатильностью, сменяющийся бурей с отрицательным математическим ожиданием и крайне низкой волатильностью.
Разновидность 2: Условно-детерминистское состояние. Рассмотрим облигацию стоимости B, по которой выплачивается процент r в конце одного-единственного периода. При реализации есть высокая вероятность получить обещанные B(1 + r)
и есть некоторая вероятность дефолта. Получить ровно B маловероятно. Представим
себе, что нет промежуточных ступеней между войной и миром: что это два отдельных,
дискретных состояния. С облигациями не случается «немножко дефолт». Пропасть
практически запрещает реализацию, равную или близкую к среднему. Собственно,
при любом двумодальном распределении плотности вероятности p(x) значение плотности p(𝔼X) должно быть ниже, чем вблизи математических ожиданий отдельных

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

151

Плотность

Рисунок A.1: Модель Война
и мир. Эксцесс 1,7, намного
ниже, чем у гауссианы

S₂

S₁

Эксцесс
3

Рисунок A.2: Эксцесс опускается ниже гауссова в зависимости от расхождения
пиков бимодального распределения (эксцесс 3 — у гауссова распределения)

2,5

2

1,5

–10

–5

5

10

μ₁ – μ₂

режимов, так что ℙ(X = 𝔼 X) < ℙ(X = μ1) и < ℙ(X = μ2)1, но в нашем крайнем примере
с облигациями ℙ(X = 𝔼 X) становится особенно мала. Хвостовым событием будет реализация, близкая к математическому ожиданию.
Та же идея приложима и к привязкам валюты, поскольку девальвации не бывают
«умеренными», это волатильность типа всё-или-ничего, с «долиной» низкой плотности вероятности между двумя разными режимами.
У доходности опциона бимодальность проявляется как рост премии для опционов
«на деньгах» и понижение для опционов «вне денег», создавая прямую противоположность так называемой «улыбке волатильности»2.
Заметим, что чашка не бывает в промежуточном состоянии между разбитой
и целой. Разбитую чашку можно считать поглощающим состоянием (в терминах цепи
Маркова и переходных вероятностей), поскольку разбитые чашки не чинятся.
1 Педантичнее было бы выписать ℙ(X ∈ 𝔼(X) ± dx) < ℙ(X ∈ μ1±dx) и < ℙ(X ∈ μ2±dx); впрочем, для дискретного примера с облигацией разницы никакой: ℙ(X ∈ μ1±dx) = ℙ(X = μ1) и ℙ(X ∈ μ2±dx) = ℙ(X = μ2).
2 Выпуклая вниз зависимость ожидаемой волатильности от страйк-цены.

152

Н АС С И М Н И К ОЛ АС ТА Л Е Б

И чашки редко оказываются «слегка разбитыми», как видно на Рисунке A.3.
состояние
0

время

Рисунок A.3: Если разбивается кофейная чашка,
повреждение будет скорее больши́м, чем малым.
Бьющаяся чашка существует по принципу всё
или ничего. Тот же тип
доходности преобладает
на рынках при девальвациях (или ревальвациях),
где сильное изменение
вероятнее, чем слабое

–20

–40

–60

Область
низкой
вероятности

–80

–100

Краткий список прочих ситуаций с бимодальностью:
1. Привязка валюты.
2. Слияние.
3. Выбор профессии и итоговый заработок.
4. Конфликт: межличностный, общий, военный и вообще любая ситуация, где нет
промежуточного состояния между гармоничными отношениями и боевыми действиями.
5. Каскад состояний.
A.2. ПЕРЕХОДНЫЕ ВЕРОЯТНОСТИ: ЧТО МОЖЕТ РАЗБИТЬСЯ,
РАЗОБЬЕТСЯ1
Пока что мы рассматривали модель одного-единственного периода, и это был реалистичный подход, поскольку новая информация может нарушить бимодальность, если
двинуться дальше в будущее: мы ясно видим лишь один шаг. Однако давайте сделаем
усилие и решим задачу, которая подарит нам одну идею касательно хрупкости. Предположим, что модель сохраняет структуру, и рассмотрим долговременное поведение
при переходах между состояниями. Пусть P — матрица переходных вероятностей, где
pi, j относится к переходу из i-того состояния в j-тое за время ∆t. Обозначая S(t) режим
в момент времени t, это вероятность ℙ(S(t + ∆t) = sj | ℙ(S(t) = si)). Для двух состояний

После n периодов, или шагов,
,
где

1 Парафраз первого закона Мерфи «Все, что может испортиться, — портится».

СТАТИСТИЧЕСКИЕ ПО СЛЕДСТВИЯ ЖИРНЫХ ХВО СТОВ

153

(мы избавились от обеих вероятностей pi, ≠i, заменив их на 1–pi, i).
Рассмотрим крайний случай, где 1-е состояние — поглощающее, p1, 1 = 1. Тогда

и «эргодические» вероятности
.
Смысл тот, что режим 1-го, поглощающего состояния s1 в конечном счете преобладает с вероятностью 1: что может разбиться, в конце концов разобьется.
Для «эргодической» матрицы

где 𝟙T = ( 1

1 ) — транспонированный единичный вектор и π — матрица собственных

векторов. Собственные значения принимают вид
собственные векторы

, соответственно

.

Плотность

S₁

S₂

Рисунок A.4: Модель доходности облигации или привязки валюты. В режиме 2,
в точке привязки, ноль
волатильности, детерминистская доходность;
в режиме 1 хаос. В данном
примере эксцесс K = 2,5.
В отличие от этого примера пример с чашкой был
вырожденным в обоих
режимах

154

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Рисунок A.5: Давление на привязку может давать распределение
плотности вероятностей в виде функции Дирака, близкой к нулю
врежиме «никакой девальвации» (что равносильно низкой волатильности). Финансовые кретины обычно принимают режим s2 за свидетельство низкой волатильности

Часть II
ЗАКОН СРЕДНИ Х ЧИ СЕЛ

7
ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ,
КОНСОЛИДАЦИЯ *†

В этой пояснительной главе мы продолжим сводить к общему языку литературу по предельным распределениям с учетом нашей цели; в некоторых случаях будем предлагать свои сокращенные версии. Познакомившись с законом
больших чисел, мы покажем интуитивное понимание центральной предельной теоремы и проиллюстрируем ее разновидности доасимптотическим поведением разных распределений. Затем обсудим закон больших чисел применительно к высшим моментам. Более строгий и глубокий подход представим
в следующей главе.

И закон больших чисел, и центральная предельная теорема дают частные ответы
на общий вопрос: «Каково в пределе поведение суммы или среднего случайных величин, когда число слагаемых приближается к бесконечности?» Наш закон средних
чисел, или закон предасимптотики, отвечает на вопрос: «А что, если число слагаемых
не достигает бесконечности?»
7.1. НАПОМИНАНИЕ: СЛАБЫЙ И СИЛЬНЫЙ ЗБЧ
Обычное изложение такое. Пусть X1, X2, … — бесконечная последовательность независимых одинаково распределенных случайных величин, интегрируемых по Лебегу
и имеющих математическое ожидание 𝔼 Xi = μ. Ниже мы увидим, что можно несколько
ослабить требование н. о. р. Среднее по выборке первых n величин

сходится к тому же математическому ожиданию, X̅n → μ, при n → ∞.
Предполагать конечную дисперсию не требуется, хотя, безусловно, конечность
дисперсии и прочих высших моментов ускорит сходимость.
Сходимость происходит в двух режимах: сходимость по вероятности (из которой следует сходимость по распределению, но не наоборот) и более сильная , сходимость почти наверное (аналог поточечной сходимости), она же сходимость почти
всюду или почти всегда. Различие отвечает слабому и сильному ЗБЧ.

158

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Слабый ЗБЧ. Слабый закон больших чисел (он же закон Хинчина1, он же закон
Бернулли2) в кратком изложении сводится к тому, что вероятность, с которой среднее
значение последовательности отклонится от среднего дальше чем на данный порог,
уменьшается с удлинением последовательности.
То есть для любого положительного числа ε

Тем самым оценка среднего по все более длинным последовательностям состоятельная: сходится по вероятности к оцениваемой величине,

Заметим, что стандартные доказательства опираются на неравенство Чебышёва:
если у X конечная ненулевая дисперсия σ 2, то для любого действительного числа k > 0

Сильный ЗБЧ. Сильный закон больших чисел гласит, что, когда число слагаемых n уйдет в бесконечность, вероятность того, что среднее сойдется к математическому ожиданию, равна 1:

То есть

Ослабление н. о. р. Ослабим теперь условие одинаковой распределенности случайных величин. Как доказал Колмогоров3, для неодинаково распределенных слагаемых Xi достаточно потребовать существование конечного второго момента.
Что касается требования независимости, то некоторую слабую зависимость допустить можно. Традиционно формулируются такие условия, как, во-первых, опять-таки
конечная дисперсия
1) 𝕍 (Xi) ≤ c
и, во-вторых, некоторые ограничения на структуру ковариационной матрицы
2)

1 Здесь имеется в виду, что в 1924 А. Я. Хинчин открыл закон повторного логарифма: если в последовательности н. о. р. μ = 0 и дисперсия σ 2 = 1, то при n → ∞
.
2 Здесь имеется в виду, что в «Искусстве предположений» Якоба Бернулли (Ars conjectandi, 1713; книга
издана посмертно под ред. Николая Бернулли) содержится первое доказательство ЗБЧ, для случая бинарных случайных величин. В той книге это было названо «золотой теоремой»; название закон больших
чисел (la loi des grands nombres) ввел Пуассон в 1837 году.
3 В 1929 году Колмогоров обобщил закон повторного логарифма Хинчина, ослабив требование н. о. р.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

159

Впрочем, оказалось, что (1) можно ослабить до требования

а (2) можно ослабить до требования

См. Бернштейн1 [19] (на французском) и Козлов2 [148] (на русском)3.
В чем наш интерес. Нас, понятно, волнует «скорость» сходимости ЗБЧ, и мы
будем ее рассматривать в этой и следующей главе. Заметим, что при сильном предположении н. о. р. не обязательно требовать конечную дисперсию, и мы переключимся
с дисперсии на другой показатель рассеяния — среднее абсолютное отклонение.
7.2. ЦЕНТРАЛЬНЫЙ ПРЕДЕЛ В ДЕЙСТВИИ
Начнем с упрощенной версии обобщенной центральной предельной теоремы (ЦПТ)
в формулировке Поля Леви (традиционный подход к ЦПТ и необходимую технику
представим позже):

Рисунок 7.1: Поль Леви, 1886–1971, сформулировал обобщенную центральную предельную теорему

1 Здесь ссылка на статью 1918 года.
2 Здесь ссылка на статью 2004 года «О весовых средних значениях слабозависимых случайных величин»,
где у академика Козлова два соавтора: Татьяна Валерьевна Мадсен-Козлова из Ольборгского университета, Дания, и Алексей Александрович Сорокин, механико-математический факультет МГУ.
3 Спасибо моему таинственному русскоговорящему помощнику с ником romanoved на форуме Mathematics
Stack Exchange. — Прим. автора.

160

Н АС С И М Н И К ОЛ АС ТА Л Е Б

7.2.1. Устойчивое распределение
Как и выше, пусть X1, X2, …, Xn — независимые и одинаково распределенные случайные величины. Рассмотрим их сумму Sn. Имеет место предел
(7.1)
где XS следует устойчивому распределению 𝒮, an и bn — нормирующие постоянные
и, как мы помним,
обозначает сходимость по распределению (в данном случае
сходимость к распределению случайной величины X при n → ∞). Свойства 𝒮 мы
должным образом определим и изучим в следующей главе. Пока ограничимся тем, что
случайная величина XS следует устойчивому (или α-устойчивому) распределению, что
записывается как XS ~ 𝒮 (αS, β, μ, σ), если ее характеристическая функция χ (t) = 𝔼eitXS
имеет вид:
(7.2)
Ограничения: –1 ≤ β ≤ 1 и 0 ≤ αS ≤ 21.
Обозначение устойчивого распределения подразумевает, что данное распределение (или класс распределений) устойчивы при суммировании: вы складываете случайные величины, следующие различным распределениям из класса 𝔖 2, описанного
в следующей главе (где все они сводимы к одному и тому же распределению с разными
параметрами характеристической функции), и сумма получается с тем же распределением. На интуитивном уровне на χ(t) n можно смотреть как на результат подстановки
в χ(t) новых параметров:
. Широко известные распределения в этом
классе (который некоторые называют «бассейном») — гауссово, Коши и Леви, с параметром α = 2, 1 и

соответственно. У остальных распределений нет аналитического

представления для плотности вероятности3.
7.2.2. Закон больших чисел для устойчивого распределения
Вернемся к закону больших чисел.
Согласно стандартным результатам, мы можем наблюдать работу закона больших
чисел при устойчивом распределении, как проиллюстрировано на Рисунке 7.2:
1 Мы постараемся, где есть риск двусмысленности, обозначать как αS ∈ (0, 2] показатель предельного или
идеального устойчивого распределения и как αP ∈ (0, ∞) соответствующий эквивалент распределения
Парето (доасимптотического); в самоочевидном контексте обойдемся просто α. — Прим. автора.
2 Это заглавная готическая «эс» (mathematical fraktur capital s).
3 На самом деле неаналитичность можно обойти, введя специальные функции; например, автор случайно
открыл, что для устойчивого распределения 𝒮 (α, β, μ, σ) с параметрами
, β = 1, μ = 0 и σ = 1 плотность
вероятности выразима через функцию Эйри как

;
это представление используется далее в примере предельного распределения для сумм Парето. — Прим.
автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

161

(7.3)
то есть вырождается в характеристическую функцию дельта-функции Дирака; в самом
деле, преобразование Фурье ℱ (здесь оно параметризовано, чтобы быть обратным
к характеристической функции) дает:
ℱt (e i μt) (x) = δ(x – μ).

(7.4)

плотность
вероятности
2,5

Рисунок 7.2: Закон
больших чисел
проявляется как
сжатие распределения вокруг
математического
ожидания и, в пределе, вырождение
в дираковский
шест в точке
математического
ожидания

2

дельта-функция Дирака
1,5

1

0,5

–4

–2

0

2

4

ожидание

Мы еще увидим, как это работает «в реальном времени», при всех 1 < n < +∞, в нескольких вариантах, — в следующих разделах.
7.3. СКОРОСТЬ СХОДИМОСТИ ЦПТ: НАГЛЯДНЫЕ ОПЫТЫ
Заметим, что при конечной дисперсии случайных величин X устойчивое распределение случайной величины XS будет гауссовым. Однако случайная величина XS построена
как предельный переход при n → ∞, и возможны разные осложнения на пути к цели.
Рассмотрим 4 случая, иллюстрирующие смысл ЦПТ и скорость сходимости.
7.3.1. Быстрая сходимость: равномерное распределение
Рассмотрим равномерное распределение — простейшее из всех. Если случайная величина X1 пробегает отрезок [0, 1], плотность вероятности будет просто φ1(x) = 1 при
0 ≤ x ≤ 1, давая интеграл 1. Теперь прибавим к ней другую случайную величину X2, независимую и с таким же распределением. У суммы X1 + X2 распределение будет другим!
Посмотрим на функцию φ2(.), плотность вероятности для суммы, на Рисунке 7.3. График стал треугольным. Добавим еще одну переменную, и плотность вероятности φ3 для
распределения суммы X1 + X2 + X3 станет колоколом всего-навсего при n = 3 слагаемых1.

1 Распределение суммы n равномерно распределенных н. о. р. называется распределением Ирвина —
Холла (Irwin–Hall distribution).

162

Н АС С И М Н И К ОЛ АС ТА Л Е Б

φ₁

φ₂
1

2

0,8
1,5
0,6
1

0,4

0,5

0,2
0,2

0,4

0,6

0,8

1

x

φ₃

0,5

1

1,5

2

x

1

2

3

4

x

φ₄

0,7

0,6

0,6

0,5

0,5

0,4

0,4
0,3

0,3

0,2

0,2
0,1

0,1
0,5

1

1,5

2

2,5

3

x

Рисунок 7.3: Самая быстрая ЦПТ: равномерное распределение сходится к гауссову за несколько
шагов. Рассмотрим число слагаемых 1, 2, 3, 4. Уже при 3 слагаемых видим отчетливый колокол

Сумма X1 + X2 +… независимых случайных величин X1, X2, …, каждая из которых
равномерно распределена в отрезке [L, H], имеет распределение
.1.
7.3.2. Полузамедленная сходимость: экспоненциальные распределения
Рассмотрим сумму случайных величин с экспоненциальным распределением.
Исходная функция плотности
φ1(x) = λe –λx, x ≥ 0,
а для n слагаемых2

Заменяя x на n/λ (мы потом примем λ = 1, как в примерах на Рисунке 7.4), получаем
в пределе

1

биномиальный коэффициент; в русской литературе также

. — Прим. перев.

2 Плотность вероятности для суммы в данном случае можно вывести просто сверткой; для более сложных
случаев можно действовать через характеристические функции, как мы увидим на примере распределений Парето.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

163

то есть плотность нормального распределения с математическим ожиданием
персией .

и дис-

Соответствующее продвижение к гауссиане, как видно на Рисунке 7.4, происходит
медленнее, чем мы видели в предыдущем разделе; остатки изначальной асимметричности еще заметны даже при n = 10.
φ₁

φ2

1
0,3

0,8
0,6

0,2

0,4
0,1

0,2
1

2

3

4

x

2

φ₃

4

6

8

x

φ₄

0,25

0,2

0,2

0,15

0,15
0,1

0,1

0,05

0,05
2

4

6

x

8

φ₉

2

4

6

8

10

12

5

10

15

20

25

30

x

φ₁₀

0,14

0,12

0,12
0,1

0,1

0,08

0,08

0,06

0,06

0,04

0,04
0,02

0,02
5

10

15

20

25

x

x

Рисунок 7.4: Экспоненциальное распределение φ с числом слагаемых, указанным
в нижнем индексе. Сходимость замедлилась по сравнению с равномерным распределением, но еще хорошая

7.3.3. МЕДЛЕННЫЙ ПАРЕТО
Рассмотрим простейшее распределение Парето на промежутке [1, ∞):
φ1(x) = 2x –3.
Обращая характеристическую функцию, выводим

где E(.)(.) — обобщенная модифицированная интегральная показательная функция,
которая определяется как

.

164

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Интегрировать придется численно (до сих пор никому не удалось аналитически
представить сумму распределений Парето). Время вычислений растет по экспоненте,
например 45 секунд тратится на n = 2 и 24 часа на n = 50; чтобы получить графики на
Рисунке 7.5, нам пришлось прибегнуть к методу Монте-Карло.
φ₁

φ₂

2

φ₃

0,5

1,5

0,4

1

0,3
0,2

0,5

0,1
2

3

4

5

x

φ₄

2

4

6

8

10

x

φ₅

0,25

2

4

6

8

10

15

20

12

x

14

φ₆

0,2

0,2

0,35
0,3
0,25
0,2
0,15
0,1
0,05

0,15

0,15

0,15

0,1

0,1

0,1

0,05

0,05

0,05
5

10

15

20

x

φ₇

5

10

15

20

25

x

φ₈

0,15
0,1
0,05
5

10

15

20

25

30

35

x

5

10

25

30

x

φ₉

0,14
0,12
0,1
0,08
0,06
0,04
0,02
10

20

30

40

x

0,12
0,1
0,08
0,06
0,04
0,02
10

20

30

40

x

Рисунок 7.5: Распределение Парето. Коэффициент асимметрии* упорно не падает до нуля, хотя
в данном случае распределение суммы сходится к гауссовому… в конце концов
* Коэффициент асимметрии (англ. skewness) определяют как нормализованный третий центральный
момент μ3̃ = μ3 / σ3, где третий центральный момент μ3 = 𝔼(X – μ)3. — Прим. перев.

Вспомним равенство 7.1: для сходимости требуются номирующие константы an
и bn. Из работы Учайкина и Золотарева имеем (сужая ситуацию для 1 < αP ≤ 2):
ℙ(X > x) = cx –αP
при x → ∞ (считайте пока c константой; в следующей главе мы представим более формально «медленно меняющуюся функцию»), и
ℙ(X < x) = d |x| –αP

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

165

при x → –∞. Нормирующие константы принимают вид an = n 𝔼 X при всех αP > 1
(за описанием других случаев отсылаю к [257], поскольку на практике они маловероятны), и

,

а параметр симметрии примет вид

(7.5)

. Разумеется, в случае, где у распределения

Парето параметр αp превышает 2, сумма n слагаемых сходится к гауссиане.
φ₁₀₀
0,04

0,03

0,02

0,01

0

150

200

250

300

350

400

x

φ₁₀₀₀
0,05
0,04
0,03
0,02
0,01
0

1800

2000

2200

2400

2600

x

Рисунок 7.6: Распределения Парето φ100 и φ1000 так и не
приблизились к гауссиане, хотя при α = 2 это произойдет —
если у вас хватит терпения и вы будете жить долго-долго

7.3.4. Полукубический Парето и его область сходимости
Интерес представляет случай

. В отличие от ситуаций на Рисунке 7.3.1, распре-

деление мало-помалу становится симметричным. Хотя, как мы обсудим в следующей
главе, будет ошибкой присовокупить его к ситуациям устойчивого распределения.
В определенном смысле слова оно еще более жирнохвостое.

166

Н АС С И М Н И К ОЛ АС ТА Л Е Б

φ₁₀!!₀₀₀

Рисунок 7.7: Полукубическое распределение Парето так и не станет симметричным на практике.
Здесь число слагаемых
n = 10 4

25 000

30 000

35 000

40 000

45 000

x

7.4. КУМУЛЯНТЫ И СХОДИМОСТЬ
Гауссово распределение, сходимость к которому мы исследуем, имеет коэффициент
асимметрии 0 и эксцесс (не приведенный) 31. Поэтому мы можем изучить сходимость
этих двух моментов, чтобы эвристически нащупать бассейн быстрого срабатывания ЦПТ.
Определение 7.1 (p-тые избыточные кумулянты)
Пусть χ(ω) — характеристическая функция данного распределения, n — число
слагаемых (независимых случайных величин), p — порядок момента. Обозначим
отношение кумулянтов2, отвечающих p-тому и 2-му моменту:

.

при p > 2 показывает превышение p-того момента распределения n независимых слагаемых относительно момента гауссианы; таким образом,
покажет, что
при n слагаемых достигнута гауссовость.
1 Очевидно, оговорка адресована читателям, привыкшим, как в русской литературе, пользоваться не эксцессом, а коэффициентом эксцесса, то есть эксцессом минус 3.
2 В русской литературе кумулянты (cumulants) называются также полуинвариантами и семиинвариантами.
Кумулянты распределения случайной величины X аналогичны другим статистическим характеристикам:
Среднее,
Дисперсия, 𝕍 X = 𝔼(X – 𝔼 X)2
Коэффициент асимметрии,

Эксцесс,

=
=




Первый момент

=

Первый кумулянт

Второй центральный момент =
Третий центральный момент,
=
𝔼(X – 𝔼X )3

Второй кумулянт

Четвертый центральный
момент, 𝔼(X – 𝔼X )4



Третий кумулянт

Четвертый кумулянт,
𝔼(X – 𝔼X )4–3(𝕍X )2

Все кумулянты кумулятивны, т. е. для суммы n случайных н. о. р. величин p-тый кумулянт
. При
гауссовом распределении кумулянты порядка p ≥ 3 все нулевые, и нормализованная сумма н. о. р. случайных величин сходится к гауссиане, об этом можно судить по нулевым высшим кумулянтам.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

167

Замечание 6. Заметим, что
для всех распределений вероятностей вне класса степенного закона.
Заметим также, что
конечен для тонкохвостого класса. Другими
словами, мы имеем четкое разделение классов на бассейн сходимости и бассейн несходимости моментов.

Для распределений вне бассейна степенного закона ∀p∈ℕ >2 отношение кумулянпадает как n p – 2.
Схематически доказательство опирается на α-устойчивое распределение как предельный бассейн и на недифференцируемость порядка p, если он превышает показатель хвоста согласно формуле (8.4).
В Таблице 7.1 показано поведение кумулянтов1
для суммы2 n величин.

тов

Мы могли ожидать падения со скоростью
для стохастической волатильности
(представленной гамма-распределением дисперсии). Однако, как показывает Рисунок 7.8, ничего похожего на столь быстрое падение не происходит. Ясно, что мы вне
бассейна. Как видно из [228], при сложении экономических случайных величин сходимости эксцесса нет.
Эксцесс

20

Перетасованный
S&P 500

15

S&P 500

10

5

0

20

40

60

80

100

Временной лаг

Рисунок 7.8: Визуальная диагностика сходимости для эксцесса S&P 500 за последние
17 000 наблюдений. Мы посчитали эксцесс при разных лагах для необработанного индекса
S&P 500 и для перетасованных данных. Для необработанных данных сходимости 4-й нормы нет,
а для перетасованных — есть. Можно предположить, что жирнохвостость присуща временной
структуре данных, что волатильность образует комки по времени

1 Нормированных по

.

2 Имеется в виду приведенная сумма

.

168

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Таблица 7.1: Быстрота сходимости суммы n независимых случайных величин с тонкохвостым распределением — оценка по нормированным кумулянтам
Распред. Пуассона1 Экспон.2

Гамма3

(λ)

(λ)

1

1

(a, b)

Симметричная волатильность двух состояний4
(σ1, σ2)

Гамма дисперсии5
(a, b)

1

1

1

0

0

12345

1 По Пуассону, с параметром λ распределено количество X событий в единичном промежутке времени,
когда события происходят случайно, независимо друг от друга и со средней частотой λ. Распределение
Пуассона — дискретное: наблюдения X — только натуральные числа.
Для дискретного распределения

Для непрерывного распределения

Вероятность f (x) = ℙ(X = x), x ∈ ℕ

Плотность вероятности

Среднее

Среднее

Дисперсия

Дисперсия

Для распределения Пуассона с параметром λ вероятность f (x) = λxe−λ/x!. Среднее λ, дисперсия опять λ, коэффициент асимметрии λ−1/2, эксцесс 3 + λ−1. Все кумулянты κ1 = κ2 = κ3 = κ4 = … = λ. Для суммы n н. о. р. величин
. Таким образом,
конечен.
X1 + … + Xn все кумулянты
2 Экспоненциально с параметром λ распределено время X ожидания следующего события, когда события
происходят случайно, независимо друг от друга и со средней частотой λ. Плотность вероятности
. Среднее λ–1, дисперсия λ–2, коэффициент асимметрии 2, эксцесс 9. Кумулянты
κ1 = λ –1, κ2 = λ –2, κ 3 = 2λ–3, κ 4 = 6λ –4, …, κ p = λ –p(p – 1)!. Для суммы n н. о. р. величин X1 + … + Xn кумулянты
3 Гамма-распределение с параметром формы a > 0 и параметром масштаба b > 0 в частном случае a ∈ ℕ
присуще случайному времени X ожидания a событий, когда события происходят случайно, независимо
друг от друга и со средней частотой b –1. В этом случае гамма-распределение называется также распределением Эрланга; плотность вероятности f (x) = x a – 1e –bxb a/(a – 1)!. В общем случае a∈ℝ >0; плотность веро. И для a∈ℕ, и в общем случае a ∈ ℝ >0 среднее , дисперсия

ятности
метрии

, эксцесс

. Кумулянты

. Для суммы n н. о. р.

X1 + … + Xn кумулянты
4 Имеется в виду

, коэффициент асим-

,
в случае

.

.

5 Англ. variance-gamma — распределение вероятностей, представимое как нормальная смесь дисперсиисреднего, где в качестве взвешивающей плотности взята плотность гамма-распределения.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

169

7.5. ПОВТОРИМ ТЕХНИКУ: ТРАДИЦИОННЫЕ ВЕРСИИ ЦПТ
Вспомним несколько теорий под общим названием ЦПТ.
Стандартная1 версия ЦПТ (Линдеберга — Леви). Пусть, как раньше, рассматривается последовательность Xi н. о. р. случайных величин с 𝔼 Xi = μ и 𝕍Xi = σ2 < +∞.
Рассмотрим выборочное среднее X̅n первых n членов последовательности. Когда n
приближается к бесконечности, приведенная сумма выборки
(X̅n – μ) сходится по
распределению к гауссиане [20] [21]:
(X̅n – μ)

𝒩 (0, σ 2).

Сходимость по распределению означает, что функция распределения для вели(X̅n – μ) поточечно сходится к функции распределения 𝒩 (0, σ 2); другими слочины
вами, что для всякого действительного z

где Φ(.) — функция стандартного нормального распределения. Заметим, что эта сходимость равномерна по z, то есть

где sup — точная верхняя граница множества.
ЦПТ Ляпунова. У Ляпунова слагаемые предполагаются независимыми, но не
обязательно одинаково распределенными. Кроме того, в посылке теоремы требуется,
чтобы у случайных величин |′Xi| существовали моменты некоторого порядка вида 2 + δ
и чтобы скорость роста этих моментов ограничивалась условием Ляпунова, которое
состоит в следующем.
Определим

Если для некоторого δ > 0

то сумма

при n, стремящемся к бесконечности, сходится по распределению

к стандартной нормальной случайной величине:
𝒩 (0, 1).
Если последовательность случайных величин удовлетворяет условию Ляпунова,
она также удовлетворяет условию Линдеберга, которое мы теперь рассмотрим; обратное же неверно.
1 В русской литературе — классическая центральная предельная теорема.

170

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Условие Линдеберга. По Линдебергу, удается достичь ЦПТ при более слабых
допущениях. В тех же обозначениях, что выше: если верно, что

для всех ε > 0, где 𝟙 — индикаторная функция1, то случайная величина

сходится по распределению к гауссиане при n → ∞.
Условие Линдеберга достаточное и, вообще говоря, избыточное — кроме случая,
когда для рассматриваемой последовательности случайных величин

В этом случае условие Линдеберга необходимое и достаточное, то есть оно выполнено тогда и только тогда, когда выполнено заключение центральной предельной теоремы.
7.6. ЗАКОН БОЛЬШИХ ЧИСЕЛ ДЛЯ ВЫСШИХ МОМЕНТОВ
7.6.1. Высшие моменты
На критерий жирнохвостости можно смотреть как на применение закона больших
чисел к высшим моментам и их сходимости. Можно посмотреть, как ведет себя кумулятивное среднее p-того момента — аналогично обычной наглядной проверке ЗБЧ,
которую мы видели в Главе 3, только применительно не к самой случайной величине X,
а к ее степени X p (или к степени центрированной X). Чтобы узнать, срабатывает ли
закон больших чисел, смотрим, приводит ли добавление наблюдений к сокращению
изменчивости среднего (или дисперсии, если она существует). Когда момент не существует, мы увидим случайные скачки — то есть увидим, что даже большие разные
выборки выдают разное среднее. Когда момент существует, добавление наблюдений
приведет рано или поздно к тому, что скачки прекратятся.
Еще один наглядный метод — посчитать вклад максимального наблюдения
в общую сумму и посмотреть, как он ведет себя с ростом n. Такой график называется
MS [115], от maximum to sum; пример показан на Рисунке 7.10.

1 Так в теории вероятностей называют то, что в теории множеств называется характеристической функцией. Это функция принадлежности элемента x из области определения заданному подмножеству A области определения:
сти множеству A; тогда вместо

. Иногда вместо множества A указывают критерий принадлежнопишут

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

Медь

Эксцесс

3-месячный
евродоллар

Эксцесс

25
20

15

15

10

10

5
10

20

30

40

Скот

Эксцесс

Лаг

4
2

Эксцесс

20

10

20

30

40

10-летние
облигации США

Лаг

40

10

10

20

30

40

Лаг

Австралийские
10-летние боны

10

40

Лаг

20

30

Лаг

40

10
8
6
4

2
30

Лаг

40

Нью-Йоркская
биржа кофе

Эксцесс

4

20

30

Эксцесс Соевые продукты

6

10

20

14
12
10
8
6
4
2

Эксцесс

6
5
4
3
2
1

30

Лаг

Индекс РТС

14
12
10
8
6
4
2

6

10

5

Эксцесс

8

Золото

Эксцесс

20

6
5
4
3
2
1

171

2
10

20

30

40

Лаг

10

20

30

Лаг

40

Рисунок 7.9: Поведение 4-го момента при агрегации данных; представлены курсы различных ценных бумаг с окном сглаживания от 1 до 45 дней. Согласно сходимости распределения к гауссовому эксцесс должен приблизиться к значению 3; фактически он этого не делает (использованы
данные, собранные для [228]). Невозможно объявить, что такие данные становятся гауссовыми
после снижения частоты выборки с ежедневной до ежемесячной

Таблица 7.2: Эксцесс K(t) при ежедневном, 10-дневном и 66-дневном окне t сглаживания для
различных случайных величин

10-летние казначейские облигации США
1-месячный евродоллар
30-летние боны Казначейства США
3-месячный евродоллар
5-летние казначейские облигации США
Bovespa

K(1)

K(10)

K(66)

Максимум
за квартал

Годы

5,9

5,5

4,9

0,10

27

41,5

28,0

6,0

0,31

19

5,6

4,7

3,9

0,02

32

21,1

8,1

7,0

0,25

28

5,1

3,2

2,5

0,06

21

24,9

5,0

2,3

0,27

16

CT

7,8

4,8

3,7

0,25

48

Австралийские 10-летние казначейские боны

7,5

6,2

3,5

0,08

25

Австралийские 3-летние казначейские боны

7,5

5,4

4,2

0,06

21

Австралийский доллар / доллар США

6,3

3,8

2,9

0,12

22

172

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Продолжение таблицы 7.2
Британский фунт / доллар США

6,9

7,4

5,3

0,05

38

Евро / ранее немецкая марка

5,5

3,8

2,8

0,06

38

Евробонд
Золото
Иена / доллар США
Индекс CAC 40 (Франция)

4,9

3,2

3,3

0,06

18

11,9

14,5

16,6

0,04

35

9,7

6,1

2,5

0,27

38

6,5

4,7

3,6

0,05

20

Индекс FTSE

15,2

27,4

6,5

0,54

25

Индекс Nasdaq

11,4

9,3

5,0

0,13

21

Индекс S&P 500

38,2

7,7

5,1

0,79

56

8,0

6,5

3,7

0,20

18

Индекс Никкей

52,6

4,0

2,9

0,72

23

Индекс РТС (Россия)

13,3

6,0

7,3

0,13

17

7,4

4,1

3,9

0,06

38

851,8

93,0

3,0

0,75

17

Кукуруза

9,4

8,0

5,0

0,18

49

Малая капитализация

6,1

5,7

6,8

0,06

17

Медь

6,4

5,5

4,5

0,05

48

Нью-Йоркская биржа какао

4,9

4,0

5,2

0,04

47

Нью-Йоркская биржа кофе

Индекс Дакс

Канадский доллар
Короткий стерлинг

10,7

5,2

5,3

0,13

37

Природный газ

6,0

3,9

3,8

0,06

19

Пшеница

5,6

6,0

6,9

0,02

49

Сахар-сырец

9,4

6,4

3,8

0,30

48

Свиньи

4,5

4,6

4,8

0,05

43

160,3

22,6

10,2

0,94

46

Скот

4,2

4,9

5,6

0,04

44

Соевое масло

5,5

7,0

4,9

0,11

47

Соевые продукты

8,9

9,8

8,5

0,09

48

Серебро

Соя

7,1

8,8

6,7

0,17

47

Сырая нефть

29,0

4,7

5,1

0,79

26

Топочный мазут

20,0

4,1

4,4

0,74

31

Фондовый индекс Джакарты

40,5

6,2

4,2

0,19

16

5,1

3,8

2,6

0,05

38

17,2

16,9

4,3

0,48

24

Швейцарский франк
Японские гособлигации

Еще один наглядный метод — посчитать вклад максимального наблюдения в
общую сумму и посмотреть, как он ведет себя с ростом n. Такой график называется
MS [115], от maximum to sum; пример показан на Рисунке 7.10.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

173

Max
Sum
1

Рисунок 7.10: На графике MS видно, как вели себя
кумулятивные моменты
p = 1, 2, 3, 4 для биржевого индекса S&P 500
за последние 60 лет, по
конец 2018. График MS
(Maximum to sum, максимум
к сумме) будет представлен
в разделе 10.2.6

0,8

0,6

0,4

0,2

5000

10 000

15 000

Max
Sum
1

0,8

Рисунок 7.11: Проверка
гауссовости для данных
на Рисунке 7.10

0,6

0,4

0,2

5000

10 000

15 000

7.7. СРЕДНЕЕ ОТКЛОНЕНИЕ ДЛЯ УСТОЙЧИВЫХ РАСПРЕДЕЛЕНИЙ
Подготовим один результат для следующей главы. Он касается нормы L1 для случаев
конечного математического ожидания, но бесконечной дисперсии1. Очевидно, что по
норме L2 оценить сжатие распределения вблизи математического ожидания невозможно.
Погрешность суммы по норме L1 определяется так. Пусть ϑ (x) — функция Хевисайда (равная нулю для отрицательных аргументов и единице для положительных),
и функция знака числа связана с ней как sgn x = 2ϑ(x) – 1. Характеристическая функция
функции знака числа имеет вид:
(7.6)
1 Договоримся, что термин бесконечный относится к случаю однохвостого, ограниченного с одной стороны распределения; например, для произвольной случайной величины X величина X 2 однохвостая, так
что дисперсия 𝔼X 2 может быть бесконечной; термин неопределенный относится к случаю, когда случайная величина двухвостая, например пресловутое распределение Коши. — Прим. автора.

174

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Пусть χ d(.) — характеристическая функция произвольного невырожденного распределения. Сверткой χ sgn x * ( χ d)n получим характеристическую функцию для позитивной вариации1 n независимых слагаемых

В нашем случае абсолютное отклонение вдвое больше положительных значений χ:

Это преобразование Гильберта для χ, при котором под

понимается главное зна-

чение интеграла по Коши (Pinelis, 2015)[193]. В нашем случае, предполагая, что все
независимые слагаемые — копии одного и того же распределения, можем заменить
произведение (χ(t)) n на χS (t) — аналогичную характеристическую функцию, у которой
масштаб изменен на σS = n1/ασ, а параметр β оставлен прежним:
(7.7)
Перепишем затем преобразование Гильберта H, как описано в [193],

в виде
(7.8)
Рассмотрим устойчивое распределение, определенное в Разделе 7.2.1.
Внеся дифференцирование под интеграл и заменив переменную z = ln t, находим

и этот интеграл легко берется. Получаем:
(7.9)
ДАЛЕЕ
В следующей главе представлена центральная концепция: как работать с законом средних чисел? Как переводить с языка распределений на язык других распределений?

1 В русской литературе позитивную вариацию называют также зарядом.

8
СКОЛЬКО НУЖНО ДАННЫХ?
РАБОЧИЙ ПОКАЗАТЕЛЬ
ЖИРНОХВОСТОСТИ ‡

В этой главе1, исследовательской, мы обсудим законы средних чисел. Мы
представим рабочий показатель для одномерных одногорбых распределений вероятности с конечным первым моментом, пробегающий диапазон
[0, 1], где 0 отвечает максимальной тонкохвостости (гауссиане), а 1 —
максимальной жирнохвостости. Этот показатель продиктован вопросом:
«Сколько нужно данных, чтобы выносить осмысленные суждения о наборе
данных?»
Показатель каппа полезен, чтобы:
• оценивать размер выборки n, необходимой для статистической значимости
за пределами гауссовой ситуации,
• измерять скорость сходимости к гауссиане (или устойчивому бассейну),
• сравнивать на практике данные из распределений разных классов жирнохвостости,
• оценивать при построении портфеля, сколько нужно ценных бумаг, чтобы
диверсификация обеспечила заданный уровень устойчивости,
• понять, откуда взялись противоречия между атрибутами логнормального
моделирования при разной параметризации дисперсии.

Асимптотическому поведению посвящена богатая литература, но существует
дыра на месте изучения конечных, рабочих значений n.

1 Автор больше всего благодарен точным комментариям Майкла Лулакиса, который к тому же предоставил дотошный вывод пределов κ для t-распределения Стьюдента и для логнормального распределения,
а также терпению и мудрости Спироса Макридакиса. Глава вначале появилась как доклад на конференции Extremes and Risks in Higher Dimensions 12–16 сентября 2016 в Центре Лоренца в Лейдене и как
статья в юбилейном сборнике Джима Гезерала в Курантовском институте математических наук в октябре
2017. Автор признателен Жан-Филипу Бушо, Джону Эйнмалю, Паскуале Чирилло и другим. Лоренц де
Гаан предложил заменить обозначение показателя с гаммы на каппу, чтобы избежать путаницы. Отдельная благодарность Колману Хамфри, Майклу Лолеру, Даниэлю Дюфрену и другим за обсуждение и идеи
касательно вывода формул.

176

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Предпосылки: известные показатели жирнохвостости: (1) показатель хвоста
в классе степенного закона и (2) эксцесс для распределений с конечными моментами, — применимы не ко всем распределениям и не позволяют сравнивать данные из
разных классов и систем параметров, а именно сравнивать распределение степенного
закона за пределами бассейна устойчивости по Леви с распределением другого класса
или сравнивать между собой распределения по степенному закону с разным числом
слагаемых. Как сравнить между собой сумму ста случайных величин, если в одном
случае они имеют t-распределение Стьюдента и три степени свободы, а в другом
случае принадлежат классу устойчивости по Леви или логнормальному классу? Как
сравнить между собой сумму ста случайных величин, с t-распределением Стьюдента
и тремя степенями свободы, и одиночную случайную величину с t-распределением
Стьюдента и двумя степенями свободы?
Мы предлагаем рабочий, эвристичный показатель, позволяющий сравнивать
суммы n независимых величин любых распределений с конечным первым моментом.
Метод основан на скорости сходимости конечной суммы, из n слагаемых, к закону
больших чисел.
Мы выводим явные выражения или результаты моделирования и границы для
таких распределений, как логнормальное, экспоненциальное, Парето и t-распределение Стьюдента при различных калибровках — в дополнение к общему виду класса
распределений Пирсона.
𝔼 | Sn = X1 + X2 + … + Xn|
10

Коши (k = 1)
Парето 1,14

8

Кубическое t Стьюдента
Гауссово (k = 0)

6

Степени
жирнохвостости
4

2
2

4

6

8

10

n

Рисунок 8.1: Интуитивное
представление о том, что
измеряет κ: как растет
среднее отклонение суммы
одинаковых независимых случайных величин
Sn = X1 + X2 + … + Xn с ростом выборки и как можно
доасимптотически сравнить распределения разных
классов

8.1. ВВЕДЕНИЕ И ОПРЕДЕЛЕНИЯ
Как сравнить распределение Парето с хвостом α = 2,1 и тем самым с конечной дисперсией — и гауссово распределение? Асимптотически оба распределения принадлежат
к классу правильно меняющихся функций распределения с конечным вторым моментом и при суммировании большого числа слагаемых дают гауссиану, но есть различия
в доасимптотическом поведении. Стандартных способов сравнить эти распределения
нет; показатели, основанные на высших моментах, такие как эксцесс, бесполезны.
Столь же непросто сравнить распределение Парето, имеющее бесконечную дисперсию, и соответствующее предельное α-устойчивое распределение (когда оба распределения имеют один и тот же индекс хвоста или показатель хвоста). И как сравнить
жирнохвостость t-распределения Стьюдента с 3 степенями свободы — и устойчивое
по Леви с показателем хвоста 1,95? У обоих распределений конечное математическое

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

177

ожидание; конечная дисперсия только у первого, но при малом числе слагаемых оно
ведет себя даже более жирнохвостым образом, если судить по некоторым рабочим
критериям.
Критерий жирнохвостости. Есть разные способы, как определить жирные хвосты и ранжировать распределения согласно тому или иному определению.
В узком классе распределений, у которых все моменты конечные, критерием служит эксцесс — по эксцессу легко сравнивать отличие того или иного распределения
от гауссова, служащего нормой.
Для класса степенного закона критерием может служить показатель хвоста. Кроме
того, можно использовать экстремальные значения и найти вероятность превысить
максимальное значение с поправкой на масштаб (этот подход практикуется в теории
экстремальных значений).
На практике жирнохвостость должна оценивать концентрацию случайной величины в важнейших наблюдениях, отвечая на вопрос:
— Какой вклад смогло внести в статистические параметры одно-единственное
наблюдение?
Или в другой формулировке, с поправкой на масштаб (среднюю дисперсию):
— Какая доля национального богатства сосредоточилась в руках самого богатого
жителя?
Мы здесь для своих целей используем следующий критерий, который тоже можно
сопоставить с концентрацией:
— Сколько дополнительных данных (при таком-то распределении вероятностей)
помогут повысить устойчивость наблюдаемого среднего?
Эта задача имеет смысл не только в статистике; ее можно понять и так:
— Насколько диверсификация ценных бумаг в структуре портфеля (при неизменной общей стоимости портфеля) повысит его устойчивость?
Наш показатель отличается от асимптотических показателей (в частности, от тех,
что используются в теории экстремальных значений) тем, что является по своей сути
доасимптотическим.
Это важное преимущество; в реальности и в реалистичных моделях асимптота не
достигается.
Что дает этот показатель? Предлагаемый показатель, κ, дает следующее:







Позволяет сравнивать суммы n величин, когда у них разные распределения
при заданном числе слагаемых или одинаковое распределение при разных n,
и оценивать доасимптотические свойства заданных распределений.
Дает меру расстояния до предельного распределения, а именно до бассейна
устойчивости по Леви (которому, в частности, принадлежит гауссово распределение).
Для статистических выводов позволяет оценивать скорость срабатывания
закона больших чисел как скорость изменения абсолютной погрешности
математического ожидания, оцениваемого по выборочному среднему, при
увеличении размера выборки n.
Позволяет оценивать сравнительную жирнохвостость двух разных одномерных распределений, имеющих конечный первый момент.
Позволяет заранее узнавать, сколько раз потребуется повторить обсчет для
моделирования по методу Монте-Карло.

178

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Положение дел со статистическими выводами. Задача оценивать скорость
обычно игнорировалась (см. выше комментарии в Главе 3 о 9400 страницах Энциклопедии математической статистики [147]). Редко встретишь обсуждение вопроса,
сколько времени уйдет на достижение асимптоты или как относиться к сумме n слагаемых, когда их много, но недостаточно для так называемой «нормальной аппроксимации».
Повторим наш девиз — «статистический параметр никогда не бывает стандартным». Цель нового показателя — оценить стандартность стандарта и отклонение от
стандарта с точки зрения статистической значимости.
8.2. ПОКАЗАТЕЛЬ КАППА
Определение 8.1 (показатель κ)
Пусть X1, …, Xn, … — н. о. р. случайные величины с конечным математическим
ожиданием, то есть 𝔼 X < +∞. Пусть Sn = X1 + X2 + … + Xn — частичная сумма. Пусть
𝕄(n) = 𝔼|Sn – 𝔼Sn| — ожидаемое среднее абсолютное отклонение от среднего для
суммы n слагаемых1. Определим скорость сходимости при росте числа слагаемых
от n0 до n:
2

.

Поскольку n > n0 ≥ 1,
(8.1)
В дальнейшем для случая добавления одного-единственного слагаемого, n = n0 + 1,
будем коротко писать наш показатель как κn 0.
На такие «локальные» каппы можно разложить
, или κ(n0, n), при сколь угодно
большом числе добавленных слагаемых; процедура аналогична «пошаговому» расчету процента начислений:
1 То есть 𝕄(n) — сокращение вместо 𝕄Sn, согласно определению 𝕄, оператора среднего абсолютного
отклонения.
2 Случай κ = 0 означает, что

, то есть с ростом n, числа случайных слагаемых, когда

ожидаемая сумма растет пропорционально n, ожидаемые отклонения суммы растут намного медленнее,
пропорционально корню из n. Это случай быстрой сходимости последовательности сумм. Противоположная крайность: случай κ = 1, — означает, что

, то есть с ростом n ожидаемые откло-

нения суммы растут пропорционально n и не уменьшаются относительно ожидаемых значений суммы.
Такое поведение свойственно распределению Коши, с двухвостой одногорбой плотностью вероятности
, где x0 — медиана и мода, а ɣ — параметр масштаба. При распределении Коши
среднее не определено, а дисперсия бесконечна, даже если параметр масштаба мал.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

179

(8.2)1
Об использовании среднего отклонения. Заметим, что для оценки разброса
вокруг среднего значения мы используем среднее абсолютное отклонение, благодаря
чему остаемся в пределах нормы L1 даже при отсутствии конечной дисперсии. На
самом деле даже при наличии конечной дисперсии распределения степенного закона
проявляют неустойчивый, невнятный второй момент. Среднее отклонение показывает
себя здесь как более надежная мера. (Можно доказать, что среднее абсолютное отклонение вообще более эффективно, кроме узкого случая, когда эксцесс равен 3, то есть
когда распределение гауссово. Смотрите более подробное обсуждение в [237]; о другихпреимуществах среднего абсолютного отклонения смотрите в [187].)
8.3. УСТОЙЧИВЫЙ БАССЕЙН СХОДИМОСТИ КАК ТОЧКА ОТСЧЕТА
Определение 8.2 (класс 𝔓)
Класс 𝔓 степенных законов, или правильно меняющихся функций, определяется как
множество всех таких случайных величин X, для которых:
где:

𝔓 = {X | ℙ(X > x) ~ L(x) x –α},

(8.3)

~ означает, что отношение выражения до тильды к выражению после тильды
стремится к 1 при x → ∞;
функция L: [xmin, +∞) → (0, +∞) — медленно меняющаяся согласно критерию
при любом k > 0;
константа α > 0.

Определим далее аттрактор суммы одинаково распределенных величин, которые
в нашем случае будут с идентичными параметрами.
Определение 8.3 (устойчивый класс 𝔖)
Случайная величина X следует устойчивому распределению (или α-устойчивому),
и про нее пишут X ~ S(α̃, β, μ, σ), если ее характеристическая функция χ(t) = 𝔼e i t X имеет
вид
1 Если использовать сокращенную запись «локальной» каппы, то

.

Проверим эту формулу для легкого случая n = n0 + 2. Согласно проверяемой формуле,
.
Подставим вместо κn0 и κn0 + 1 выражения из определения (8.1):
,
что и требовалось.

180

Н АС С И М Н И К ОЛ АС ТА Л Е Б

(8.4)
.
Теперь определим соответствующий устойчивый показатель α:̃
(8.5)1
Обсудим подробнее класс 𝔖.
8.3.1. Эквиваленты устойчивых распределений
Для всех n0 и n ≥ 1 в устойчивом классе 𝔖 с α̃ ≥ 1:
κn ,n = 2 – α,̃
0

просто в силу того свойства, что
𝕄(n) = n1/α 𝕄(1).

(8.6)

Это просто доказывает, что κn 0,n = 0 для гауссова распределения.
Проблема предасимптотики для n слагаемых сводится к следующему:




Каково распределение при n0 = 1 (начинаем ли мы со стандартного, хорошо
изученного распределения)?
Каково распределение при некотором числе n0 слагаемых?
Сходится ли κn → (2 – α̃ ), и если да, то с какой скоростью?

Таблица 8.1: Каппа для двух слагаемых, κ1
Распределение

κ1

t-распределение Стьюдента (α)

Экспоненциальное/Гамма
Парето (α)

1 Другими словами,

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

181

Продолжение таблицы 8.1

Нормальное (μ, σ), переключающееся на дисперсию σ 2a
с вероятностью p

Логнормальное (μ, σ)

Таблица 8.2: Сводка основных результатов
Распределение

κn

Экспоненциальное/Гамма

Выражается в явном виде

Логнормальное (μ, σ)

Нет явного выражения для κn, но есть для нижней и верхней
границы (при низком или высоком σ или n). При промежуточных σ приближается распределением Пирсона IV типа

Парето (α) (Константа)

κ2 выражается в явном виде
(нижняя граница при всех α)

t-распределение Стьюдента (α)

κ1 выражается в явном виде при α = 3

Таблица 8.3: Сравниваем Парето с t-распределением Стьюдента (при одинаковом показателе
хвоста α)
α
1,25
1,5
1,75
2
2,25
2,5
2,75
3
3,25
3,5
3,75
4

Парето
κ1
0,829
0,724
0,65
0,594
0,551
0,517
0,488
0,465
0,445
0,428
0,413
0,4

Парето
κ1, 30
0,787
0,65
0,556
0,484
0,431
0,386
0,356
0,3246
0,305
0,284
0,263
0,2532

Парето
κ1, 100
0,771
0,631
0,53
0,449
0,388
0,341
0,307
0,281
0,258
0,235
0,222
0,211

Стьюдент
κ1
0,792
0,647
0,543
0,465
0,406
0,359
0,321
0,29
0,265
0,243
0,225
0,209

Стьюдент
κ1, 30
0,765
0,609
0,483
0,387
0,316
0,256
0,224
0,191
0,167
0,149
0,13
0,126

Стьюдент
κ1, 100
0,756
0,587
0,451
0,352
0,282
0,227
0,189
0,159
0,138
0,121
0,10
0,093

182

Н АС С И М Н И К ОЛ АС ТА Л Е Б

8.3.2. Практическая значимость при достаточной выборке
Доверительные интервалы: Простое эвристическое правило гласит, что чем
выше κ, тем драматичнее недостаточность доверительного интервала, рассчитанного обычным способом. Значения κ выше 0,15 говорят о существенной
ненадежности «нормального приближения». Под сомнение поставлены многочисленные статьи об исследованиях жирнохвостых областей.

Вычисления вроде тех, что сделаны в Таблице 8.2, позволяют сравнить различные распределения, имеющие различные системы параметров (различные распределения Парето с симметричным t-распределением Стьюдента и, конечно, с гауссианой,
у которой каппа постоянна и равна 0).
Как мы упомянули во введении, руководствуясь требуемым размером выборки
для статистически значимых выводов, мы пытаемся спланировать n, число слагаемых. Однако нередко закон больших чисел используется не по делу; нам нужен более
надежный показатель для размера выборки.
Во многих статьях при обсуждении финансовых вопросов, например в [99],
в качестве бинарного признака жирнохвостости используют конечность дисперсии:
степенные хвосты с показателем больше 2 относят к «гауссову бассейну» и считают
оправданием дисперсии и подобных ей показателей в финансовых расчетах. Намного
естественнее будет отвести финансовым приложениям область конечного математического ожидания [229]. Наш показатель может быть полезен следующим образом.
Пусть Xg, 1, Xg, 2, …, Xg, ng — последовательность гауссовых величин с математическим ожиданием μ и масштабом σ. Пусть Xν, 1, Xν, 2, …, Xν, n ν — последовательность
каких-то других случайных величин, отмасштабированных до того же значения 𝕄(1),
а именно

. Мы ищем значения nν, соответствующие данному ng.

κn характеризует одновременно и скорость сходимости согласно закону больших чисел, и скорость, при κn → 0, сходимости слагаемых к гауссовым согласно центральной предельной теореме, как показано на Рисунке 8.2.

Необходимое число слагаемых
(8.7)
можно вычислить, приняв κn = 0 для гауссовой случайной величины и вернувшись
от κn для заданного распределения согласно такому простому приближению:
(8.8)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

183

Распределение Парето (α)
k
1

0,8

Граница (k₁)
k₁, 30
k₁, 100

0,6

k₁, 1000

0,4

Центральный
предел

0,2

0

1

1,5

2

2,5

3

3,5

4

α

t-распределение Стьюдента (α)

k
1

Рисунок 8.2: Проверяем эффективность обобщенной
центральной предельной теоремы: распределение Парето
и t-распределение Стьюдента,
в классе 𝔓, с показателем
хвоста α; каппа должна сходиться к 2 – (𝟙α < 2 α + 𝟙α ≥ 2 ⋅ 2)*,
или устойчивому классу 𝔖.
Мы наблюдаем, как медленно
происходит эта сходимость,
даже после того, как достигнута 1000 слагаемых. Этим
обесценивается предположение Мандельброта, что
распределение Парето с бесконечной дисперсией можно
отнести к устойчивым распределениям
* Здесь, очевидно, символ
индикаторной функции 𝟙 легко
заменить на традиционную
запись:

0,8

0,6

k₁, 30
k₁, 100

0,4

и этот график показан
пунктиром как центральный
предел. — Прим. перев.

0,2

0

1

1,5

2

2,5

3

3,5

4

α

k₁
1

0,8

Устойчивое α = 1,2

0,6

0,4

t-распределение Стьюдента (3)
или устойчивое α = 1,7

0,2

~ Гауссово
0,5

1

1,5

2

2,5

3

α

Рисунок 8.3: Логнормальное распределение ведет себя как гауссово при
низких значениях σ, но быстро превращается в эквивалент степенного
закона. Это демонстрирует несущественность с практической точки
зрения дебатов о распределении
богатства: логнормальное оно (согласно правилу Жибра) или Парето
(согласно закону Ципфа)

Приближение работает благодаря медленной сходимости. Например, для t-распределения Стьюдента с 3 степенями свободы (α = 3) требуется 120 наблюдений,
чтобы получить такое же малое отклонение от среднего (при данной доверительной
вероятности), какие для гауссова распределения достигаются за 30 наблюдений, то

184

Н АС С И М Н И К ОЛ АС ТА Л Е Б

есть в 4 раза быстрее. Для однохвостого распределения Парето с тем же показателем
хвоста α = 3 потребуется 543 наблюдения, чтобы получить сопоставимость с выборкой 30 наблюдений гауссовой случайной величины; это в 4,5 раза больше, чем для
распределения Стьюдента. Таким образом:
1) конечная дисперсия — плохой критерий жирнохвостости (в статистике),
2) также плохо пытаться судить по показателю хвоста,
3) симметричное распределение Стьюдента ведет себя не так, как распределение Парето; причина в колоколообразности распределения Стьюдента (порожденного медленно меняющейся функцией) — это гасит отклонения в центре распределения.
Мы также можем извлечь некоторые контринтуитивные результаты. Согласно
формуле 8.8, для проверки расхожего примера «Парето 80/20», соответствующего
показателю хвоста около α ≈ 1,14, потребуется выборка в миллиард с лишним раз
больше, чем для гауссова распределения.
8.4. ТЕХНИЧЕСКИЕ СЛЕДСТВИЯ
8.4.1. Некоторые странности асимметричных распределений
Если симметричное устойчивое распределение перекосить, показатель κ не изменится — другими словами, κ инвариантна к параметру β в формуле 8.4, устойчивой
при суммировании. Однако простое распределение Парето, однохвостое, превосходит
по жирности хвоста (в нашем смысле) свой симметричный эквивалент.
Это важное замечание, поскольку устойчивое распределение — это математический предельный объект, который невозможно наблюдать в реальной жизни, тогда как
распределение Парето встречается на практике. Глубина различия между ними плохо
осознается в литературе. Устойчивое распределение как заменитель Парето считается
перспективным. В статье Учайкина и Золотарева [257] читаем:
Мандельброт привлек внимание к тому факту, что по ряду причин экстремальные
устойчивые распределения (соответствующих β = 1) удобнее для описания эмпирических принципов, чем распределения Ципфа — Парето. Можно видеть по многочисленным публикациям — и теоретическим, и прикладным, — как ширится признание
идей Мандельброта среди экспертов. Таким образом, появляется надежда со временем
подтвердить эмпирически нащупанные принципы в рамках математических моделей
и прояснить механизмы, порождающие эти принципы.

Однако это разные звери, даже при большом числе слагаемых.
8.4.2. Скорость сходимости t-распределения Стьюдента к гауссову бассейну
Мы доказываем в приложении — благодаря явному выражению для κ при сложении
распределений Стьюдента с α = 3, или «кубических», как их называют в финансовой математике, — что скорость, с которой κ сходится к 0 при добавлении слагаемых, равна
. Эта формула (наряду с квазизамкнутым выражением для плотности

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

185

суммы n кубических Стьюдентов) дополняет результат Бушо и Поттерса [28] (см.
также [214]), который заключается в следующем. Они решили разделить распределение на «гауссову зону», где плотность приближается гауссианой, и «зоны степенного закона» в хвостах, где оставлено первоначальное распределение: убывание по
степенному закону. Точки перехода между зонами сдвигаются вправо и влево от центрального горба со скоростью
стандартных отклонений, мучительно медленно.
В центр распределения попадает больше слагаемых, чем в стороне от центра, и скорость сходимости согласно центральной предельной теореме различна для плотности
вероятности в центре и в хвостах.
Дальнейшие исследования касаются сходимости распределения Парето к устойчивому по Леви, которая до настоящего времени исследовалась только численно.
8.4.3. Логнормальный хвост — ни тонкий, ни жирный
При наивном взгляде на Рисунок 8.2 при низких значениях параметра σ логнормальное распределение ведет себя подобно гауссову, а при высоких σ — как своего рода
однохвостое Коши (точнее, как устойчивое распределение с α = 1, β = 1)1, и κ все ближе
подходит к 1. Напрашивается объяснение, почему обычно бесплодны дебаты о том,
к какому распределению отнести ту или иную случайную величину — Парето или
логнормальному; примеры смотрите в спорах о богатстве [162], [53], [54]. А именно:
такие дебаты обычно не имеют отношения к реальности. Как заметил П. Чирилло [44],
множество примеров, объясняемых как Парето, объяснимы и как логнормальные
с высокой дисперсией; на практике различия в статистике не так велики, как считается.
8.4.4. Возможна ли отрицательная каппа?
Подобно тому, как эксцесс для смеси гауссиан с разным математическим ожиданием
(в отличие от стохастической волатильности) может опуститься ниже 3 (и дать отрицательный коэффициент эксцесса, определяемый как избыточный эксцесс по сравнению
с гауссовым), показатель каппа может стать отрицательным — при отрицательном
коэффициенте эксцесса. Для этого требуется бимодальность (то есть переключение
между разными математическими ожиданиями при фиксированной дисперсии, при
немалом расстоянии между модами, если считать его в стандартных отклонениях).
По-видимому, в одногорбых распределениях так не бывает. Подробности и вывод
формул представлены в приложении.
8.5. ЗАКЛЮЧЕНИЕ И СЛЕДСТВИЯ
В то время как предельные теоремы (закон больших чисел и центральный предел)
касаются поведения при n → +∞, нас интересуют конечные и точно заданные n, большие и малые.
1 Говоря об устойчивых распределениях, обозначают α ∈ (0, 2] параметр устойчивости, β ∈ [–1, 1] коэффициент асимметрии, c ∈ (0, ∞) параметр масштаба и μ ∈ (–∞, ∞) параметр сдвига. Совершенно симметричное (и, следовательно, двухвостое) устойчивое распределение с параметрами α = 1 и β = 0 представимо
как распределение Коши с медианой и модой x0 = μ и параметром масштаба ɣ = c. В более общем случае
уподобить распределению Коши устойчивое распределение можно в том смысле, что у него нет среднего
при α ≤ 1 и дисперсия бесконечна при α < 2.

186

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Мы можем извлечь ряд рабочих следствий:
Вариация
0,6

0,5

Марковиц
0,4

Солидные ценные бумаги
Спекулятивные ценные бумаги

0,3

0,2

0,1

0

200

400

600

800

1000

n

Рисунок 8.4: Коротко
о том, как работает эвристика 1/n: требуется гораздо больше ценных бумаг
в структуре портфеля,
чтобы добиться того сокращения риска, которое
получается согласно Марковицу. Мы для простоты
приняли, что ценные бумаги не зависят друг от
друга; в реальности возможен коллективный обвал,
что еще больше усиливает
эффект

8.5.1. Портфельная псевдостабилизация
Наш метод, естественно, применим и к диверсификации при формировании портфеля
ценных бумаг: добавить новую ценную бумагу в портфель ради устойчивости — все
равно что добавить наблюдение ради статистической значимости. Вопрос «Сколько
вам нужно данных?» переводится на финансовый язык как «Сколько вам нужно разных ценных бумаг?». Понятно, что используемый в наше время метод формирования
портфеля Марковица [166] (которым, судя по всему, сам Марковиц для своего собственного портфеля не пользовался [178]) применим только для κ вблизи 0; инвесторы
же пользуются эвристикой, выпуклой вниз, — иначе они бы недооценивали хвостовые риски и «лопались» (как лопнул портфельноориентированный хедж-фонд Long
Term Management в 1998 [236] [250]).
Мы заметили выше, что для распределения Парето в районе «80/20» требуется
в 109 раз больше наблюдений, чем для гауссова. Представьте себе, что вы руководствуетесь критериями современной портфельной теории и узнаете, что на самом деле
для заданного снижения риска необходимо дополнительно расширить портфель… на
8 порядков величины! Чего стоит, в ситуации распределения Парето 80/20, стратегия
простого расширения портфеля?
Парето — не Парето, но практически никакие ценные бумаги не имеют столь
тонкого хвоста, как гауссиана, если судить по простейшему критерию эксцесса [228];
это значит, что формирование портфеля по Марковицу никогда не дает оптимального
решения. Когда оказалось, что агенты мудро применяют нечто вроде (если пренебречь
шумом) эвристики , то психологи отнесли такое поведение к так называемой систематической ошибке восприятия, или смещенной оценке. Однако в дальнейшем этот
вывод был разоблачен как «ложное смещение»: неоптимальной как раз была модель,
с которой сравнивал поведение испытуемых психолог, тогда как испытуемые, привыкшие принимать ответственные решения, судили здраво. О склонности инвесторов
к «чрезмерной» диверсификации, по сравнению с предположительно оптимальным
поведением, объявили Бенарци и Талер [18]; в [16] это поведение описано так: «Если

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

187

есть n опций, раздели свой актив поровну по всем опциям. Мы назвали подобную эвристику Правилом 1/n». В действительности максимальная диверсификация по меньшей
мере не хуже, чем стандарт формирования портфеля (см. критику в работах Уиндклиффа и Бойля [265] и [62]). Грубо говоря, равномерно распределенный портфель
превосходит по эффективности S&P 500 по самым разным методам оценки. К сожалению, даже последние две работы недооценивают масштаб отличий и влияния жирных
хвостов; мы же теперь можем оценить его более-менее точно. На Рисунке 8.5 влияние
жирных хвостов на ценные бумаги сравнивается с тем, что предлагает Марковиц.
Ложный диагноз смещенного восприятия — один из многих примеров, как лица,
определяющие политику, подталкивают народ к ложной рациональности [236] и провоцируют многократно превышать разумный портфельный риск.
Несколько замечаний о рисках финансового портфеля. У индекса S&P 500 показатель κ небольшой, около 0,2. Однако речь о корзине n = 500 ценных бумаг, недифференцированных по весу и без учета корреляции между разными ценными бумагами, что по
сути завышает вес устойчивых акций. Для отдельных акций значения каппы выше: от
0,3 до 0,7; это означает настоятельную необходимость «чрезмерной» диверсификации.
Аналогичным образом данный показатель служит до некоторой степени руководством при обработке данных для прогнозов: с его помощью можно оценить, например, сколько на самом деле нужно лет наблюдения, чтобы судить об изменении климата; см. [160].
8.5.2. Другие аспекты статистических выводов
Пока мы рассматривали только одномерные случайные величины. При высших размерностях потенциальная область исследования — эквивалентный подход к распределению многомерных жирнохвостых случайных величин, для которых захват выборки
не подчиняется распределениям случайных матриц, таким как распределение Марченко — Пастура или распределение Уишхарта. В нашей ситуации добавление случайных величин с трудом подавляет шум в случайных матрицах.
8.5.3. Последний комментарий
Хотя мы продолжаем приговаривать, что «статистика не бывает стандартной», в наших
руках — эвристические методы, которыми можно оценить, где и в какой степени мы
удаляемся от стандарта.
8.6. ПРИЛОЖЕНИЕ, ВЫВОД ФОРМУЛ, ДОКАЗАТЕЛЬСТВА
Приведем вывод некоторых формул.
8.6.1. Кубическое t-распределение Стьюдента (гауссов бассейн)
t-распределению Стьюдента с тремя степенями свободы уделяется особое внимание
в литературе, поскольку оно доминирует в финансовой математике [99]. Оно имеет
конечную дисперсию, и поэтому его часто приближают гауссовым, хотя это неправильно. Асимптотически оно в конце концов превращается в гауссово, но сам по себе
этот факт вовсе не обещает скорой сходимости. Мандельброт и Талеб [165] отмечают,
что кубическое распределение скорее можно уподобить степенному закону, если гово-

188

Н АС С И М Н И К ОЛ АС ТА Л Е Б

рить о распределении экстремальных значений, и здесь мы разовьем это замечание
благодаря явному выражению для распределения плотности вероятностей суммы.
Пусть X — случайная величина с распределением плотности p(x):
(8.9)1
Предложение 8.1
Пусть Y — сумма X1, …, Xn, n тождественных экземпляров случайной величины X.
Пусть 𝕄(n) — среднее абсолютное отклонение от среднего для n слагаемых. Скорость
имеет вид

сходимости

,

(8.10)

где Γ(., .) — так называемая верхняя неполная гамма-функция
Соответственно среднее абсолютное отклонение

.

.

(8.11)

Выведем эти формулы отдельно для плотности вероятности и отдельно для среднего абсолютного отклонения.
Характеристическая функция для n слагаемых

Плотность вероятности случайной величины Y

Все интегралы для 𝕄(n) берутся, если приложить усилия, и в результате получаем
формулу 8.11. Поскольку в литературе этой формулы не найти, будет полезным при1 То есть случайная величина X следует t-распределению Стьюдента с 3 степенями свободы.
В самом деле, t-распределение Стьюдента с ν > 0 степенями свободы присуще случайной величине
, где X̅ — среднее (ν + 1) гауссовых н. о. р. случайных величин X1, X2, …, Xν + 1, имеющих
среднее μ и порождающих дисперсию выборки
ления Стьюдента

. Плотность вероятности t-распреде-

. В случае трех степеней свободы плотность вероятности
.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

189

вести здесь также побочное следствие: распределение плотности вероятности случайной величины Y можно записать как
,

(8.12)

где E(.)(.) — обобщенная модифицированная интегральная показательная функция
.
Отметим при этом следующие тождества (из обновленного Абрамовица и Стегана1 [69]):
Что касается асимптотики, имеем следующий результат (предложенный Михалисом Лулакисом). Перепишем 8.11 в виде2

Заметим далее, что

(Это можно заметить по поведению суммы случайных величин, распределенных по Пуаcсону и сходящихся к гауссовому распределению согласно центральной
предельной теореме. Если Xn — случайная величина с распределением Пуаcсона
с параметром n3, то

. Поскольку сумма n независимых случайных

величин, распределенных по Пуассону с параметром 1, распределена по Пуассону
с параметром n, то центральная предельная теорема утверждает, что распределение
вероятностей случайной величины
стремится к стандартному нормальному распределению. Следовательно, ℙ(Xn < n) = ℙ(Zn < 0) → 1/2 при n → ∞4. Дру5

, см. в [179].)

гой подход, в котором доказывается, что

1 Так называют математический справочник Национального института стандартов и технологий США,
первое издание 1964 года под редакцией Абрамовица и Стегана.
2 При n > 1 формула 8.11 принимает вид
вочника

. С другой стороны, формула из спраравносильна

. В последней

формуле вычитание 1 эквивалентно остановке суммирования на предпоследнем слагаемом, m = n – 1,
поскольку последнее слагаемое в сумме, при m = n — это
перед суммой дает

, что при умножении на множитель

.

3 То есть имеет функцию вероятности

.

4 Предложил Роберт Израэл (Robert Israel) на форуме Math Stack Exchange. — Прим. автора.
5 Не путать с бесконечным рядом

.

190

Н АС С И М Н И К ОЛ АС ТА Л Е Б

1

Пользуясь тем, что

, получаем следующую точную асимптотику:

откуда κ уходит в ноль (то есть среднее становится гауссовым) со скоростью

,

мучительно медленно. Другими словами, даже при 106 слагаемых поведение суммы
не становится гауссовым вопреки интуитивной догадке Б. Мандельброта [165].
8.6.2. Логнормальные суммы
Проследив поведение кумулянтов для n слагаемых, заключаем, что при малом параметре масштаба σ сумма ведет себя как гауссова случайная величина, а при большом σ —
как логнормальная, причем в обоих случаях мы имеем явное выражение для κn.
У логнормального распределения (с параметрами μ и σ) нет явного выражения
для характеристической функции. Но можно выразить кумулянты Kp всех порядков p,
применив рекурсию, и для нашего случая суммы n тождественных копий случайной
величины Xi кумулянт суммы
Кумулянты

позволяют вычислить
коэффициент асимметрии

,
.

эксцесс

Благодаря кумулянтам и моментам сразу доказывается, что

и параметр κ удается ограничить явным выражением. Для этого обозначим
те его
значения, при которых суммирование логнормальных случайных величин сохраняет
логнормальность плотности и первые два момента. Тогда
0≤

≤ 1,

1 Этот факт более известен как формула Стирлинга для факториала больших чисел:
, то есть

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

191

.

Эвристическая попытка. Помимо прочих эвристических подходов, мы можем
за два шага увидеть, что (1) при высоких значениях σ показатель κ1, n → , поскольку
закон больших чисел замедляется, и что (2)
→ 1 при σ → ∞.
Доказательство Лулакиса. Верхнюю границу, к которой κ1, n приближается при высокой дисперсии, формально вывел Михалис Лулакис1, и мы кратко перескажем здесь суть.
Начнем с тождества

где f (.) — плотность вероятности, m — среднее, а F̅X (.) — функция выживания. Далее
заметим, что

Допустим, что

, или

, где Z — стандартная нормированная слу-

чайная величина. Пусть Sn — сумма X1 + … + Xn; получаем
зуясь субэкспоненциальностью ([196]), ограничим

. Поль2

.

В последнем выражении слагаемое nℙ(X1 > t) → 1 при σ → ∞, и второе слагаемое
стремится к нулю (использовано неравенство Гёльдера3).
Пропуская несколько шагов, видим, что
стороны, есть граница
при σ → ∞.

. Значит, при σ → ∞ предел

, притом что, с другой
, откуда κ1, n → 1

1 В редакции бумажной версии; Лулакис дал строгое доказательство вместо эвристического вывода. —
Прим. автора.
2 Первое неравенство в этой цепочке неравенств следует из того, что сумма положительных слагаемых
Sn = X1 + … + Xn обязательно превысит t в тех случаях, когда наибольшее из них превысит t. Второе неравенство следует из того, что вероятность превышения t хотя бы одним из n н. о. р. слагаемых представима как
а

, где p = ℙ (X1 > t) — вероятность того, что первое слагаемое превысит t,
— биномиальный коэффициент.

3 Неравенство Гёльдера в теории вероятностей формулируют в терминах математического ожидания абсолютной величины произведения случайных величин X и Y, следующих распределениям в Lp (пространство функций с конечной интегрируемой p-той степенью):
𝔼|XY| ≤ (𝔼|X p|)1/p ⋅ (𝔼|X q|)1/q, если p + q = 1 и существуют конечные 𝔼|X p| и 𝔼|Xq|,
и, следовательно:
𝔼|X |r ≤ (𝔼|X|s)r/s при 0 < r < s. Впрочем, как видно из предыдущего примечания, можно обойтись и более
простыми соображениями.

192

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Вычисления при помощи семейства Пирсона. Для удобства вычислений при
небольшом параметре σ (ниже ≈ 0,3) можно использовать семейство Пирсона — хотя
логнормальное распределение не принадлежит классу Пирсона (этому классу принадлежит нормальное распределение; впрочем, мы достаточно близки к нему для приближенных вычислений). Интуитивно понятно, что при низкой σ может хватить первых
четырех моментов, потому что больших отклонений нет; другое дело — при высокой σ, когда приходится все-таки работать с логнормальным распределением.
Применение класса Пирсона распространено в таких областях, как информатика
и теория коммуникаций, где ему посвящена богатая литература: о суммировании логнормальных случайных величин смотрите статью Не и Ченя [180], а о IV типе распределения Пирсона — [41], [65].
Семейство распределений Пирсона определяется через следующее дифференциальное уравнение для масштабированной плотности вероятности f:
(8.13)
Заметим, что параметры a0, b2 и др. влияют на тип распределения Пирсона —
в нашем случае нужен тип IV, — и на выражения для среднего отклонения через n, σ
и μ.
Пусть m — математическое ожидание. Как доказали Диаконис и другие в [67],
пользуясь старым трюком де Муавра, и Судзуки в [221], можно получить явные выражения для среднего абсолютного отклонения. Вновь используя тождество

и интегрируя по частям, получаем
(8.14)
Для подбора параметров используем кумулянты логнормальной n-суммы. Задав
a1 = 1 и

, получаем параметры

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

193

Полиномиальные разложения. Другие методы, такие как разложения Грама —
Шарлье, использованные, например, Шлехером [210] и Больё [14], оказались не
так полезны для получения κn. При высоких значениях σ приближения становятся
неустойчивыми к добавлению многочленов Эрмита высших порядков. Смотрите
обзоры у Дюфрена [70] и [71].
8.6.3. Экспоненциальное распределение
Экспоненциальное распределение имеет жирный хвост «начального уровня», на
самой границе области жирных хвостов:
f (x) = λe–λx, x ≥ 0.
Сверткой суммы X1, X2, …, Xn получаем — рекуррентно, опираясь на
:
(8.15)
что представляет собой гамма-распределение; получаем среднее отклонение для n
слагаемых:
(8.16)
откуда
(8.17)
Можно видеть, что асимптотическое поведение столь же медленное (аналогично
случаю Стьюдента), хотя экспоненциальное распределение балансирует на грани субэкспоненциальности:

8.6.4. Отрицательная каппа, отрицательный эксцесс
Рассмотрим простой случай переключения между гауссовыми распределениями
с разными математическими ожиданиями и дисперсиями: с вероятностью случайная величина X ~ 𝒩 (μ1, σ1) и с вероятностью случайная величина X ~ 𝒩 (μ2, σ2).
Разные μ1 и μ2 могут дать распределение с хвостами тоньше, чем у гауссианы,
и двумя горбами; эффект становится драматическим, если расстояние между вершинами достигает нескольких стандартных отклонений. Пусть d = μ1 — μ2 и σ = σ1 = σ2
(чтобы минимизировать эксцесс); тогда показатель
(8.18)

и, как можно видеть, отрицателен при широком зазоре μ1 – μ2.

194

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Эксцесс

Каппа

3

–10

–5

5

10

μ₁ – μ₂

–1
2,5

–2
–3

2

–4
–5

1,5

–6
–10

–5

5

μ₁ – μ₂

10

–7

*

Рисунок 8.5: Отрицательный эксцесс из Раздела A.3 и соответствующая каппа
* Строго говоря, эксцесс не отрицательный, а меньше 3. Отрицателен коэффициент эксцесса. — Прим.
перев.

ДАЛЕЕ
Далее рассмотрим несколько простых диагностик для степенных законов применительно к S&P 500. Мы покажем различия между наивными методами и использованием оценочных функций метода максимального правдоподобия, который можно экстраполировать на хвосты.

9
ЭКСТРЕМАЛЬНЫЕ ЗНАЧЕНИЯ
И СКРЫТЫЕ ХВОСТЫ *‡
Scilicet et fluvius qui visus maximus ei,
Qui non ante aliquem maiorem vidit, et ingens
Arbor homoque videtur et omnia de genere omni
Maxima quae vidit quisque, haec ingentia fingit1.
О природе вещей, книга VI, строки 674–677

У распределения данных с жирным хвостом есть скрытая часть, невидимая по
прошлым выборкам. Прошлые экстремальные значения (максимум или минимум) — плохой предиктор будущих экстремальных значений; понятно, что
случаются рекорды, превосходящие прошлые крайние отметки, и в Главе 3
уже описывалась недооценка Лукреция: глупо считать самой большой на свете
рекой или горой самую большую из виденных тобой рек или гор.
В этой главе, после краткого введения в теорию экстремальных значений,
мы сосредоточимся на ее применении к жирным хвостам. Когда данные распределены по степенному закону, максимум, взятый по n наблюдениям, следует распределению, которое нетрудно построить с нуля. Мы покажем, что
на практике для случайных величин, распределенных по степенному закону,
максимальным аттрактором (maximum domain of attraction, MDA) служит,
асимптотически, распределение Фреше2.
В более общем случае теория экстремальных значений дает строгий подход
к обработке экстремальных значений и экстраполяции за простой максимум.
Мы приводим некоторые результаты по «скрытому среднему»; с его игнорированием связаны разнообразные ошибки в литературе об управлении рисками.

1 Тем, кто не видел еще величайшего; также громадны / Будут для них человек, или дерево, или другие /
Вещи, пока не пришлось повстречать им еще величайших (пер. И. Рачинского).
2 Распределение Фреше случайной величины X на носителе (m, ∞) при коэффициенте формы ρ > 0, коэффициенте масштаба s > 0 и произвольном положении минимума m определяется как
при x > m, иначе 0.
Плотность вероятности
Среднее m + sΓ(1–1/ρ) при ρ > 1, иначе бесконечно.
Дисперсия s2(Γ(1–2/ρ) – (Γ(1–1/ρ))2) при ρ > 2, иначе бесконечна.
Коэффициент асимметрии конечен при ρ > 3, эксцесс при ρ > 4.

196

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Рисунок 9.1: Древнеримский поэт-философ Лукреций (вверху). Высокая вода
(внизу): считать ли уровень наводнения
в Париже в 1910 максимальным значением? Очевидно, каждый рекорд побивает
предыдущий рекорд, который держался
какое-то время. Грамотное управление
рисками должно оценивать, какой запас
разумно заложить на случай нового
рекорда в будущем. Но мы из века в век
снова и снова повторяем недооценку
Лукреция

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

197

9.1. ПРЕДВАРИТЕЛЬНОЕ ВСТУПЛЕНИЕ К ТЭЗ
Пусть X1, …, Xn — независимые случайные величины с распределением вероятностей
F(.) по Парето.
Мы можем получить точное распределение максимума (или минимума). Распределение вероятностей максимума по n переменным будет
ℙ(Xmax ≤ x) = ℙ(X1 ≤ x, …, Xn ≤ x) = ℙ(X1 ≤ x) ⋅ … ⋅ P(Xn ≤ x) = F(x)n,

(9.1)

это вероятность того, что все величины окажутся меньше или равны x. Соответствующая плотность вероятности — это первая производная,

.

Распределение экстремального значения имеет дело с максимумом среди случайных величин при x → x*, где «правый край распределения» x* = sup{x | F(x) < 1}
принадлежит максимальному аттрактору (maximum domain of attraction, MDA) [116].
Другими словами,

где
означает сходимость по вероятности. В новой формулировке центральный
вопрос стал таким: найти распределение x*. Мы начали с того, что известно точное
распределение F(.) случайной величины X1, и в таком случае инженерам достаточно
того выражения для искомого распределения, которое содержится в формуле 9.1.
В самом деле, возможно набрать проверочную статистику — вооружившись терпением, вычислительными мощностями и желанием исследовать вопрос. Это единственный надежный способ исследовать предасимптотику, то есть «происходящее при
малых n, когда x еще не достигает x*».
Но для исследования статистики полезно понять общую доасимптотическую
структуру.
Теорема Фишера — Типпетта — Гнеденко (Амбре и др. [82], де Гаан и Феррейра [116]) утверждает следующее. Если существуют последовательности «нормирующих» констант an > 0 и bn ∈ ℝ, такие, что
1

,

(9.2)

то функция
G(x) ∝ exp(–(1+ξx)–1/ξ),
где ξ — индекс экстремальных значений и управляет поведением хвоста распределения. Функция G называется (обобщенным) распределением экстремальных значений
(generalized extreme value distribution, GED). Подсемейства, определенные по крите1 Очевидно, здесь Mn = max1≤i≤n Xi, как в Разделе 2.2.11.

198

Н АС С И М Н И К ОЛ АС ТА Л Е Б

рию ξ = 0, ξ > 0 и ξ < 0, представляют собой соответственно семейства распределений
Гумбеля1, Фреше и Вейбулла:2
Распределение Гумбеля (тип 1). Здесь принимается ξ = 0; точнее, выполняется предельный переход от exp(–1 + ξ x) –1/ξ при ξ → 0:

и у распределения Mn экспоненциальный хвост.
Распределение Фреше (тип 2). Здесь



и у распределения Mn правый хвост степенного закона, как мы видели ранее. Обратите
внимание, что α > 0.
Распределение Вейбулла (тип 3). Здесь
и

и у распределения Mn область определения ограничена справа (т. е. максимумом).
Обратите внимание, что и здесь α > 0.
9.1.1. Любой хвост степенного закона ведет к Фреше
Сейчас мы начнем действовать скорее как инженеры, чем математики, и рассмотрим
два существующих распределения, Парето и Фреше, чтобы понять, может ли одно
сходиться к другому, — другими словами, вывести Фреше другим способом, из асимптотических свойств степенных законов.
Приведенные ниже рассуждения можно обобщить на любую случайную величину
с хвостом Парето, рассмотренным выше «точки Караматы» — той точки, где медленно меняющаяся функция удовлетворительно приблизилась к константе.
1 Стандартное распределение Гумбеля положительной случайной величины X определяется как
ℙ(X ≤ x) = exp(–e –x);
плотность вероятности exp(– (x + e–x)); среднее равно постоянной Эйлера — Маскерони ɣ ≈ 0,58; дисперсия ; коэффициент асимметрии ≈ 1,14; избыточный эксцесс .
2 Стандартное распределение Вейбулла положительной случайной величины X определяется как
ℙ(X ≤ x) = 1 – exp(–x k),
где коэффициент формы k > 0; плотность вероятности kxk – 1exp(–x k); среднее Γ(1 + 1/k); дисперсия
Γ(1 + 2/k); коэффициент асимметрии и эксцесс конечны.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

199

Функция распределения вероятностей Парето с минимальным значением (и коэффициентом масштаба) L и показателем хвоста α

поэтому функция плотности вероятности для максимума по n наблюдениям

(9.3)
Функция плотности вероятности Фреше
φ(x) = αβαx–α – 1 exp(βα(–x–α)).

(9.4)

Найдем такой большой x, при котором эти две функции склеиваются; другими
словами, такое число x*, что ψ(x*) → φ(x*). Поскольку
(9.5)
при большом x можно считать, что β = L n1/α. Равенство 9.5 показывает, как α хвоста
сохраняется при преобразованиях распределения:

Свойство 4
Показатель хвоста для максимума среди н. о. р. случайных величин тот же,
что у самих этих случайных величин.

«Где именно» можно на практике приблизить одно другим, показано на рисунке 9.2.
Максимальный аттрактор для Фреше

Отношение
1

0,8

0,6

n = 100
n = 1000

0,4

0,2

0

10

20

30

40

50

x

Рисунок 9.2: Отношение данной функции распределения
вероятностей к распределению Фреше. Наглядно прослеживается приемлемый уровень приближения, и видно,
как x вступает в максимальный аттрактор (Maximum
Domain of Attraction, MDA).
Здесь α = 2, L = 1. Заметим,
что отношение функций
плотности вероятностей
даст ту же картину, в отличие от гауссова распределения, как мы увидим ниже

200

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Свойство 5
Для крайних значений по степенному закону получается точная асимптотическая подгонка.
9.1.2. Гауссов случай
Случай Фреше совсем простой, потому что степенные законы легко анализируются,
и удается получить параметры предельных распределений. Для гауссова и прочих распределений требуются более изощренные выкладки, и обычно приходится подбирать
нормирующие константы an и bn приближенными методами на основе квантильных
функций1. Основополагающая статья Фишера и Типпета [94] предупреждает, что
«от нормального распределения приближение к предельному распределению происходит крайне медленно» (это место цитируется в статье Газуля и др. [101]).
Максимальный аттрактор для гауссовых случайных величин
Отношение CDF
1

0,8

отношение = 1

0,6

n = 102
n = 103

0,4

n = 104

0,2

1

2

3

4

5

x

Рисунок 9.3: Поведение гауссовых случайных величин; к ним, в отличие от
степенных законов, трудно
подобрать хорошее приближение аналитической
формулой. Вдоль оси y отложено отношение точной
кумулятивной функции распределения максимального
значения среди n случайных
величин к параметризованному аналитическому приближению согласно ТЭЗ

1 Квантильной функцией случайной величины X с кумулятивной функцией распределения вероятностей
F(x) = ℙ(X < x) называется обратная функция, Q(p) = inf{x ∈ ℝ | p ≤ F(x)} = F –1(p), где p ∈ [0, 1]. То, что
с вероятностью p случайная величина X достигнет или превысит значение x, p = F(x), равносильно тому,
что 1 – p верхних значений случайной величины X достигают или превосходят величину x, Q(p) = x.
В приближенных вычислениях промежуток [0, 1] разбивают на q равных интервалов и вместо непрерывной квантильной функции Q(p) используют набор q-квантилей, значений вида Q(k/q), где k = 1, 2, …, q – 1.
100-квантили называются процентилями, и квантиль вида Q(k/100), где k = 1, 2, …, 99, называется k-тым
процентилем и обозначается Pk. Диапазон от 25-го процентиля до 75-го, [P25, P75], называется диапазоном
«средних фифти»; половина всех наблюдений случайной величины X попадает в этот диапазон, а остальная половина наблюдений разбита на равное число наблюдений, когда случайная величина X оказалась
меньше P25, и число наблюдений, когда случайная величина X оказалась больше P75.
4-квантили называются квартилями и обозначаются Qk; четверть всех наблюдений случайной величины
X оказывается меньше первого квартиля Q1, еще четверть наблюдений — больше третьего квартиля Q3.
Оставшаяся половина наблюдений попадает в диапазон [Q1, Q3], называемый межквартильным диапазоном; он совпадает с диапазоном «средних фифти», [Q1, Q3] = [P25, P75].
Первый и единственный 2-квантиль совпадает с медианой случайной величины X: одна половина наблюдаемых значений оказывается меньше, чем Q(1/2), а другая — больше. С медианой также совпадают
второй квартиль и 50-й процентиль.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

201

Максимальный аттрактор для гауссовых случайных величин
Отношение PDF
2,5

отношение = 1
n = 102

2

Рисунок 9.4: Та же история, что на Рисунке 9.3,
представлена функциями
плотности вероятности.
Невозможно добиться хорошего приближения в хвостах

n = 103
n = 104

1,5

1

0,5

1

2

3

4

5

x

Ниже мы будем искать нормирующие константы для гауссианы, основываясь на
статье [120] и более поздних исследованиях.
Пусть Mn = an x + bn в формуле 9.2. Допустим далее, что максимальные значения
Mn следуют распределению экстремальных значений согласно ТЭЗ, с кумулятивной
функцией exp(–e x), и что минимальные значения следуют зеркальному распределению Гумбеля, которое получается преобразованием из распределения –Mn, где
следуют распределению Гумбеля с кумулятивной функцией 1 – exp(–e x)1. Параметризованная кумулятивная функция для Mn имеет вид

.

Удобное упрощение следует из следующего приближения:2

и

, где erfc–1 — обратная дополнительная функция ошибок.
Свойство 6
Для исследования хвостового риска и других свойств сугубо предпочтительно работать с точным распределением гауссовых случайных величин;
для n величин распределение максимума выводится из кумулятивной функции
стандартной гауссианы F (g):
(9.6)
где erfc — дополнительная функция ошибок.
1 Мы следуем соглашению, где распределение Гумбеля принимается только для минимальных значений, а для
максимальных значений используется распределение ТЭЗ с собственными параметрами. — Прим. автора.
2 Амбре и др. в [82] предлагает
только для больших n. Это приближение порядка

, и второе слагаемое для bn требуется
. — Прим. автора.

202

Н АС С И М Н И К ОЛ АС ТА Л Е Б

9.1.3. Теорема Пикэндса — Балкемы — де Гаана
Функция распределения условного эксцесса эквивалентна по плотности условному
математическому ожиданию отклонения эксцесса Линди [116, 190] — мы воспользуемся ею в Главе 16.
Рассмотрим неизвестную функцию распределения F случайной величины X; мы
хотим оценить условную функцию распределения Fu для величин X, превысивших
некоторый порог u, которая определяется как
(9.7)
при 0 ≤ y ≤ x* – u, где x* — это конечная или бесконечная правая граница исходного
распределения F. Тогда существует измеримая функция σ(u) такая, что
(9.8)
и наоборот; здесь Gξ, σ(u)(x) — это обобщенное распределение Парето (generalized
Pareto distribution,GPD):
(9.9)
Если ξ > 0, то Gξ, .(.) — это распределение Парето. Если ξ = 0, то G0, .(.), как мы
видели выше, — это экспоненциальное распределение. Если ξ = –1, то G–1, .(.) — это
равномерное распределение.
Теорема дает возможность делать статистические выводы из данных, изолируя
выбросы. Дополнительные подробности смотрите в обсуждении войн и тенденций
в уровне насилия в Главе 16.
9.2. Невидимый хвост при степенном законе
Пусть Kn — максимум в выборке из n независимых одинаково распределенных величин
в классе степенного закона; Kn = max {X1, X2, …, Xn}. Пусть φ(.) — плотность исходного
распределения. Мы можем разложить каждый момент на два слагаемых, одно из которых «скрытое», потому что учитывает значения выше Kn, как показано на Рисунке 9.5:
0,05

Рисунок 9.5: Момент порядка
p выше Kn.

0,04

,

0,03

0,02

где μ0 отражает видимую
часть распределения и μn —
скрытую.

Кn

0,01

Кn
2

4

6

8

10

12

14

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

203

Мы также можем выполнить нормализацию и использовать как эмпирическое
распределение функцию φe. Поскольку
(9.10)

можно использовать производную Радона — Никодима

(9.11)
𝔼 (μ₁)
𝔼 (μ)

Доля скрытой части математического ожидания

0,6




0,5




₁₁



²

2

Рисунок 9.6: Доля скрытой
части в математическом
ожидании для нескольких
значений показателя хвоста α

0,4

0,3

0,2

0,1

2000

4000

6000

8000

10 000

n

Скрытый хвост

𝔼 (μ₁)
𝔼 (μ)
0,8

100
0,6

Рисунок 9.7: Доля скрытой
части в математическом
ожидании для нескольких
размеров выборки n

1000
10000

0,4

0,2

1,1

1,2

1,3

1,4

1,5

α

Предложение 9.1
Пусть K* — точка, в которой функция выживания случайной величины X достаточно
приблизилась к степенному хвосту с постоянным множителем, то есть ℙ(X > x) ≈ L–α x–α.
При допущениях, гарантирующих K > K*, распределение скрытого момента μK, p
для n наблюдений имеет плотность g(.,.,.)(.):

204

Н АС С И М Н И К ОЛ АС ТА Л Е Б

(9.12)
при z ≥ 0, p > α и L > 0.

Математическое ожидание p-того момента в хвосте выше K при K > L > 0
можно выразить как
𝔼 μK, p =

.

(9.13)

Заметим, что распределение функции выживания выборки (то есть момента
порядка p = 0) — это экспоненциальное распределение с плотностью вероятности:
g(n, 0, α)(z) = n e –nz,

(9.14)

зависящей, как мы видим, только от n. Вероятность выброса в эмпирическом распределении не зависит от жирности хвостов.
Чтобы получить среднее, достаточно взять интеграл со стохастическим нижним
пределом K > Kmin:

Чтобы получить среднее по всему распределению g(n, p, α)(z), разложим среднее распределения Парето с коэффициентом масштаба L, приняв Kmin = L.
Стандартным преобразованием: заменой переменной K ~ ℱ (α, L n1/α)1 на распределение Фреше с плотностью
результат.
𝔼 (μ₁)
σ

, — получаем нужный

Скрытый хвост для среднего гауссовых величин

0,03
0,025

Рисунок 9.8: Отношение
скрытой части среднего
к среднеквадратическому
отклонению в зависимости
от размера выборки n

0,02
0,015
0,01
0,005

200

400

600

800

1000

n

1 Очевидно, имеется в виду распределение Фреше с коэффициентом формы α, коэффициентом масштаба L
n1/α и минимальным значением 0.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

205

9.2.1. Сравнение с нормальным распределением
Пометим параметры гауссовой случайной величины верхним индексом (g). Обозначая
плотность вероятности как φ(g), запишем

. Как мы

видели выше, чем проходить через Гумбеля (точнее, ТЭЗ, или зеркального Гумбеля),
удобнее извлечь точное распределение максимального значения из кумулятивного
распределения стандартной гауссианы F (g):
,
где erfc — дополнительная функция ошибок.
При p = 0 ожидание «невидимого хвоста» ≈ .

9.3. ПРИЛОЖЕНИЕ: ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ
НЕ ЭМПИРИЧНО
Рисунок 9.9: Еще раз о смещенной оценке частоты,
на этот раз в другую сторону. «Базовая частота» является эмпирической оценкой с учетом худших прошлых
наблюдений и содержит ошибку, выявленную в [227]
как та же смещенная оценка, о которой писал древнеримский автор Лукреций в поэме «О природе вещей»:
думать, что самая высокая гора, которая встретится
в будущем, равна самой высокой горе, виденной ранее.
Цитируется1 без разрешения авторов, которые об этом
извещены

1 Перевод: «Предрассудки о крахе по опросам инвесторов (Уильям Н. Гецманн, Йельская школа менеджмента, Йельский университет; Дасол Ким, Школа менеджмента Уэзерхеда, Кейсовский университет
Западного резервного района; Роберт Дж. Шиллер, Йельский университет). Черновая версия 19 марта
2016. Просьба не цитировать без разрешения. Резюме: судя по историческим данным, базовая частота
обвалов на фондовой бирже низка. Опросы индивидуальных инвесторов и инвестиционных фондов, проводимые в США в течение 26 лет, показывают завышенную оценку такой вероятности. Мы исследовали
факторы, влияющие на ответы инвесторов, и проверили влияние СМИ. Мы нашли, что достаточным
объяснением может служить эвристика доступности [склонность завышать оценку вероятности события, если аналогичные события легко вспомнить]. Недавние спады на рынке и неблагоприятные события
на фондовой бирже, которые муссировались финансовыми изданиями, коррелируют с более высокими
субъективными оценками вероятности краха. Не связанные с рынком катастрофы также коррелируют
с преувеличенной боязнью краха. Ключевые слова: предрассудки о крахе, эвристика доступности,
опросы инвесторов».

206

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Преобладающая путаница касательно непараметрического эмпирического распределения проистекает из следующего сильного свойства: с ростом n и стабилизацией
накопленной эмпирической гистограммы частот ошибки на ней рано или поздно становятся гауссовыми случайными величинами, даже если исходное распределение
жирнохвостое (речь о случайной величине с бесконечной областью определения).
Поскольку кумулятивное распределение вероятности — или функция выживания,
неважно, — равномерно непрерывны на промежутке [0, 1] и, согласно теореме1 Донскера, последовательность
(Fn(x) – F(x)), где Fn — наблюдаемое кумулятивное распределение либо функция выживания для n слагаемых и F — истинное кумулятивное
распределение либо функция выживания, сходится по распределению к нормальному
распределению со средним 0 и дисперсией F(x)(1 – F(x)). И можно найти даже более
сильные виды сходимости, по теореме Гливенко — Кантелли.
Благодаря этому замечательному свойству можно подумать, что и влияние хвостов на распределение сходится столь же быстро, независимо от исходного распределения. Тем более что дисперсия F(x)(1 – F(x)) (как у эмпирического кумулятивного
распределения, так и у эмпирической функции выживания) падает в области крайних
значений… Только это падение не сопровождается падением ее влияния на выигрыш.
На самом деле — такова уж природа крайних значений — ошибка под влиянием хвостов растет, если мы умножаем величину отклонения на его вероятность.
Для биржевых индексов в США, хотя первый метод осуждают как нелепый, расчеты по второму методу ведут к недооценке влияния хвостов на выигрыш от 5 до
70 раз, как показано на Рисунке 9.10. Мы вернемся к этой теме в Главе 11, обсуждая
различие между бинарной и непрерывной платежной функцией и путаницу между
вероятностью и практическим выигрышем, когда исходное распределение с жирным
хвостом.
φ
‾s dx
φ
‾e (x) dx
70

Рисунок 9.10: Показан относительный вклад хвоста
с оценкой методом CVar
по сравнению с (сглаженной)
оценкой эмпирического распределения. Глубокий хвост
недооценивается сегодняшними методами до 70 раз,
хотя они считаются «эмпирическими»

60
50
40
30
20
10

0,05

0,1

0,15

0,2

0,25

0,3

0,35

K

1 Функциональная ЦПТ, расширение центральной предельной теоремы на функции. Известна также как
принцип инвариантности.

B
СКОРОСТЬ РОСТА И РЕЗУЛЬТАТ
ПРИНАДЛЕЖАТ РАЗНЫМ КЛАССАМ
РАСПРЕДЕЛЕНИЙ

Автор и Паскуале Чирилло показали, что число смертей от пандемий следует
степенным законам с показателем хвоста заведомо ниже 1. Это значит, что
вся информация сосредоточена в хвосте. Поэтому, если нет серьезных причин
игнорировать общую и недвусмысленную статистику (в стиле «здесь особый
случай»), не следует основывать решения по управлению рисками на поведении ожидаемого среднего или на точечной оценке.
Возник следующий парадокс: число смертей Xt за период с t0 по t распределено по Парето с неопределенным средним. Тем не менее скорость экспоненциального роста для числа смертей распределена не так! Она окажется
тонкохвостой, с экспоненциальным распределением или подобным.

Чирилло и Талеб (2020) [48] (CT) показали методами теории экстремальных значений, что пандемиям свойственен хвост с α < 1, если рассматривать XT , число смертей
на некоторый день T в будущем, с функцией выживания P(X > x) = L(x)x–α. Примем для
простоты, что при минимальном значении L функция L(x) ~ L, и функция выживания
ℙ(X > x) = Lx–α .

(B.1)

B.1. ЗАГАДКА
Рассмотрим обычную модель
(B.2)
где
(B.3)
и rs — это мгновенная интенсивность1. Нормализуем распределение к L = 1. Можно
доказать следующее (предполагая, как выше, что у Xt есть функция выживания согласно формуле 13.13):
1 В отличие от мгновенной скорости в кинематике (англ. instantaneous velocity),
сивность событий в статистике (англ. instantaneous rate)
X(t) = X(0) + vt; в случае постоянной интенсивности X(t) = X(0)ert.

, мгновенная интен-

. В случае постоянной скорости

208

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Теорема 1
Если r определена на промежутке (–∞, ∞), то плотность вероятности φ
отмасштабированной интенсивности ρ = r (t – t0 ) можно параметризовать как

где b = .
Если r определена на промежутке (0, ∞), то плотность вероятности

Получились разные варианты экспоненциального распределения, или распределения Лапласа (т. н. двойного экспоненциального распределения)1.

Замечание 7
Следствие: будет наивностью просто перенести свойства интенсивности
роста r на сам рост XT , поскольку даже малые ошибки в r приведут к взрывным ошибкам в оценке экспоненциального роста XT .

Верно и обратное: если r распределена экспоненциально, XT должна быть распределена по Парето, как в формуле 13.13.
Схема вывода путем замены переменных такая. Пусть r следует распределению
с плотностью φ с областью определения (a, b); при некоторых стандартных условиях
u = g(r) следует новому распределению с плотностью

и областью определения [g(a), g(b)].
1 По Лапласу распределена разность X = Y 2 – Y 1 между двумя периодами Y 2 и Y 1 ожидания следующего
события, если события случаются независимо друг от друга со средней частотой λ. Плотность вероятности лапласовой случайной величины X имеет вид
ность вероятности

. Таким образом, в области x > 0 плот-

аналогична экспоненциальному распределению, а в области x < 0 гра-

фик этой функции представляет собой зеркальное отражение графика положительной области. Поэтому
распределение Лапласа называют также двойным экспоненциальным распределением. В целом график
двухвостый с максимумом в точке x = 0; среднее 0; дисперсия 2λ2; коэффициент асимметрии 0; коэффициент эксцесса 6.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

209

0,5

0,4

0,3

0,2

0,1

0

0

2

0

5× 1011

4

6

8

10

12

1

0,8

0,6

0,4

0,2

0

1× 1012

1,5× 1012

2× 1012

2,5× 1012

Рисунок B.1: Вверху — гистограмма 106 реализаций r из экспоненциального распределения
с коэффициентом λ = . Внизу — гистограмма X = e r. Распределения получились, мягко говоря,
разные.
Эксцесс выборки соответственно 9 и 106 (и в теории второй эксцесс вообще бесконечный);
все значения второго распределения уступают единственному большому отклонению

B.2. У ПАНДЕМИЙ ИСКЛЮЧИТЕЛЬНО ЖИРНЫЕ ХВОСТЫ
На Рисунке B.2 показано, что степенной закон с низким показателем α получается
независимо от выборки данных. В [48] мы пользовались теорией экстремальных значений, но на графике показан предварительный анализ, не вошедший в статью. Столь
низкого показателя хвоста мы больше нигде не видели. Вывод: эпидемиологические
исследования важны для науки, но для политических решений нужно опираться на
ТЭЗ или на простые соображения осторожности — как рекомендация удалить раковую опухоль пораньше, пока это обойдется дешево1.
1 Большой ошибкой будет строить политику, исходя из прогноза по одной точке — а, как мы показываем
в Главе 11, заведомо ложным будет и прогноз функции выживания. Не следует полагаться на прогнозы,
пусть и составленные «по всем правилам науки», за пределами бинарных пари. — Прим. автора.

210

Н АС С И М Н И К ОЛ АС ТА Л Е Б

P>

P>

P>

1

1

1

0,5

0,5

0,5

0,18

0,24

0,1

0,19
0,1

0,1

0,05

0,05
104

105

106

107

108

109

0,05

X

P>

104

105

106

107

X

108

P>

104

1

1

0,5

0,5

0,5

0,17

0,21

0,1

106

107

108

109

104

105

106

107

108

109

X

P>

104

1

1

0,5

0,5

0,5

0,21

10

5

10

6

10

7

10

8

10

9

10

X

106

107

108

109

X

0,18
0,1

0,05
4

105

0,22
0,1

0,05

X

P>

1

0,1

109

0,05

X

P>

108

0,21

0,05
105

107

0,1

0,1

0,05

106

P>

1

104

105

0,05
4

10

5

10

6

10

7

10

8

10

9

10

X

104

105

106

107

108

109

X

Рисунок B.2: Возьмем 60 крупнейших пандемий и будем случайно выбирать половину из них.
Нормализуем данные по текущей численности населения. Свойства и параметры Парето устойчивы к таким возмущениям. ТЭЗ дает чуть больший показатель хвоста, но все равно заведомо
ниже 1. Столь низкий показатель хвоста авторы впервые видят в своих исследованиях

C
ПРИНЦИП БОЛЬШОГО ОТКЛОНЕНИЯ,
ВКРАТЦЕ

Вернемся к границе Крамера и кратко представим литературу о ней. Суть противопоставления высоких выбросов богатым выбросам в Разделе 3.1 в том,
что при некоторых условиях падение вероятности выбросов в хвосте происходит по экспоненте. Это важное условие в управлении рисками — как мы
упоминали выше, принцип катастроф требует этого быстрого спада, иначе
диверсификация будет бесполезна.

Принцип большого отклонения помогает понять, как ведет себя экспоненциальный хвост и почему наши бизнесы не терпят крах при тонких хвостах… и, что не
менее важно, почему это может случиться при жирных хвостах или при нарушении
условия Крамера [118].
Пусть MN — среднее по последовательности реализаций N случайных величин,
одинаково распределенных. При большом N рассмотрим хвостовую вероятность:
ℙ(MN > x) ≈ e–NI(x),
где I(.) — функция Крамера, или функция интенсивности1 (Варадхан [260], Дембо
и Зеитуни [59]). Если известно распределение X, то преобразованием2 Лежандра
получаем I(x) = supϑ > 0{ϑ(x) – λ(ϑ)}, где λ(ϑ) = ln 𝔼e ϑ(X) — производящая функция кумулянтов3.
1 В 1930-е годы Крамер определил эту функцию для данной случайной величины X именно этим условием:
что среднее по большому числу N экземпляров случайной величины X имеет функцию выживания, которая в хвостовой области (при больших x) имеет экспоненциальный спад ≈ e–NI (x). В 1998 Дембо и Зеитуни
обобщили функцию Крамера, определив ее не на пространстве состояний случайной величины X, а на
произвольном вероятностном пространстве.
2 Преобразование Лежандра для заданной функции λ(ϑ) и ее производной λ′ (ϑ) строит функцию I(x)
с производной I′ (x) так, что старая производная принимается за новую переменную x, а старая переменная — за новую производную I ′ (x), то есть λ′ (I ′ (x)) = x и I ′ (λ′ (ϑ)) = ϑ. Новая функция находится как
I(x) = sup{xϑ – λ(ϑ)}.
3 В русской литературе производящая функция кумулянтов чаще называется просто логарифмом характеристической функции.

212

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Поведение функции ϑ(x) показывает, каков вклад одного-единственного события
в общий ожидаемый выигрыш. (Оно связано с условием Крамера, требующим, чтобы
существовали экспоненциальные моменты.)
Особый случай — для случайных величин Бернулли; для этого класса дискретных
случайных величин есть строгая оценка — оценка Чернова.
ПРОСТОЙ СЛУЧАЙ: ОЦЕНКА ЧЕРНОВА
Выигрыш по бинарному опциону подчиняется строгим ограничениям. Пусть
(Xi)1 ≤ i ≤ n — последовательность независимых испытаний Бернулли, принимающих
значения в множестве {0, 1}, причем вероятности ℙ(X = 1) = p и ℙ(X = 0) = 1 – p. Рассмотрим сумму Sn = ∑1 ≤ i ≤ n Xi, имеющую ожидаемое среднее 𝔼Sn = np = μ. Обозначим δ
расстояние от среднего; оценка Чернова дает следующее. Для любого δ > 0

а для любого 0 ≤ δ ≤ 1
1

.

Оценим вероятность того, что при n бросаний монеты результат на δ = 50 % превзойдет истинное среднее.
Поскольку p =

и

, искомая вероятность

; при
18

n = 1000 такое случается в одной серии из 1,24 × 10 .
Доказательство. Оценка Маркова2 ограничивает вероятность

. Заме-

ним X положительной функцией
. Далее мы используем
функцию g(X) = eωX.
Рассмотрим расстояние от среднего, равное (1 + δ) при δ > 0. Полагая ω > 0, получим оценку
(C.1)
Последний сомножитель,
3

остановки , представим как

, в силу независимости от момента
4

.

1 Для этого случая есть еще более строгая оценка Чернова,

.

2 Она же неравенство Маркова (Markov’s inequality), для случайной величины X, о которой известно лишь
то, что X ≥ 0 и существует 𝔼X. Эта оценка названа в честь Андрея Андреевича Маркова, хотя открыта
его учителем, Пафнутием Львовичем Чебышёвым. Оценкой Чебышёва называется более строгая оценка,
учитывающая второй момент.
3 Очевидно, имеется в виду, что свойства последовательности (Xi)1 ≤ i ≤ n исследуются при заданном n.
Иными были бы свойства серии подбрасываний монеты, если задать сумму Sn = ∑1 ≤ i ≤ n Xi и продолжать
бросать монету, пока не достигнут этот результат; тогда число подбрасываний монеты n будет случайной
величиной, зависящей от случайных величин Xi.
4 Более аккуратная запись этого рассуждения длиннее. Представим
. Поскольку все случайные величины X1, …, Xn независимы друг от друга, все случайные величины
независимы друг
от друга. Поэтому
.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

213

Основание степени 𝔼eωX = 1 – p + peω. Поскольку 1 + x ≤ e x 1,
Подставляя в C.1, получаем, что
(C.2)
Чтобы ужесточить оценку, минимизируем правую часть подбором ω.
Из

получаем2 ω* = ln(1 + δ).

Откуда открывается оценка eδμ (1 + δ)(–1 – δ)μ 3.
Известно обобщение оценок Чернова, сделанное Хефдингом [130], — оценка распространена на случайные величины, не обязательно распределенные по Бернулли.

1 В данном случае в знаменитое неравенство вместо x подставляется –p + peω, так что получается
. Обе части положительны, так что их можно возвести в степень n и получить
. Поскольку мы обозначали ожидаемое среднее 𝔼Sn = np = μ, можно
коротко записать
.
2 В самом деле, ищем точку минимума по переменной ω для выражения вида e μP, где P = eω – 1 – ω(1 + δ).
Частная производная

e μP проходит через ноль, меняя знак с отрицательного на положительный, только

если это делает
P = eω – (1 + δ), то есть при eω = 1 + δ.
3 В самом деле, подставим ln (1 + δ) вместо ω в
.

оценку:

D
КАЛИБРОВКА В СИТУАЦИИ ПАРЕТО

Рисунок D.1: Великий человек Бенуа Мандельброт связал фрактальную геометрию со статистическими распределениями через самоподобие во всех масштабах. Когда его попросили объяснить,
что он исследует, он ответил: «rugosité», то есть «шероховатость»… и у него ушло пятьдесят
лет на то, чтобы понять это. Картина Морской конек — фрагмент множества Мандельброта,
построенный пользователем Wolfgang Beyer для Wikipedia Commons

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

215

0,4

0,3

n = 100

0,2

Истинное среднее
0,1

0

0,5

5

10

15

20

10

15

20

n = 1000

0,4

0,3

0,2

0,1

0

5

Рисунок D.2: Методом МонтеКарло (при 105 испытаниях)
проверено, насколько точно и
надежно оценивается среднее: по выборочному среднему
(методы 1 и 2) — гистограммы
персикового цвета, методом
максимального правдоподобия1
(метод 3) — синие гистограммы,
если дано распределение Парето
с α = 1,2 и размер выборки увеличивают с n = 100 до 1000.
Видно, что ММП в итоге
приближается к точной оценке
распределения, тогда как выборочное среднее по методам 1 и 2
продолжает занижать среднее
асимметрично распределенных
данных. Чтобы достичь той же
точности, выборку пришлось бы
увеличить до 107 или больше

1 В методе максимального правдоподобия параметр распределения оценивается по наблюдаемой выборке
так. Пусть монету бросали три раза, и выпали Орел, Орел, Решка; пусть бросания были независимыми,
но честность монеты под вопросом: правда ли вероятность выпадения Орла p = , неизвестно; требуется
оценить «орловость» монеты, исходя из наблюдаемой выборки.
Рассмотрим т. н. функцию правдоподобия ℒ (ϑ) = ℙ((X1, X2, X3) = (Орел, Орел, Решка) при p = ϑ) =
= ϑϑ (1 – ϑ) = ϑ2 – ϑ3. Поскольку производная

ℒ (ϑ) = 2ϑ – 3ϑ 2 меняет знак с положительного на отрица-

тельный в точке ϑ̂ = , это точка максимума функции правдоподобия и, согласно ММП, это и есть оценка
«орловости» p данной монеты. Заметим, что по столь короткой серии наблюдений получается функция
правдоподобия со слабо выраженным максимумом: правдоподобие гипотезы, что орловость монеты
была p = , составляет ℒ

=

≈ 0,148 и не намного превосходит, например, правдоподобие гипотезы

честной монеты с «орловостью» p = , ее правдоподобие ℒ

= = 0,125.

Чтобы найти точку максимума ϑ̂ функции правдоподобия ℒ(ϑ), достаточно найти точку максимума ее
логарифма ln ℒ(ϑ); в самом деле, логарифм возрастает, так что точка максимума логарифмической
функции правдоподобия ln ℒ(ϑ) та же самая, что у функции правдоподобия ℒ(ϑ). Выгода работы с ln ℒ(ϑ)
вместо ℒ(ϑ) возникает, когда ℒ(ϑ) представлена произведением и, следовательно, логарифмическая
функция правдоподобия представима суммой логарифмов. В нашем примере ln ℒ(ϑ) = ln ϑϑ (1– ϑ) =
= 2 ln ϑ + ln(1– ϑ); производная
тельный в точке ϑ̂ = .

ln ℒ(ϑ)

меняет знак с положительного на отрица-

216

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Начнем с повторения.
Определение D.1 (Класс степенного закона 𝔓)
Случайная величина X, определенная на ℝ, принадлежит 𝔓, классу медленно
меняющихся функций, он же класс хвостов Парето, он же класс хвостов степенного
закона, если спад функции выживания при больших |X | асимптотически представим
степенью с постоянным показателем α или двумя разными показателями α и α′ для
левого и правого хвоста, то есть
ℙ(X > x) = L(x)x –α

(D.1)

ℙ(–X > x) = L(x)x –α′

(D.2)

для правого хвоста и

для левого хвоста, где α, α′ > 0 и функция L: (0, ∞) → (0, ∞), медленно меняющаяся,
что определяется как

при всех k > 0.
Что с таким распределением удобно, так это то, что параметр α следует обратному1 гамма-распределению, которое быстро сходится к гауссову, не требуя больших n
для оценки.
Проблема со степенными законами, даже имеющими так называемую конечную
дисперсию, та, что конечность дисперсии на практике не спасает, как мы видели
в Главе 8. Это иллюстрирует Рисунок D.2, где мы видим подгонку с переменным
успехом.
D.1. РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОЙ ОЦЕНКИ ПОКАЗАТЕЛЯ ХВОСТА
Рассмотрим стандартное распределение Парето для случайной величины X с плотностью вероятности:2
φX (x) = αLαx –α – 1, x > L.

(D.3)

Изменим масштаб так, что L = 13.

1 Обратному гамма-распределению следует X –1, если случайная величина X следует гамма-распределению. Если X — случайное время ожидания a событий, которые происходят независимо друг от друга со
средним периодом b, то aX –1 — случайная частота, измеренная по первым a событиям. Как и для гаммараспределения, коэффициент формы a > 0, коэффициент масштаба b > 0 и все значения X –1 > 0; плотность
вероятности
ших a: cреднее
a > 3, эксцесс

имеет максимум при
при a > 1, дисперсия

. Моменты существуют при достаточно больпри a > 2, коэффициент асимметрии

при a > 4.

2 Подразумевается, что X > L; поэтому при x < L плотность вероятности φX(x) = 0.
3 Соответственно,

.

при

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

217

При таком минимальном значении функция правдоподобия
ℒ(α) =

;

максимизируя ее логарифм
ln ℒ(α) = n ln α – (α + 1)

ln xi,

1

находим, что

.
. Его характеристическая функция2

Рассмотрим средний логарифм

3

,
то есть представима как характеристическая функция гамма-распределения с коэффициентами

4

. Стандартный результат показывает, что

будет следовать обрат-

ному гамма-распределению с плотностью вероятности

5

.

1 В самом деле, производная

ln ℒ(α) =

меняет знак с положи-

тельного на отрицательный в такой точке α̂ , что

.

2 Здесь ψ(t) — характеристическая функция случайной величины
. Поскольку характеристическая
функция суммы независимых случайных величин равна произведению характеристических функций
слагаемых и поскольку слагаемые
распределены одинаково, характеристическая функция суммы
представима как
.
3 В самом деле, поскольку X > 1, случайная величина
и ее характеристическая функция
. Заменяя eny = x и eity = xit/n,

, где плотность вероятности
получаем

.

4 В самом деле, для гамма-распределения с коэффициентами формы и масштаба k и ϑ характеристическая
функция

. Подставляя

, получаем
–1

.
–1

5 В самом деле, если случайная величина X ~ Gamma(k, ϑ ), то случайная величина Y = X ~ Inv-Gamma(k, ϑ)
с плотностью вероятности
плотность вероятности

. Подставляя X = l, Y = α̂ , y = a, k = n, ϑ = αn, получаем для α̂
.

218

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Устранение систематической ошибки. Поскольку
гую случайную величину, несмещенную:

1

, выберем дру-

для которой, после масштабирования2, распределение получится такое:

3

.

Усечение при α > 1. Учитывая, что при α ≤ 1 среднее не существует, ограничимся
теми распределениями Парето, где α = 1 + ε, ε > 0. Тогда в выборке для оценки показателя участвуют только значения строго больше 1. Ограничим выборку, используя
точку отсечения снизу ε > 0, то есть требуя

. Ожидаемая оценка станет

𝔼(α̂ | α̂ > 1 + ε), и ее плотность вероятности будет

4

.

Таким образом, распределение оценок показателя при условии, что он превышает 1, принимает вид:

(D. 4)

В итоге, как видно на Рисунке D.2, полученное стандартными методами среднее
для α хвоста может хорошо приближать однохвостовое распределение Парето.

1 В самом деле, если случайная величина Y ~ Inv-Gamma(k, ϑ), то
. Подставляя Y = α̂ , k = n, ϑ = αn,
получаем
. Таким образом, пока число наблюдений n < ∞, полученная по ММП оценка α̂ будет
в среднем завышена по сравнению с показателем α распределения Парето в
раз.
2 Масштабировать в s раз случайную величину X значит рассмотреть случайную величину sX = Y и ее значения sx = y. Для случайной величины Y плотность вероятности по-прежнему имеет площадь 1 под всей
кривой, но по сравнению с плотностью вероятности случайной величины X график растянут в s раз по
горизонтали и сжат в s раз по вертикали:

.

3 С точностью до постоянного сомножителя. Масштабируя случайную величину

α̂ = α̂ ′ и ее значения

a = a′, а также пользуясь свойством гамма-функции nΓn = Γ(n + 1), получаем выражение для плотности вероятности
.

4 Точнее,

.

10
ПЕЧАЛЬНО, НО ФАКТ:
ДИАГНОСТИКА S&P 500 ‡

Это диагностический тур1 по свойствам биржевого индекса S&P 500 на протяжении его истории. Мы устроим серию тестов и рассмотрим полученную
статистическую картину. Очевидно, что доходность распределена по степенному закону (с некоторыми усложнениями, например с асимметрией между
подъемом и спадом), откуда следует, что и здесь обычные методы анализа
несостоятельны. Мы обращаем внимание на такие вещи, как:
• поведение эксцесса при накоплении наблюдений (по мере расширения временного окна);
• поведение условного математического ожидания 𝔼 (X | X > K) при различных значениях K;
• график отношения максимума к сумме (maximum to sum, MS);
• падения (максимальные колебания в данном временном окне);
• экстремальные значения — правда ли они независимы.

И подтверждаем диагноз: весь класс анализов в L2, включая современную портфельную теорию, факторный анализ, GARCH, условную дисперсию и стохастическую волатильность, методологически (и практически) несостоятельны.
10.1. ПРИНАДЛЕЖНОСТЬ КЛАССУ ПАРЕТО И МОМЕНТЫ
Проблема. Как мы говорили в Прологе, переход от тонкохвостости к жирнохвостости не
похож на простую смену фасона. Беспринципные финансисты и экономисты заявляют,
что услышали предупреждение о жирнохвостости, после чего спокойно продолжают
в прежнем духе, отмахиваясь от таких последствий, как медлительность закона больших
чисел и провал попыток статистически значимой оценки среднего и высших моментов
по доступной выборке (можно также упомянуть провал эргодичности). Горы неинформативных аналитических публикаций в области инвестиций все растут и растут.

1 Эта глава больше опирается на рисунки, чем на текст, потому что главными доводами служит отсутствие
сходимости на графиках.

220

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Принадлежность классу Парето четко определяется по отсутствию некоторого
высшего момента, что проявляется как отсутствие сходимости согласно ЗБЧ.
ℙ(|X| > |x|)
1

0,1

1987

0,01

0,001
0,01

0,02

0,05

0,1

0,2

|x|

Рисунок 10.1: Наглядная проверка принадлежности классу
Парето на обычном графике в дважды логарифмическом масштабе, где вдоль горизонтальной оси отложена абсолютная
доходность, а вдоль вертикальной — функция выживания.
Если удалить одну-единственную точку, отвечающую краху
1987 года, можно было бы надеяться на логнормальный класс
или еще какое-то смешанное жирнохвостое распределение вне
класса степенного закона. Потому что функция выживания
начинает вертикально падать, что характерно для асимптотически экспоненциального хвоста. Если бы не одно маленькое
«но»…

Замечание 8
Поскольку:
1) класс правильно меняющихся функций не содержит моментов выше α,
а конкретнее
p
• если p > α, то 𝔼 X = ∞, когда p четно или случайная величина X определена
на области с одним хвостом, и
p
• момент 𝔼 X не определен, когда p нечетно и случайная величина X определена на области с двумя хвостами,

и
2) распределения вне класса правильно меняющихся функций содержат
p
все моменты: ∀p ∈ ℕ+, 𝔼 X < ∞,
∃p ∈ ℕ+ такое, что момент 𝔼 X не определен или бесконечен ⇔ X ∈ 𝔓.
p

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

221

Изучим теперь способы обнаруживать «бесконечные» моменты. С этой задачей
связана путаница, поскольку моменты конечной выборки по определению конечны
и измеримы, в вероятностном пространстве считающей меры1.
Мы будем обращать внимание на несходимость моментов. Пусть ∥X∥p — взвешенная p-норма:
.
По свойству степенных законов

p
𝔼X ≮ ∞ ⇔ ∥X∥p расходится.

Вопрос. Каким образом принадлежность классу хвостов степенного закона
(с показателем α ≤ 4) отменяет многие методики из L2?
В Разделе 5.10 показано распределение среднего отклонения второго момента
для степенного закона с конечной дисперсией. Говоря просто, в ситуации, когда не
существует четвертый момент и бесконечны высшие моменты, у дисперсии ее второй
момент сам имеет бесконечную дисперсию, создавая прежние проблемы с попытками
выборочной оценки: если в случае степенного закона при α больше 1, но ненамного,
среднее существует, но так и не будет получено из наблюдений, то в ситуации бесконечного третьего момента наблюдаемый второй момент так и не станет информативен, потому что так и не сойдется к своему истинному значению.
10.2. КРИТЕРИИ СХОДИМОСТИ
Законы сходимости помогают исключить некоторые классы распределений вероятности.
10.2.1. Критерий 1: эксцесс при агрегации
Если бы эксцесс существовал, то по мере удлинения временного окна он сходился бы
к гауссову эксцессу. Поэтому мы проверяем расчетные доходности за все более долгие
временные лаги, как показано на Рисунке 10.2.
Результат. Вердикт по Рисунку 10.2 тот, что эксцесс за месяц не снизился по сравнению с ежедневным, и вообще добавление данных не обваливает эксцесс. В дальнейшем можно ожидать спада ~ n –1. Можем смело исключить целый ряд классов, включая
стохастическую волатильность простого формата, например гамма-дисперсию. Далее
мы рассмотрим технические детали вопроса и доказательную силу таких наблюдений.
1 Считающая мера множества A определяется как

. В классической теории вероятно-

стей рассматривалось конечное множество ℱ всех возможных элементарных событий, которые считались равновероятными, и распределение вероятности случайной величины X понималось как ℙ(X < x) =
. В современной теории вероятностей, по Колмогорову, ту же формулу применяют
в любом измеримом.

222

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Эксцесс

20

Перетасованный
S&P 500

15

S&P 500

10

5

0

20

40

60

80

100

Временной лаг

Рисунок 10.2: Повторим изображение, которое уже давали
в Главе 7: визуальную диагностику сходимости для эксцесса
S&P 500 по последним 1700 наблюдениям. Мы вычисляем эксцесс
при разном выборе временного лага сначала для исходного S&P 500,
затем для перетасованных данных. В то время как для исходных
данных 4-я норма не сходится, для перетасованного ряда она несомненно сходится. Отсюда понятно, что жирнохвостость связана
с временной структурой данных, а именно с кластерами волатильности. Смотрите Таблицу 7.1, где показано ожидаемое падение со
скоростью

для тонкохвостых распределений

Вот типичное недоразумение. В заметке «Чему Талеб может научиться у Марковица» [255] Джек Л. Трейнор, один из основателей портфельной теории, защищает
свою область тем доводом, что даже если данные кажутся жирнохвостыми «на короткой дистанции», на некоей «долгой дистанции» они еще станут гауссовыми. Увы, не
станут. (Мы добавим проблему с эргодичностью, которая сгладит, если не устранит
вовсе различие между долгой дистанцией и короткой дистанцией.)
Причина в том, что мы не можем надеяться на гауссовость, если эксцесс бесконечен, даже если низшие моменты существуют. Кроме того, при α ≈ 3 центральная предельная теорема работает медленно, и какая-то надежность наступит при n
порядка 106, недоступном в существующей хронологии рынков [27].
10.2.2. Максимальные падения
Пусть для некоторого временного ряда оценок актива S, сделанных в моменты (t0, t0 +
+ ∆t, …, t0 + n∆t), нас интересует поведение величины
1

.

(10.1)

Мы можем рассмотреть относительное падение, взяв логарифм этой величины,
как мы поступаем с доходностью. Окно n для наблюдения падений может быть 5, 100,
252 дня. Как видно на Рисунке 10.4, падения распределены по Парето.
1 По-видимому, здесь t = t0 + n∆t.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

0

0

–0,2

–0,2

–0,4

–0,4

–0,6

–0,6

–0,8

–0,8

0

0

–0,2

–0,2

–0,4

–0,4

–0,6

–0,6

–0,8

–0,8

223

Рисунок 10.3: Падения в окнах n = 5, 30, 100 и 252 дня. Максимальные падения — это отклонения, которые отслеживаются формулой 10.1. Мы используем здесь логарифм минимального S
в окне n дней после того, как было достигнуто заданное значение S
ℙ(|X| > |x|)
1

0,1

Рисунок 10.4: Принадлежность падений классу
Парето и масштаб

0,01

5 дней
100 дней
0,001

252 дня

0,02

0,05

0,1

0,2

0,5

|x|

ℙ(|X| > |x|)
1

0,5

Рисунок 10.5: Подгонка
устойчивого распределения
к эмпирическому распределению падений

0,1

0,05
0,55

0,6

0,65

0,7

|x|

224

Н АС С И М Н И К ОЛ АС ТА Л Е Б

10.2.3. Эмпирическая каппа
Бутстрэпом1 по нашей формуле для каппы из главы 8:
(10.2)

— получаем такие эмпирические оценки (обозначая для краткости κn = κ1, n):

0,05

Рисунок 10.6: Квадрат
доходов по 16 500 наблюдениям S&P 500. Никакой
GARCH (1, 1) не воспроизведет подобную зазубренность (великий человек
Бенуа Мандельброт называл такие графики «рюгозите́»2)

0,04

0,03

0,02

0,01

0


1

0,8

0,6

Эмпирическая функция выживания

Рисунок 10.7: Каппа-n
по эмпирическим оценкам

Фреше, 1
0,4

Фреше с более низким показателем хвоста

0,2

0,05

0,1

0,15

0,2

0,25

0,3

K

Видно, что эмпирическая каппа распределена по степенному закону и что для
отрицательных доходов α < 3.
1 Бутстрэп (англ. bootstrap) в статистике — численное исследование распределения по данной выборке
путем многократной генерации подвыборок методом Монте-Карло.
2 Фр. rugosité, шероховатость.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

225

10.2.4. Проверка 2: условное математическое ожидание избытка
Результат: вердикт по этому тесту тот, что, как видно на Рисунке 10.8, условное математическое ожидание X (а также –X) при условии избытка над K остается пропорциональным K даже при больших K.

Определение 10.1
Пусть K из R+ — условное математическое ожидание относительного избытка:

.
Тогда для распределений вне бассейна степенных законов

а для распределений из Определения 1

Обратите внимание на закон1 Ван дер Вейка.
𝔼(–X |–X > K )
K
1,7

Рисунок 10.8:
«Тест Линди», или
Condexp 2 — проверяется
масштабируемость,
используя условное математическое ожидание
ниже K: при больших K
оно должно упасть

1,6

1,5

1,4

0,04

0,06

0,08

0,1

K

1 Ключевое свойство распределения Парето, т. н. принцип 80/20: что 80 % богатств сосредоточены в руках
20 % семейств и что среди этих богатейших семейств 80 % их богатств сосредочены в руках 20 % богатейших среди богатейших, и так далее, — можно обобщить для произвольного распределения Парето
с показателем α > 1: существует доля p ≤

богатейших семейств такая, что в их руках сосредочено 1 – p

богатств, и среди этих p семейств богатейшие p2 семейств сосредоточено в своих руках (1 – p)2 богатств,
и так далее, причем
. Общий вариант иногда называют законом Ван дер
Вейка.
2 От conditional expectation, условное математическое ожидание.

226

Н АС С И М Н И К ОЛ АС ТА Л Е Б

60

50

Рисунок 10.9: Под эмпирическое распределение
убедительно подгоняется устойчивое по Леви
при αl = 1,62

40

30

20

10

–0,2

–0,15

–0,1

–0,05

0,05

0,1

ℙ(|X| > |x|)
1

0,5

Рисунок 10.10: Хвосты
подгоняются даже под
устойчивое распределение с бесконечным средним, при αl = 1

0,1

0,05

0,05

0,1

0,15

|x|

0,2


1

0,8

0,6

Эмпирическая функция выживания

Рисунок 10.11: Корректировка эмпирического распределения при помощи Фреше
для S&P 500

Фреше, 1
0,4

Фреше с более низким показателем хвоста

0,2

0,05

0,1

0,15

0,2

0,25

0,3

K

Рисунок 10.8 показывает, что условное ожидание не падает при больших значениях порога, что несовместимо с распределениями, отличными от Парето.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

227

10.2.5. Проверка 3: неустойчивость 4-го момента
Главный довод в [228] тот, что за 50 лет наблюдений S&P 500 одно-единственное
наблюдение создает > 80 % эксцесса. Аналогичный эффект виден и для других социоэкономических показателей фондовой биржи, таких как цены на золото, нефть, серебро и софты1. Такая зависимость эксцесса от выборки означает, что четвертый момент
неустойчив, не существует.
10.2.6. Проверка 4: график MS
Дополнительный способ узнать, существует ли 𝔼X p, — исследовать сходимость по
закону больших чисел (или ее отсутствие), изучив поведение высших моментов
в данной выборке. Удобно пользоваться графиком отношения максимума к сумме
(maximum to sum, MS), показанным на Рисунке 10.12. График MS опирается на последовательность в законе больших чисел [184] с того места, где встретилось максимальное

MS(4)
1

График MS
для 4-го момента S&P 500

MS(4)
1

0,8

0,8

0,6

0,6

0,4

0,4

0,2

0,2

5000

MS(4)
1

10 000

15 000

n

График MS для соответствующей
стохастической волатильности

5000

MS(3)
1

0,8

0,8

0,6

0,6

0,4

0,4

0,2

0,2

5000

10 000

15 000

n

График MS для 4-го момента
тонкохвостого распределения

10 000

15 000

n

График MS
для 3-го момента S&P 500

5000

10 000

15 000

n

Рисунок 10.12: Сравним график MS(p), или «закон больших чисел для p-тых моментов» при p = 4
для S&P 500 и для гауссианы и стохастической волатильности при таком же эксцессе (≈30)
за период наблюдений. Сходимость, если она вообще есть, не наступает ни за какое разумное
время. График MS при p = 3 для S&P 500 сравним с p = 4 для гауссианы. Можно смело утверждать, что 4-й момент бесконечен и 3-й момент неопределенный
1 Они же «мягкие товары» (soft commodities). Это те товары на фьючерсных рынках, которые не добываются, а выращиваются: сахар, кукуруза, хлопок, кофе, какао, зерно, апельсины.

228

Н АС С И М Н И К ОЛ АС ТА Л Е Б

значение случайной величины. Если для последовательности неотрицательных н. о. р.
случайных величин X1, X2, …, Xn моменты 𝔼 Xp < ∞ при p = 1, 2, 3, …, то

где

— частичная сумма, а

— частичный максимум.

(Заметим, что этот подход можно обобщить и на нечетные моменты случайной величины произвольного знака; достаточно заменить X на абсолютную величину данной
случайной величины.)
Покажем для сравнения график MS для гауссовой случайной величины и для
t-распределения Стьюдента с показателем хвоста 3. Видим, что S&P 500 демонстрирует типичные характеристики резкого степенного закона и за 16 000 наблюдений
(за 50 лет) так и не падает до точки, где может начаться работа закона больших чисел.
10.2.7. Рекорды и экстремальные значения
Метод рекордов Гумбеля состоит в следующем (Амбре и др., [82]). Пусть X1, X2, … —
дискретный временной ряд, в котором максимум за период t ≥ 2 определяется как
Mt = max(X1, X2, …, Xt). Обозначим N 1, t число рекордов за первые t точек данных:
(10.3)
Независимоот распределения случайных величин Xk, математическое ожидание 𝔼Nt равно t-му гармоническому числу1

, а дисперсия равна разности

. Заметим, что последовательность гармонических чисел отличается выпуклостью вверх и медленным, логарифмическим ростом, описываемым приближенной
формулой ln t + ɣ, где ɣ — постоянная2 Эйлера — Маскерони. Приближение таково,
что

(сайт Wolfram Mathworld [263]).

Замечание 9
Описанный выше критерий независимости по Гумбелю — достаточное условие того, что экстремальные отрицательные значения логарифмической доходности3 S&P 500 сходятся к MDA распределения экстремальных значений.

1 То есть частичной сумме гармонического ряда 1 + + + … по t-й член.
2 Постоянная Эйлера — Маскерони ɣ = –
≈ 0,577 введена в 1735 Эйлером и изучена в 1790 Маскерони.
3 Логарифмическая доходность (log-return, logarithmic return), она же непрерывная кумулятивная доходность (continuously compounded return), она же сложный процент (force of interest) определяется для
заданного периода времени как

, где Ve и Vb — стоимость финансового актива соответственно

на конец и начало периода. Для произвольного периода t используется логарифмическая норма доходно-

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

229

Число
рекордов

15

10

5

Прибыль
Убыток

0

5000

10 000

15 000

время

Рисунок 10.13: Проверка по рекордам показывает независимость
для экстремальных отрицательных доходов и зависимость для положительных. Число рекордов при данном числе независимых наблюдений растет со временем как гармоническое число Ht (пунктирная
линия), ≈ по логарифмическому закону, но здесь для положительных
доходов рост происходит более чем на 2,5 стандартного отклонения быстрее, так что для экстремальных прибылей предположить
независимость нельзя. Данный тест не позволяет судить о зависимости вне экстремальных значений

Ряды целиком. Мы перетасовали S&P 500 (применили бутстрэп с размером
подвыборки, равным всем исходным ≈17 000 точек, и запретом выбирать одну точку
несколько раз; и так 103 раз) и проследили число рекордов по всем подвыборкам. Как
показано на Рисунках 10.14 и 10.15, среднее составило 10,4 (что отвечает приближению гармоническим числом с соответствующим стандартным отклонением.) Функция
выживания S(.) при числе рекордов N1,7 × 104 = 16 принимает значение S(16) =

, что

позволяет отбросить гипотезу о независимости положительных экстремальных значений.
С другой стороны, число отрицательных экстремальных значений составило 9,
что отличается от математического ожидания 10,3 всего на стандартного отклонения, и отвергнуть независимость не удается.
Подрекорды. Если обрабатывать данные не единым блоком за весь период T,
а разбить его на подпериоды, получим (благодаря выпуклости вверх меры и неравенству Йенсена) T/δ наблюдений числа подрекордов вида
. Возьмем ∆ = 103
2
3
и δ = 10 , и из исходных T ≈ 17 × 10 дней получим 170 подпериодов. Результат показан
на Рисунке 10.16; он не позволяет отвергнуть независимость ни для положительных,
ни для отрицательных подрекордов.

сти (logarithmic rate of return)
. Этот показатель постоянный, пока стоимость финансового
актива растет пропорционально текущей стоимости, то есть по экспоненциальному закону
.

230

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Nt

Рисунок 10.14: Функция
выживания для числа рекордов — положительных
максимумов, полученных из
103 перетасованных (и тем
самым лишенных временной
структуры) полных выборок
данных S&P 500. Значение
выше 16 (столько рекордных
максимумов наблюдалось
в данных S&P 500 за всю
историю индекса) встре-

1

Число максимумов
в данных S&P 500
за 1950-2017 годы

0,8

0,6

0,4

0,2

Среднее число
рекордных максимумов
в перетасованных
данных о доходности

5

10

15

20

t

тилось всего в
выборок

полных

1

0,8

0,6

0,4

Число минимумов
в данных S&P 500
за 1950–2017 годы

Среднее число рекордных
минимумов в перетасованных
данных о доходности

0,2

5

10

15

20

t

Рисунок 10.15: Кумулятивное распределение рекордных отрицательных
экстремумов для перетасованного (103 раза) S&P 500, как на предыдущем
рисунке. Масса выше 9 (наблюдавшееся число рекордных минимумов SP500 за
этот период) составила

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

231

N
15

10

5

50

100

150

t

50

100

150

t

N

15

Рисунок 10.16: Используем короткий период
t = 1000 дней регистрации
рекордных максимумов
(график вверху) и минимумов (внизу) и выполним
перекрывающиеся наблюдения. Математическое ожидание, то есть гармоническое число H1000, показано
пунктиром

10

5

Выводы из подрекордов. По крайней мере для отрицательных рекордов на коротких подпериодах применимы методы EVT.
10.2.8. Асимметричность хвостов справа и слева
На Рисунке 10.17 замечаем асимметрию: левый хвост жирнее правого. Это будет
головной болью для тех, кто пытается строить точные модели процесса, но вряд ли
важно для тех, кто занимается рисками или торгует опционами.

232

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ℙ(|X| > |x|)

ℙ(|X| > |x|)

1

1
0,5

0,1
0,05

0,05

ℙ(|X| > |x|)

0,1

0,2

0,01

|x|

0,1
0,05

0,05

0,1

ℙ(|X| > |x|)

4

1
0,5

0,15 0,2 0,25

0,01

|x|

0,1

ℙ(|X| > |x|)

0,15 0,2 0,25 0,3

0,1

0,15

ℙ(|X| > |x|)

7

1
0,5

0,2 0,25 0,3

0,01

|x|

0,1

0,15

ℙ(|X| > |x|)

0,2 0,25 0,3

0,1

0,2 0,25 0,3 0,35

0,15

0,2 0,25 0,3 0,35

0,01

|x|

0,1

|x|

0,15

0,2 0,25 0,3 0,35

12

1
0,5

0,1
0,05

0,1

|x|

9

ℙ(|X| > |x|)

11

1
0,5

0,1
0,05

0,01

|x|

0,15

ℙ(|X| > |x|)

10

1
0,5

0,2 0,25 0,3

0,1
0,05

0,01

|x|

0,15

0,1

1
0,5

0,1
0,05

0,01

6

ℙ(|X| > |x|)

8

1
0,5

0,1
0,05

|x|

0,1
0,05

0,01

|x|

0,1 0,15 0,25 0,3

1
0,5

0,1
0,05

0,01

0,05

ℙ(|X| > |x|)

5

1
0,5

0,1
0,05

3

1
0,5

0,1
0,05

0,01

0,01

ℙ(|X| > |x|)

2

1
0,5

0,1
0,05

0,1

0,15

0,2 0,25 0,3 0,35

0,01

|x|

0,1

0,15

0,2 0,25 0,3 0,35

|x|

Рисунок 10.17: Представим отдельно положительные (синим) и отрицательные (красным) логарифмические доходности и используем перекрывающиеся накопленные доходности от 1 до 12.
Видно, что отрицательные доходности следуют степенному закону, тогда как принадлежность
правого хвоста классу Парето остается сомнительной

0,1

Рисунок 10.18: t-распределение Стьюдента против
эмпирического распределения S&P 500 в координатах
Q — Q:* левый хвост подгоняется, правый — нет

0,05

0

* График в координатах квантиль — квантиль (quantile —
quantile).

–0,05

–0,1
–0,1

–0,05

0

0,05

0,1

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

233

10.3. ЗАКЛЮЧЕНИЕ: ПЕЧАЛЬНО, НО ФАКТ
В этой главе нам удалось исследовать простую тему: доходность по индексу S&P 500
(охватывающему львиную долю капитализации фондового рынка США) распределена
по степенному закону, а любые попытки подбирать для нее другие модели нарушают
принцип линейки Витгенштейна. Принятые стандартные подходы — современная
портфельная теория (Modern Portfolio Theory, MPT) и демагогия о якобы присущей
людям склонности переоценивать вероятность хвостовых событий относительно
«базовой частоты катастроф» («base crash rate») — сплошная лженаука, хотя вышло
уже > 70 000 статей и сформировались целые армии исследователей, даже не считая
106 общеэкономических статей, результаты которых основаны на «дисперсии» и «корреляции». Придется свыкнуться с тем, что эти показатели — туфта. Как говорили
древние, dura lex sed lex1, а на современном жаргоне:

Печально, но факт.

1 «Закон суров, но это закон» — изречение древнеримского юриста Ульпиана, III век н. э. Автор перефразирует как It is what it is.

E
ПРОБЛЕМА С ЭКОНОМЕТРИКОЙ

Неладно что-то в эконометрике: ее статьи почти никогда не отражают реальность. Две проверки надежности в Главе 10: одна для параметрических методов, другая для робастной статистики, — показывают, что вся область фундаментально прогнила, что ее методы ненадежны и не годятся ни для каких
рискованных решений. От прикладников льются потоки заявлений о причинах провалов — противоречивые, поверхностные. Это резюме результатов
в [228], без технических деталей.

Экономические переменные устроены так, что одно-единственное наблюдение из
10 000 — за один день из 40 лет — отвечает в значительной степени за величину «эксцесса», стандартной характеристики «жирных хвостов» для распределений с конечными моментами. Тем самым оно одновременно характеризует и отклонение изучаемого распределения от стандартного гауссова, и влияние событий в далеком хвосте
на свойства распределения в целом. Для фондового рынка США один-единственный
день, крах 1987 года, определил 80 % эксцесса за период с 1952 по 2008 год. Та же
проблема обнаруживается с процентными ставками, обменными курсами, ценами на
товары и другими величинами. Повторяя исследование на других периодах с другими
величинами, видим вопиющую неустойчивость эксцесса. Проблема не столько в том,
что данные содержат «жирные хвосты», а исследователи о них то и дело забывают;
проблема в том, что узнать «величину жирнохвостости» стандартными методами
невозможно. В принципе невозможно1.
1 Макроэкономические величины, такие как число заявок на пособия по безработице в США в неделю,
традиционно казались отслеживаемыми в стенах (уродливых и унылых) экономических департаментов.
В итоге основанные на них модели разлетелись вдребезги. С началом эпидемии нового коронавируса
Covid-19 число заявок на пособия по безработице претерпело «неожиданные» скачки в «тридцать среднеквадратических отклонений», а эксцесс (логарифм изменений) подскочил с 8 до > 550 после одногоединственного наблюдения в апреле 2020. Чуть ли не все выборочные высшие моменты определяются
одной-единственной точкой данных, и чем выше момент, тем сильнее этот эффект — приходится признать, что высшие моменты не существуют, и нет информативного низшего момента, и величину следует
признать распределенной по степенному закону.
Такая роль хвоста отменяет всю историю макроэкономического моделирования, как и политические
курсы, основанные на заключениях экономистов, которые пользовались характеристиками из Медиокристана. И даже если экономисты в кругах взаимного цитирования еще не осознали, что гнали туфту,
до остальных уже дошло. На момент написания этой книги специалисты начали понимать, что хвосты

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

НО РЫНКИ —
©STEFAN GASIC — OFFSHORECOMIC.COM

МОЯ МОДЕЛЬ
ПРЕДСКАЗЫВАЕТ КУРСЫ
АКЦИЙ, ПРЕДПОЛАГАЯ,
ЧТО РЫНКИ — ТОНКОХВОСТЫЕ.

ЖИРНОХВОСТЫЕ!

235

РУЧАЮСЬ,
ЧТО В ОСТАЛЬНОМ
МОЯ МОДЕЛЬ
БЕЗУПРЕЧНА.

Рисунок E.1: © Stefan Gasic

Следствие то, что для ряда инструментов, основанных на возведении величин
в квадрат (более строго, на использовании нормы ℒ2), включая такие вещи из учебников, как среднеквадратическое отклонение, дисперсия, корреляция и регрессия, — для
всех этих вещей применение в экономике научно несостоятельно (за редкими исключениями, где величина ограничена). Так называемые «p-значения», приводимые
в исследованиях как оценка значимости, бессмысленны для экономических и финансовых величин. Даже более сложные методы стохастического исчисления, применяемые в финансовой математике, в экономике не работают, за исключением нескольких
узких областей.
E.1. ЭФФЕКТИВНОСТЬ СТАНДАРТНЫХ ПАРАМЕТРИЧЕСКИХ
ОЦЕНОК РИСКА
Результаты большинства статей в экономике основаны на этих стандартных статистических методах, и, следовательно, трудно ожидать от них воспроизводимости. Ее, собственно, и нет. И это те инструменты, которыми обосновывают призывы к бо́льшим
рискам. Альтернативные методы тоже не дают надежных характеристик для редких
событий — разве что позволяют иногда выяснить, что события в далеком хвосте недооценены; своей оценки эти методы не предлагают.
Как описано в [228], рассмотрим логарифмическую доходность

и максимальный биквадрат по выборке из n наблюдений с шагом ∆t

Пусть Q(n) — вклад максимального биквадратного отклонения:

весьма жирны, и политика должна основываться на экстремальных значениях, пользуясь теорией экстремальных значений (extreme value theory, EVT), и что пропасть между гауссовыми моделями и моделями
степенного закона еще глубже, когда рассматриваются экстремальные значения. — Прим. автора.

236

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Заметим, что для целей данного исследования практически все равно, какой взять
эксцесс — центральный или нецентральный.
Для Гауссова случая величина Q будет распределена как квадрат хи-квадрата,
и для суммы 104 наблюдений вклад максимального, Q(104), должен был составить
около 0,008 ± 0,0028. Мы же видим, что фактическое распределение 4-го момента,
напротив, таково, что
1

.

Вспомним наивное представление о четвертом моменте как выразителе устойчивости второго момента и о втором моменте — как выразителе устойчивости исследуемой характеристики от выборки к выборке.
Заметим, что снимок за другой период времени покажет, что экстремальные значения создаются другими величинами, тогда как эти величины, показывавшие высокие максимальные значения эксцесса, упадут — простое следствие неустойчивости
данной характеристики для разных рядов и разных периодов времени.
Описание набора данных. Все макроданные относятся к реально торгуемым
товарам на август 2008, то есть к таким, для которых есть фактическая цена закрытия, и она соответствует проведенным транзакциям — и тем самым установлена рынком, а не бюрократическими оценками. Товары здесь охватывают процентные ставки,
валюты и фондовые риски.
Вклад
наибольшего
биквадрата

0,8

0,6

0,4

0,2

0

Рисунок E.2: Наибольшие биквадраты среди ценных бумаг из Таблицы E.1

1 То есть вклад максимального слагаемого не то что не близок к 0,8 %; он сравним со всей суммой.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

237

Таблица E.1: Максимальный вклад в четвертый момент, внесенный наблюдением за одинединственный день
Ценные бумаги

Макс. Q

Годы

Серебро

0,94

46

Индекс S&P 500

0,79

56

Сырая нефть

0,79

26

0,75

17

Топочный мазут

0,74

31

Индекс Никкей

0,72

23

Короткий стерлинг

Индекс FTSE

1

2

0,54

25

3

0,48

24

1-месячный евродоллар4

0,31

19

Сахар-сырец

0,3

48

0,27

38

Японские гособлигации

Иена
5

Индекс Bovespa

0,27

16

3-месячный евродоллар6

0,25

28

CT

0,25

48

0,2

18

7

Индекс Дакс
1234567

40

3-месячный евродоллар:
ежегодный эксцесс за 1981–2008

30

20

Рисунок E.3: Эксцесс
по неперекрывающимся
периодам для долларовых
депозитов за пределами
США

10

0

1 Стерлинговый курс покупки краткосрочных векселей.
2 Англ. Financial Times Stock Exchange Index — индекс, рассчитываемый газетой Financial Times совместно
с Лондонской фондовой биржей.
3 Облигации государственного займа Японии.
4 Депозиты в долларах, помещенные в банки за пределами США.
5 Англ. Bolsa de Valores de Sao Paulo — фондовая биржа Сан-Паулу.
6 Евродоллары на 3 месяца.
7 Нем. Deutsche Aktien Index, DAX — индекс акций на Франкфуртской фондовой бирже.

238

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Ежемесячная
волатильность

Рисунок E.4: Волатильность
S&P 500 за месяцы (в среднеквадратических отклонениях). Кроме ограничения
нулем, никакой структуры
в данных не видно. Это
стандартное поведение

0,8

0,6

0,4

0,2

Волатильность
волатильности
0,2

Рисунок E.5: Ежемесячная
волатильность волатильности по тем же данным
из Таблицы E.1. Как можно
было ожидать, никакой
устойчивости

0,15

0,1

0,05

0

E.2. ЭФФЕКТИВНОСТЬ СТАНДАРТНЫХ НЕПАРАМЕТРИЧЕСКИХ
ОЦЕНОК РИСКА
Есть ли сходство между прошлыми и будущими хвостовыми событиями? Приведенные ниже проверки непараметрические, то есть основаны только на эмпирических
распределениях вероятности.
M[t + 1]

Рисунок E.6: Абсолютное
отклонение M [t] стоимости акций сравнивается со
следующим абсолютным
отклонением M [t + 1], если
превышен заданный порог
4 %; видно, что большие
отклонения редко когда
имеют предшественников
или последователей — и так
на протяжении 50 лет

0,0004

Концентрация
хвостовых событий
без предшественников
0,0003

Концентрация
хвостовых событий
без последователей

0,0002

0,0001

0,0001

0,0002

0,0003

0,0004

0,0005

M[t]

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

239

M[t + 1]
0,03
0,025

Рисунок E.7: «Правильное»
распределение случайной
величины — предиктор «правильного» распределения
среднего отклонения. Сравним абсолютное отклонение
M [t] со следующим, M [t + 1],
для макроэкономических
данных…

0,02
0,015
0,01
0,005

0,005

0,01

0,015

0,02

0,025

0,03

M[t]

Пока что мы оставались в одномерном пространстве. Глядя на многомерные
характеристики, такие как ковариационные матрицы, видим, что ситуация только
ухудшается. Вернемся к проблеме обработки ошибок модели при оптимизации на
основе среднего и дисперсии.
Когда xt — векторы в ℝN, проблемы с чувствительностью к изменениям в ковариационных матрицах делают эмпирически наблюдаемые моменты и условные моменты
крайне неустойчивыми. Для вектора хвостовые события гораздо труднее калибровать,
и они растут с ростом размерности.
Отклики на данный момент со стороны мейнстримных экономистов и эконометристов
Никаких объяснений, почему они продолжают использовать STD, регрессию,
GARCH, стоимость-под-риском и тому подобные методы.
Проблема песо1. Бенуа Мандельброт говаривал, что под любое распределение
можно подогнать распределение Пуассона, если добавлять стохастические скачки
частоты. Аналогичным образом по n точкам данных можно построить многочлен степени n – 1. Если в вашей модели нужно подбирать параметры, она не отвечает распределению по степенному закону.
Многие исследователи ссылаются на «выбросы» и «проблему песо»2, как бы признавая жирные хвосты (или важную роль хвостов в распределении), но игнорируют
их аналитически — разве что строят модели Пуассона, но их невозможно откалибровать, кроме того случая, когда скачки конвенциональной модели Пуассона тонкохвостые. Мы придерживаемся прямо противоположного подхода: не заметать выбросы
под ковер, а поместить в центр построений. Другими словами, подобно тому, как

1 Кажется, это заголовок от другого замечания. Обычно «проблемой песо» (Peso problem) называется разница в рыночной цене якобы похожих финансовых товаров, которая кажется загадочной, если не предположить опасений внезапного обвала. Впервые вопрос был поставлен в 1970-е годы Милтоном Фридманом в отношении процентных ставок на депозиты в банках США и Мексики: они оставались разными
на протяжении 20 лет привязки песо к доллару, и была возможность зарабатывать, просто переводя вложения в песо… пока в 1976 он не рухнул на 46 % — как только мексиканское правительство отпустило
курс в свободное плавание.
2 Проблема пе со — это обнаружение выброса в финансировании; так стали называть все выбросы
и вообще случаи необъяснимого поведения какой-то величины в эконометрике. — Прим. автора.

Н АС С И М Н И К ОЛ АС ТА Л Е Б

0,5
0,4
0,3
0,2
0,1
0
–0,1
–0,2
–0,3
–0,4
–0,5
–0,6

Золото и S&P 500

Корреляция в скользящем окне 1 год
(изменение процента за неделю)

Корреляция в скользящем окне 1 год
(изменение процента за неделю)

240

10-летние облигации США и S&P 500

0,8
0,6
0,4
0,2
0
–0,2
–0,4
–0,6
–0,8

89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07

89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07
Корреляция в скользящем окне 1 год
(изменение процента за неделю)

Корреляция в скользящем окне 1 год
(изменение процента за неделю)

89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07
1

Нефть и S&P 500

0,4
0,3
0,2
0,1
0
–0,1
–0,2
–0,3
–0,4
–0,5
–0,6

1

Индекс MSCI World и S&P 500

0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2

89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07

Рисунок E.8: Проблемы есть и с корреляциями; их причиняют как неустойчивость дисперсии
отдельных компонент, так и эффект перемножения случайных величин. При такой стохастичности корреляций нет никакого смысла использовать методы на основе ковариации, включая
портфельную теорию

FAA1 и FDA2, изучая безопасность, фокусируются на предотвращении катастроф, мы
заметем под ковер обычные наблюдения и оставим одни экстремальные значения как
единственный надежный способ управления рисками. Это важно не только в вопросах
безопасности: в любой области, если аналитика и политика торпедируются хвостовыми событиями, значит, непригодны.
Проблему песо путают с проблемой черного лебедя:
«Черные лебеди (Талеб, 2007) стали мемом, означающим катастрофы столь редкие, что
не поддаются анализу согласно стандарту статистических выводов. Мы находим данную перспективу малополезной, поскольку она предполагает состояние беспомощного
невежества и обрекает нас на беззащитность перед ударами неведомого».
Эндрю Лоу (очевидно, не прочитавший книгу,
которую цитирует)

Своя шкура на кону. Можно удивляться, почему методы эконометрики, оказавшиеся в корне ошибочными, до сих пор в ходу и почему взрослые люди, университетские ученые, участвуют в подобных художествах: учитывают обычные наблюдения
и скрывают эффекты высших порядков. Невелика честь воспользоваться редкостью

1 Федеральное управление гражданской авиации США (Federal Aviation Administration).
2 Управление по санитарному надзору за качеством пищевых продуктов и медикаментов в США (Food and
Drug Administration).

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

241

катастроф и ограничить окно данных так, чтобы предстать во всем белом вопреки
принципиальным порокам.
Причина, по которой эта нездоровая ситуация длится и длится, в том, что разработчики управления рисками и академические экономисты не рискуют собственной шкурой — они не пострадают из-за неверной оценки риска, пострадают другие.
Пока одним позволено наносить ущерб другим безнаказанно, первые могут продолжать «гнать зайца». (Подробнее смотрите в статье Талеба и Сандиса [246] и в книге
Талеба [236].)

F
ОСОБЕННОСТИ
МАШИННОГО ОБУЧЕНИЯ

Изучая торговлю опционами, мы узнаем, что любую одномерную функцию
можно представить линейной комбинацией опционов «колл» и «пут», добавив к опциону временную стоимость. Опцион превращается в строительный
блок. Точнее говоря, прибыль, построенную на опционе, можно выразить как
C (Ki, ti), где C — цена (предполагаемая цена) опциона «колл», ω — вес,
K — страйк-цена и t — время до окончания срока опциона. Для европейского
опциона каждый колл принесет прибыль max(S – K, 0) в момент окончания t a.
С другой стороны, нейросети и нелинейная регрессия, предшественники
машинного обучения, фокусировались на функции Хевисайда, сглаженной до
S-образной сигмоиды. Под выборку можно подогнать много разных сигмоид.
a По-видимому, здесь трейдеры независимо открыли теорему Цыбенко, она же универсальная
теорема аппроксимации; первоначально сформулирована для сигмоидных функций, как обсуждается ниже (Цыбенко [52]).

f(x)

Рисунок F.1: ϑ-функция Хевисайда. Обратите внимание, что это прибыль от
«бинарного опциона», и ее
можно представить как

x

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

243

Таким образом, мы обсуждаем жирнохвостость и возможные строительные блоки
для ее моделирования. Машинное обучение в статистике переключилось с агрегаций
S-образных кривых на так называемые функции ReLU1, они же функции подъема2,
которые работают в точности как опционы колл. Ученые обнаружили, что благодаря
экстраполируемости с такими функциями удобнее обрабатывать хвостовые события
вне выборки (внутри выборки неожиданных хвостовых событий нет по определению).
Что такое сигмоида? Рассмотрим платежную функцию на Рисунке F.7. Ее можно
приблизить формулой S: (–∞, ∞) → (0, 1), S(x) =

th

3

+

или, точнее, трехпара4

метрической формулой Si: (–∞, ∞) → (0, ai),

. Ту же ступеньку

можно приблизить кумулятивной функцией нормального распределения 𝒩(μ, σ),
и тогда управлять сглаженностью будет σ (приближая ступеньку к хевисайдовой на
Рисунке F.7 в пределе σ → 0). Сигмоида — это ступенька Хевисайда после сглаживания и, возможно, задания границ.
Отклик F(X)
1

Рисунок F.2: Сигмоидная
функция — сглаженная ступенька Хевисайда ϑ. Заметим, что даже сглаженная
ступенька ограничена слева
и справа областями насыщения

0,8

0,6

0,4

0,2

Доза X

1 Англ. Rectified Linear Unit, ReLU — синоним линейно нарастающей функции, который в английской литературе по искусственным нейронным сетям применяется к функции активации нейрона. Дословно
«линейный выпрямитель»; противопоставляется сглаженному подъему, например «выпрямителю с гауссовой ступенькой» (Gaussian Error Linear Unit, GELU)
и Φ — гауссова функция распределения. — Прим. перев.
2 Англ. Ramp function — линейно нарастающая функция,

, где erf — функция ошибок
или

функция

подъема

. Этой функции следует на протяжении одного периода пилообразная
(sawtooth) функция arctg tg x..
3 В самом деле, сглаженная ступенька гиперболического тангенса th y =

дает подъем от

–1 до 1, и середина подъема приходится на точку y = 0 с производной 1. В приведенной формуле S(x)
ступенька гиперболического тангенса сжимается по высоте в 2 раза и затем сдвигается вверх на
того, она сжимается по горизонтали в
раз заменой y = .

; кроме

4 Здесь, очевидно, сглаженная ступенька гиперболического тангенса преобразована так, что подъем происходит от 0 до ai и середина подъема приходится на точку x = ci / bi с производной aibi / 4.

244

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Можно строить составные S-образные функции из n слагаемых
как в Разделе F.3. Однако:

,

Замечание 10
Чтобы значения функции χn(x) пробегали область [0, ∞), или (–∞, 0], или
(–∞, ∞), необходимо n → ∞.

Чтобы получить неограниченную функцию, потребуется бесконечно много слагаемых. И повсюду, где «эмпирическое распределение» ограничено максимумом,
последнее наблюдение будет соответствовать плоской части сигмоиды. (Определение
эмпирического распределения смотрите в Разделе 3.4.)
Рассмотрим платежные функции опциона. На Рисунке F.4 показана прибыль
от обычного опциона на момент окончания срока; она по определению соответствует линейному выпрямителю (Rectifier Linear Unit, ReLU) в машинном обучении.
Функция на Рисунке F.5 получена так. Рассмотрим функцию ρ: (–∞, ∞) → [k, ∞)
с параметрами K и p:
1

.

(F.1)
, чтобы подогнать

Можно просуммировать несколько таких функций,

под нелинейную функцию, и это, собственно, повторяет то, что мы делали с опционами колл — параметры pi позволяют сгладить зависимость величины от времени.

Отклик F(X)
1

0,5

Доза X

–0,5

Рисунок F.3: Сумма
сигмоид всегда ограничена; если нужно смоделировать платежную
функцию с открытой
областью, не выходящую
на насыщение, потребуется бесконечно много
слагаемых

–1

1 Здесь функция подъема сдвинута по вертикали на k, начало подъема сдвинуто в x = K и функция сглажена
при малых значениях p. При больших p функция

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

245

f(x)

x

Рисунок F.4: Платежная функция опциона на момент истечения
срока, открытая справа

f(x)

x

Рисунок F.5: Функция ρ из формулы 11.18, при k = 0. Сглаживание
платежной функции регулируется параметром p

F.0.1. Калибровка по углам
Из Рисунка F.6 видно, что весовым коэффициентам ωi в формуле

соот-

ветствует тангенс создаваемого угла, если вес положителен (как на Рисунке F.7), или
величина, противоположная тангенсу дополнительного угла.

246

Н АС С И М Н И К ОЛ АС ТА Л Е Б

f(x)
40

30

20

10

50

100

150

200

x

–10

–20

Рисунок F.6: Такую бабочку удается породить суммой не сигмоид, а платежных функций опционов, или
ReLU, — с открытыми
хвостами с обеих сторон и с переворотами
производной и второй
производной. Это яркий
пример поведения, которое
трудно описать словами,
но в котором может разобраться опционный дилер
и программа машинного
обучения

f(x)
2

1,5

Рисунок F.7: Как работает связь ω = tg θ. Подбирая
углы на каждом участке, можно представить
нелинейную функцию суммой платежных функций
опционов

ω₂
1

ω₁
0,5

θ₂

θ₁
0

0,2

0,4

0,6

0,8

1

x

Резюме
Все одномерные нелинейные функции можно представлять взвешенными
суммами платежных функций опционов с различными страйк-ценами, и для
программ машинного обучения это более точный способ представить хвосты,
чем через суммы сигмоид (которые и сами приходится представлять сетью
длинных и коротких опционов с близкими страйками). Веса можно получить недвусмысленным образом из углов между графиками функций и осями
декартовых координат.

Часть III

ПРЕДСКАЗАНИЯ, ПРОГНОЗЫ
И НЕОПРЕДЕЛЕННОСТЬ

11
КАЛИБРОВКА ВЕРОЯТНОСТИ
ПРИ ЖИРНЫХ ХВОСТАХ ‡

Как влияют на эффективность вложений ваши способности к бинарным вероятностным прогнозам? Мы очертим различие между (одномерными) бинарными предсказаниями, они же «мнения» (о том, что данное «событие» скорее
произойдет или скорее не произойдет), и непрерывными платежными функциями (с учетом объема прибылей или убытков из-за некоторого события),
возникающими на практике. Мы покажем, что эти два понятия смешивают
и что путаница самым прискорбным образом сказалась на литературе о принятии решений.

Вклад в путаницу вносят следующие эффекты:
A) Псевдонаучная трактовка психологических исследований — в частности, мнимое открытие, будто люди склонны переоценивать хвостовые вероятности и редкие
события и чрезмерно беречься от биржевого краха, экологических бедствий и т. п. На
поверку обнаруженное «смещение» говорит лишь о неверной оценке рисков самими
психологами. Сюда же относятся демагогические попытки пристегнуть доводы Хайека к защите рынка предсказаний.
B) «Хороший предиктор» в бинарном пространстве не обязательно будет хорошо
работать в небинарном пространстве, и наоборот, особенно в нелинейной ситуации.
В ряде классов распределений значение бинарного предиктора срабатывает как обратный предиктор. Если распределение принадлежит неизвестному классу или реалистичному классу со сложным поведением, шансы на применимость бинарного предиктора тают.
C) Программы машинного обучения (Machine Learning, ML) нужно использовать
с умом. Некоторые нелинейные платежные функции трудны для словесного описания
и текстовых прогнозов, но в подходящем формате успешно захватываются программами ML и переводятся в формулировку опционных договоров.

250

Н АС С И М Н И К ОЛ АС ТА Л Е Б

D) Важны тонкости в методах оценки. Оценки на соревнованиях Макридакиса
M4 и M51, по-видимому, лучше отражают реальные величины, чем оценка по Брайеру2.
В приложении показаны математические свойства и точное распределение для
различных платежных функций, а также точное распределение для оценки Брайера,
полезное при проверке значимости и достаточности выборки.
«Объективная»
вероятность
1
0,8

«Должная» корреляция
«Наблюдаемая» корреляция

0,6
0,4
0,2

Суждение
0,2

0,4

0,6

0,8

1 о вероятности

Рисунок 11.1: «Типичные паттерны», объявленные и описанные в [13], — пример исследования по
психологии принятия решений, приписывающего человеку склонность переоценивать маловероятные события. Главные открытия опубликованы в 1977 и 1978 годах в [152] и [153]. Заметим,
что в левой части графика, там, где усматривают переоценку, располагаются такие события,
как наводнения, торнадо, ботулизм, — то есть такие, для которых характерны распределения
с толстым хвостом серьезных последствий. Резонно предположить, что (1) опрашиваемые ставят себя на место участников событий и включают в оценку вероятности свою озабоченность
последствиями, (2) опрашивающие, напротив, далеки от этих событий и недооценивают их
вероятность

11.1. НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ ПЛАТЕЖНЫЕ ФУНКЦИИ:
ОПРЕДЕЛЕНИЯ И КОММЕНТАРИИ
Пример 11.1 («Мнениями и (бинарными) прогнозами сыт не будешь»)
В первом томе цикла Incerto (Одураченные случайностью, 2001 [226]) в повествовании от лица трейдера, когда менеджер спрашивает: «Ваш прогноз рынка — подъем
или спад?» — рассказчик уверенно отвечает: «Подъем». Потом начальник смотрит
на сделанные фирмой вложения и негодует: рассказчик шортил3, то есть предполагал прибыль в случае спада на рынке.

1 Соревнования М а кр и да ки с а (Makridakis Competitions, M Competitions) — с 1982 открытый конкурс
между методами прогнозирования временных рядов. На M4 (2020) победил Slawek Smyl, на M5 (2021–
2022) победил YeonJun In. На M4 использовалась «гибридная» оценка успешности вероятностных прогнозов — средняя масштабированная интервальная (Mean Scaled Interval Score, MSIS).
2 Оценка по Брайеру, она же «показатель Бриера» (Brier Score, BS), — показатель успешности вероятностных прогнозов n бинарных событий, эквивалентная среднеквадратическому отклонению:

, где ft и ot — соответственно предсказанная вероятность исхода и наблюдавшийся

исход t-того бинарного события.
3 Шорт ит ь (be short of the market) — продавать ценные бумаги, которых в данный момент еще не имеешь;
их придется вскоре купить, чтобы выполнить условия сделки, но если они еще раньше подешевеют,
получишь прибыль.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

251

Рассказчику приходится долго разъяснять боссу кажущееся противоречие
между бинарным мнением о том, что рынок скорее поднимется, чем опустится,
и количественной оценкой — после учета небольшой вероятности большого падения
оказалось, что короткие позиции дают положительное математическое ожидание,
и рациональное поведение — вкладываться в шорты. Как говорят трейдеры: «Тебя
кормят не прогнозы, а P/L1» (и еще: «Прогнозы не монетизируешь»).
Когда отдача от вложений расходится с предсказаниями, это происходит потому,
что предсказания — словесное упрощение, в котором многомерный объект сжимается
в одномерный. Чтобы выразить ошибку менеджера в терминах специалиста по теории принятия решений, нам придется устранить путаницу между такими основными
понятиями, как, с одной стороны, бинарное событие (с которым связан нулевой статистический момент) и, с другой стороны, математическое ожидание результата с учетом вероятности события (с которым связан первый момент, а в случае нелинейной
платежной функции — и высшие моменты). И мы убедимся, что платежные функции
первого и второго рода в одних ситуациях похожи, а в других — нет.
Комментарий 11.1
Коротко говоря, если для калибровки вероятности бинарного события достаточно
оценить нулевой момент, то для практических случайных величин необходимы все
моменты (за исключением игровых ставок и таких искусственных ситуаций, как
психологический эксперимент; в этих ситуациях платежная функция специально
упрощена). Коренное свойство толстых хвостов— большие (и даже «бесконечные»)
высшие моменты, роль которых может оказаться сколь угодно велика.
11.1.1. Отходим от словесных формулировок
Анекдот про трейдера математически тривиальный (хотя речь о распространенной
ошибке); есть более серьезные трудности с пониманием принятия решений и управления рисками, особенно когда платежная функция сложная или нелинейная (и связана
с высшими моментами). Таким образом, важны правильные математические формулировки в договорах и политике вложений, не ограниченные упрощенными словесными формулировками. Нам нужно разобраться с рядом серьезных вопросов о распределении вероятностей.
Определение 11.1 (Событие)
Непрерывная случайная величина — это функция
X: Ω → ℝ,
определенная на множестве возможных исходов Ω вероятностного пространства
(Ω, ℱ, ℙ); пишут X(ω), где исход ω ∈ Ω.
Вероятность же приписывается событию, под которым понимается измеримое
подмножество (мера ℱ не обязательно считающая) множества возможных исходов
Ω; измеримость события означает, что его меру можно выразить через значение
одной или нескольких величин.

1 Profit/loss — отношение чистой прибыли к убыткам.

252

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Определение 11.2 (Бинарный прогноз / платежная функция)
Бинарный прогноз (мнение, платежная функция) — это случайная величина, принимающая два значения, то есть
X: Ω → {X1, X2},
где реализации X1, X2 ∈ ℝ.
Другими словами, речь о ситуации, где двухэлементное множество чисел (такое
как {0, 1}, {–1, 1} и т. п.) исчерпывает различаемые исходы события. Иногда говорят,
что событие может либо произойти, либо не произойти; иногда рассматривают платежную функцию, но она принимает только два конечных значения (задан некоторый
фиксированный платеж, если событие произойдет, и другой фиксированный платеж,
если событие не произойдет). Далее всюду, где не оговорим другое, будем предполагать множество платежей {0, 1}.
Примеры, где бинарная платежная функция встречается на практике:








Ставка в казино, лотерея, бросок монеты, игровая среда, бинарный опцион
(например, с выплатой фиксированной суммы, если биржевой курс упадет
ниже заданного пункта, и без выплаты, если не упадет; считается разновидностью азартной игры)1.
Голосование, где происходит выбор из двух вариантов (напр., референдумы,
выборы президента Соединенных Штатов). Однако экономические последствия бинарных выборов бинарной величиной уже не будут2.
Врачебный прогноз, выздоровеет ли пациент; как вариант — проживет ли
заданное время. Однако продолжительность жизни бинарной величиной не
будет; также не будет бинарной величиной срок выживания с данным заболеванием или условная ожидаемая продолжительность жизни. Эпидемиологические показатели исключаются все.
Приобретет ли пользователь с известным сетевым профилем хотя бы одну
единицу заданного товара за заданный период времени — однако количество
купленного товара или число купленных единиц товара бинарной величиной
не будет.

Комментарий 11.2. (Бинарное мнение эквивалентно бинарной платежной функции)
Бинарное «мнение» должно взаимно-однозначно отображаться на платеж (путем
масштабирования или нормализации, чтобы получить вероятность), — этой идеей

1 Розничная продажа бинарного опциона обычно используется как азартная игра и запрещена во многих
юрисдикциях; например, ее запретила Европейская организация по ценным бумагам и рынкам (European
Securities and Markets Authority, ESMA, www.esma.europa.eu), а Соединенные Штаты приравняли к интернет-гэмблингу, что вызвало жалобу со стороны специалистов по принятию решений — см. Эрроу и др. [3].
Мы же считаем данный запрет оправданным, поскольку ставки практически не помогают экономике —
в отличие от финансовых рынков, куда доступ открыт широкой публике и где естественные риски удается
надлежащим образом купировать. — Прим. автора.
2 Обратим внимание на отсутствие стихийно сложившихся финансовых рынков для бинарных опционов
на основе непрерывных величин. Долгое время бинарных опционов не было вовсе, а когда они стали
появляться, в период 1993–1998, то, как автору известно из личного опыта, мотивом было хитроумное
уклонение от налогов. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

253

мы обязаны де Финетти [57], который объявил, что «мнение» и «предсказание»
(одного из двух исходов) отображаются на эквивалент математического ожидания бинарной случайной величины и ставки с платежами {0, 1}. Мнение отображается на цену, при которой игроки соглашаются покупать и продавать ставку. Если
система ваших мнений — «голландская книга», то есть противоречит аксиомам
теории вероятностей, иначе называемым правилами арбитража, то вы делаете
ставки, которые гарантируют вам убытки.
Определение 11.3 (Непрерывная платежная функция на открытом носителе, из реального мира)
X: Ω → [a, ∞) ∨ (–∞, b] ∨ (–∞, ∞).
Непрерывная платежная функция принимает значения не на конечном множестве, а на интервале. Соответствующая случайная величина может быть неограниченной или ограниченной только с одной стороны (однохвостая случайная величина).
Примечание. Будем рассматривать только два сорта случайных величин: бинарные и неограниченные (то есть на некомпактном носителе) непрерывные. Почему
только их? Дискретные платежные функции с многочисленными значениями поглощаются классом непрерывных случайных величин на основе обычных доводов аппроксимации. Если значений мало, например как у тернарной платежной функции на
множестве {–1, 0, 3}, поведение аналогично бинарному случаю (и платежная функция представима как сумма бинарных случайных величин). Наконец, когда случайная величина формально ограничена снизу и сверху, но верхняя граница далекая —
примером служит число жертв в катастрофе, — формально компактный носитель не
мешает на практике анализировать поведение этой случайной величины как неограниченной [46].
Примеры практических ситуаций, где платежная функция непрерывна:






Число жертв войны, ущерб при землетрясении, медицинские счета и т. д.
Магнитуда биржевого краха, серьезность рецессии, уровень инфляции
Выигрыш от той или иной стратегии
Продажи и прибыль от нового продукта
Любые вещи, покрываемые страховкой

Выигрыш
3,5

g(x)

3

ϑ(x)

2,5
2

Расхождение между
ошибками слежения

1,5
1
0,5
–1

1

2

3

4

x

Рисунок 11.2: Сравниваем платежную функцию для бинарного пари —
это ступенька Хевисайда ϑ(.) —
и непрерывную неограниченную
отдачу от вложений g(x). Очевидно,
нет никакой математической возможности построить сопоставимые деривативы таких платежных
функций для хеджирования

254

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Большинство естественных и социально-экономических случайных величин —
непрерывные, причем их носитель не компактен или, по крайней мере, не требуется
работать с конкретной верхнейграницей.
ОБВАЛ,
ЕСЛИ СЛУЧИТСЯ,
БУДЕТ КУДА
БОЛЬШЕ
РОСТА.
ГАБИШ?

А ПО
КОРОТКИМ
ВЫИГРЫШ
СЕЙЧАС
БОЛЬШЕ.

ДА-ДА,
НО ЭТО
ПРО РЕДКИЙ
СЛУЧАЙ.

Я ОПИРАЮСЬ
НА ОЦЕНКИ,
КОТОРЫЕ ПОСТОЯННО ОПРАВДЫВАЮТСЯ.

©STEFAN GASIC 2018

В ПРОГНОЗЕ
РОСТ,
Я ПОКУПАЮ
ДЛИННЫЕ
ПОЗИЦИИ.

Рисунок 11.3: Путаница между вероятностью и математическим ожиданием результата глубоко укоренилась среди специалистов по психологии и финансам. © Stefan Gasic

Пример 11.2
Предсказательная аналитика в бинарном пространстве {0, 1} может успешно предсказать, например, что некий Яннис Пападопулос, клиент онлайн-магазина, имеющий
данную историю активности, скорее приобретет данный товар, например обручальное кольцо, или что скорее не приобретет. Однако предсказание «благоприятного
исхода» может быть столь же обманчиво для оценки потенциального нового продукта, как предсказание подъема рынка в анекдоте про трейдера. Продажи обычно
распределены с толстым хвостом, и даже низкая вероятность успеха может быть
достаточна для решения в пользу нового продукта. Сравните это с договорами венчурных инвестиций или торговли опционами: опцион «вне денег» может быть привлекательной покупкой, даже когда шансы получить от него прибыль меньше 1 из 1000.
Еще важнее то, что ошибка слежения за предсказанием вероятности не отображается в ошибку слежения за эффективностью. В отличие от λ(M4).
Это различие хорошо знакомо опционным трейдерам, поскольку есть такие деривативы, как «бинарные» договоры, по которым платежная функция принимает значения в множестве {0, 1} (например, если основной актив S превысит страйк-цену K),
а есть «ванильные» опционы, с платежной функцией max(S–K, 0). Доход по ним пробегает диапазон [0, ∞)… а то и (–∞, 0), потому что продавец опциона, в связи с неограниченностью вложений, подвергается риску банкротства. Существенные математические и экономические различия между этими двумя видами опционов — тема книги
«Динамическое хеджирование: как управлять ванильными и экзотическими опционами» [225]. Поскольку бинарные деривативы суть пари с фиксированной ставкой,
а у обычных опционов полноценная платежная функция, первые и вторые несводимы
друг к другу (и не могут компенсировать друг друга в хедж-фонде), особенно при
жирных хвостах и неопределенных параметрах — то есть эффективность одного
инструмента не переводится в эффективность другого. Вот о чем знают специалисты
по финансовой математике и вот какое знание почему-то не проникает в литературу
по теории принятия решений.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

255

Комментарий 11.3 (Теория деривативов)
Этот подход опирается на теорию и практику деривативов (или опционов), где есть
разные типы договоров: (1) с бинарной платежной функцией (владелец получает
фиксированную сумму в случае некоторого события) и (2) «ванильные» (обычные
опционы с непрерывной платежной функцией). Практически невозможно хеджировать договоры одного типа договорами другого типа [225]. Более того, если страйкцена K опциона «колл» находится в хвосте распределения, то стоимость этого опциона
и стоимость пари с той же страйк-ценой противоположным образом реагируют на
увеличение эксцесса распределения при сохранении первых трех моментов, а в логнормальной ситуации — на увеличение неопределенности путем масштабирования
распределения.
Комментарий 11.4 (Перечни условий)
Заметим, что благодаря так называемым перечням условий, необходимых по юридическим и математическим соображениям, практика финансовых деривативов разного
рода позволяет исследователю построить достоверное, юридически подтвержденное
отображение платежных функций со всеми математическими, статистическими и экономическими подробностями.
Существовали разногласия между рынками прогнозов и реальными финансовыми
рынками. Мы можем доказать, что рынки прогнозов интересны только азартным игрокам, а для хеджирования вложений в экономику бесполезны.
Вот математическое обоснование различий и невозможности хеджирования.
Пусть X — случайная величина в ℝ, и рассматривается пари или прогноз с платежной
функцией ϑK: ℝ → {0, 1},
(11.1)
и платежная функция g: ℝ → ℝ вложений в обычные опционы. Производная
, дельта-функция Дирака с пиком в точке K, а производная
по меньшей мере однократно дифференцируема при x ≥ K (производная либо постоянна, в случае линейной платежной функции, либо кусочно-постоянна, если, как
у многих опционов, отдача от вложений в опционы кусочно-линейная выше K). Значит, задача построить сопоставимые деривативы для уменьшения дисперсии не имеет
решения1. Этот довод проиллюстрирован на Рисунке 11.2.
11.1.2. При жирных хвостах нет стандартной величины «коллапса»,
«катастрофы» или «успеха»
Тот факт, что разговор о «событии» сопровождается некоторой неопределенностью
относительно подразумеваемой магнитуды события, имеет математические последствия. Между тем даже в статьях 2019 года все еще встречаем порочную практику
1 Чтобы представить бинарными функциями непрерывную платежную функцию на некомпактном
носителе, потребуется бесконечный ряд пари, и это хоронит надежду преобразовать рынок прогнозов
в финансовый рынок. У распределений на компактном носителе все моменты всегда конечные, но реальная жизнь устроена иначе. — Прим. автора.

256

Н АС С И М Н И К ОЛ АС ТА Л Е Б

бинаризовать событие на носителе [0, ∞); в недавней статье о калибровке мнений
используется формулировка: «…если человек утверждает, что США стоят на пороге
экономического коллпаса или что надвигается климатическая катастрофа…», как
будто «коллапс» экономики или «катастрофу» с климатом можно представить как
событие из {0, 1}; на самом деле под такими словами могут подразумеваться вещи
разных масштабов, и, чтобы понимать, о чем речь, необходимо задавать характерную
величину. Когда хвосты жирные, у распределения нет собственного характерного масштаба. Соответственно не существует «типичного» коллапса или катастрофы; словесные прогнозы и мнения в такой области не калибруются.
Различие между областью тонких хвостов и областью жирных хвостов можно
представить так.
Определение 11.4 (Характерный масштаб)
Пусть X — случайная величина с носителем (0, ∞) или (–∞, ∞) и реалистичным распределением; пусть 𝔼 — оператор математического ожидания. Согласно классическим результатам [82], предельное поведение распределения в хвосте:
(11.2)
позволяет выделить следующие варианты:





Если λ = 1, случайная величина X относится к классу тонких хвостов 𝒟1
и имеет характерный масштаб.
Если λ > 1, случайная величина X относится к классу правильно изменяющихся распределений с жирным хвостом 𝒟2 и не имеет характерного масштаба.
Если

где μ > 0, случайная величина X относится к пограничному экспоненциальному классу.
Можно пояснить проблему так. Бинарный договор не способен хеджировать вас
на случай «коллапса», поскольку неизвестно заранее, каких масштабов ожидать «коллапс» и какой должна быть номинальная стоимость или другой аналогичный параметр
договора. Зато договор страхования или опцион с непрерывной платежной функцией
успешно справляются с ролью хеджа. Отделываться словесными формулировками
с терминами вроде «коллапс» или «катастрофа» — все равно что прописывать в медицинской страховке щедрую сумму в случае «серьезной болезни», не оговорив характер и тяжесть заболевания, и 0 в противном случае.
Тем более некорректно со стороны исследователя вычленять платежную функцию
и оценку вероятности из результатов опроса, в котором опрашиваемые оценивали угрозы1. В некоторых экспериментах, о которых рассказывает Рисунок 11.1, участников про1 Притом что практически все экономические и информационные случайные величины, как показано еще
в 1960-е годы, принадлежат классу 𝒟2 или, по крайней мере, промежуточному экспоненциальному классу
(куда входит логнормальное распределение), см. [99, 162, 163, 164, 226]; туда же попадают социологические величины: размер города, число слов в языке, число связей в сети, размер фирмы, доход фирмы,
макроэкономические показатели, монетарные показатели, число жертв межгосударственных конфликтов
и гражданских войн [46, 199], риск операции, ущерб от землетрясений, цунами, ураганов и прочих сти-

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

257

сят оценить риск смерти от ботулизма или еще какой-то болезни, после чего исследователи приходят к выводу, что участники неправильно оценивали вероятность. Хотя в таком
эксперименте участники, скорее всего, не отделяли вероятность от функции платежа.
11.2. МНИМАЯ ПЕРЕОЦЕНКА ХВОСТОВОЙ ВЕРОЯТНОСТИ
В ПСИХОЛОГИИ
Определение 11.5 (Подмена интегральной оценки)
Пусть Kp ∈ ℝ+ — порог, который случайная величина превышает с вероятностью
p ∈ [0, 1]; пусть при этом f(.) — плотность вероятности и g(.) — функция воздействия.
Обозначим I1 математическое ожидание платежной функции в случае превышения порога Kp:

и обозначим I2 платеж при пороговом событии, умноженный на вероятность превысить порог:

Можно ли оценивать ожидаемый платеж I1 как бинарный ожидаемый платеж I2?
Эти величины тождественны лишь в той ситуации, где функция воздействия g(.) постоянна выше порога Kp — например, где g(x) = ϑ(x – Kp), ступенька Хевисайда в точке Kp.
Если же функция воздействия g(.) — меняющаяся функция с положительной производной, ожидаемый платеж I1 больше бинарного ожидаемого платежа I2 и близок к нему
разве что при распределении с тонким хвостом, но никак не при жирном хвосте1.
В этом разделе примем g(x) = x, а более сложный случай нелинейной функции воздействия рассмотрим в Разделе 11.5.

Теорема 2: Сходимость
Если X следует тонкохвостому распределению из класса 𝒟1, как описано
в формуле 11.2, то
(11.3)
Если X следует правильно меняющемуся распределению из класса 𝒟2, то
(11.4)

Доказательство. Следует из формулы 11.2. Вот дополнительные комментарии.
хийных бедствий, неравенство доходов [40] и т. д. Напрашивается вопрос, а где же гауссовы случайные
величины? Похоже, их как минимум на порядок меньше среди тех случайных величин, которые приходится учитывать в официальных прогнозах. — Прим. автора.
1 Это также объясняет, как мы увидим в Главе 11, почему бинарные пари не способны «рисковать собственной шкурой» при жирнохвостых распределениях. — Прим. автора.

258

Н АС С И М Н И К ОЛ АС ТА Л Е Б

11.2.1. Тонкие хвосты
Выше мы дали определение тонкохвостого распределения — не только гауссова, но
любого распределения с хвостом тоньше, чем в субэкспоненциальном классе; будем
помечать такие распределения буквой G. Распределение плотности вероятности f (G)(.)
удовлетворяет условию:
(11.5)
В случае стандартного гауссова распределения, то есть центрального и нормализованного, интеграл в числителе
1

,

и интеграл в знаменателе p =

erfc

(11.6)

, где erfc — дополнительная функция ошибок2

и p — вероятность превысить порог Kp.
Заметим, что
в страховании.

отвечает3 обратному отношению Миллза4, используемому

11.2.2. Жирные хвосты
Жирные хвосты у всех распределений в классе правильно меняющихся функций,
определенном по поведению функции выживания в хвосте, при больших Kp:

1 В самом деле, в силу центральности коэффициент сдвига μ = 0 и в силу нормализованности коэффициент
масштаба σ = 1; поэтому плотность вероятности

.

Поэтому ожидаемый платеж при превышении порога

.
2 Функция выживания при стандартном нормальном распределении связана с дополнительной функцией
ошибок так:

.

3 В самом деле, для гауссова распределения

4 Отношение функции выживания к плотности вероятности

.

, иногда называют отношением

Миллза, в честь таблиц Джона Миллза (John P. Mills, Table of the Ratio: Area to Bounding Ordinate, for Any
Portion of Normal Curve. Biometrika 18: 395–400, 1926).
Обратное отношение называется функцией риска (hazard function), или интенсивностью отказов
(failure rate). Пусть случайная величина X распределена с плотностью f. Тогда интенсивность отказов
, и если X — это срок службы прибора до отказа или продолжительность жизни пациента, то h(K) — это вероятность отказа или смерти за единицу времени в возрасте K
среди доживших до возраста K.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

259

и в котором у всякой плотности вероятности f (P) 1
2

.

(11.7)

11.2.3. Что с чем путают
Во многих экспериментах путают I1 и I2; примером служит статья Канемана и Тверски
1978 года по теории перспектив3 [139]. Утверждается, что участники переоценивают
низкие вероятности в экспериментах, где участнику показали шансы и где результат
отвечает одному-единственному платежу. Известный результат Канемана — Тверски
подтвержден как робастный, однако интерпретации содержат ошибочные выводы.
Практически вся последующая литература полагается на бинарный платеж I2, путая
его с I1, — то, что автор этой книги назвал игровым софизмом в книге «Черный
лебедь» [226], поскольку игры по необходимости отсекают размерности, действующие на практике. Робастность психологического результата всего лишь говорит
о воспроизводимости в аналогичных экспериментах и не доказывает применимость
выводов в других условиях, приближенных к реальным рискам, — и такое обобщение
вызывает сомнения с учетом того, что реальные риски редко отвечают I2. На самом
деле даже те участники, которые переоценивали вероятность, могли все еще недооценивать математическое ожидание платежной функции.
Стойкость путаницы: она продолжается даже сейчас, спустя четыре десятилетия
после заявлений Канемана и Тверски (1979). В своем обзоре поведенческой экономики
Николас Барберис делает упор на неверную оценку вероятности (2003) [12], считая
I1 = I2. Эрроу и др. [3] — там целый список специалистов по теории принятия решений,
которые ратуют за дерегуляцию рынков пари, — тоже смешивают мир бинарных прогнозов с реальным миром и, в частности, с реальными финансовыми рынками.
Еще одним веским — и опасным — примером служит «стоимость под риском
дефолта», которую определяют явным образом как I2, а именно как вероятность
дефолта × (1 — коэффициент погашения), и эта платежная функция может кардинально отличаться от настоящего математического ожидания убытков в случае
дефолта. Финансовая математика предлагает ошибочную аппроксимацию CVaR4,
1 Очевидно, метка P в честь Парето.
2 В самом деле, для распределения Парето с коэффициентом масштаба xm > 0 плотность вероятности
. Оба интеграла берутся:

3 Теория перспектив (prospect theory) в поведенческой экономике описывает принятие решений при
известной вероятности рисков.
4 Математическое выражение для стоимости под риском (Value at Risk, VaR) для случайной величины X
с функцией распределения F и порогом α ∈ [0, 1]
VaRα(X) = –inf {x ∈ ℝ | FX(x) > α},
и для соответствующей условной стоимости под риском (Conditional Value at Risk, CVaR), она же ожидаемые потери (Expected Shortfall, ES)
ESα(X) = 𝔼(–X | X ≤ –VaRα(X)). — Прим. автора.

260

Н АС С И М Н И К ОЛ АС ТА Л Е Б

и эта ошибка привела к просчетам в управлении рисками — и они, возможно, стали
причиной кризиса 2008 года [244].
Ложная посылка была та, что коэффициент погашения оценивался как ожидаемая
стоимость залога вне ситуации дефолта. Однако ожидаемая стоимость залога в ситуации дефолта существенно ниже. В 2007 после массовых просрочек выплат по кредитам и лишений права собственности стоимость большинства залогов просела ни
много ни мало на 1/3 ожидаемого значения.
Непонимание доводов Хайека об использовании знаний. То, что, по Хайеку,
мнения консолидируются через цены, не оправдывает рынки прогнозов, как это пытаются изобразить такие публикации, как [30] или Санстейн [220]: цены принадлежат
миру финансовых и коммерческих рынков; они отличаются от бинарных пари. Для
Хайека [127] консолидация знаний осуществляется через цены и, как он выразился,
арбитражеров, — и эти арбитражеры обмениваются товарами, услугами и ценными
бумагами, но не бинарными пари.
Определение 11.6 (Скорректированная вероятность в бинаризованных экспериментах)
Пусть p* — «эффективная вероятность», при которой I1 = I2*, то есть ожидаемый
платеж можно оценить как бинарный ожидаемый платеж со скорректированной вероятностью превысить порог:
p* = {p* | I1 = I2* = Kp p*}.
Выразим из этого равенства порог Kp «в хвостах», используя полученные выше
формулы для вероятности p превысить данный порог. Для гауссовой случайной величины
; для распределения с хвостом Парето Kp = p –1/α. Значит, для распределения Парето отношение эффективной вероятности, делающей бинарный платеж реалистичным, к наивной вероятности

благодаря чему эффективная вероятность p* может абсурдным образом превосходить 1; это лишний раз подчеркивает, что бинарный платеж — некорректный способ
задать ожидаемый платеж непрерывного распределения.
В Таблицах 11.1 и 11.2 показаны, для различных уровней вероятности p, соответствующий порог отсечения хвоста Kp
Kp = inf {K | ℙ(X > K) > p}
и эффективная вероятность p* дебинаризации события1, 2 — здесь вероятности должны быть в нижней половине, т. е. p < 0,5. Заметим, что здесь мы работаем в благоприятных условиях известных распределений вероятностей; при неопределенности
параметров расхождение между I1 и I2 усугубляется3.
1 Данный анализ инвариантен к рассмотрению правого или левого хвоста. В финансовой математике принято приписывать убыткам отрицательную величину, а в других областях управления рисками в выражениях ставят знак минус перед случайной величиной, для которой изучают правый хвост распределения. — Прим. автора.
2 Kp эквивалентна стоимости под риском VaRp в финансовой математике, где p — вероятность потерь. —
Прим. автора.
3 Обратим внимание на закон Ван дер Вейка, см. Чирилло [44]: отношение аналогично термину финансовой математики — ожидаемые потери (expected shortfall) за предельным значением Kp. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

261

Таблица 11.1: Мнимая переоценка гауссовой случайной величины
p

Kp

p*

1,28

1,75 × 10–1

1,28 × 10–1

1,36 × 10–1

1,36

2,32

2,66 × 10–2

2,32 × 10–2

1,14 × 10–2

1,14

3,09

3,36 × 10–3

3,09 × 10–3

1,08 × 10–3

1,08

3,71

3,95 × 10–4

3,71 × 10–4

1,06 × 10–4

1,06

Таблица 11.2: Мнимая переоценка случайной величины Парето1
p

Kp

p*

8,1

8,92

0,811

1,1 (да-да,
больше
единицы)

11

65,7

7,23

0,65

0,11

11

533

5,87

0,53

0,011

11

4328

4,76

0,43

0,0011

11

В самом известном примере распределения Парето, «80 / 20» (с тех пор как Парето
обнаружил, что 20 процентов итальянцев владеет 80 процентами земель), показатель
хвоста α = 1,16, и корректировка требует увеличивать вероятность в 7 с лишним раз.
Пример противоположной реакции вероятности и ожидаемого платежа при
росте неопределенности. Вот пример, где благодаря асимметричности распределения ожидаемый бинарный платеж и ожидаемый платеж реагируют на изменение параметров распределения противоположным образом.
Рассмотрим логнормальное распределение, нейтральное в отношении риска,
с плотностью fL(.), средним X0 и дисперсией

. Мы можем повы-

шать неопределенность, увеличивая коэффициент σ. Математическое ожидание 𝔼 >X 0
платежа по договору, если платеж превысил X0, можно выразить как

1 Таблица рассчитана для показателя хвоста α = 1,1.

262

Н АС С И М Н И К ОЛ АС ТА Л Е Б

а вероятность превышения X0 как

где erf — функция ошибок. По мере роста σ выражение

, поэтому

.

Этот пример хорошо известен трейдерам (см. «Динамическое хеджирование» [225]):
стоимость бинарного опциона со страйк-ценой X0 стремится к 0, в то время как стандартный опцион «колл» с той же страйк-ценой дорожает и приближается к стоимости
актива — уже независимо от страйк-цены. Это типично для венчурного капитала: чем
рискованнее проект, тем меньше шансы на успех, но зато больше награда в случае
успеха. В результате математическое ожидание платежа может приблизиться к +∞,
даже когда вероятность успеха приблизится к 0.
10

Бинарное

5

0

–5

–10

10

Тонкие хвосты

5

Рисунок 11.4: Сравниваем три профиля
платежной функции при двух распределениях — для бинарной платежной функции
профиль не зависит от тонкости/жирности хвостов. Первые два графика в одном
масштабе, а для Парето 80/20 (α = 1,16)
вертикальную шкалу пришлось сжать на
два порядка

0

–5

–10

Парето 80/20
1000

500

0

–500

–1000

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

263

11.2.4. Неопределенность распределения
Замечание 11: Размывание параметров распределения
Благодаря неравенству Йенсена различие между I1 и I2 усиливается при повышении эксцесса (например, если в тонкохвостом распределении сделать стохастичным коэффициент масштаба σ или если в распределении Парето стохастизировать показатель хвоста α).

Доказательство. Начнем с мира Гаусса. Посмотрим, как ведет себя разность

при добавлении стохастической волатильности. Пусть σ — коэффициент масштаба
гауссова распределения. Дифференцируя при постоянном пороге K:
(11.8)
получаем положительное выражение при всех K > 0 (поскольку при положительных K
многочлен K 4 – K 3 – K 2 + 2K > 0)1.
Теперь рассмотрим чувствительность к неопределености показателя хвоста α
распределения Парето (здесь вывод выражений для отношения будет проще, чем для
разности).
При α > 1 (это критерий конечного среднего) выражение
2

(11.9)

положительное и гарантирует быстрый рост при небольших α. То есть чем толще
хвост, тем сильнее неопределенность влияет на платеж и тем сильнее различие между
I1 и I2.

1 Строго говоря, при σ = все-таки есть область, K ∈ (0,4, 0,9), где многочлен (K – 1)K 3 – (K – 2)Kσ2 отрицателен, однако в данном исследовании интересны только большие пороги K.
2 В самом деле, плотность распределения Парето
интеграла

,, где xm > 0 — параметр масштаба. Оба

берутся,

и
.

Отношение

, откуда

и

.

264

Н АС С И М Н И К ОЛ АС ТА Л Е Б

11.3. КАЛИБРОВКА И МНИМАЯ КАЛИБРОВКА
В литературе по психологии изучается «калибровка» того, как участники оценили
вероятности — насколько близки оказались названные шансы событий к среднему
(исходя из удовлетворительной работы закона больших чисел): [152], [143]; смотрите
Рисунок 3.13 в Главе 3. Эти методы, как мы показали в этом разделе, вводят в заблуждение всюду, кроме узкого круга явлений с бинарной платежной функцией (где результат
либо выигрыш, либо проигрыш), причем перерасчет бинарных платежей в непрерывные невозможен или перевирает картину. В связи с этим Рисунок 11.1 демонстрирует
эмпирическую бессмыслицу.
Такие калибровочные метрики, как оценка Брайера, по своей природе тонкохвостые; когда требуется измерять случайные величины с толстым хвостом, результаты
не поддаются анализу.
Напомним поговорку «[Бинарными] предсказаниями сыт не будешь» —
в большинстве областей для бизнеса характерно несимметричное распределение
платежной функции, и попытки прокалибровать ее бинарной платежной функцией
безнадежны.

Замечание 12: Различие между распределениями
Бинарные предсказания и калибровочные метрики на основе оценки Брайера
принадлежат классу тонких хвостов.

Ниже мы приведем доказательство.
11.4. ПОКАЗАТЕЛИ ДЛЯ КОЛИЧЕСТВЕННОЙ ОЦЕНКИ
Резюме этого раздела приведено в Таблице 11.3 — это сравнение распределений
вероятности различных показателей для измерения эффективности по явным формулам или хотя бы по оценке класса распределений вероятности. Понятно, что
измерение эффективности дает ложные результаты, если случайная величина не из
того класса. Для разных распределений нужны разные размеры выборки, потому
что по-разному работает закон больших чисел. Ряд бинарных предсказаний быстро
сходится к тонкохвостой гауссиане, даже если исходная случайная величина следует распределению с жирным хвостом, но чтобы отслеживать эффективность P/L
в экономике при реалистичных вложениях в рискованные активы, платежная функция которых следует, например, распределению Парето, требуется много больший
размер выборки [235].
Начнем с точных выражений для четырех возможных классов.
1. Практическая эффективность при условии выживания, она же оценка P/L или
количественная кумулятивная оценка.
2. Подсчет пари — наивная сумма правильных предсказаний.
3. Оценка Брайера в игре де Финетти,
.
4. Оценка
в конкурсе M4 для n наблюдений и ее развитие, предложенное для
конкурса M5.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

265

Таблица 11.3: Показатели для оценки эффективности
Показатель

Название
Кумулятивное отношение
P/L
Подсчет пари

Оценка Брайера

Оценка M4

Предложенная оценка M5

g(.)

Нелинейная платежная
функция машинного обучения (не является показателем)

Применим ли на практике
Адаптирован к реалистичным распределениям, особенно при фильтрации выживших
Искажает эффективность при толстых хвостах; работает только для
бинарных пари и/или в областях
с тонкими хвостами
Показывает мнимую точность
в оценке эффективности при толстых хвостах; игнорирует высшие
моменты
Представляет точность, которая
отличается от реалистичной эффективности, но отображается на реалистичное распределение исходных
переменных
Представляет и точность, и условия
выживания, предсказывая крайние
значения временных рядов
Представляет отдачу от рискованных вложений без словесных
формулировок и правдиво отражает соотношение P/L в экономике
и других областях. Аналогична
спискам условий в финансовых
деривативах

P/L в пространстве платежей (с условием выживания). Обозначение P/L расшифровывается как естественный индекс прибылей и убытков, то есть кумулятивный
итог эффективности. Пусть Xi — реализация обычной одномерной случайной величины X на носителе ℝ и t = 1, 2, …, T. Реалистичные платежи P(R) можно упрощенно
представить как
(11.10)
где gt: ℝ → ℝ — измеримая функция, представляющая платежи и, возможно, зависящая от предыдущего развития, чтобы учесть условие выживания: поглощающий
барьер, например, чтобы исключить банкротства. Введем зависимость от предыдущего периода τ < t как зависимость от накопленной суммы
:

(11.11)

266

Н АС С И М Н И К ОЛ АС ТА Л Е Б

где коэффициент b ∈ ℝ называется индексом выживаемости, а 𝟙(.) обозначает индикаторную функцию, принимающую значения {0, 1}; условие в ее аргументе служит для
обработки эргодичности или ее отсутствия [226].
Комментарий 11.5
P/L по определению соответствует реалистичным распределениям, а поглощающий
барьер задает условие выживания.
Пространство частот. В обычной литературе по психологии встречается два подхода.
A — Подсчет предсказаний. Доля успешных предсказаний

(11.12)

— индикатор принадлежности случайной величины «диапазону предсказагде
ний» χ и n — число событий, то есть сделанных предсказаний.
B — Обработка оценок (метод калибровки). В отсутствие видимой чистой
эффективности исследователи создают сложные показатели калибровки. Мы возьмем «золотой стандарт» в этой области — оценку по Брайеру (сформулированную
де Финетти, [58]). Она хороша тем, что не позволяет спекулировать на несогласованности цен и точно калибрует вероятности: например, если участник ставит на то, что
вероятность события равна 1, то он получит лучшую оценку только в том случае, если
данное событие происходит все время.

(11.13)

где ft ∈ [0, 1] — это объявленная предсказателем вероятность события t. Лучший предсказатель получает минимальную оценку
.
Приложения. Соревнования M4 и M5. На этих соревнованих (Макридакис [159])
предсказатели стараются разными методами рассчитать точечную оценку и интервал
возможных значений. На соревнованиях 2018 года использовалась система оценки
и хорошо оценивает участниучастников M4, которая опирается на ряд оценок
ков, которые предсказывают первый момент и дисперсию.
Определение 11.7 (Оценки M4 для предсказаний первого момента)
Оценка точности на соревнованиях M4 (Макридакис и др. [159]) судит об участниках по следующим показателям с индексами j = 1, 2
(11.14)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

где

267

и s2 (обычно) исходное среднее абсолютное отклонение для

наблюдений, доступных до периода i (то есть средняя абсолютная погрешность по
«наивным» прогнозам или по тестированию на выборке);
— предсказанная точечная оценка i-той случайной величины,
— реализация случайной величины, а n —
число учитываемых опытов.
Другими словами, это применение средней абсолютной масштабированной
погрешности (mean absolute scaled error, MASE) и симметричной средней абсолютной
процентной погрешности (mean absolute percentage error, sMAPE) [133].
Предложенная оценка M5 (для соревнований 2020 года) добавляет предсказания экстремальных значений для изучаемой случайной величины и воспроизводит
те же критерии, что предлагались для исходных случайных величин в Определении 11.7.
11.4.1. Вывод распределений
Распределение

Замечание 13
распределен асимптотически нормально

Подсчет бинарных предсказаний

со средним p и стандартным отклонением

независимо от класса

распределения случайной величины X.

Это стандартные результаты, но их вывод приведен в приложении.
Распределение оценки по Брайеру λn

Теорема 3
Независимо от распределения случайной величины X и даже без предположения о независимости (f1 – 𝟙A1), …, (fn — 𝟙An), при n < +∞ оценка λn имеет все
моменты порядка q,
.

Доказательство. При всех i
( f1–𝟙Ai)2 ≤ 1.



На самом деле можно еще приблизиться к полному распределению оценки для
разных независимых политик пари. Допустим, что бинарные предсказания fi неза-

268

Н АС С И М Н И К ОЛ АС ТА Л Е Б

висимы и следуют бета-распределению1 ℬ(a, b) (которым аппроксимируются или
поглощаются все одногорбые распределения на носителе [0, 1] плюс распределение Бернулли, как две функции Дирака), и пусть p — доля успешных попыток,
p =𝔼 𝟙Ai. Характеристическая функция для λn, где n — число применений оценки
Брайера:

(11.15)

Здесь 2F̃2(., .; ., .; .) — регуляризация обобщенной гипергеометрической функции
2F2:

Обобщенная гипергеометрическая функция pFq(.; .; .) раскладывается в ряд

с использованием символа Похгаммера

.

Таким образом, мы можем доказать, что при условии независимости слагаемых,
как оговорено выше,
(11.16)
где 𝒩 — гауссово распределение с указанным средним и среднеквадратическим
отклонением. Доказательство и вывод параметров μ, σn даны в приложении.
1 Бета-распределению ℬ(a, b) с параметрами a > 0 & b > 0 точно или приблизительно следует непрерывная
случайная величина X на носителе [0, 1]. По определению, X ~ ℬ(a, b), если плотность вероятности

где бета-функция

, и форма графика зависит от параметров: так, при

a > 1 & b > 1 плотность вероятности одногорбая, с максимумом в точке

, и падает до 0 на концах

носителя, тогда как при a < 1 & b < 1 график выпуклый вниз и на концах носителя плотность бесконечно
возрастает. При любых параметрах среднее

и дисперсия

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

269

Распределение P/L в экономике, или количественный показатель
Замечание 14
При условии выживания на момент T количественный показатель
распределению случайной величины g(x).

следует

Работает прямой подход, если нет поглощающего барьера (т. е. нет условия выживания).
Распределение оценки M4. Распределение абсолютного отклонения в том же
классе, что сама случайная величина. Оценка Брайера является ℓ2-нормой1 и основана
на втором моменте, который всегда существует, поскольку де Финетти показал, что она
эффективнее, чем просто вероятность, и на квадратических отклонениях. Однако при
небинарных платежных функциях и жирных хвостах гораздо эффективнее полагаться
на абсолютное отклонение, даже в тех случаях, когда второй момент существует [239].
11.5. НЕВЕРБАЛЬНЫЕ ПЛАТЕЖНЫЕ ФУНКЦИИ
И МАШИННОЕ ОБУЧЕНИЕ
Предыдущие примеры фокусировались на простых платежных функциях, где иногда
путаница между I1 и I2 безвредна (в ситуациях тонких хвостов). Однако учтем следующую сложность.
Неотделимость вероятности при нелинейной платежной функции. Когда мы начинаем рассматривать нелинейную платежную функцию g(.) — то есть экономический
или иной количественный отклик на случайную величину X, сила которого различна
при разных уровнях X, — различие обостряется и последствия путаницы усугубляются.
Комментарий 11.6 (Вероятность как подынтегральная величина)
Вероятность нельзя пощупать саму по себе, она фигурирует только внутри интеграла или суммы. В мире экономики работают не индивидуальные вероятности,
а количественно измеряемые платежные функции.
Замечание 15: Неотделимость вероятности
Пусть F: → [0, 1] — распределение вероятностей и f — производная, и пусть
g: ℝ → ℝ — измеримая «платежная» функция. Очевидно, что для A′, подмножества множества A:
или, в дискретных терминах, для функции вероятности π(.):
(11.17)

1 То есть евклидовой нормой (метрикой):

.

270

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Доказательство. Непосредственное следует из неравенства Йенсена.

Другими словами, вероятность события совпадает с ожидаемым платежом, если,
как мы видели ранее, g(x) — тета-функция Хевисайда.
Далее мы сосредоточимся на функциях, которые можно отслеживать математически или юридически, но которые невозможно точно выразить вербально, в таких
терминах, как «мнение» или «предсказание».
Непонимание g. На Рисунке 11.5 показана история неправильного хеджирования
Morgan Stanley — иллюстрация к тому, как плохо описывают нелинейный риск вложений такие вербальные концепции, как «коллапс». В 2007 игрок Уолл-стрит Morgan
Stanley решил «хеджироваться» от «краха» рынка недвижимости, пока рынок недвижимости не начал проседать. Только в этом финансовом гиганте не понимали, что
«крах» может иметь самую разную величину, в том числе хуже их худших опасений,
и устроились так, чтобы получить выгоду в случае небольшого спада — ценой риска
больших потерь в случае большого спада. В итоге они оказались правы в бинарном
«предсказании» кризиса, но на своем мнимом хеджировании потеряли 10 миллиардов
долларов.
20

Прибыль при спаде

20

40

60

80

100

120

–20

Начальная
точка
–40

Значительный убыток при спаде
–60

Рисунок 11.5: История Morgan Stanley: элементарный пример нелинейной платежной функции,
не поддающейся вербальному описанию. В жаргоне трейдеров на рынке деривативов такой риск
называется «елочка» (Christmas Tree): приобретается опцион «пут» со страйк-ценой K, продается опцион «пут» с более низкой страйк-ценой K − Δ1 и еще один с еще более низкой страйкценой K – Δ2, где Δ2 ≥ Δ1 ≥ 0.

На Рисунке F.6 показана более сложная платежная функция, так называемая
«бабочка».
Функция g и машинное обучение. Заметим, что g отображается на различные
функции машинного обучения, генерирующие исчерпывающее разнообразие нелинейностей на основе универсальной теоремы аппроксимации (Цыбенко [52]) или

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

271

обобщенных разложений платежной функции опциона (см. «Динамическое хеджирование» [225]).
Рассмотрим платежную функцию ρ: (–∞, ∞) → [K, ∞) случайной величины X ∈ ℝ
(11.18)
Можно выразить все нелинейные платежные функции g, используя веса wi ∈ ℝ:
(11.19)
отображается на страйк-цену K опциона «колл»,
поскольку, используя аналогию,
если срок t нормализовать в 1, все ставки приравнять к 0 и только параметр σ оставить
равным исходному среднеквадратическому отклонению.
Заметим, что математическое ожидание g(.) представимо как сумма математических ожиданий функций ReLU:
(11.20)
Для дисперсии и остальных статистических параметров высших порядков получить явные формулы труднее.
Комментарий 11.7
Управление рисками старается изменить платежную функцию g(.), а не сделать
«хорошие предсказания».
Заметим, что λ — не количественный показатель, а целевой объект, к которому
применяют различные количественные показатели.
Выживание
Принятие решений — ответственное дело. Ложная калибровка может быть хорошей
идеей, если снижает риск поглощения фирмы. Смотрите приложение в «Рискуя собственной шкурой» [226], где показана разница между вероятностью для статистического ансамбля и вероятностью для промежутка времени. Математическое ожидание
результата для суммы n игроков за данный день отличается от математического ожидания для одного игрока за n дней, поскольку накладывается условие выживания.
В этой связи бессмысленно измерять эффективность участника, который с вероятностью 1 в конце концов обанкротится1.
11.6. ЗАКЛЮЧЕНИЕ
На практике в конечном счете важна итоговая эффективность (экономическая и прочая), и за некоторые «ошибки калибровки» жизнь не наказывает, а поощряет. Смещенная оценка дисперсии хорошо известна как способ повысить эффективность в машинном обучении [124], как необходимый механизм выживания при рациональном выборе
(смотрите «Рискуя собственной шкурой» [226]) и как полезный механизм психологи1 Ожидается, что на соревнованиях M5 это будет исправлено тем, что предсказателям будет предписано
предсказывать минимум (или максимум) временного ряда. — Прим. автора.

272

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ческой адаптации (Брайтон и Гигеренцер [33] приводят сильные доводы в пользу того,
что если и называть данный эффект систематической ошибкой, то речь о полезной
систематической ошибке). Когда ошибка не стоит вам потерь и даже улучшает ваши
результаты, глупо называть ее ошибкой. Если же некоторый тип ошибок обходится
вам дорого и присутствует в обществе давно, поищите в них скрытые эволюционные
преимущества; например, задумайтесь о том, что принять медведя за скалу хуже, чем
принять скалу за медведя.
Мы показали, что при управлении рисками не следует работать в пространстве
вероятностей.
11.7. ПРИЛОЖЕНИЕ: ДОКАЗАТЕЛЬСТВА И ВЫВОД ФОРМУЛ
11.7.1. Распределение подсчета пари
Мы имеем дело со средним по случайным величинам Бернулли, где есть хорошо
известные результаты, но стоит повторить вывод некоторых из них. Для распределения Бернулли с параметром p характеристическая функция ψ(t) = 1 – p + p eit. Для
суммы N слагаемых логарифм характеристической функции
1

.

Обозначая κm кумулянт порядка m, порождаем кумулянты как

Таким образом, κ1 = p,
и этим доказывается, что

,

,

,

сходится по закону больших чисел со скоростью

а по центральной предельной теореме сходится к гауссиане со скоростью
что из приведенных выше кумулянтов эксцесс2 составляет

,

— потому

3

.

11.7.2. Распределение оценки Брайера
Базовая вероятность f. Сначала рассмотрим распределение f базовой вероятности.
Применим бета-распределение, которое охватывает и условный, и безусловный
случай (зависит от параметров a и b в формуле 11.15).

1 В самом деле, логарифмы характеристической функции складываются при сложении независимых случайных величин, так что
; заменяя t = ω/N, получаем
.
2 Эксцесс представим через кумулянты как
. — Прим. перев.
3 В самом деле, второй кумулянт, равный дисперсии, при больших N убывает
тическое отклонение убывает

и, значит, среднеквадра-

. Эксцесс сходится к 3, и,, значит, распределение сходится к гауссову.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

273

Распределение вероятностей. Чтобы показать логику заявлений о робастности распределения вероятностей вероятности — другими словами, о том, что распределение вероятности случайной величины X не зависит от распределения случайной
величины X (см. [68] и [143]), — напомним стандартный результат, необходимый
для понимания и проверки непараметрических подходов и восходящий к Колмогорову [146].
Интеграл вероятности преобразуется так. Пусть непрерывная случайная величина X следует распределению вероятностей с кумулятивной функцией FX , и пусть
случайная величина U представляет собой преобразование случайной величины X
функцией FX, то есть U = FX(X). Тогда в отсутствие дополнительных условий случайная величина U следует равномерному распределению от 0 до 1. Доказывается это так.
В любой точке u ∈ [0, 1] значение кумулятивной функции распределения вероятностей случайной величины U
(11.21)
то есть представляет собой функцию равномерного распределения.
В нашем случае, очевидно, мы имеем дело с (1) плотностью f бета-распределения (равномерного в том частном случае, когда предсказания нисколько не точны)
и (2) дискретной случайной величиной 𝟙At, распределенной по Бернулли с вероятностью p.
Рассмотрим общий случай. Обозначим ga, b функцию плотности бета-распределения вероятностей:

Формулы для среднего и для дисперсии оценки Брайера получаются громоздкие,
но все же в пределах возможностей выкладок вручную:

Далее мы убеждаемся, что у оценки Брайера эксцесс ниже 3, то есть ее хвосты
тоньше, чем у гауссианы.
Доказательство. Начнем с yj = f – 𝟙Aj, разности между случайной величиной, которая следует бета-распределению, и дискретной случайной величиной, которая следует
распределению Бернулли, где у обеих один и тот же индекс j. Для этой разности характеристическая функция Ψ(y)(t) = (1 + p(–1 + e–it)) 1F1(a; a + b; it), где 1F1(.; .; .) — функция
Куммера, или вырожденная гипергеометрическая функция:

274

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Отсюда для

характеристическая функция

(11.22)
где 2F̃2(., .; ., .; .) — регуляризация обобщенной гипергеометрической функции 2F2:

и обобщенная гипергеометрическая функция pFq(.; .; .) раскладывается в ряд

с использованием символа Похгаммера
Затем используем сходимость по распределению для среднего
характеристической функции

. Предел

(11.23)
то есть как у вырожденной гауссианы (функции Дирака) с коэффициентом положения
1

.

И, наконец, оценим скорость сходимости высших моментов к гауссовым. Для
.

этого рассмотрим поведение четвертого кумулянта,
1) В случае максимальной энтропии a = b = 12 получаем

независимо от p.
1 В самом деле, обозначим

. Если случайная величина X

следует вырожденному распределению с плотностью вероятности вида дельта-функция Дирака с пиком
в точке x0, fX (x) = δ(x – x0), тосоответствующая характеристическая функция
. И наоборот, случайная величина X с характеристической
функцией exp(–itx0) вырождена в одно-единственное значение, x0.
2 Бета-распределение ℬ(1, 1) — равномерное распределение на отрезке [0, 1].

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

275

2) В случае максимальной дисперсии1 по правилу Лопиталя

Таким образом,

при n → ∞ со скоростью n –1.



Далее можем извлечь функцию плотности вероятности для оценки Брайера при
N = 1.
При 0 < z < 1
(11.24)

1 Бета-распределение ℬ(a, b) при a, b → 0 стремится к бесконечной плотности вблизи 0 и 1.

12
ПРЕДСКАЗАНИЯ ВЫБОРОВ КАК МАРТИНГАЛ:
АРБИТРАЖНЫЙ ПОДХОД ‡

Изучим1 влияние неопределенности на бинарные прогнозы применительно
к выборам. Стандартный результат в финансовой математике — что с ростом
волатильности ценных бумаг давление арбитража сжимает торговлю соответствующими бинарными опционами к точке 50 %, и вариативность уменьшается на протяжении времени до истечения срока опционов. Контринтуитивным образом высокая неопределенность в стоимости ценных бумаг приводит
к низкой волатильности соответствующего бинарного опциона.
Теоретически этот эффект должен присутствовать во всех доменах, где
генерируются бинарные предсказания… однако мы наблюдаем нарушение
данного принципа в ряде областей, где делаются бинарные предсказания,
и яркий пример — выборы президента США в 2016 году. Поразительные
ошибки политологов и прогностов, когда (1) кандидату Д. Трампу давали
от 0,1 % до 3 % шансов, (2) прогнозы корректировали скачком с 48 % до 15 %,
причем оба значения оправдывали высокой неопределенностью.

Качеству предсказания выборов принято давать статическую оценку по методу де
Финетти, который состоит в минимизации оценки Брайера — количественного показателя расхождения с финальным исходом (это стандарт отслеживания точности оценщиков вероятности в самых разных областях, от выборов до погоды). По-видимому,
оценивать промежуточные корректировки оценок не принято нигде за пределами
1 Автор благодарен Дхруву Мадеке и Рафаэлю Дуади за подробные и обстоятельные дискуссии о статье,
а также за тщательный аудит доказательств на протяжении всех итераций и, что особо мучительно, смены
обозначений. Питер Карр помог при обсуждении свойств ограниченного мартингала и преобразований.
Спасибо за комментарии Давиду Шимко, Анджею Ласневскому и Эндрю Папаниколау.
Спасибо Артуру Брайтману за подбор литературы по численным аппроксимациям ряда логистико-нормальных интегралов. Спасибо участникам Политехнического института Нью-Йоркского университета
(Tandon School of Engineering) и семинаров агентства «Блумберг» по финансовой математике (Bloomberg
Quantitative Finance Seminars). Я также благодарен Бруно Дюпиру, Майку Лоулеру, главным редакторам
журнала Quantitative Finance и многочисленным доброжелателям в социальных сетях.
Дхрув Мадека в годы работы в агентстве «Блумберг» занимался аналогичной проблемой и пришел к тем
же взаимосвязям между волатильностью оценки и ее границами и к тем же границам арбитража. За все
ошибки отвечаю я. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

277

финансовой математики, где такое встречается, как на практике, так и в литературе.
Тем самым обычная практика идет вразрез с принципом самого де Финетти, считавшего вероятность двусторонней ценой «выбора».
Оценка
0,5

0,4

0,42

0,3

0,44
0,46
0,48
0,2

0,5

0,04

0,06

0,08

0,1

0,12

s

Рисунок 12.1: Арбитражная «стоимость» (оценка) выборов в зависимости от
ожидаемой доли голосов Y ∈ [0, 1] при разной ожидаемой волатильности s величины Y в период от настоящего момента до результатов выборов. Видно, что
при высокой неопределенности результат оценки приближается к 0,5 независимо
от оцениваемой разности голосов

X ∈ (–∞, ∞)

B = ℙ (XT > l )

Y = S(X)

Bt0 ∈ [0, 1]

B = ℙ(YT > S(l))

Y ∈ [L,H]

Рисунок 12.2: X — ненаблюдаемая
(теневая) случайная величина на
открытом носителе ℝ, Y — ее отображение на «голоса избирателей»
или «голоса в коллегии выборщиков»
взаимно-однозначной сигмодиальной
функцией S(.). Показана представимость оценки бинарного предсказания через распределение каждой
из величин X, Y при использовании
соответствующих преобразований

278

Н АС С И М Н И К ОЛ АС ТА Л Е Б

В этой главе мы будем придерживаться динамических моделей с непрерывным
временем, основанных на принципах финансовой математики. Мы попробуем доказать, что теоретико-вероятностная оценка исхода выборов, сгенерированная «оценщиком», должна рассматриваться как торгуемая цена, то есть как стоимость бинарного
опциона, подчиненного арбитражным границам (тем более что бинарные опционы
и на практике используются на рынках пари). Будущие скорректированные оценки
должны быть совместимы с мартингальными ценами; в противном случае на оценщике начнут спекулировать, совершая с ним интертемпоральные купли-продажи.
Математические сложности начинаются, когда мы переходим к непрерывному
времени и применяем стандартный мартингальный подход: предсказание вероятности для ценных бумаг, стоимость которых пробегает [0, 1]. Согласно этому подходу,
мы создаем дублирующий (теневой) мартингальный процесс Y на интервале [L, H],
преобразуя арифметическое броуновское движение X на (–∞, ∞), и назначаем выборам
соответствующую цену. Дублирующий процесс Y можно представить, например, как
число голосов, которое требуется для победы на выборах. Сложность в том, что при
таком преобразовании X не может быть мартингалом, если Y — мартингал, и наоборот.
Обработкой случайной величины Y можно построить арбитражную взаимосвязь
между волатильностью оценки вероятности и волатильностью соответствующей случайной величины, например числа голосов. Так удается доказать, что при высокой неопределенности финального исхода: (1) арбитражное значение предсказания (как бинарного
опциона) приближается к 50 % и (2) оценка не должна претерпевать больших изменений, даже если поллы или другие базовые величины покажут существенные вариации1.
Ценообразовательные связи строятся между (1) стоимостью бинарного опциона
(то есть вероятностью предсказания), (2) оценкой Y и (3) волатильностью оценки Y
на протяжении остающегося срока (смотрите Рисунки 12.1 и 12.2).
12.0.1. Основные результаты
Для удобства изложения начнем с обозначений.
Обозначение
Y0

наблюдаемая оценка доли голосов в диапазоне [0, 1] в момент t0
(это могут быть голоса избирателей или голоса в коллегии выборщиков, но
нужно последовательно придерживаться чего-то одного)

T

дата обнародования окончательных результатов выборов или срок окончания опциона (в годах)

t0

дата текущей оценки (в годах); соответственно остающееся время представляет собой разность T – t0

1 Центральное свойство нашей модели — она не позволяет бинарной оценке B(.) варьировать больше, чем
оцениваемая случайная величина Y: при соперничестве двух кандидатов оценка будет ограничена сверху
или снизу отклонением Y, если будет ниже (или выше) 0,5. На практике мы можем столкнуться с вероятностью 98 % победы и 2 % поражения при гораздо более узкой разности оцениваемого числа голосов
47 % против 53 %; в случае высокой неопределенности при нашем подходе вероятности не расходятся
с оцениваемым числом голосов. Но он консервативен в том смысле, что не дает более высокой доли. —
Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

279

s

среднегодовая волатильнось величины Y за оставшееся время. Не теряя
общности, мы приняли s за константу, хотя она может зависеть от времени

B(.)

«вероятность предсказания», то есть непрерывная по времени арбитражная оценка результатов выборов, задающая арбитражные связи между B(.),
Y 0 и волатильностью s

Основные результаты
(12.1)
где
(12.2)
и l — пороговое значение, необходимое для победы (по умолчанию 0,5); erfc —
обычная дополнительная функция ошибок: erfc(z) = 1 – erf (z) и

.

Здесь будет уместно ответить на типичный комментарий со стороны статистиков
и других специалистов вне финансовой математики: «Почему не использовать для Y
обычное бета-распределение?» Потому что (1) в данной статье мы поставили задачу
исследовать бинарные прогнозы, состоятельные во времени (на которых невозможно
спекулировать), и (2) нам неизвестны непрерывные во времени стохастические процессы, описываемые обычным ограниченным распределением, включая бета-распределение.
12.0.2. Организация
Остальные части статьи организованы следующим образом. Во-первых, мы показываем процесс для Y и необходимые преобразования на основе некоторого специального броуновского движения. Во-вторых, мы выводим арбитражное соотношение,
при помощи которого получается формула (12.1). Наконец, мы обсуждаем подход
де Финетти и показываем, как мартингальная стоимость связана с минимизацией
обычной стандартной оценки в отрасли предсказаний, а именно оценки Брайера.
Комментарий об отсутствии аналитических решений для σ. Заметим, что мы не
имеем для Y аналитического представления интеграла, отражающего вариацию

хотя для X интеграл вариации вычислимый. Методами распространения неопределенности мы сможем получить аналитические решения для плотности вероятности Y,
но не моменты, потому что логистико-нормальный интеграл не допускает простых
разложений [195].

280

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Распределения временного среза для X и Y. Распределение временного среза —
это функция плотности вероятности случайной величины Y от момента времени t,
то есть представление для одного периода времени, начинающегося в момент t
c

. И наоборот, случайная величина X при заданном значении y0 и соот-

ветствующем значении x0, как можно доказать, распределена нормально для периода
времени T – t0 с параметрами

и эксцессом 3. Преобразованием вероятности получаем φ, соответствующее распределение Y с начальным значение y0:
(12.3)

и 𝔼Yt = Y 0.
Что касается дисперсии, 𝔼Y 2, то она, как отмечалось выше, не допускает аналитического вывода ни из φ(.), ни из стохастического интеграла; впрочем, для нее нетрудно
получить оценку из заданного аналитической формулой распределения X методами
распространения неопределенности для первых двух моментов (дельта-метод).
Поскольку дисперсия функции f случайной величины X с конечными моментами
приближается как 𝕍f(X) = f ′ (𝔼X)2 𝕍X,

(12.4)
Аналогичными вычислениями в обратную сторону находим

что приведено как основной результат в формуле (12.2).
Заметим, что, добавляя в наши разложения высшие моменты, не достигаем существенного повышения точности; хотя s не линейна вблизи центра, диапазон значений
для волатильности (общего числа голосов или голосов в коллегии выборщиков) слишком узок, чтобы существенно повлиять на слагаемые высших порядков сверх того, что
диктуется ограниченностью сигмоидных преобразований.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

281

12.0.3. Обсуждение нейтральности к риску
Мы применяем стоимость, нейтральную к риску, как естественный выбор по умолчанию, когда нет мотива выбрать другой подход. Даже если случайная величина Y не
является рыночным товаром, добавление рисковой премии в процесс оценки арбитражной стоимости необходимо влечет отрицательную премию для другого кандидата
или кандидатов, что трудно оправдать.
Заметим далее, что стоимости опционов или бинарных пари должны удовлетворять запрету «голландской книги» (формулировка де Финетти об исключении арбитража, смотрите в [97]), т. е. рынок бинарных опционов с разумными ценами, интерпретируемыми как предсказания вероятности, исключает набор пари, с которым вы
останетесь в выигрыше при всех возможных исходах. И, наконец, любое отклонение
от нейтральности к риску понизит оценку Брайера (о которой будет ниже), поскольку
будет отступлением от финального предсказания.
Заметим также, что не делаем никаких допущений о ставке финансирования,
которые обычно делаются в финансовых дискуссиях.
12.1. СТОИМОСТЬ В СТИЛЕ БАШЕЛЬЕ
Пусть F(.) — функция случайной величины X, удовлетворяющая критерию
dXt = σ2 Xt dt + σ dWt .

(12.5)

Мы хотим показать, что для X существует простая цена опциона Башелье1 B(.).
Идея исключения арбитража заключается в том, чтобы непрерывно обновляемое
предсказание мартингальной случайной величины само было мартингалом.
Применяя формулу2 Ито к F ≜ B при условии, что X удовлетворяет (12.5), получаем

откуда с учетом

следует, что F должна удовлетворять дифференциальному

уравнению в частных производных
(12.6)
и это условие делает B мартингалом без дрейфа.
Для бинарного опциона «колл» имеем конечные условия
B(X, t) ≜ F, FT = ϑ(x – l ),
где ϑ(.) — тета-функция Хевисайда
1 С «Теории спекуляций» (1900) Башелье начинаются и моделирование броуновского процесса, и моделирование ценообразования опционов. Модель Башелье, она же нормальная модель, отличается от модели
Блэка — Шоулза и логнормальной модели.
2 Формула Ито (Itô’s lemma) позволяет заменять переменную в стохастическом дифференциальном уравнении.

282

Н АС С И М Н И К ОЛ АС ТА Л Е Б

1

ДЕНЬ ВЫБОРОВ
0,9

0,8

538

0,7

0,6

Строгое обновление
0,5
20

40

60

80

100

Рисунок 12.3: Теоретический подход (верхняя кривая) и практика (нижняя кривая).
Графики показывают, что процесс оценки не может отслеживать волатильность
оценки числа голосов (в коллегии выборщиков или другого), поскольку нарушает границы арбитража

и l — порог, при начальном условии x0 в момент времени t0 и конечном условии
в момент времени T

представляющем собой просто функцию выживания нормального распределения
с параметрами, отвечающими процессу случайной величины X.
Аналогичным образом замечаем для аргумента взаимно-однозначного отображения S (можно использовать аргументы из борелевского множества), что

и можно задать цены в альтернативном процессе B(Y, t) = ℙ(Y > ) с порогом
с любым порогом l, задав цены
B(Y 0, t0) = ℙ(x > S –1(l)).
Цены согласно доле голосов представимы как

или

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

283

эта формула включена в главные результаты как (12.1), что иначе выражается более
громоздкой формулой

X, Y
0,5

200

400

600

800

–0,5

1000

X
Y

t

Рисунок 12.4: Процесс и двойственный процесс

–1

–1,5

12.2. ОГРАНИЧЕННЫЙ ДВОЙСТВЕННЫЙ МАРТИНГАЛЬНЫЙ ПРОЦЕСС
YT — конечное значение процесса в день выборов — определено нами в промежутке
[0, 1], хотя допускает обобщение на произвольный отрезок [L, H], где L, H ∈ [0, ∞).
Порог победы данного кандидата фиксируется на уровне l. Y может соответствовать
числу голосов избирателей, числу голосов в коллегии выборщиков или иному количественному показателю. Мы предполагаем, что Yt — промежуточная реализация процесса в момент времени t, синтезированная по опросам (скорректированные оценки)
или иным системам.
Далее мы создаем для неограниченного арифметического стохастического процесса — ограниченный «двойственный» стохастический процесс, используя сигмоидальное преобразование. Оно бывает полезно для отображения таких процессов, как
ограниченный электоральный процесс, на броуновское движение или для отображения ограниченной платежной функции на неограниченную; см. Рисунок 12.2.
Предложение 12.1
При сигмоидальных преобразованиях S: x ↦ y, ℝ → [0, 1] вида (a)
(b)

или

, если X — мартингал, то Y — мартингал только при Y 0 = , а если Y —

мартингал, то X — мартингал только при X0 = 0.
Доказательство. Схема такая. Из формулы Ито слагаемое дрейфа для dXt превращается в (1) σ2X(t) или (2)

σ2 th

, где σ — волатильность соответственно при

преобразованиях вида (a) Xt и (b) Xt при мартингальном Y. Дрейф dYt принимает вид
(1)

или (2)

σ2 Y(Y – 1)(2Y – 1), если X — мартингал.



284

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Поэтому мы выберем случай, где мартингалом является случайная величина Y,
и представим подробности преобразования (a). Подробности процесса разработаны
Карром [35]. Пусть X — арифметическое броуновское движение (12.5) с дрейфом,
зависящим от X, и постоянным масштабом σ:
dXt = σ 2Xt dt + σ dWt, 0 < t < T < +∞.
Заметим сходство с процессом Орнштейна — Уленбека, обычно записываемого
как dXt = ϑ(μ – Xt)dt + σ dW, только у нас μ = 0 и против правил используется отрицательный коэффициент возвращения к среднему, то есть это «коэффициент отталкивания от среднего»: ϑ = –σ21.
Отображение случайной величины X ∈ (–∞, ∞) на двойственный процесс Y
построим так. При S: ℝ → [0, 1], Y = S(X) и

двойственный процесс, связанный с исходным взаимно-однозначным преобразованием S, так что y ≜ S(x), будет дифференцироваться по формуле Ито (поскольку преобразование S(.) дважды дифференцируемо и

):

— откуда при нулевом дрейфе процесс можно записать как
dYt = s(Yt)dWt
при всех t > τ, где 𝔼(Yt | Yτ) = Yτ и масштаб

как видно на Рисунке 12.5, аппроксимируется квадратичной функцией вида y(1–y)
с постоянным множителем2.
Мы можем восстановить формулу (12.5), обратив преобразование: S –1(y) =
= erf –1(2y – 1) и еще раз применив формулу Ито. Вследствие калибровочной инвариантности це́ны опционов одинаковы что на основе X, что на основе Y, даже если один
из процессов обладает дрейфом, а другой представляет собой мартингал. Другими
словами, разными исследователями могут применяться разные оценки к электоральному порогу или более сложной случайной величине X, но результаты будут одинаковы. Выбранный нами метод вычисления цены опциона на основе X хорошо известен — это цена опциона по модели Башелье.
1 Обозначение ϑ для коэффициента возвращения к среднему (mean reversion coefficient) не следует путать
с обозначением ϑ(.) для функции Хевисайда.
2 Обозначение s(.) для переменного масштаба случайной величины Y не следует путать с обозначением S(.)
для сигмоидного преобразования случайной величины X в Y.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

s

285

Рисунок 12.5: Мгновенная волатильность случайной величины Y
как функция величины Y выглядит
по существу одинаково при двух
преобразованиях случайной величины X. Функция масштаба, мас-

0,25
0,2
0,15

штабированная множителем

0,1

приближается квадратичной функцией y – y2. Волатильность падает

y (1 – y)

0,05

0,2

0,4

,

0,6

0,8

1

Yt

при удалении от

к краям и этим

удерживает случайную величину Y
в интервале (0, 1). Для простоты мы
приняли σ = t = 1

12.3. СВЯЗЬ С ОЦЕНЩИКОМ ВЕРОЯТНОСТИ ДЕ ФИНЕТТИ
В этом разделе кратко рассказывается об обычном подходе к оценке вероятности.
Великий человек де Финетти [58] доказал, что «оценка» для «вероятности» некоторой
реализации случайной величины в [0, 1] требует нелинейной функции потерь — и тем
самым определение де Финетти отличается от отношения P/L для трейдера на рынке
бинарных пари.

Рисунок 12.6: Бруно де Финетти (Bruno
de Finetti; 1906–1985). Специалист
по теории вероятностей, философ и
исследователь математических начал
страхования; сформулировал статистические оценки Брайера, которые, как мы
показываем, динамически совместимы
с мартингалом. © DeFinetti.org

286

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Допустим, что участник пари в n повторах модели двух периодов, t0 и t1, генерирует стратегию 𝔖 — последовательность пари b0, i ∈ [0, 1], где индекс i = 1, 2, …, n
о реализации бинарной случайной величины 𝟙t1, i. Для такого участника абсолютная
вариация отношения P/L за n пари будет

Допустим, например, что 𝔼(𝟙t1) = . Делая ставку на вероятность, в данном случае , участник теряет математического ожидания, то есть столько же, как при ставке
на 0 или на 1; значит, участника не поощряют ставить на точную вероятность.
Если мы работаем с одной и той же случайной величиной и не меняющимися со
временем вероятностями, вариацию можно представить метрикой ℓ1:
.
Де Финетти предложил использовать функцию типа «оценки Брайера», квадратичную функцию потерь, представимую метрикой ℓ2:

которая достигает минимума при b0, i = 𝔼(𝟙t1).
В нашем мире непрерывно отслеживаемой стоимости деривативов вместо двухпериодической решеточной модели нам интереснее рассмотреть при том же финальном
исходе t1 стохастический процесс bt, t0 ≤ t ≤ t1, где арбитражная «стоимость» пари на
бинарный результат должна соответствовать математическому ожиданию, и мы снова
получаем отображение на оценку Брайера — в силу требования безарбитражности.
Хотя никакой квадратичной функции потерь не постулируется, арбитраж исключается тем фактом, что пари является функцией мартингала и является мартингалом,
то есть условное ожидание инвариантно ко времени. При «завышенной» цене арбитражер сможет «шортить», при «заниженной» — «скупать», и так до бесконечности.
Ради согласованности между пари в период t и в другие периоды t + ∆t участникам
приходится соблюдать теоретико-вероятностную дисциплину. Другими словами, если
предсказатель отойдет от мартингальной стоимости, он позволит на себе спекулировать покупающим у него и затем продающим ему же обратно.
В текущей практике предсказателей выборов видно осознание необходимости
минимизировать оценку Брайера, но не видно осознания той идеи, что и корректировки оценок должны иметь мартингальную стоимость.
12.4. ЗАКЛЮЧЕНИЕ И КОММЕНТАРИИ
Как видно на Рисунке 12.1, бинарный опцион скорее выявляет неопределенность, чем
истинную оценку, и этот результат хорошо знаком трейдерам, см. [225].
Если кандидатов 3, можно обобщить процедуру, опираясь на следующую эвристику. Зададим стохастический процесс для Y1, t на носителе [0, 1], а затем для Y2, t —

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

287

процесс в (Y1, t, 1]; для третьего кандидата Y3, t будет остатком 1 – Y2, t – Y1, t. Если кандидатов n, то Yn – 1, t ∈ (Yn – 2, t , 1] и n-й кандидат будет представлен остатком

.

ПРИЛОЖЕНИЕ: ВСЕ ДОРОГИ ВЕДУТ К ФИНАНСОВОЙ
МАТЕМАТИКЕ
Истоки. Обри Клейтон отправил редактору письмо с жалобами на «ошибки» в описанной выше методологии. Автор совместно с Дхрувом Мадекой ответил не столько
на выпады Клейтона, сколько на общий вопрос о пользе методов финансовой математики в жизни.
Мы рады отреагировать на письмо Клейтона (не прошедшее рецензирования) безотносительно содержащихся в нем выводов, воспользовавшись случаем поговорить
о более глубоком непонимании роли финансовой математики в целом и арбитражных
цен в частности — и с гордостью продемонстрировать, что «все дороги ведут к финансовой математике», то есть что арбитражные подходы универсальны и применимы
к бинарным предсказаниям любого рода. Это также случай для второго автора комментария, Мадеки, процитировать статью (2017) [158], где он одновременно и независимо получил результаты, аналогичные Талебу (2018) [234].
Некорректные претензии
«Талеб раскритиковал предсказанные вероятности числа голосов избирателей,
в частности предсказания о выборах от Группы-538… Он [Талеб] утверждает, что
предсказания 538 нарушают арбитражные границы» — это описание не соответствует фактам.
Группа-538 вообще не упомянута в [234], и Клейтон, видимо, смешивает статью в научном журнале с дебатами в твиттере. Цель статьи — строгий анализ темы
выборов, без публицистики, и выборы 2016 года упомянуты как пример всего один
раз1.
Однако перейдем к другим утверждениям Клейтона, не останавливаясь на путаности и запальчивости его письма.
Неправильная арбитражная стоимость
Клейтон считает ее не то ошибкой (и вначале пишет, что «во-первых, один из так
называемых стандартных результатов финансовой математики, на который опираются
его оценки предсказаний выборов, ложен»), не то «лишь отчасти справедливой», как
он туманно пишет ниже, давая задний ход. Мы вновь отложим в сторону ту деталь,
что Талеб (2018) [234] не дает оценок результатам Группы-538, и сосредоточимся на
его доводах.
Клейтон рассматривает три периода, t0 = 0, промежуточный период t и конечный
период T, где t0 ≤ t < T. Клейтон показывает специальный случай распределения вероятности, предсказанной в t0 на время от

до T. Это равномерное распределение для

1 Кстати, проблема Группы-538 не в том, что они подняли вероятность с 0,55 до 0,85 в течение 5 месяцев,
а в том, что они вносили резкие изменения в течение более коротких периодов — и это обсуждается
в статье Мадеки (2017) [158]. — Прим. автора.

288

Н АС С И М Н И К ОЛ АС ТА Л Е Б

указанного периода. На самом деле для такой конструкции можно показать, используя интегральное преобразование вероятности, что вероятности следуют распределению, близкому к симметрическому бета-распределению, ℬ (a, b) при a = b. Когда
коэффициенты a = b = 1 (это равномерное распределение). До момента
ние имеет горб и вырождается в δ-функцию Дирака при t = t0. После

,

распределеоно имеет яму

и вырождается в два дираковских пика в точках 0 и 1 (как и положено распределению
Бернулли), когда t приближается к T (и близко к распределению арксинуса1, ℬ
,
в некоторый промежуточный момент).
На самом деле построение Клейтона вводит в заблуждение, поскольку он анализирует распределение цены в момент времени t при фильтрации в момент времени t0; в частности, он поступает так при обсуждении арбитражных цен и арбитражного давления. Участники учитывают стоимость опционов от t до T в момент
времени t (а не в период t0), с учетом заданной цены; при таких ограничениях бинарный опцион автоматически сходится к

при σ → ∞, независимо от заданной цены,

как бы далеко она ни отошла от страйк-цены (или порога). Коэффициент σ здесь
ни в коем случае не прошлая реализованная волатильность, а только нереализованная будущая. Это можно видеть в рамках системы, представленной Талебом (2018)
[234], да и в любой модели цен бинарного опциона. Цена по своей природе — не
вероятность (и тем более не распределение вероятностей), а ожидание. Попросту
говоря, как операторы арбитража, мы выводим цену бинарного опциона, глядя на
будущую волатильность при данной цене, а не на абстрактное распределение вероятностй безо всяких условий.
При бесконечном коэффициенте σ остается один шум, в котором полезные сигналы тонут.
Другой путь прийти к неопределенности — воспользоваться теорией информации и концепцией максимальной энтропии при глубокой неопределенности: энтропия (I) распределения Бернулли с вероятностями p и 1 – p представима как I = – ((1 – p)
ln(1 – p) + p ln p) и достигает максимума в точке .
Чтобы получить выигрыш по сравнению с ценами , нужно иметь достаточно
информации, чтобы превзойти шум. Как мы увидим в следующем разделе, это нелегко.
Арбитражные вопросы
Еще один результат в финансовой математике, накладывающий ограничения на волатильность предсказаний, состоит в следующем. Поскольку предсказания выборов
1 ℬ

называется распределением арксинуса, потому что кумулятивное распределение вероятности

представимо как

фициент асимметрии 0; эксцесс .

. Плотность

; среднее ; дисперсия ; коэф-

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

289

можно интерпретировать как европейский бинарный опцион, можно опереться на тот
факт, что ценообразование такого опциона ограничено диапазоном от 0 до 1, и сделать
утверждения о волатильности самой цены.
Суть в том, что при больших колебаниях цены на бинарный опцион простая стратегия трейдера покупать подешевле и продавать подороже гарантирует прибыль1.
Вкратце обоснование сводится к тому замечанию, что при рассмотрении арифметического броуновского движения в границах [L, H]
dBt = σdWt

(12.7)

стохастический интеграл

можно повторять с нулевыми затратами, и это показывает, что значение BT ограничено максимальным значением квадрата разности в правой части равенства.
Тем самым предсказатель, генерирующий слишком волатильные вероятности —
и готовый торговать согласно своим предсказаниям (т. е. рисковать собственной
шкурой), — позволяет на себе спекулировать по стратегии, когда ему продают
пропорционально завышению предсказания и у него покупают пропорционально
занижению предсказания.
В заключение отметим, что любые численные предсказания вероятности правильно обрабатывать как цену выбора — согласно той интуитивной идее де Финетти,
что предсказатель должен рисковать собственной шкурой. В этих условиях бинарные предсказания подпадают под правила цен арбитража и деривативов, которые
хорошо описаны в финансовой математике. Использование подходов финансовой
математики, чтобы генерировать бинарные прогнозы, не мешает байесовским методам; Талеб (2018) не утверждает, что вероятности должны быть только ; утверждается только то, что предсказания сносит в сторону этого уровня из-за арбитражного
давления и ограничений на вариативность предсказания. Структурные ограничения
на корректировку предсказаний следуют из того факта, что в итоге цена окажется
либо 1, либо 02.
1 Мы заимствовали этот результат из записей Бруно Дюпира на лекциях по финансам непрерывного времени в Курантовском институте математических наук в Нью-Йорке на последнем курсе весной 2019. —
Прим. автора.
2 Еще один способ убедиться в этом находим за пределами моделей финансовой математики: можно рассмотреть стандартную оценку вероятности. Пусть X1, …, Xn — случайные величины в [0, 1] (предсказания) и BT ∈ {0, 1} — константа (единственный исход). Нужно минимизировать оценку сделанных предсказаний

При любом заданном BT и среднем прогнозе

минимальное значение λn достигается при

x1 = … = xn. Предсказания с дираковским распределением x1 = … = xn = гарантируют λn = , и, чтобы превзойти их какой-либо стратегией с большей дисперсией, потребуется предсказание с точностью выше
75 %. (Заметим, что у предсказаний с равномерным распределением оценка .) Это показывает нам,
каково необходимое соотношение между волатильностью и полезным сигналом. — Прим. автора.

290

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Возможное обстоятельство, настроившее Клейтона против финансовой математики, то, что вероятности и обосновывающие их опросы в реальной жизни могут
не быть мартингалами; однако торгуемые вероятности (и, следовательно, реальные
предсказания) мартингалами быть обязаны. Вот почему в статье Талеба (2018) [234]
утвержается, что обработку опросов (которая может быть туманной и неторгуемой)
необходимо преобразовать в обработку вероятности в промежутке [0, 1].
БЛАГОДАРНОСТИ
Рафаэлю Дуади, студентам Политехнического института Нью-Йоркского университета и участникам семинара агентства «Блумберг» по финансовой математике в НьюЙорке.

Часть IV
О Ц Е Н О Ч Н Ы Е Н Е РА В Е Н С Т ВА
П Р И Ж И Р Н Ы Х Х В О С ТА Х

13
ОЦЕНКА ДЖИНИ
ПРИ БЕСКОНЕЧНОЙ ДИСПЕРСИИ ‡

Эта глава посвящена проблемам, связанным с оценкой индекса Джини,
когда процесс порождает данные с жирным хвостом, т. е. одного из классов
устойчивых распределений с конечным средним, но бесконечной дисперсией — другими словами, с показателем хвоста α ∈ (1, 2). Мы доказываем,
что в этом случае обычные непараметрические методы не способны дать
надежную оценку коэффициенту Джини — они будут занижать результаты
из-за плохой наблюдаемости жирных хвостов. Это обстоятельство имеет
важные последствия для современных дискуссий об экономическом неравенстве.
Начнем мы с фазового перехода, который претерпевает непараметрическая оценка индекса Джини в симметричной структуре асимптотического распределения оценок, когда распределение данных смещается из домена аттракции легких хвостов в домен жирных хвостов; такой переход особенно резок,
если во втором домене дисперсия становится бесконечной.
Мы также покажем, что смещение непараметрических оценок индекса
Джини усугубляется при снижении α.
Затем мы докажем, что оценка методом максимального правдоподобия
превосходит по эффективности непараметрические методы, то есть достигает
той же надежности при меньшем размере выборки.
Наконец, мы предложим простой механизм поправок к непараметрической оценке при малом размере выборки жирнохвостых данных; этот механизм основан на расстоянии между модой и средним асимптотического распределения.

13.1. ВВЕДЕНИЕ
Исследования имущественного неравенства — важная область для специалистов
по экономике, статистике и эконофизике, сталкивающихся с процессами, в которых
порождаются жирнохвостые данные, в том числе с бесконечной дисперсией [39, 144].
Что неудивительно, если вспомнить, что прототипом жирнохвостых распределений
послужила модель Парето для распределения доходов домохозяйств [185]. Однако

294

Н АС С И М Н И К ОЛ АС ТА Л Е Б

жирнохвостость по-прежнему осложняет исследования распределений благосостояния, подрывая эффективность (и отчасти состоятельность) результатов применения
ряда количественных показателей имущественного неравенства и концентрации
богатств [82, 144].
В этой работе мы исследуем влияние жирных хвостов на такой знаменитый
показатель экономического неравенства, как индекс Джини [78, 110, 144], который
широко применяется и которым широко злоупотребляют в литературе по эконофизике
и экономике как главным инструментом для описания распределения и концентрации
богатств во всем мире [39, 191, 192].
При всей обширности и подробности литературы по измерению индекса Джини
(см., напр., обзоры [78, 222]) ничтожно мало внимания уделялось его поведению
в ситуации жирных хвостов; это тем более странно, что (1) жирные хвосты встречаются повсеместно в эмпирических распределениях доходов и благосостояния [144,
191] и (2) сам индекс Джини работает как показатель вариативности и жирнохвостости [76, 79, 80, 95].
Стандартный метод оценить индекс Джини непараметрический: доступные
данные эмпирического распределения обрабатываются по приведенной ниже формуле (13.5). Но, как мы покажем в данной статье, такая оценка смещена в сторону
занижения, если объект наблюдения жирнохвостый. Чтобы закрыть этот пробел, мы
выводим предельное распределение непараметрической оценки Джини при наличии
жирных хвостов и предлагаем возможные стратегии, как уменьшить систематическую ошибку. Мы показываем, что метод максимального правдоподобия, даже при
риске ошибочной классификации модели, требует существенно меньше наблюдений,
чем непараметрический метод, чтобы достичь сравнимой эффективности1.
Наши результаты существенны для дискуссии об имущественном неравенстве,
недавно возобновленной Тома Пикетти в [191], поскольку оценка индекса Джини при
жирных хвостах и бесконечной дисперсии может в ряде случаев сделать экономический анализ ненадежным и просто неверным. Как можно полагаться на смещенную
оценку?
Под жирнохвостыми данными мы подразумеваем такие, которые порождаются
положительной случайной величиной X с кумулятивной функцией распределения
F(x), если она правильно меняющаяся порядка α [136], то есть для F̅(x) ≜ 1 – F(x)
имеет место
(13.1)
при c > 0 и где α > 0 называгде L(x) — медленно меняющаяся функция:
ется показателем хвоста.
Правильно меняющиеся распределения составляют обширный класс случайных
величин, свойства которых подробно изучались в контексте теории экстремальных
значений [82, 116] как вероятностное поведение максимумов и минимумов. Как отмечено в [44], термины «правильно меняющиеся» и «жирнохвостые» на самом деле
1 Аналогичное смещение затрагивает также непараметрическую оценку доли, или квантиля, т. е. оценку
типа «верхний 1 % владеет x % всех богатств» [242]. В этой статье эта проблема распространяется на
шире применяемый коэффициент Джини и исследуется глубже: прослеживаются связи с предельными
теоремами. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

295

Рисунок 13.1: Итальянский статистик
Коррадо Джини, 1884–1965. © Боккони
L’Università Commerciale Luigi Bocconi

синонимичны. Известно, что если н. о. р. наблюдения X1, …, Xn следуют распределению F(x) в классе правильно меняющихся, согласно критерию (13.1), то их порождающий процесс попадает в максимальный аттрактор распределения Фреше с коэффициентом формы ρ; пишут X ∈ MDA(Φ(ρ)) [116]. Это значит, что максимум по частичной
выборке Mn = max(X1, …, Xn) представим как сходящийся по распределению
(13.2)
где нормализующие константы an > 0 и bn ∈ ℝ. Очевидно, что показатель α хвоста правильно меняющейся функции и коэффициент формы ρ распределения Фреше связаны
[82].
как
Распределение Фреше, наряду с распределениями Гумбеля и Вейбулла, служит предельным распределением для максимумов в теории экстремальных значений; оно представляет предельный случай неограниченного жирного хвоста [116].
Поэтому взаимосвязь между правильно меняющимися случайными величинами
и классом Фреше позволяет нам работать с обширным семейством случайных
величин (и эмпирических данных) и обосновать интуитивное предположение [95,
144] о резкой зависимости индекса Джини от максимумов, т. е. экстремальных
богатств, особенно при бесконечной дисперсии. Что лишний раз призывает нас
к осторожности при обсуждении экономического неравенства в ситуациях жирных
хвостов.
Нелишне будет напомнить, что существование (конечность) моментов для жирнохвостой случайной величины X зависит от показателя хвоста α, а именно:

1

.

1 Где δ — порядок обсуждаемого момента.

(13.3)

296

Н АС С И М Н И К ОЛ АС ТА Л Е Б

В этой работе мы фокусируемся на порождающих процессах с конечным средним
и бесконечной дисперсией; следовательно, согласно формуле (13.3), на классе регулярно меняющихся распределений с показателем хвоста α ∈ (1, 2).
В Таблице 13.1 и на Рисунке 13.2 представлены численно и графически наши
результаты на основе искусственно сгенерированных наблюдений выборки из
распределения Парето с приведенной ниже формулой (13.13) и показателем хвоста α = 1,1; результаты столь красноречивы, что выводы напрашиваются сами
собой.
В Таблице 13.1 сравнивается непараметрическая оценка индекса Джини
по формуле (13.5) и оценка по хвосту методом максимального правдоподобия
(maximum likelihood, ML), описанная в Разделе 13.3. Для различных размеров
выборки в Таблице 13.1 мы сгенерировали по 108 выборок, чтобы вывести средние
оценки по методу Монте-Карло. Как видно в первом столбце, непараметрическая
оценка сходится к истинному значению индекса Джини (g = 0,8333) чрезвычайно
медленно и при этом монотонно возрастает, так что у непараметрической оценки
распределение проблемное не только своими тяжелыми хвостами, но и несимметричностью.
На Рисунке 13.2 представлены численные доказательства того, что при попадании в ситуацию данных с бесконечной дисперсией предельное распределение
непараметрической оценки индекса Джини теряет свои свойства нормальности
и симметричности [91], сползая к несимметричному и жирнохвостому пределу. Как
мы доказываем в Разделе 13.2, когда порождающий процесс принадлежит аттрактору некоторого жирнохвостого распределения, асимптотическое распределение
оценки индекса Джини превращается в α-устойчивый закон с перекосом вправо. Эта
смена поведения ответственна за систематическую ошибку в сторону занижения
оценки индекса Джини при жирных хвостах. Однако осведомленность о новом пределе позволяет нам предложить поправку к непараметрической оценке, повышающую качество и тем самым снижающую риск грубой недооценки имущественного
неравенства, со всеми последствиями для экономической и социальной политики [144, 191].
Таблица 13.1: Сравнивается непараметрическая (NonPar) оценка индекса Джини и оценка
методом максимального правдоподобия (ML). Использованы данные, которые распределены
по Парето с показателем хвоста α = 1,1 (конечное среднее, бесконечная дисперсия) при разных размерах выборки. Число моделирований методом Монте-Карло: 108
NonPar

n

ML

Коэффициент
ошибок

(Число набл.)

Среднее

Смещение

Среднее

Смещение

103

0,711

–0,122

0,8333

0

1,4

4

10

0,750

–0,083

0,8333

0

3

105

0,775

–0,058

0,8333

0

6,6

106

0,790

–0,043

0,8333

0

156

7

0,802

–0,031

0,8333

0

105+

10

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

Выборочное распределение
оценок индекса Джини
25
15

Показатель хвоста

10

α = 1,5

5

α = 2,5

0
–0,1

0

0,1

0,2

0,3

0,4

297

Рисунок 13.2: Гистограммы непараметрических оценок индекса Джини
для двух распределений Парето (тип I)
с разными показателями хвоста —
одно с конечной дисперсией, другое
с бесконечной. Для удобства сравнения
диаграммы совмещены по горизонтали. Размер выборки 103. Число выборок по 102 для каждого распределения

Отклонение от среднего

Остальная часть статьи организована так. В Разделе 13.2 мы выведем асимптотическое распределение выборочной оценки индекса Джини в ситуации данных с бесконечной дисперсией. В Разделе 13.3 мы рассмотрим оценку методом максимального
правдоподобия; в Разделе 13.4 создадим иллюстрацию с наблюдениями распределения Парето; в Разделе 13.5 предложим простую поправку на основе расстояния
мода — среднее асимптотического распределения непараметрической оценки, устраняющую систематическую ошибку малой выборки. Раздел 13.6 подводит итоги.
В Техническое приложение в конце Раздела 13 вынесены длинные доказательства
главных результатов этой работы.
13.2. АСИМПТОТИКИ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ
ПРИ БЕСКОНЕЧНОЙ ДИСПЕРСИИ
Сейчас мы выведем асимптотическое распределение непараметрической оценки
индекса Джини в условиях жирнохвостого порождающего процесса с конечным средним, но бесконечной дисперсией.
Так называемая стохастическая репрезентация Джини — это
(13.4)
где X ′ и X ″ — н. о. р. экземпляры случайной величины X с носителем [c, ∞), c > 0
и конечным средним 𝔼X = μ. Величина 𝔼|X ′ – X ″| известна как «средняя разность по
Джини» (Gini Mean Difference, GMD1) [222]. Для удобства дальнейшего изложения
представим

.

Таким образом, индекс Джини случайной величины X есть среднее ожидаемое
отклонение реализации X от другой независимой реализации X, масштабированное
с коэффициентом удвоенное среднее [81].
Наиболее распространенная непараметрическая оценка индекса Джини для
выборки X1, …, Xn определяется как
(13.5)

1 Для той же величины 𝔼|X ′ – X ″| в литературе встречается также термин средняя абсолютная разность
(mean absolutedifference) и обозначение MD(X).

298

Н АС С И М Н И К ОЛ АС ТА Л Е Б

что можно иначе представить как

(13.6)

где X(1), X(2), …, X(n) — упорядоченные данные X1, …, Xn, так что X(1) ≤ X(2) ≤ … ≤ X(n)
и

1

. Известна асимптотическая нормальность оценки по формуле

(13.6) в предположении конечной дисперсии для порождающего процесса [144, 222].
Такой результат непосредственно следует из свойств U-данных2 и L-оценок3, фигурирующих в формуле (13.6).
Стандартным подходом к выводу предельного распределения для оценки в формуле (13.6) и любой другой линейной комбинации упорядоченных статистических
данных было бы исследовать в пределе при n → ∞ аппроксимацию последовательности упорядоченных статистических данных последовательностью н. о. р. случайных
величин [56, 151]. Однако при этом обычно требуется принадлежность порождающего процесса классу L2 — интегрируемость квадрата процесса, — и такого допущения мы здесь не делаем.
Лемма 13.1 (доказана в Приложении) показывает, как справиться со случаем, когда
последовательность упорядоченных статистических данных порождена случайными
величинами, следующими жирнохвостому распределению класса L1, то есть с интегрируемостью только первой степени.
Лемма 13.1
Рассмотрим последовательность

, где U(i) — упорядочен-

ные статистические данные выборки н. о. р. случайных величин, следующих равномерному распределению. Пусть F –1(U(i)) ∈ L1. Тогда
(13.7)
и
,

(13.8)

где α ∈ (1, 2) и где L0(n) — медленно меняющаяся функция.

1 В самом деле,
.
2 Так в английской литературе обозначают класс несмещенных статистических данных (от unbiased class
of statistics).
3 Так в английской литературе обозначают класс оценок, вычисляемых как линейная комбинация статистических данных (от linear combination of order statistics).

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

299

13.2.1. Краткое повторение α-устойчивых случайных величин
Введем ряд обозначений для α-устойчивых распределений, которые понадобятся нам
при изучении асимптотического предела оценки индекса Джини. Случайная величина
X следует α-устойчивому распределению — пишут: X ~ S(α, β, ɣ, δ), — если ее характеристическая функция

,

где α ∈ (0, 2) управляет хвостом, β ∈ [–1, 1] — коэффициент асимметрии, ɣ ∈ ℝ+ —
коэффициент масштаба и δ ∈ ℝ — коэффициент положения. Эта система параметров
α-устойчивых распределений называется S 1 [181, 2091].
Любопытно, что α — индекс α-устойчивой случайной величины соответствует
α — показателю хвоста правильно меняющейся функции согласно формуле (13.1).
Как показано в [91, 181], правильно меняющаяся случайная величина порядка α является α-устойчивой. Поэтому мы здесь не вводим для этих параметров разных обозначений. Поскольку мы работаем с распределениями, характеризующимися конечным
средним, но бесконечной дисперсией, мы ограничиваем диапазон α ∈ (0, 2), и при
таком ограничении две альфы совпадают.
Напомним, что при α ∈ (1, 2] математическое ожидание α-устойчивой случайной
величины X совпадает с коэффициентом положения δ, т. е. 𝔼X = δ. За подробностями
отсылаем к [181, 209].
Стандартная α-устойчивая случайная величина кратко записывается
Sα, β ~ S(α, β, 1, 0).

(13.9)

Заметим, что α-устойчивые распределения составляют подкласс бесконечно делимых распределений. Благодаря замкнутости по свертке их можно использовать для
описания предельного поведения (масштабированнных) частичных сумм
в контексте обобщенной центральной предельной теоремы (Generalized central limit
theorem, GCLT) [91]2. В особом случае α = 2 получаем нормальное распределение —
предельное распределение классических вариантов ЦПТ, предполагающих конечную
дисперсию.

1 Именно в этой, второй ссылке указана книга Геннадия Пенхосовича Самородницкого и Мюрада Такку
(1994) с параметрами, которые в дальнейшем стали называться системой параметров S 1 (только там
распределение и параметры обозначены Sα(σ, β, μ), где σ ∈ ℝ+ — коэффициент масштаба и μ ∈ ℝ — коэффициент положения).
2 Уильям Феллер в книге по ссылке формулирует такую «обобщенную ЦПТ»: пусть Xk следуют симметричным распределениям Fk и пусть при всех t > 0

Тогда можно доказать, что

.

300

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Далее о случайной величине в аттракторе α-устойчивого распределения будем
писать X ∈ DA(Sα). Заметим только, что данное условие для предела частичных сумм
равносильно условию в формуле (13.2) для предела частичных максимумов [82, 91].
13.2.2. α-устойчивый асимптотический предел индекса Джини
Рассмотрим выборку н. о. р. наблюдений X1, …, Xn с непрерывной кумулятивной функцией F(x) в классе правильно меняющихся функций, определенных формулой (13.1),
с показателем хвоста α ∈ (1, 2). Порождающий процесс этой выборки принадлежит
аттрактору распределения Фреше с ρ ∈

, поскольку

.

Следующие две теоремы помогут нам получить асимптотическое распределение
для оценки индекса Джини, представленного формулой (13.6), когда порождающий
процесс характеризуется бесконечной дисперсией: Теорема 1 касается предельного
распределения «средней разности по Джини», числителя в формуле (13.6), а Теорема 2 распространяет этот результат на весь индекс Джини. Доказательства обеих
теорем вынесены в Приложение.
Теорема 1
Рассмотрим последовательность (Xi)1 ≤ i ≤ n н. о. р. случайных величин на [c, +∞) при
c > 0, чтобы распределение X принадлежало аттрактору α-устойчивого распределения, X ∈ DA(Sα) при α ∈ (1, 2). Тогда среднее отклонение Джини (Gini mean deviation,
Gini Mean Difference, GMD) по выборке
сходится по распределению

(13.10)
где Zi = (2F(Xi) – 1)Xi, 𝔼Zi = ϑ, L0(n) — медленно меняющаяся функция, удовлетворяющая формуле (13.37) (см. Приложение) и Sα, 1 — стандартное α-устойчивое распределение с перекосом вправо согласно формуле (13.9).
Более того, статистический показатель

— асимптотически состоя-

тельная оценка для GMD, т. е.
.
Заметим, что Теорему 1 можно переформулировать в терминах максимального
аттрактора MDA(Φ(ρ)) согласно формуле (13.2).
Теорема 2
При посылках Теоремы 1 оценка индекса Джини
пределению

сходится по рас-

(13.11)
где 𝔼Zi = ϑ, 𝔼Xi = μ, L0(n) — медленно меняющаяся функция, заданная в Теореме 1,
и случайная величина Q следует α-устойчивому распределению с перекосом вправо

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

Более того, статистический показатель
тельная оценка для индекса Джини, т. е.

301

— асимптотически состоя.

В ситуации жирных хвостов порождающего процесса, при α ∈ (1, 2), Теорема 2
говорит нам, что асимптотическое распределение оценки Джини перекошено вправо,
независимо от других подробностей порождающего процесса. Поэтому жирнохвостые данные не просто делают предельную оценку Джини жирнохвостой, они изменяют форму предельного закона, отклоняя его от обычной симметричной гауссианы.
В результате оценка Джини, хотя ей по-прежнему гарантирована асимптотическая
состоятельность [151], приближается к истинному значению медленно и снизу. Мы
уже видели подобное поведение в Таблице 13.1.
13.3. ОЦЕНКА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ
Теорема 2 показывает, что обычная непараметрическая оценка индекса Джини — не
лучший выбор в ситуации распределений с бесконечной дисперсией, так как ее распределение в асимптотическом пределе перекошено и жирнохвосто. Наша цель —
найти оценки, распределение которых остается асимптотически нормальным даже
после перехода к порождающим процессам с жирными хвостами, и эта цель недостижима для непараметрических методов, поскольку они все подпадают под центральную предельную теорему для α-устойчивых распределений [82, 91]. Значит, придется
прибегнуть к параметрическим техникам.
Как показывает Теорема 3, если известно параметрическое семейство порождающего процесса, то можно оценить индекс Джини при помощи ММП. Полученная
оценка не просто асимптотически нормальная, она асимптотически эффективная.
В Теореме 3 мы рассматриваем случайные величины X, распределение которых
принадлежит обширному и гибкому экспоненциальному семейству [211], т. е. плотность представима как
fϑ(x) = h(x) eη(ϑ)T(x) – A(ϑ),
где ϑ ∈ ℝ и T(x), η(ϑ), h(x) и A(ϑ) — известные функции.
Теорема 3
Пусть X ~ Fϑ из экспоненциального семейства. Тогда оценка ϑ методом максимального правдоподобия дает асимптотически нормальную и эффективную оценку
индекса Джини, GML(Xn)ϑ. А именно:
(13.12)
где

и I — информация Фишера.

Доказательство. Результат легко получить из асимптотической эффективности
оценок максимального правдоподобия для экспоненциального семейства и принципа
инвариантности оценок ММП. В случае индекса Джини принцип инвариантности
гарантирован непрерывностью и монотонностью gϑ по ϑ. Асимптотическая дисперсия
выводится дельта-методом [211].


302

Н АС С И М Н И К ОЛ АС ТА Л Е Б

13.4. ИЛЛЮСТРАЦИЯ С РАСПРЕДЕЛЕНИЕМ ПАРЕТО
Для иллюстрации используем искусственно сгенерированные жирнохвостые данные,
распределенные по Парето I [185] с плотностью
f (x) = αcαx–α – 1, x ≥ c.

(13.13)

Нетрудно убедиться, что соответствующая функция выживания F̅(x) принадлежит
правильно меняющемуся классу с коэффициентом хвоста α и медленно меняющейся
функцией L(x) = cα1. Поэтому мы можем применить результаты Раздела 13.2 и получить приведенные ниже следствия.
Следствие 13.1
Пусть X1, …, Xn — последовательность н. о. р. наблюдений, распределенных по
Парето с показателем хвоста α ∈ (1, 2). Непараметрическая оценка Джини характеризуется следующим пределом:
2

.

(13.14)

Доказательство. Без потери общности примем c = 1 в формуле (13.13). Нужный
результат получим простым применением Теоремы 2, помня, что распределение
Парето — в аттракторе α-устойчивых случайных величин с медленно меняющейся
функцией L(x) = 1. Последовательность cn, удовлетворяющих формуле (13.37), превращается в
; поэтому
и не зависит от n. Кроме того, среднее
распределения также является функцией α, то есть
.
Следствие 13.2
Пусть выборка X1, …, Xn распределена как в Следствии 13.1 и пусть
— оценка
индекса Джини максимального правдоподобия, как указано в Теореме 3. Тогда оценка
Джини по ММП, масштабированная по истинному среднему g, имеет предел
(13.15)
где 𝒩 — гауссово распределение.
Доказательство. Известно функциональное представление оценки индекса
Джини максимального правдоподобия:

[144]. Поэтому нужный резуль-

тат следует из того факта, что распределение Парето (с известным минимальным
значением xm) принадлежит экспоненциальному семейству, а значит, удовлетворяет
условиям регулярности для асимптотической нормальности и эффективности оценки
максимального правдоподобия. Заметим также, что информация Фишера для распределения Парето имеет вид

.

1 То есть константой.
2 Обозначение Cα объясняется в формуле (13.37).



С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

303

Теперь, выведя оба асимптотических распределения, можем сравнить качество
сходимости оценки ММП и непараметрической оценки, когда данные распределены
по Парето — прототипического примера жирнохвостых наблюдений. В частности,
можем аппроксимировать распределение отклонений оценки от истинного значения g индекса Джини при конечных размерах выборки, используя формулы (13.14)
и (13.15).
Предельное распределение
при 1,8; ММП и непараметрические
140

Предельное распределение
при 1,6; ММП и непараметрические

ММП

ММП

80

120

n = 100

100

n = 500

80

n = 1000

n = 100
n = 500

60

n = 1000
40

60
40

20

20
0

0
–0,1

–0,05

0

0,05

0,1

–0,15

Отклонение от среднего значения

–0,1

–0,05

0

0,05

0,1

–0,15

Отклонение от среднего значения

(a) α = 1,8

(b) α = 1,6

Предельное распределение
при 1,4; ММП и непараметрические

Предельное распределение
при 1,2; ММП и непараметрические
30

50

ММП

40

ММП

n = 100

25

n = 100

n = 500

20

n = 500

n = 1000

30

n = 1000

15

20

10

10

5

0

0
–0,2

–0,1

0

0,1

0,2

–0,3

–0,2

–0,1

0

0,1

Отклонение от среднего значения

Отклонение от среднего значения

(c) α = 1,4

(d) α = 1,2

0,2

Рисунок 13.3: Сравниваем асимптотические распределения оценок максимального правдоподобия и непараметрических оценок при различных показателях хвоста α. Число наблюдений ММП
всюду постоянно, n = 100. Заметим, что, даже если у всех распределений среднее ноль, мода распределений непараметрической оценки отличается от нуля в силу их асимметрии

На Рисунке 13.3 показано, как распределены отклонения от среднего для двух
типов оценки и как эти распределения сжимаются с ростом числа наблюдений. Для
наглядности мы зафиксировали число наблюдений для оценок ММП, варьируя его
только для непараметрических оценок. Мы провели данное исследование для разных
показателей хвоста порождающего процесса, чтобы показать, каково воздействие
жирнохвостости на состоятельность оценки. Следует заметить, что при уменьшении
показателя хвоста вблизи 1 (порог, за которым среднее станет бесконечным) мода распределения непараметрической оценки существенно смещается от среднего того же
распределения (которое по определению 0: ведь речь об отклонении от среднего). Этот

304

Н АС С И М Н И К ОЛ АС ТА Л Е Б

эффект ответственен за наблюдаемую на практике систематическую ошибку малых
выборок. И такого не происходит с оценкой ММП благодаря нормальности предела
при любых показателях хвоста.
Сформулируем эту мысль в более строгих терминах, оценив число наблюдений ñ,
при котором точность непараметрической оценки сравняется с ММП в сценариях
с различными хвостами. Рассмотрим функцию отношения правдоподобия
(13.16)
и
— вероятности (соответственно α-устойчивая и гауссова)
где
того, что центральные оценки (непараметрическая или ММП) превысят порог c, фигурирующий в формулах (13.15) и (13.14). В непараметрическом случае числу наблюдений n позволено изменяться, а в случае ММП оно зафиксировано на ста. Затем найдем
значение ñ, при котором r (c, ñ) = 1 для данного c.
В Таблице 13.2 показаны результаты при разных порогах c и показателях хвоста α.
Видно, в частности, что показатель ММП эффективнее, чем непараметрический, для
которого требуется намного больше наблюдений, чтобы достичь той же хвостовой
вероятности, как у ММП при n = 100. Так, при α = 1,2 непараметрической оценке требуется 80 × 106 наблюдений, чтобы вероятность нарушения порога ±0,02 стала такой
же, как у оценки ММП.
Таблица 13.2: Число наблюдений ñ, при котором непараметрическая оценка сравняется
по хвостовым вероятностям с оценкой ММП из фиксированного числа наблюдений
n = 100 — для различных порогов c и различных показателей хвоста α
Порог c из формулы (13.16)
α
1,8
1,5
1,2

0,005
27×103
21×104
33×108

0,01
12×105
21×104
67×107

0,015
12×106
46×105
20×107

0,02
63×105
81×107
80×106

Интересно заметить, что число наблюдений, при котором совпадают хвостовые
вероятности в формуле (13.16), зависит от порога неравномерным образом. Это можно
было предвидеть, ведь порог пробегает от нуля до бесконечности, а хвостовые вероятности остаются неизменными для данного значения n. С учетом того, что предельные
распределения одногорбые, можно ожидать, что необходимое число наблюдений для
совпадения хвостовых вероятностей будет взлетать до больших значений лишь после
пересечения некоторого порога.
Вывод: при жирнохвостых данных с бесконечной дисперсией оценка на основе
обычного ММП лучше, чем непараметрическая.
13.5. ПОПРАВКА НА МАЛУЮ ВЫБОРКУ
Теорему 2 можно также использовать для корректировки смещения непараметрической оценки при малых размерах выборки. Идея в том, чтобы осознать роль симметрии для одногорбых распределений, где большинство наблюдений близки к моде.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

305

При симметричных распределениях мода совпадает со средним, и большинство
наблюдений близки к среднему, но при асимметричных распределениях это не так:
у непрерывного одногорбого распределения с перекосом вправо мода меньше среднего. Учитывая, что асимптотическое распределение непараметрической оценки
индекса Джини перекошено вправо, ожидается, что наблюдаемое значение индекса
Джини будет обычно занижаться (по сравнению со средним). Это расхождение (т. е.
систематическая ошибка) можно количественно охарактеризовать расстоянием между
модой и средним, и при известном расстоянии можно скорректировать оценку Джини,
прибавив к ней эту величину, недооценку1.
На языке формул задача в том, чтобы вывести такую скорректированную непараметрическую оценку GC(Xn), что
GC(Xn) = GNP(Xn) + ||m(GNP(Xn)) – 𝔼GNP(Xn)||,

(13.17)

где ||m(GNP(Xn)) – 𝔼 GNP(Xn)|| — расстояние между модой m и средним распределения
непараметрической оценки Джини GNP(Xn).
Корректировка по формуле (13.17) равносильна сдвигу распределения GNP(Xn),
совмещающему моду с истинным значением индекса Джини.
Идеально было бы измерить расстояние мода — среднее ||m(GNP(Xn)) – 𝔼GNP(Xn)||,
пользуясь точным распределением индекса Джини; тогда бы поправка получилась
максимально точной. Однако распределение конечной выборки не всегда легко вывести: для него требуются предположения о структуре параметров порождающего процесса (и для жирнохвостых данных она в большинстве случаев неизвестна [144]).
Поэтому мы предлагаем приблизить распределение конечной выборки предельным
распределением непараметрического Джини, полученным в Разделе 13.2, и оценивать
расстояние мода — среднее по предельному распределению. Такой порядок действий
оставляет больше свободы при выборе допущений модели и потенциально уменьшает
число оцениваемых параметров — учитывая, что предельное распределение зависит только от показателя хвоста и среднего данных и среднее обычно можно считать
функцией показателя хвоста; например, в случае Парето
.
Воспользовавшись этой зависимостью, положение — масштаб α-устойчивых распределений и формулой (13.11), аппроксимируем распределение GNP(Xn) для конечных
выборок
GNP(Xn) ~ S(α, 1, ɣ(n), g),
где

(13.18)

— коэффициент масштаба предельного распределения.

Как следствие, благодаря линейности моды для α-устойчивых распределений
имеем
||m(GNP(Xn)) – 𝔼GNP(Xn)|| ≈ ||m(α, ɣ(n)) + g – g)|| = ||m(α, ɣ(n))||,
где m(α, ɣ(n)) — функция моды α-устойчивого распределения с нулевым средним.

1 Во время написания статьи мы проверили и другую идею — использовать расстояние между медианой
и средним. Эффективность оказалась сравнимая. — Прим. автора.

306

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Таким образом, искомая поправка не требует знания истинного индекса Джини —
ведь m(α, ɣ(n)) не зависит от g. Тогда поправку можно оценить как
1

,

(13.19)

где обрабатываемая численными методами функция s(x) аналогична плотности соответствующего α-устойчивого распределения в формуле (13.18), только сцентрированная в 0. Это связано с тем, что для α-устойчивых распределений мода недоступна
в виде аналитических выражений, но легко находится численно [181], пользуясь единственностью горба.
Таким образом, скорректированная непараметрическая оценка
GC(Xn) = GNP(Xn) + m̂(α, ɣ(n))

(13.20)

имеет асимптотическое распределение
GC(Xn) ~ S(α, 1, ɣ(n), g + m̂(α, ɣ(n))).

(13.21)

Заметим, что поправка m̂(α, ɣ(n)) зависит от показателя хвоста α порождающего
процесса и через коэффициент масштаба ɣ(n) соответствующего предельного распределения — от размера выборки n, причем зависимость m̂(α, ɣ(n)) от n убывающая, и
m̂(α, ɣ(n)) = 0. Дело в том, что с ростом n распределение, описанное формулой
(13.18), центрируется вокруг среднего, сжимая расстояние между модой и средним до
нуля. Тем самым гарантируется асимптотическая эквивалентность скорректированной оценки и непараметрической. Достаточно учесть, что

Естественно, поправка улучшает GC(Xn) при малых выборках. Также учтем,
что, согласно формуле (13.21), у распределения скорректированной оценки среднее равно сумме g + m̂ (α, ɣ(n)), которая сходится к истинному индексу Джини g
при n → ∞.
Теоретически качество данной поправки можно измерить и улучшить, поскольку
оно зависит от расстояния между точным распределением GNP(Xn) и его α-устойчивым
пределом: чем ближе эти два распределения друг к другу, тем лучше наша приближенная оценка. Однако в большинстве случаев точное распределение GNP(Xn) неизвестно
и подробности недоступны.
Из уже изложенного выше ясно, что поправка зависит от показателя хвоста данных и, возможно, от их среднего. Если данные параметры неизвестны априори, их

1 Аргумент максимизации:
— значение аргумента, при котором f (x) достигает максимума.
В англоязычной литературе пишут с пробелом
.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

307

придется оценить. Это внесет дополнительную неопределенность, которая отразится
на качестве поправки.
В заключении этого раздела обсудим влияние корректирующей процедуры на
простом примере. В эксперименте Монте-Карло мы моделируем 1000 выборок из данных по Парето — увеличивая размер выборки от n = 10 до n = 2000, — и для каждого
размера выборки вычисляем исходную непараметрическую оценку GNP(Xn) и скорректированную GC(Xn). Мы повторяем эксперимент при различных α. Результаты показаны на Рисунке 13.4.
Очевидно, что скорректированные оценки всегда лучше нескорректированных —
имеют меньшее абсолютное отклонение от истинного значения Джини. В нашем
конкретном эксперименте при малых размерах выборки n ≤ 1000 видно разительное
улучшение при всех показателях хвоста α ∈ (1, 2). При больших размерах выборки,
как и следовало ожидать, различие между оценками сокращается; наша поправка убывающим образом зависит от n и от α. Заметим, что при показателе хвоста 2 получим
симметричное гауссово распределение и совпадение обеих оценок, потому что при
конечной дисперсии непараметрическая оценка не смещена.
Скорректированная и исходная оценки;
показатель хвоста данных 1,8

Скорректированная и исходная оценки;
показатель хвоста данных 1,6

1

1

Скорректированная оценка

Скорректированная оценка
0,8

0,8

Исходная оценка
Истинное значение

0,6

Исходная оценка
Истинное значение

0,6

0,4

0,4

0,2

0,2

0

0
0

500

1000

1500

2000

0

(a) α = 1,8

(b) α = 1,6

1500

2000

Скорректированная и исходная оценки;
показатель хвоста данных 1,2

1

1

0,8

0,8

0,6

0,6

Скорректированная оценка
Исходная оценка

0,2

1000

Размер выборки

Скорректированная и исходная оценки;
показатель хвоста данных 1,4

0,4

500

Размер выборки

0,4

Скорректированная оценка
Исходная оценка

0,2

Истинное значение

0

Истинное значение

0
0

500

1000

1500

2000

0

500

1000

Размер выборки

Размер выборки

(c) α = 1,4

(d) α = 1,2

1500

Рисунок 13.4: Сравниваем скорректированную непараметрическую оценку (красная, верхняя
кривая) и обычную непараметрическую оценку (черная, нижняя кривая). При малых размерах
выборки поправка явно улучшает качество оценки

2000

308

Н АС С И М Н И К ОЛ АС ТА Л Е Б

13.6. ВЫВОДЫ
В этой главе мы изучили асимптотическое поведение непараметрической оценки
индекса Джини в ситуации бесконечной дисперсии порождающего процесса, которая странным образом игнорируется в литературе. Коренная ошибка широко применяемых непараметрических методов состоит в предположении, что асимптотическая
состоятельность гарантирует хорошее доасимптотическое поведение.
Мы показали, что параметрический подход улучшает асимптотические результаты благодаря свойствам оценки максимального правдоподобия. Поэтому мы настаиваем, что при подозрении в жирнохвостости данные предпочтительно обрабатывать
параметрическими методами.
В ситуациях, где полностью параметрический подход недоступен, мы предлагаем
простой механизм, корректирующий непараметрическую оценку с учетом расстояния
между модой и средним ее асимптотического распределения. Но даже при успешном вычислении поправки мы предлагаем пользоваться скорректированной оценкой
с осторожностью, поскольку поправка вносит дополнительную неопределенность.
ТЕХНИЧЕСКОЕ ПРИЛОЖЕНИЕ
Доказательство Леммы 13.1
Пусть U = F(X) — равномерно распределенная случайная величина, полученная из
случайной величины X стандартным интегральным преобразованием. Для упорядоченных статистических данных имеем [56]:
. Поэтому
(13.22)
Из определения эмпирического распределения вероятностей следует, что
(13.23)
где

— эмпирическое кумулятивное распределение случайных вели-

чин, следующих равномерному распределению.
Чтобы доказать сходимость
, мы ограничим Rn сверху последовательностью, сходящейся к нулю. Начнем с того, что
(13.24)
Чтобы построить ограничивающую последовательность для выражения в правой
части формулы (13.24), можно использовать тот факт, что даже при L1-интегрируемой
F –1(U(i)) разность Fn(U(i)) – U(i) интегрируема бесконечно и можно применить неравенство Гёльдера при q = ∞ и p = 1. Из него следует, что
(13.25)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

309

Далее по неравенству Коши — Шварца1

(13.26)

Теперь вспомним, что независимо от упорядочивания последовательности н. о. р.
Ui, i = 1, …, n, сумма
. Поэтому вторую
часть формулы (13.26) можно представить в виде

.

(13.27)

Достаточно будет доказать, что это выражение стремится к нулю при n → ∞.
Мы знаем, что Fn — эмпирическая функция распределения равномерно распределенных случайных величин. Применяя неравенство треугольника, можем ограничить
выражение, которое в формуле (13.27) возводится в степень :

(13.28)

Поскольку мы работаем с равномерно распределенными случайными величинами, F(U) = U, и второе слагаемое в правой части исчезает.
Далее мы можем ограничить
при помощи так называемого
неравенства2 Вапника — Червоненкиса, равномерного ограничения для эмпирических процессов [29, 55, 258], и получить

(13.29)

1 Cauchy-Schwarz inequality в русской литературе также называется неравенством Коши — Буняковского.
2 Теория Вапника — Червоненкиса (Vapnik–Chervonenkis theory, VC) изучает эффективность статистического обучения. В ней в качестве функции потерь классификатора f рассматривается R( f ) ≜ ℙ(f (X) ≠ Y)
и оценивается эмпирический риск
, который согласно теореме VC сходится
к функции потерь:
чем какая-нибудь степень n..

, если

не растет быстрее,

310

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Комбинируя формулу (13.29) с формулой (13.27), получаем ограничивающую
последовательность
(13.30)
которая стремится к нулю при n → ∞, что и требовалось для первого утверждения
леммы.
Чтобы доказать второе утверждение леммы, достаточно заметить, что правая
часть формулы (13.30) продолжит сходиться к нулю даже после умножения на
если α ∈ (1, 2).

,

Доказательство Теоремы 1
Первая часть доказательства будет состоять в том, что мы перепишем формулу (13.10)
как функцию н. о. р. случайных величин, а не упорядоченных данных статистики,
чтобы стало возможным сослаться на центральную предельную теорему (ЦПТ).
Начнем с последовательности
(13.31)
, где случайИспользуя интегральное преобразование вероятности
ная величина U следует стандартному равномерному распределению1, и прибавляя
и вычитая
как

, можем в формуле (13.31) переписать правую часть

(13.32)
Затем, пользуясь свойствами упорядоченных статистических данных [56], получаем следующую эквивалентность почти наверное:
(13.33)
Заметим, что первое слагаемое в правой части формулы (13.33) является нужной
нам функцией н. о. р. случайных величин, тогда как второе слагаемое представляет
собой остаток; поэтому введем обозначения

1 Standard uniform distribution — распределение вероятностей

. Любую непрерывную

случайную величину X можно преобразовать в стандартную равномерную
, использовав
в качестве преобразования F распределение вероятностей этой случайной величины, F(x) = FX (x). И наоборот, произвольную непрерывную случайную величину X можно представить как результат преобразования стандартной равномерной случайной величины

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

311

где
Учитывая формулу (13.10) и пользуясь разложением согласно (13.33), можем
переписать наше утверждение как
(13.34)
Пользуясь вторым утверждением Леммы 13.1 и теоремой1 Слуцкого, можно доказать сходимость в формуле (13.10), обратив внимание на поведение последовательности
(13.35)
где Zi = (2Ui – 1)F –1(Ui) = (2F(Xi) – 1) Xi. Поэтому для доказательства теоремы достаточно доказать, что Zi принадлежит жирнохвостому аттрактору.
Напомним, что, согласно посылке, X ∈ DA(Sα), где α ∈ (1, 2). Данное допущение
позволяет использовать вариант ЦПТ, утверждающий сходимость суммы толстохвостых случайных величин. Однако нужно еще доказать, что и Z ∈ DA(Sα), т. е. что
ℙ(|Z| > z) ~ L(z)z –α, где α ∈ (1, 2) и L(z) медленно меняющаяся функция.
Заметим, что
ℙ(|Z̃| > z) ≤ P(|Z| > z) ≤ ℙ(2X > z),
где Z̃ = (2U – 1)X и U ⟂ X. Первое ограничение опирается на положительную зависимость между X и F(X), и его удается строго доказать после того, как мы заметим, что
2UX ≤ 2F(X)X в силу так называемого перестановочного неравенства2 [122]. Ограничение сверху, в свою очередь, тривиально.
Пользуясь свойствами медленно меняющихся функций, представим
ℙ(2X > z) ~ 2αL(z)z –α. Чтобы доказать Z̃ ∈ DA(Sα), воспользуемся теоремой3 Бреймана,
которая гарантирует замкнутость класса α-устойчивых распределений по умножению,
если у второго сомножителя не слишком жирный хвост [267].
1 Теорема Слуцкого, она же теорема Крамера, гласит следующее. Пусть две последовательности случайных величин сходятся: одна по распределению к случайной величине и другая по вероятности к константе,
и
. Тогда
и
.
2 Оно же неравенство об одномонотонных последовательностях, или транснеравенство. Если две числовые последовательности одинаковой длины x1, …, xn и y1, …, yn заданы с точностью до перестановок, то упорядочение x(1) ≤ … ≤ x(n) и y(1) ≤ … ≤ y(n) обеспечивает максимальное скалярное произведение
x(1) y(1) + … + x(n) y(n).
3 Теорема Бреймана (1965) доказывает, что если X ∈ MDA(Φɣ) при некотором ɣ > 0 и Y удовлетворяет
𝔼 Y ɣ + ε < ∞ при некотором ε > 0, то
при x > 0 и MDA — максимальный аттрактор.

. Здесь Φ — распределение Фреше, Φɣ(x) = exp(–x–ɣ)

312

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Чтобы применить эту теорему, перепишем ℙ(|Z̃ | > z) как
ℙ(|Z̃ | > z) = ℙ(Z̃ > z) + ℙ(–Z̃ > z) = ℙ(ŨX > z) + ℙ(–ŨX > z),
где Ũ — стандартная равномерная случайная величина и Ũ ⟂ X.
Сосредоточимся на ℙ(ŨX > z), поскольку процедура для ℙ(–ŨX > z) такая же.
ℙ(ŨX > z) = ℙ(ŨX > z | Ũ > 0) ℙ(Ũ > 0) + ℙ(ŨX > z | Ũ ≤ 0) ℙ(Ũ ≤ 0), при z → +∞.
Вероятность ℙ(ŨX > z | Ũ ≤ 0) → 0. В то же время, применяя теорему Бреймана,
для ℙ(ŨX > z | Ũ > 0) можно получить
ℙ(ŨX > z | Ũ > 0) → 𝔼(Ũ α | U > 0) ℙ(X > z) ℙ(U > 0).
Следовательно,

Таким образом,

откуда по теореме сжатия1 [91] можно заключить, что
ℙ(|Z̃| > z) ~ L(z)z –α
при z → ∞. Следовательно, Z ∈ DA(Sα).
Теперь мы готовы применить обобщенную центральную предельную теорему [82]
к последовательности Zi:
(13.36)
где Sα, β — стандартная α-устойчивая случайная величина, 𝔼Zi = ϑ и cn — последовательность, которая должна удовлетворять требованию
(13.37)

где L0(n) — тоже медленно
Заметим, что cn можно представить как
меняющаяся функция, не обязательно совпадающая с L(n).
1 Она же «теорема о двух милиционерах» (карабинерах, жандармах, городовых), она же «теорема о сэндвиче» (sandwich theorem): функция, которая ограничена снизу и сверху функциями, сходящимися
к общему пределу, сходится к тому же пределу.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

313

Коэффициент асимметрии β таков, что

Вспоминая, что, по построению, Z ∈ [–c, +∞), можем данное выражение свести к
(13.38)
и, следовательно, β = 1. Это, в сочетании с формулой (13.34), результатом для остатка Rn
в Лемме 13.1 и теоремой Слуцкого, позволяет нам заключить, что те же слабые пределы остаются в силе и для упорядоченной последовательности Z(i) в формуле (13.10).
Доказательство Теоремы 2
В качестве первого шага докажем, что оценка индекса Джини

, где фигурирует1

упорядочение последовательности н. о. р., эквивалентна по распределению отношению

2

. Для этого достаточно применить разложение из формулы (13.33) к фор-

муле (13.11), получив
(13.39)
Опираясь на Лемму 13.1 и применяя теоремы о непрерывном отображении
и Слуцкого, удается доказать, что второе слагаемое в (13.39) сходится по вероятности
к нулю. Таким образом, для доказательства утверждения теоремы достаточно доказать
слабый предел для последовательности
(13.40)
Раскрывая формулу (13.40) и вспоминая, что Zi = (2F(Xi) – 1)Xi, получаем
(13.41)
Сомножитель

в формуле (13.41) сходится по вероятности к ; это доказы-

вается по теореме о непрерывном отображении с учетом того факта, что наши случайные величины X положительные. Следовательно, этот сомножитель можно учесть
в пределе по теореме Слуцкого.
1 Через
2 Где Zi = (2F(Xi) – 1)Xi, то есть определяется через Xi без упорядочения.

314

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Сначала сосредоточимся на исследовании предельного закона для сомножителя
(13.42)

Обозначим
Чтобы

характеризовать

и заметим, что 𝔼Ẑi = 0, поскольку 𝔼Zi = ϑ и 𝔼Xi = μ.
предельное

распределение

последовательности

согласно ОЦПТ, нужно, чтобы Ẑ ∈ DA(Sα). Если это верно, то ОЦПТ
применима к
(13.43)
Заметим, что в силу 𝔼Ẑi = 0 формула (13.43) равносильна формуле (13.42).
Чтобы доказать Ẑ ∈ DA(Sα), вспомним, что последовательность
есть не что иное, как сдвинутая на

последовательность Zi = (2F(Xi) – 1)Xi.

Рассуждая аналогично тому, как в Теореме 1 рассуждали о Z, доказываем Ẑ ∈ DA(Sα).
В частности, укажем, что Ẑ и Z (и, следовательно, X) характеризуются одним и тем же
показателем α и медленно меняющейся функцией L(n).
Заметим, что согласно посылке теоремы X ∈ [c, ∞) и c > 0 и что мы имеем дело
с непрерывными распределениями, так что

. Поэтому левый хвост Ẑ

не вносит вклада в предельный коэффициент асимметрии b, который остается равным 1 (как для Z) согласно уравнению (13.38).
Следовательно, по ОЦПТ мы, наконец, получаем
(13.44)

В завершение доказательства заметим, что, как доказывается формулой (13.39),
слабый предел для индекса Джини характеризуется последовательностью н. о. р.
, без упорядочивания и что α-устойчивая случайная величина замкнута по масштабированию с постоянным коэффициентом [209].

14
СУПЕРАДДИТИВНОСТЬ
И СМЕЩЕННЫЕ ОЦЕНКИ
ВКЛАДА КВАНТИЛЕЙ ‡a

Сделанная по выборке количественная оценка вклада, внесенного верхним
процентилем (концентрация), смещена вниз, неустойчива, крайне чувствительна к размеру выборки и выпукла вверх по большим отклонениям. Она
дополнительно портится в доменах с хвостами степенного закона, особенно при низких значениях показателя. Как показано в настоящей статье,
такие оценки могут варьировать с течением времени и повышаться с увеличением выборки, создавая иллюзию структурных изменений, отслеживаемых изменениями концентрации. Кроме того, такие оценки несостоятельны при суммировании и комбинировании распределений, поскольку
взвешенное среднее оценок концентрации в A и B имеет тенденцию оказываться ниже оценки концентрации в A ∪ B. И можно показать, что при
толстых хвостах рост общей суммы должен сопровождаться ростом размера выборки для количественной оценки концентрации. Мы исследуем
супераддитивность этой оценки и смещение при однородных и смешанных распределениях.

14.1. ВВЕДЕНИЕ
Вильфредо Парето в свое время заметил, что 80 % земель в Италии принадлежит 20 %
населения и наоборот, и от этого наблюдения начинается изучение класса распределений по степенному закону и распространяется популярная фраза «80 на 20». Самоподобие — фундаментальное свойство степенных законов [162] и [163] — допускает
рекурсию: правило «80 на 20» применимо к оставшимся 20 % и так далее; для верхнего процента населения получаем владение 53 % всего богатства.
Похоже, данный способ количественно оценить концентрацию подвержен существенной систематической ошибке, зависящей от способа измерения, и вполне вероятно, что реальное отношение концентрации, наблюдавшееся Парето, было выше:
верхний процентиль мог быть ближе к 70 %, а если бы в последующем выборка росла,
то оценка, приближаясь к истинному уровню, также росла бы с годами. Мы покажем, что чем полнее выборка начинает представлять, например, благосостояние жите-

316

Н АС С И М Н И К ОЛ АС ТА Л Е Б

лей — благодаря технологическому прогрессу, — а также чем больше становится само
население и экономика, тем больше растет данный показатель просто в силу расширения пространства выборки и роста суммарного значения.

Рисунок 14.1: Вильфредо Парето в молодости,
до того, как открыл степенные законы

Суть проблемы в том, что в классе случайных величин с одним жирным хвостом — ограниченных слева и неограниченных справа, X ∈ [xmin, ∞), — вклад квантиля
в выборку оказывается смещенной оценкой для истинного вклада этого квантиля.
Определим вклад q-го квантиля

где
— порог, который случайная величина X превышает с вероятностью q.
Для данной выборки (Xk)1 ≤ k ≤ n «естественной» оценкой, используемой в большинстве академических исследований, служит отношение
можно выразить как

где ĥq — оценка порога для превышения с вероятностью q:

, которое

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

317

Мы увидим, что наблюдаемая величина смещена вниз относительно истинного
отношения κq, такого, которое должно оставаться в силе за пределами выборки; что
эта систематическая ошибка находится в прямой зависимости от жирности хвоста
распределения; что при большой жирности недооценка остается существенной даже
при огромных размерах выборки.
14.2. ОЦЕНКА ДЛЯ НЕСМЕШАННЫХ РАСПРЕДЕЛЕНИЙ С ХВОСТОМ
ПАРЕТО
Пусть X — случайная величина из класса распределений с правым хвостом степенного закона, то есть:
ℙ(X > x) = L(x) x –α,
(14.1)
где L: [xmin, +∞) → (0, +∞) — медленно меняющаяся функция, определяемая критерием
при всех k > 0.
При низких порогах квантиля (< 50 %) различия между распределениями слабы, будь
то t-распределение Стьюдента, α-устойчивое распределение по Леви, распределение Дагума1 [53], [54], распределение Сингха — Маддалы2 [213] или само распределение Парето.
При показателях хвоста 1 ≤ α ≤ 2, как замечено в [235] (Глава 8 в этой книге), закон
больших чисел работает, но крайне медленно. Проблема обостряется при приближении сверху к 1, а при α = 1 сходимость пропадает вовсе.
14.2.1. Смещение и сходимость
Простое распределение Парето. Рассмотрим вначале плотность φα(x) распределения
α-Парето с нижней границей xmin > 0, то есть
пределение

, и кумулятивное рас-

. При таких допущениях отсечение q-квантиля происхо-

дит в точке h(q) = xmin q –1/α, и доля этого квантиля получается
(14.2)
Даже если распределение случайной величины X следует α-Парето только после
точки отсечения xcut и эта точка ниже границы квантиля h(q), так что
при некотором λ > 0, мы все еще знаем границу h(q) = λ q–1/α, и

1 Случайная величина X распределена по Дагуму, X ~ 𝒟(a, b, p, δ), где коэффициенты формы a, p > 0, коэффициент масштаба b > 0 и масса в начальной точке δ ∈ [0, 1], если распределение вероятностей FX (x) =
= δ + (1 – δ)(1 + (x/b)–a)–p. При этом индекс Джини

. Среднее существует при

a > 1, дисперсия существует при a > 2.
2 Распределению Сингха — Маддалы (S. K. Singh, G. S. Maddala), оно же распределение Бэрра
(Irving W. Burr), следует случайная величина вида 1/X, где случайная величина X следует дагумову распределению.

318

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Таким образом, для оценки κq требуется знать показатель α и коэффициент масштаба λ или хотя бы его отношение к математическому ожиданию случайной величины X.
В Таблице 14.1 показано смещение
от κq в случае распределения α-Парето
с α = 1,1 — это значение выбрано как возможный на практике экономический показатель, например для распределения богатств в мире или в отдельной стране, включая
развитые страны1. При такой альфе оценка крайне чувствительна к «малым» выборкам, а именно к выборкам меньше 108. Мы выполнили триллион моделирований с различными размерами выборки. Истинное значение κ0,01 ≈ 0,657933, но даже при размере
выборки 100 миллионов оценка серьезно смещена, как видно в таблице.
Естественно, смещение стремительно (и нелинейно) сокращается при удалении
показателя α от 1, становясь слабым вблизи 2, хотя при смешанном распределении
с переменным α влияние сохраняется дольше, как мы увидим позже. И смещение слабеет при спуске от верхнего процентиля к низким квантилям; таким образом, проблема
острая только для пресловутого «одного процента» и только при низких показателях.
Таблица 14.1: Смещение оценки от κ = 0,657933 (по 1012 запусков Монте-Карло)
κ̂ (n)

Среднее

Медиана

κ̂ (103)
κ̂ (104)
κ̂ (105)
κ̂ (106)
κ̂ (107)
κ̂ (108)

0,405235
0,485916
0,539028
0,581384
0, 591506
0,606513

0,367698
0,458449
0,516415
0,555997
0, 575262
0,593667

Среднеквадратическая ошибка
по запускам Монте-Карло
0,160244
0,117917
0,0931362
0,0853593
0, 0601528
0,0461397

Глядя на такие результаты и число выполненных тестов, выдвигаем гипотезу: смещение κq – κ̂ q(n) «по порядку величины» составляет c(α, q)n –b(q)(α – 1), где константы b(q)
и c(α, q) еще надо найти. Результаты моделирования совместимы с b(q) = 1 независимо
от α и q, но медленная сходимость оценки и стандартного отклонения к 0 затрудняют
точное суждение об этих константах.
Общий случай. Чтобы рассмотреть произвольное распределение, обозначим
вклад квантиля при заданном пороге h

то есть κq = κh(q). Обозначим также оценку по выборке размером n

где Xi — независимые экземпляры случайной величины X. Интуитивно смещение
оценки κ̂q от κq происходит от разной выпуклости вверх оценки концентрации как
функции от новости: окажется ли очередное значение выборки выше порога. Пусть
1 Такое значение ниже типичного в литературе по экономике, где оно в районе 2, но, следуя [86], мы не
можем нашими наблюдениями исключить и более низкие значения. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

и

, так что

319

и пусть порог h зафиксирован.

Если очередное значение в выборке Xn + 1 < h, то новое значение

.

Это значение выпукло вниз по Xn + 1, так что неопределенность из-за Xn + 1 увеличивается по математическому ожиданию. В случае же, если очередное значение в выборке
Xn + 1 > h, новоезначение

, и теперь значение

выпукло вверх по Xn + 1, так что неопределенность из-за Xn + 1 уменьшается. Соревнование между этими двумя противоположными эффектами заканчивается в пользу
последнего из-за большей выпуклости вверх по случайной величине, а также более
высокой вариативности (по какому количественному показателю ее ни оценивать)
случайной величины при условии, что она превысила порог, чем при условии, что
она оказалась ниже порога. Эффект тем сильнее, чем жирнее правый хвост распределения. В итоге находим

(заметим, что эффект недооценки уровня

концентрации дополнительно усиливается, если перестать фиксировать порог ĥ(q)
при добавлении очередной выборки, из-за небольшого увеличения математического
ожидания оценки ĥ(q); впрочем, этим эффектом можно пренебречь). Приходим к следующему.
Предложение 14.1
— случайная выборка размером
Пусть
ное наблюдение и пусть

— одно дополнитель. Заметим, что всякий раз, когда

Y > h, вторая частная производная по Y

Это неравенство остается в силе и для κ̂q , поскольку значение ĥ(q, X ⊔ Y) не зависит от конкретного значения Y > ĥ(q, X).
Ситуация, с которой мы столкнулись, отличается от обычного эффекта малой
выборки — возникающего в результате сильного влияния редкого наблюдения из хвостов распределения, поскольку у такого наблюдения мало шансов попасть в малую
выборку. Обычный эффект малой выборки устраняется при повторениях выборки.
Однако теперь мы рассматриваем оценку с выпуклостью вверх, создающую верхний
предел для измерений при конечном n, которое отсекает большие отклонения, и возникают проблемы с агрегацией, которые мы изложим ниже в Теореме 1.
На практике даже при огромных выборках вклад редких событий в κq замедляет
сходимость выборочной оценки к истинному значению. Чтобы получить лучшую,
несмещенную оценку, нужно идти другим путем: оценить параметры распределения
(α̂, λ̂) и затем вычислить теоретический вклад хвоста κq(α̂, λ̂). Фальк [86] замечает, что
даже при использовании оценок α и λ сходимость крайне медленная, а именно порядка
n–δ / ln n, где показатель δ зависит от α и дивергенции между фактическим распределением и теоретическим Парето (оценивается расстоянием Хеллингера). В частности,
δ → 0 при α → 1, что весьма замедляет сходимость при низких α.

320

Н АС С И М Н И К ОЛ АС ТА Л Е Б

κ(ΣXi + Y!)
0,95
0,9
0,85

Рисунок 14.2: Влияние
дополнительных наблюдений на κ

0,8
0,75
0,7
0,65
20000

40000

60000

80000

100000

Y

κ(ΣXi + Y!)

0,626

Рисунок 14.3: Влияние
дополнительных наблюдений на κ (фрагмент).
Выпуклость вниз слева
от порога h (здесь
это Y< 57) занимает
ничтожную площадь
порядка 1/n

0,624

0,622

20

40

60

80

100

Y

14.3. НЕРАВЕНСТВО АГРЕГАЦИИ НЕРАВЕНСТВ
по m подвыборкам разПри оценке среднего жирнохвостой случайной величины
мера ni, при общем числе наблюдений
, двухуровневая нумерация наблюдений вида j-е наблюдение в i-й подвыборке не влияет на итог по всем n наблюдениям.
Несущественность разбиения n-выборки на m подвыборок демонстрирует выпуклость вверх количественного показателя κ1. Докажем далее, что глобальная концентрация, найденная как κ̂q по широкому набору данных, окажется выше локальных концентраций, так что, например, агрегация данных по Европе даст κ̂q выше усредненной
концентрации по странам — «неравенство между неравенствами». Другими словами,
мы утверждаем, что смещение оценки при использовании κ̂q(n) дополнительно усиливается, когда выборку разбивают на подвыборки и берут взвешенное среднее оценок
κ̂q(ni).

1 Та же выпуклость вверх и то же общее смещение применимы к логнормальному распределению, и усиливаются при высокой дисперсии. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

321

Теорема 4
Разрежем n значений данных на m подвыборок N = N 1 ∪ … ∪ Nm размером n1,
…, nm, где
, и обозначим как S 1, …, Sm суммы величин в подвыборках
и как

сумму по всей выборке. Тогда

Если дополнительно предположить, что случайные величины Xj одинаково распределены во всех подвыборках, то

Другими словами, агрегация оценок концентрации по подвыборкам, взвешенная согласно размерам той или иной подвыборки, недооценивает концентрацию всей выборки.
Доказательство. Элементарной индукцией вопрос сводится к случаю двух подвыборок. Пусть q ∈ (0, 1) и выборки (X1, …, Xm) и (X ′1, …, X ′n) состоят каждая из
положительных н. о. р. случайных величин: Xi следуют распределению p(dx) и X ′j следуют распределению p′ (dx′). Примем для простоты, что qm и qn — целые числа. Обозначим

. Определим

, где X[i] — i-е наибольшее значение

в (X1, …, Xm), и

, где X ′ [i] — i-е наибольшее значение в (X ′1, …, X ′n). Кроме

того, обозначим

— i-е наибольшее значение в объеди-

ненной выборке (X1, …, Xm, X ′1, …, X ′n).
Оценки q-концентрации для выборок X = (X1, …, Xm), X′ = (X′1, …, X′n) и X″ = (X1,
…, Xm, X′1, …, X′n) будут
.
Требуется доказать, что

Заметим, что
и, аналогичным образом,
и
где большие номера из J ″ используются в смысле Xm + i = X ′i, при i = 1, …, n. Если
и
, то множество J″ = J ∪ J’ имеет мощность
q(m + n). Значит, независимо от конкретной выборки сумма
. Следовательно,

, и мы можем записать:

322

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Покажем теперь, что

Если это так, то для κ′ будет аналогичным образом верно, что

и мы сможем получить требуемое

Пусть T = X[mq] — точка отсечения (где [mq] — целая часть mq), так что
и пусть

,

. Условно к T величины A и B независимы: A представляет

собой частичную сумму, в которую вошли mq величин по критерию быть выше T,
тогда как B представляет собой независимую частичную сумму, в которую вошли
m(1 – q) величин по критерию быть ниже T. Кроме того, A и B независимы от S ′. Пусть
pA(t, da) и pB(t, db) — распределения величин A и B соответственно, считая T = t. Вспомним, что p′ (ds′) — распределение S′, и обозначим q(dt) распределение T. В этих обозначениях:

При заданных b, t и s′ зависимости

и

представляют собой две

возрастающие функции одной и той же переменной a, и поэтому условно к T, B и S′

Поскольку данное неравенство выполнено при всех значениях T, B и S′, оно выполнено для безусловного ожидания, и мы можем записать:

Если две выборки следуют одному и тому же распределению, можем записать:

. В самом деле,

В самом деле, в этом случае можно заметить, что
и Xi одинаково распределенные; значит,
; значит,
и требовалось для последнего неравенства.
На этом теорема доказана.

. Но в то же время

. Аналогичным образом

, что


С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

323

Пусть X — положительная случайная величина и h ∈ (0, 1). Вспомним, что мы
определяли теоретическую h-оценку концентрации как:

тогда как по n-выборке h-оценка концентрации —

, где A(n) и S(n) опреде-

лены, как выше, для n-выборки X = (X1, …, Xn) н. о. р. случайных величин, распределение которых такое же, как у случайной величины X.

Теорема 5
Для любого n ∈ ℕ
𝔼κ̂h(n) < κh
и

в смысле сходимости почти наверное и по вероятности.

Доказательство. Приведенное выше следствие показывает, что последовательность n 𝔼κ̂h(n) супераддитивна; поэтому последовательность 𝔼κ̂h(n) возрастает. Более
того, благодаря закону больших чисел последовательность
наверное и по вероятности к 𝔼X, а последовательность

сходится почти

сходится почти наверное

и по вероятности к
; значит, их отношение также сходится почти наверное к κh. С другой стороны, это отношение ограничено 1. Теорема
Лебега о мажорируемой сходимости1 позволяет вывести требуемую сходимость по
вероятности.

14.4. СМЕШАННЫЕ РАСПРЕДЕЛЕНИЯ ПО ПОКАЗАТЕЛЮ ХВОСТА
Рассмотрим теперь случайную величину X, распределение которой p(dx) представляет
собой смесь параметрических распределений с различными значениями параметра:
. Типичную n-выборку случайной величины X можно сгенерировать из выборок размером ni = ωi n из случайных величин
с распределением .
Приведенная выше теорема показывает, что в этом случае

1 Применительно к теории вероятности теорема Лебега о мажорируемой сходимости утверждает, что если
последовательность случайных величин
и интегрируемая случайная величина Y ≥ Xn почти наверное, то случайные величины Xn и X интегрируемы, и
.

324

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Рисунок 14.4: Пьер-Симон, маркиз
де Лаплас (вверху). Его имя носит одно
распределение и горстка результатов.
Между тем он стоял за открытием
как распределения Коши, так и распределения Гаусса (см. закон Стиглера
об эпонимии [218]). Портрет ЖанБатист Полен Герен написал в 1838,
после смерти Лапласа.
Карл Фридрих Гаусс (внизу), портрет
кисти Христиана Альбрехта Йенсена.
Гауссовым называют распределение,
которое все историки приписывают
Лапласу

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

При n → +∞ каждое из отношений

325

сходится почти наверное к соответ-

ствующему весу ωi; следовательно, имеет место следующее неравенство выпуклости
вниз:

Особо интересен случай распределения Парето. Здесь параметр α представляет
показатель хвоста распределения. Если нормализовать ожидания к 1, распределение
Xα будет

, и тогда

и

Следовательно, κq(Xα) — выпуклая вниз функция показателя α, и мы можем записать

где

.
Теперь допустим, что X — положительная случайная величина, распределение
которой неизвестно, однако известно, что его хвост убывает по степенному закону
с неизвестным показателем степени. Несмещенная оценка показателя степени, с некоторой величиной неопределенности (т. е. с распределением возможных истинных значений вокруг некоторого среднего), приведет к смещению κq в сторону недооценки.
Поскольку уровень концентрации зависит только от хвоста распределения, это
неравенство применимо также в случае комбинации распределений со степенным
спадом, как в формуле (23.1):
(14.3)
Малейшая неопределенность с показателем степени повышает индекс концентрации. Эту систематическую ошибку можно оценить, рассмотрев среднее ᾱ > 1 между
двумя значениями α+ = α + δ и α– = α – δ. Неравенство выпуклости вниз записывается
так:

Таким образом, на практике оценка ᾱ в районе 3/2 (т. н. полукубический степенной закон) даст результаты, аналогичные результатам при α ближе к 1, которые мы
использовали в предыдущем разделе. Просто зависимость κq(α) выпукла вниз и в ней
доминирует эффект второго порядка
, который усугубляется
при низких α.
Чтобы показать, сколь ненадежны оценки неравенства и концентрации по вкладу
того или иного квантиля, укажем, что стандартная ошибка 0,3 в оценке α приведет
к росту κq(α) на 0,25.

326

Н АС С И М Н И К ОЛ АС ТА Л Е Б

14.5. ЧЕМ БОЛЬШЕ СУММА, ТЕМ ВЫШЕ
: среди случаев повыЕсть сильная зависимость между оценкой κ̂ q и суммой
шения κ̂ q ожидаемая сумма больше. Действительно, согласно Теореме 4 оценка κ̂ q
положительно коррелирует с суммой S.
Пусть рассматриваемые случайные величины касаются благосостояния; на
Рисунке 14.5 наблюдаем такой условный рост; другими словами, когда изучаемое
распределение принадлежит классу жирных хвостов, максимальные значения одного
порядка с суммой, и случаи прибавки богатства связаны с прибавкой оценки неравенства. При такой динамике нелепо предполагать, что прибавка благосостояния произойдет благодаря нижней части или хотя бы средней. (Тот же довод можно применить к войнам, пандемиям, размеру компаний и т. д.)
k (n = 104)
1
0,9
0,8

Рисунок 14.5: Влияние
прибавки богатства на κ̂

0,7
0,6
0,5
0,4
0,3
60000

80000

100000

120000

Богатство

14.6. ЗАКЛЮЧЕНИЕ И ТОЧНАЯ ОЦЕНКА КОНЦЕНТРАЦИИ
Возможно, что концентрация высока на уровне порождающего процесса, но наблюдения по малым подобластям дали низкий уровень κq. Изучая временные ряды, легко
создать историческую иллюзию роста исследуемой величины, например концентрации богатств, тогда как на уровне порождающего процесса уровень был высок
с самого начала; может случиться и так, что рост исследуемой величины реально
происходит, но наблюдаемый рост отчасти объясняется расширением области наблюдения1.
Даже оценка показателя α может быть смещена в некоторых областях, где не видна
полная картина: можно доказать, что при неопределенности с «истинным» показателем α не следует, как обычно делается, брать взвешенное среднее доступных оценок,
а лучше взять минимальную из них.
Не следует анализировать изменения κ̂ q по годам без такой поправки. Известно,
что ряд теорий был построен на утверждениях о «росте» неравенства, как в [191],
без учета природы κq. Выдвигались теории о «вариации» неравенства без ссылки на
стохастичность оценки и несогласованность κq в разное время по разным подобластям. Хуже того, опровергались эти теории опять-таки не глядя на эффект размера,
1 Обычно у накопленного богатства хвост распределения жирнее, чем у дохода; см. [99]. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

327

с привлечением контрданных по выборке другого масштаба, и диалог о неравенстве
оказывался статистически неинформативен1.
Похоже, что это обычная ошибка при статистических выводах в научной литературе о жирнохвостых данных. Вопросы вызывает сама методология оценок концентрации и изменений концентрации. Например, в тезисе Стивена Пинкера [194] о том,
что насилие в мире снижается, замечаем несостоятельный вывод о концентрации
ущерба от войн на основании κ̂ q, сделанных по ничтожно малым генеральным совокупностям для данной жирности хвостов2. В силу жирнохвостости числа погибших во
время войн и острых конфликтов поправка быстро сводит на нет утверждения о статистически значимом спаде военного насилия.
14.6.1. Робастные методы и использование полных данных
Часто приходится встречать довод типа «метод количественной оценки концентрации
по вкладу квантиля κ̂ робастен и учитывает полный набор данных». Увы, робастные
методы обычно терпят неудачу при жирнохвостых данных, см. Главу 8. Хуже того,
даже прошедшие тест на «робастность» методы прямой оценки центовых квантилей
останутся привязаны к статической и специфической генеральной совокупности, не
допускающей агрегации. Эта технология не позволяет взять пробу и сделать научные
статистические суждения об истинных свойствах целого.
Возьмем для примера страховую компанию или, еще лучше, компанию перестраховки. Если в ее годовом бухгалтерском отчете оказалось мало исков, это еще не
значит, что ее экономическое положение благополучное. На основании выборки за
год нелепо было бы судить о концентрации убытков на один страховой случай. Годовые бухгалтерские отчеты не используют для предсказания вариаций год за годом;
такие отчеты служат экономистам только для выявления хвостовых и прочих событий, чтобы далее анализировать риски для эффективности, учитывая ее стохастическую природу. Вырабатывая политику, особенно при жирных хвостах, важно отличать
«бухгалтерские» (детерминистские) величины от «экономических» (стохастических).
То же относится к ущербу от войн: мы не можем оценивать серьезность будущего
риска по данным о прошлой истории.
14.6.2. Как правильно оценивать концентрацию?
В наше время специалисты по управлению риском стали применять CVaR и другие
количественные показатели, которые экстраполятивны и не выпуклы вверх; примером служит показатель степени хвоста вблизи нижней границы диапазона, как мы
убедились при обобщении Теоремы 2 и повторении вывода соответствующей κ или,
более строго, при интегрировании функций по возможным состояниям. Указанные
методы уточнения обеспечивают меньшую систематическую ошибку и оберегают от
потери связи с реальностью при агрегации; в финансовой математике аналогичным
1 Chris Giles. Piketty findings undercut by errors // Financial Times, May 23, 2014. — Прим. автора.
2 По данным Ричардсона [194]: «[Войны] следуют правилу 80 на 2: почти восемьдесят процентов смертей вызвано двумя процентами [выделил автор цитаты] войн». Очевидно, и Пинкер, и цитируемая им
литература следуют в количественной оценке вооруженных конфликтов несостоятельной методологии,
поскольку при жирнохвостости войн оценка по центовым квантилям дает огромное смещение. Дальнейшие утверждения о среднем при низких показателях степени хвоста — лженаука. — Прим. автора.

328

Н АС С И М Н И К ОЛ АС ТА Л Е Б

образом методами «стохастической волатильности» корректируются цены опционов,
когда к стандартному отклонению прибавляется так называемая «улыбка», пропорциональная изменчивости параметра, который представляет волатильность и ошибки
измерения. В нашем случае эту роль играет «стохастическая альфа», или «стохастический показатель степени хвоста»1. Под экстраполятивностью мы подразумеваем перенос массы в хвост при учете реализаций вне выборки, превышающих наблюдавшиеся
крайние значения2.
БЛАГОДАРНОСТИ
Покойному Бенуа Бандельброту, Бранко Милановичу, Доминик Гега, Феликсу Салмону, Бруно Дюпиру, покойному Марку Йору, Альберту Ширяеву, анонимному судье,
персоналу ресторана Luciano в Бруклине и Naya в Манхэттене.

1 Заметим также, в дополнение к проблеме оценок центовых квантилей, что некоторые авторы, например [192], работая с цензурированными данными, восполняют нехватку данных в хвостах интерполяцией Парето (на основе параметра хвоста); отсутствующий поддиапазон заполняется условным средним
вкладом поддиапазона, но это не полноценная замена расширению степенного закона, и существенное
смещение остается. — Прим. автора.
2 Даже логнормальное распределение с подгонкой параметра масштаба работает до некоторой степени,
поскольку повышение стандартного отклонения перегоняет массу вероятности в правый хвост. Заметим
также, что теоремы должны быть применимы и к скачкам Пуассона, но мы сосредоточились на применении к степенному закону, поскольку методы подгонки скачков Пуассона интерполятивны, а подгонка
внутренних пробелов в выборке легче, чем подгонка в стороне от выборки. — Прим. автора.

Часть V
С ТАТ Ь И О Т Е Н Е В Ы Х М О М Е Н ТА Х

15
ТЕНЕВЫЕ МОМЕНТЫ ЯВЛЕНИЙ
С МНИМО БЕСКОНЕЧНЫМ СРЕДНИМ ‡

В этой главе предлагается подход к вычислению условных моментов жирнохвостых
явлений, которые на первый взгляд кажутся имеющими бесконечное среднее. Проблемы этого рода характерны для случайной величины Y с тяжелым хвостом и протяженным, но ограниченным носителем.
Мы вводим концепцию двойственного распределения, получаемого логарифмическим преобразованием, которое гладким образом удаляет верхнюю границу. У такого
двойственного распределения хвост можно исследовать согласно теории экстремальных значений, без лишних допущений о параметрах, а полученные оценки можно
затем использовать для исследования исходного распределения, и его моменты можно
вычислить обратным преобразованием.
Центральное отличие нашего подхода от простого усечения состоит в гладкости
преобразования исходного распределения в двойственное, обеспечивающее применение теории экстремальных значений.
Возможными областями применения будут военные потери, операционный риск,
разрушение окружающей среды, сложные сети и многие другие явления эконофизики.
15.1. ВВЕДЕНИЕ
Рассмотрим случайную величину Y с тяжелым хвостом и с конечным носителем
[L, H]. Без потери общности положим, что нижняя граница L >> 0 и верхняя граница H
конечная, но далекая; соответственно вероятность наблюдений вблизи верхней границы крайне низка, и доступные наблюдения все ниже некоторого M 1 имеем

как функция Y убывает, поэтому

p [184]. Оба коэффициента ξ и σ можно оценить при помощи ММП или
метода моментов [116]1.
15.3. ВЕРНЕМСЯ К Y: ТЕНЕВОЕ СРЕДНЕЕ, ИЛИ
СРЕДНЕЕ ПО ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ
Обозначим плотности случайных величин Y и Z как f и g.
Мы помним, что Z = φ(Y), так что
.2.
Предположим теперь, что мы нашли такой порог u = L* ≥ L, что Gu(w) ≈ GPD(w; ξ, σ).
Тогда и хвост Y выше L* представим этой функцией.
Итак, мы можем, во-первых, приравнять массу вероятности в этих хвостах:
(15.3)
и, во-вторых, имеем формулу для плотности случайной величины Z:
3

.

(15.4)

Обозначая α = ξ –1, получаем
4

. (15.5)

1 Есть и другие методы работы с конечными (или выпуклыми вверх) верхними границами, как то: замедленные степенные законы (с экспоненциальным затуханием) [197] или растянутые экспоненты [149];
по своей природе они близки к нашему изложению, но не допускают немедленного применения теории
экстремальных значений или аналогичных методов оценки параметров. — Прим. автора.
2 В самом деле, по определению φ из Z = φ(Y) сразу следует, что

, откуда

и, сле-

довательно,
.
3 В самом деле, g — это плотность, или производная функции распределения неограниченной случайной
величины Z, которая выше порога следует

, согласно (15.2), заменяя w на z.

Производная

.

4 В самом деле, преобразованию случайной величины
образование плотности

в плотность

отвечает пре. Первый сомножитель

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

335

или, в терминах функции распределения,
1

.

(15.6)

В силу взаимной однозначности преобразования φ очевидно, что параметры f и g,
полученные методом максимального правдоподобия, совпадут — функции правдоподобия для f и g различаются только масштабным коэффициентом.
Мы можем вывести теневое среднее2 для Y при условии Y > L* как
(15.7)
откуда
(15.8)
Теперь условное среднее Y выше L* можно оценить по стандартным оценкам
α̂ и σ̂, полученным из аппроксимации GPD для хвоста Z. Стоит отметить, что, если
L* = L, то 𝔼(Y | Y > L*) = 𝔼 Y, условное среднее Y выше L — это в точности среднее Y.
Естественно, аналогичным образом можно получить и другие моменты, даже если
для них потребуется прибегать к численным методам. Наш метод применим в общем
случае, но особенно полезен, когда по имеющимся данным хвост Y кажется слишком
жирным для существования каких-либо конечных моментов, как нередко случается
при исследовании риска операционных убытков, распределения степени для больших
сложных сетей и прочих эконофизических явлений.
Пусть, например, для некоторой величины Z коэффициент ξ > 1. Тогда бесконечны
и 𝔼(Z | Z > L*), и 𝔼Z 3. Как показано на Рисунке 15.1, нам захочется предположить, что
и 𝔼Y бесконечно — и данные, скорее всего, будут подсказывать такой же вывод, если
оценивать ξ̂ по хвосту4 величины Y. Но это невозможно, ведь H < ∞, и даже при ξ > 1
мы сможем рассчитать 𝔼(Y | Y > L*) по формуле (15.8).
находим подстановкой

, второй сомножитель находим дифферен..

цированием

1 В самом деле, функцию распределения FY (y) однозначно найдем из двух условий: граничного FY(Н) = 1 и
дифференциального

−α

F Y(Н) = 1 − ( 1 +
– (1 +

(L + H(ln(H − L) − ln(H − H))) ) = 1 − ( 1 +

−α

(L + H(ln(H − L) − (−∞))) ) = 1 −

−α

∞) = 1 − ∞−α = 1; она также удовлетворяет дифференциальному условию, потому что

(1 − (1 +
+

. Формула (15.6) удовлетворяет граничному условию, потому что

(L + H(ln(H − L) − ln(H − y))))

(L + H(ln(H − L) − ln(H − y))))

–ln (H − y))))

−α −1

× (−ln(H − y)) =

−α −1

(1 +

) = − (1 +

−α

−α

(L + H(ln(H − L) − ln(H − y)))) = α(1 +

(L + H (ln (H − L) − ln (H − y))) =

(1 +

(L + H(ln(H − L) − ln(H − y)))) = −(−α) (1 +

(L + H(ln(H − L) − ln(H − y))))

(1 +
−α −1

L + H(ln(H − L) −

(L + H (ln (H − L) − ln (H − y))))

−α −1

; H×

.

2 Мы называем среднее по генеральной совокупности — в отличие от выборочного среднего — «теневым», потому что непосредственно из данных оно невидимо. — Прим. автора.
3 Вспомним, что для случайной величины Z, следующей GPD, 𝔼Z p < ∞ ⇔ ξ < 1/p. — Прим. автора.
4 Из-за сходства 1 – F(y) и 1 – G(z), по крайней мере в области ниже M, аппроксимация GPD даст для их
хвостов статистически неразличимые оценки ξ [184]. — Прим. автора.

336

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Стоимость под риском и ожидаемые потери
Обращая формулу (15.6), мы можем рассчитать функцию квантилей случайной величины Y при Y ≥ L*:
(15.9)
где ɣ(p) =

и p ∈ [0, 1]1. Функцию квантилей мы опять-таки рассматриваем

условную по Y выше L*.
По формуле (15.9) легко посчитать стоимость под риском (Value-at-Risk, VaR) для
Y ≥ L* при любом доверительном уровне. Например, 5 %-я VaR операционных потерь
Y в горизонте 1 года2 — это просто VaR 0,05 Y = Q(0,95; α, σ, H, L).
Нас также может интересовать еще одна характеристика хвостового риска
Y — так называемые ожидаемые потери (expected shortfall, ES), определяемые как
𝔼(Y | Y > u ≥ L*)3. Это просто обобщение формулы (15.8).
Мы можем получить ожидаемые потери, вычислив сначала функцию избыточного
среднего условной величины Y |Y ≥ u, которая определяется как

и которую мы найдем при u ≥ L*. Пользуясь формулой (15.5), получаем

(15.10)
После этого ожидаемые потери вычисляются просто как
𝔼(Y |Y > u ≥ L*) = eu(Y) + u.
В финансовой математике и в управлении рисками ES и VaR могут комбинироваться. Например, пусть кроме стоимости под 5 %-м риском нам еще интересно
найти ожидаемые потери с доверительной вероятностью 5 % и пусть известно, что эти
потери находятся в хвосте распределения величины потерь, Y ≥ L*. Тогда нам достаточно сложить VaR 0,05 Y + eVaR Y (Y ).
0,05

(

1 В самом деле, p = FY (y) = 1 – 1 +
– 1) ⇔ ln(H – L) –

)

–α

⇔ L + H(ln(H – L) – ln(H – y)) = ασ((1 – p)–1/α –

(ασ((1 – p)–1/α – 1) – L) = ln(H – y) ⇔y = H – (H – L) exp

= QY (p).

2 Имеется в виду, что Y положительна в случае убытков, так что тяжелые хвостовые убытки расположены
в правом хвосте Y. В определении стоимости под риском, приведенном в Разделе 2, фигурировала величина платежа X = –Y.
3 Если речь о потерях, ожидаемых с вероятностью 5 %, ES 0,05 Y, то u = VaR 0,05 Y.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

337

15.4. СРАВНЕНИЕ С ДРУГИМИ МЕТОДАМИ
Существует три способа явно отрезать хвосты распределений Парето (не считая методов растянуть, или «замедлить рост», функции распределения).
1) Первый состоит в резком отсечении части распределения по заданной конечной
точке и далее необходимой перенормировки. Можно отрезать оба хвоста и нормализовать функцию распределения на отрезке от L до H, передав массу вероятности на все
точки отрезка поровну.
2) При втором предполагается, что точка H служит поглощающим барьером, то
есть что все реализации исходной случайной величины, превышающие H, сжимаются
в дельта-функцию Дирака в точке H; такое практикуется в моделировании деривативов. В этом случае новое распределение совпадает с исходным, например с обычным
Парето, вплоть до точки H.
3) Третий способ был представлен в этом разделе.
Вопрос уже прорабатывался в финансовой математике, где сопоставляли усечение
нормального распределения (для уточнения нормальной модели Башелье, где использовалось просто гауссово распределение) и логарифмическое преобразование (Sprenkle, 1961
[216]); для стандартной модели выбрали логарифмическое преобразование и соответствующее однохвостое логнормальное распределение. Помимо преимуществ, зависящих
от распределения, таких как аддитивность логарифмов платежных функций, отмечались
и преимущества общего рода: из моделей устранялся «уступ», резкое изменение в функции плотности, порождающее неустойчивость оценок риска по негладким функциям.
В теории экстремальных значений (см. Beirlant, 2014) для усечения распределения решили подвергать превышение в хвосте преобразованию вида Y –α → Y –α – H –α
и применять ТЭЗ к результату. Преобразование зависит от параметра α, который приходится оценивать по ММП. Мы видим проблемы с выбором недостаточно гладкого
преобразования. Это та же проблема, что возникает с моделями финансовых активов,
а именно резкий «уступ», ниже которого есть плотность вероятности, а выше нет.
Из-за этого оценка математического ожидания оказывается выше, чем наша, особенно
при α < 1, как показано на Рисунке 15.2.
Мы можем продемонстрировать этот эффект так. Пусть мы наблюдаем распределение, которое похоже на Парето, но усечено, и пусть мы обрабатываем его как некоторое распределение Парето. Плотность

ния превратится в

после усече-

.

Моменты порядка p усеченного Парето (наблюдаемых реализаций порождающего
процесса и усечения) такие:
(15.11)

где Β(.)(., .) — неполная бета-функция Эйлера

.

338

Н АС С И М Н И К ОЛ АС ТА Л Е Б

𝔼 Xглад
𝔼 Xусеч
1

0,8

0,6

0,4

H = 105
H = 108
0,2
0,4

0,6

0,8

1

1,2

α

Рисунок 15.2: Отношение математического ожидания после гладкого преобразования и после
усечения

В итоге отношение среднего по распределению Парето после мягкого усечения
к среднему по усеченному Парето
,

где

— интегральная показательная функция,

(15.12)

.

15.5. ОБЛАСТИ ПРИМЕНЕНИЯ
Операционный риск. Убытки фирмы ограничены ее капитализацией, то есть существуют известные максимумы потерь.
Лимитированные договоры перестрахования. Практически во всех договорах
перестрахования прописаны лимиты (максимальные иски), но перестраховщик может
заключить много договоров на общий источник риска, и тогда сложение договоров
поднимет верхнюю границу потенциального суммарного ущерба.
Острые конфликты. Хотя войны имеют крайне жирные хвосты, все же максимальное число жертв военного конфликта не может превысить население мира.
Кредитный риск. Как и у договоров перестрахования, у займов определены
конечные максимальные потери.
Размер города. Хотя продемонстрировано, что города по своему населению следуют
распределению Ципфа, население отдельного города не может превысить население мира.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

339

Ущерб окружающей среде. Экологические катастрофы исключительно жирнохвосты, и все же зона бедствия ограничена нашей планетой (в некоторых задачах —
одним континентом), то есть верхняя граница заведомо существует.
Сложные сети. Число соединений в сети конечно1.
Размер компании. Объем продаж компании не может превысить валовый внутренний продукт (gross domestic product, GDP).
Землетрясения. Максимальный ущерб от землетрясения ограничен энергией
землетрясения.
Гидрология. Максимальный уровень наводнения поддается оценке из физических соображений.

1 И в сети с N узлами число соединений одного узла максимум N–1.

16
О ХВОСТОВОМ РИСКЕ
ОСТРОГО КОНФЛИКТА ‡

Мы исследуем различные статистические картины острых конфликтов современной исторической эры, фокусируясь на недостаточности и ненадежности
данных. Мы применяем методы из теории экстремальных значений, для чего
логарифмически преобразуем данные, устраняя конечность носителя; затем,
пользуясь ограниченностью максимально возможного числа жертв, преобразуем данные обратно и узнаем ожидаемые средние. Мы находим, что выборочное среднее недооценивает ожидаемое среднее минимум втрое, то есть при
наивном наблюдении происходит грубая недооценка серьезности конфликтов.
Мы проверяем робастность, применяя метод складного ножа к выборкам из
высоких и низких оценок. Мы изучаем продолжительность времени между
поступлением хвостовых событий и подтверждаем отсутствие памяти (первого порядка). Полученная статистическая картина расходится с утверждениями о «долгом мире».

16.1. ВВЕДЕНИЕ И РЕЗЮМЕ
Это исследование во многом посвящено новым статистическим методологиям
работы с жирнохвостыми (и ненадежными) данными, а также со случайными
величинами, следующими ограниченному распределению, которое локально ведет
себя как Парето — эти свойства присущи, например, статистике острых конфликтов1.
1 Благодарности: капитан Марк Вейзенборн выполнил неблагодарную и жуткую работу по компиляции
данных из разных источников и привязке всех конфликтов к нарративам в Википедии (см. Приложение 1). Мы также получили щедрую помощь в социальных сетях, где публиковали данные для ознакомления и критики, а также советы от историков, которых благодарим в том же приложении. И мы благодарны покойному Бенуа Мандельброту за идеи насчет хвостовых свойств войн и конфликтов, — а еще
Яниру Бар-Яму, Рафаэлю Дуади…

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

341

Уровень насилия гораздо суровее, чем представляется в обычной аналитике
и в господствующей теории «долгого мира», утверждающей, будто уровень насилия снизился. Адаптируя методы теории экстремальных значений и внося поправки
на ошибки в репортажах о конфликтах и исторических оценках жертв войны, мы
строим статистические картины крупных острых конфликтов, начиная с 50 тысяч
жертв в наше время или с эквивалентного числа по отношению к населению мира
в прошлом (например, в XVIII веке это 5 тыс.). Вразрез с текущим дискурсом
полученные нами статистические картины показывают, что (1) риск острого конфликта не спадает, а начинает недооцениваться из-за наивных методик, опирающихся на тенденцию среднегодовой статистики или на выборочное среднее как
оценку истинного среднего явления с крайне жирным хвостом; (2) судя по продолжительности времени между поступлением событий, у вооруженных конфликтов
отсутствует память, что несовместимо с концепцией временного тренда. В нашем
анализе рассматриваются: (1) необработанные данные, собранные и оцененные
историками; (2) наивное преобразование, используемое некоторыми историками
и социологами, которое изменяет масштаб прошлых конфликтов и числа жертв
по отношению к численности населения; (3) более важное логарифмическое преобразование, благодаря которому можно учесть, что число жертв конфликта не
может превысить население мира. (Последнее аналогично преобразованию данных в логарифм платежной функции в финансовой математике, чтобы корректно
использовать функции распределения, определенные на всей оси действительных
чисел.)
В общем и целом, если говорить о классе данных (необработанных или перемасштабированных), то мы наблюдаем, что (1) число жертв следует распределению
в классе степенного закона1. В случае логарифмически преобразованных данных мы
наблюдаем 0,4 ≤ α ≤ 0,7, то есть крайне жирнохвостое явление с несуществующим
средним (и этот результат получен робастным образом); (2) судя по продолжительности времени между поступлением событий, конфликты выше порога 50 тысяч жертв
следуют однородному процессу Пуассона, без определенного тренда, что противоречит популярному нарративу о спаде насилия; (3) истинное среднее, которое следует
ожидать в будущем и которое наиболее совместимо с данными, при всей высокой стохастичности можно оценить: оно ≈ 3× прошлое среднее, то есть втрое хуже прошлого.
Далее мы объясним: (1) как возникает грубая недооценка среднего (то есть математического ожидания числа жертв) при обычных методах анализа данных, то есть
по среднему имеющихся наблюдений, а не по специальной оценке истинного среднего. Здесь ситуация отличается от экспоненциального хвоста, где уровень шума
ниже и наивная картина точнее; (2) как обманчиво долгие (и волатильные) интервалы
между большими конфликтами порождают ложные концепции.
Чтобы скорректировать неточности в числовых оценках историков, мы проводим обычный бутстрэп наших оценок, а также оцениваем методом Монте-Карло
недостоверность статистики войн и бессобытийных периодов в письменной
истории.
1 Ряд прошлых исследований обнаружил в этих данных следование распределению Парето (например, [38]). Наше исследование, отличаясь использованием методов теории экстремальных значений,
бутстрэпа по надежности и преобразований компактного носителя, приводит к другой калибровке
и интерпретации.

342

Н АС С И М Н И К ОЛ АС ТА Л Е Б


0,12
0,1
0,08
0,06
0,04
0,02
0

0,48

0,5

0,52

0,54

0,56

0,58

α

Рисунок 16.1: Значения показателя хвоста α по оценке
Хилла, полученной из
100 000 масштабированных
оценок числа жертв, равномерно выбираемых между
нижними и верхними оценками каждого конфликта.
Показатель хвоста слегка
отличается (без статистической значимости)
от полученного методом
максимального правдоподобия для всех данных, если
сосредоточиться на верхних
100 отклонениях

400 000

Рисунок 16.2: Квантильквантильный график зависимости масштабированных
данных в ближнем хвосте
от распределения в стиле
Парето II — Lomax

300 000

200 000

100 000

0

0

100 000

200 000

300 000

400 000

Зависимость фактического числа жертв от времени
90000000

Фактическое число жертв

80000000

Вторая
мировая
война

70000000
60000000
50000000
40000000
30000000
20000000
Ань
Лушань

10000000
0

0

500

Монгольские
завоевания

1000

Время

1500

2000

Рисунок 16.3: Число
погибших в наиболее
известных исторических конфликтах
в зависимости от времени. Если конфликт
длился дольше 25 лет,
он представлен последовательностью
одинаковых конфликтов с соответствующей суммой жертв
и с шагом по времени
25 лет

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

Зависимость масштабированного числа жертв от времени
500000000

Масштабированное число жертв

450000000

Ань
Лушань

400000000
350000000
300000000
250000000
200000000

Монгольские
завоевания

150000000

Вторая
мировая
война

100000000
50000000
0

500

0

1000

1500

2000

Время

Среднее
8×107

Среднее максимального правдоподобия

7×107
6×107

Выборочное («газетное»)
среднее

5×107
4×107
3×107
2×107

Диапазон α

1×107
0,4

0,45

0,5

0,55

0,6

0,65

0,7

α

343

Рисунок 16.4: Масштабированное число
погибших в вооруженных конфликтах
и репрессиях в зависимости от времени.
Данные масштабированы по отношению
к населению мира.
Если конфликт длился
дольше 25 лет, он
представлен последовательностью
одинаковых конфликтов с соответствующей суммой жертв
и с шагом по времени
25 лет

Рисунок 16.5: Наблюдаемое
«газетное» среднее и среднее
по ММП (полученное после
обратного преобразования
данных к распределению
на компактном носителе)
при различных значениях α
(и, соответственно, различных сочетаний σα, α). Возможный «диапазон α» получен из
возможных вариаций данных
бутстрэпом и моделированием надежности

16.2. ОБЗОР СТАТИСТИЧЕСКОЙ ДИСКУССИИ
16.2.1. Результаты
Хвосты Парето. Метод превышений над порогом1 показывает для этих данных (как
исходных, так и масштабированных) сильные признаки распределения Парето, с вероятностью выживания ℙ(X > x) = λ(x)x–α, где λ: [L, +∞) → (0, +∞) — медленно меняющаяся функция согласно критерию

при всех k > 0.

1 Peaks-over-threshold, POT (дословно «пики над порогом») — метод в теории экстремальных значений.
В изучаемом распределении выделяется хвост, который используется для нахождения стоимости под
риском и ожидаемых потерь.

344

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Мы находим параметры G(.), обобщенного распределения Парето (Generalized
Pareto Distribution, GPD), приведенные в Таблице 16.1, используя представление
G(x) = 1 – (1 + ξx/β)–1/ξ; так что полученная для масштабированных данных оценка
.

ξ ≈ 1,88 ± 0,14 соответствует показателю хвоста

Таблица 16.1: Оценки и стандартные ошибки параметров обобщенного распределения Парето
для числа жертв конфликтов свыше порога 50 тыс. И для фактического числа жертв, и для
масштабированного мы приводим число событий выше порога
Данные
Исходные данные

Число превышений
307

Наивное масштабирование

524

Логарифмическое масштабирование

524

ξ
1,5886
(0,1467)
1,8718
(0,1259)
1,8717
(0,1277)

β
3,6254
(0,8191)
14,3254
(2,1111)
14,3261
(2,1422)

Отсутствие памяти, влияющей на начало очередного конфликта. Таблицы 16.2 и 16.3 показывают длительности интервалов между моментами событий,
и видно, что, если событий масштаба Второй мировой войны не будет сто лет, это не
повлияет на ожидания. Не заметно никакой автокорреляции, никакой статистически
значимой временной структуры (никаких следов процесса с самовозбуждением1); см.
Рисунок 16.8.
Таблица 16.2: Средний интервал между событиями и среднее абсолютное отклонение интервала между событиями крупнее 1, 2, 5 и 10 млн жертв (по фактической оценке)
Порог
1
2
5
10

Среднее
26,71
42,19
57,74
101,58

MAD
31,66
47,31
68,60
144,47

Таблица 16.3: Средний интервал между событиями и среднее абсолютное отклонение интервала между событиями крупнее 1, 2, 5, 10, 20 и 50 млн жертв (по масштабированной оценке)
Порог
1
2
5
10
20
50

Среднее
11,27
16,84
26,31
37,39
48,47
67,88

MAD
12,59
18,13
27,29
41,30
52,14
78,57

1 Оптимистическая гипотеза была бы скорее о том, что возникновение острых конфликтов — процесс
с самоторможением. Однако и самовозбуждение, и самоторможение отвечают одному и тому же предположению о модели: положительной корреляции между интенсивностью кровопролития сегодня и четверть века спустя.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

345

Полные распределения. Масштабированные данные соответствуют распределению
в стиле Ломакса с тем же хвостом, как полученный методом превышений над порогом,
с сильной адекватностью. Для событий с числом жертв > L = 10K, 25K, 50K и т. д. мы
подгоняем разные распределения Парето II, или распределения Ломакса, используя
α хвоста согласно GPD с коэффициентом масштаба σ = 84 360, т. е. с плотностью
.
Кроме того, мы рассматриваем более обширный массив статистических картин,
отвечающих парам α, σα при разных данных на основе возможных альтернативных
значений α, с перекалибровкой σ максимального правдоподобия; см. Рисунок 16.5.
Различие между выборочным средним и средним максимального правдоподобия. В Таблице 16.4 показаны значения среднего по параметрам распределения
Парето, приведенным выше, после обратного преобразования к конечному носителю.
«Истинное» среднее, оно же в данном моделировании «статистическое» среднее максимального правдоподобия, в 3–4 раза выше наивно наблюдаемого «газетного» среднего. Это значит, что «газетное» наблюдаемое среднее, с его порочным принципом
полагаться на выборочное среднее, недооценит истинное среднее втрое, если не хуже,
а потом, когда дальнейшие наблюдения приблизят оценку к реальности, «газетный»
вывод о возросшем уровне острых конфликтов будет статистически недопустимым.
Таблица 16.4: Выборочное среднее и среднее по ММП при разных минимальных значениях L.
Данные масштабированные
L
10 тыс
25 тыс
50 тыс
100 тыс
200 тыс
500тыс

Выборочное среднее
9,079 × 106
9,82 × 106
1,12 × 107
1,34 × 107
1,66 × 107
2,48 × 107

Среднее по ММП
3,11 × 107
3,62 × 107
4,11 × 107
4,74 × 107
6,31 × 107
8,26 × 107

Отношение
3,43
3,69
3,67
3,53
3,79
3,31

16.2.2. Заключение
С позиций аналитики хвостов прошлое выглядит намного опаснее, с намного большим числом острых конфликтов, чем с позиций наивного наблюдения среднего по
историческим временным последовательностям.
16.3. ОБСУЖДЕНИЕ МЕТОДОВ
16.3.1. Метод масштабирования
Нам нужно избавиться от ограниченного носителя, чтобы применить степенные
законы (см. предыдущие главы), и мы делаем это так. Случайную величину Xt, число
жертв в конфликте в период времени t, мы сначала масштабируем по формуле

,

где Ht — численность человечества в период t. О методах оценки Ht смотрите в приложении.

346

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Затем, обозначив H нынешнее максимальное население и L наивно масштабированный минимум числа жертв конфликта по принятому нами определению, мы вводим функцию гладкого преобразования φ: [L, H] → [L, ∞) такую, что:
i) φ «гладкая»: φ ∈ C ∞,
ii) φ–1(∞) = H,
iii) φ–1(L) = φ(L) = L.
А именно такую:

(16.1)

Пользуясь неограниченностью Xr = φ(X), мы проанализируем эту величину и подберем показатель степенного закона. Затем выполним обратное преобразование
и получим свойства X. Заметим при этом, что при больших H наше преобразование
φ(x) ≈ x. Это значит, что при далекой верхней границе параметры хвоста, которые мы
подберем для x или для φ(x), будут по существу одинаковы. Фундаментальное различие будет только философское и методическое: мы удаляем верхнюю границу (которая все равно вряд ли будет достигнута).
Далее мы используем наивно масштабированное число жертв как аргумент φ(.).
В качестве упражнения выберем H = Pt0.
Распределение X можно вывести из распределения Xr так:
(16.2)
где

.
В данном случае, выбрав распределение Парето — Ломакса:
(16.3)

получаем

откуда убеждаемся, что

. Следовательно, математическое ожидание
(16.4)

(16.5)

где E(.)(.) — интегральная показательная функция
Заметим, что мы опирались на свойство инвариантности:

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

347

Замечание 16
Если ϑ̂ — оценка максимального правдоподобия (maximum likelihood estimator,
MLE) для величины ϑ, то абсолютно непрерывное преобразование φ отобразит ее на оценку максимального правдоподобия преобразованной величины,
φ(ϑ̂) = φ̂(ϑ).
Дополнительные подробности смотрите в [211].
16.3.2. Условное математическое ожидание (в нестрогом изложении)
Мы будем заменять гладкую функцию в C ∞ на ступеньку Хевисайда, то есть на индикаторную функцию 𝟙: ℝ → {0, 1}; преобразованная величина запишется как
:

что в случае распределения Парето — Ломакса даст
(16.6)
16.3.3. Надежность данных и влияние на хвостовые оценки
Данные об острых конфликтах во многом отрывочны, часто представляют собой
некритичный пересказ, основываются на туманных оценках свидетелей, не дают возможности проверить факты по другим источникам того же периода. Такое событие
седьмого века, как восстание Лушаня, привело, как считается, к гибели 26 миллионов
человек, но нет надежных и точных методов, чтобы проверить эту оценку. О войне
за независимость Алжира есть данные как со стороны Франции, так и со стороны
повстанцев, но нет профессионального научного источника.
Как уже говорилось выше в этой главе, мы используем данные по-разному: в исходном виде, с наивным масштабированием по текущему населению мира и с логарифмическим преобразованием, обеспечивающим удобную теорию без верхней границы.
Для некоторых наблюдений на основе исторических источников сообщается не просто оценка числа жертв, а нижняя и верхняя граница. Пусть Xt — число жертв некоторого
конфликта, произошедшего в момент t. В принципе, мы могли бы определить тройки вида



для фактических оценок (исходных данных), где и
ляют нижнюю и верхнюю границу, если эти данные доступны;

представ-

для наивно масштабированных данных,
где P2015 — население мира в 2015 году и Pt — население мира в моменты
времени t = 1, …, 2014;



для логарифмически преобразованных данных.

348

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Для очистки совести мы не стали просто использовать среднее между нижней
и верхней границей, а выполнили процедуру Монте-Карло (подробности смотрите
в [201]) и не обнаружили значительных различий по интересующим нас величинам
(таким, как показатель хвоста α = 1/ξ):
1) для каждого события X, где есть границы, мы предположили для простоты
равномерное распределение числа жертв от нижней границы до верхней, т. е.
X ~ U(X l, X u). На самом деле любое ограниченное распределение дало бы в пределе те же результаты благодаря центральной предельной теореме;
2) далее мы сгенерировали большое число экземпляров Монте-Карло и в каждом экземпляре назначили событию X случайное значение, следуя распределению
U(X l, X u);
3) для каждого экземпляра мы вычислили интересующие нас статистические
показатели, обычно показатель степени хвоста, и полученные так значения далее
усреднили.
Проведенная процедура показала, что точность оценок не влияет на хвост распределения числа жертв; напротив, показатель хвоста весьма устойчив.
Для событий, у которых границы не заданы, был вариант оставлять их как есть или
вносить возмущения, задав фиктивные границы вокруг заданных значений (и далее
обработать в экземплярах Монте-Карло наравне с имевшими заданные границы значениями). Мы выбрали второй подход.
То же относится к обработке Yt и Zt.
Заметим, что α хвоста, полученная из среднего, отличается от среднего по разным оценкам альфы, и это заставило нас выполнить отдельные анализы по разным
оценкам.
Технический комментарий. В таком моделировании часто ищут смещение «стохастической альфы» из-за ошибок и ненадежности данных (Глава 18). При размере
выборки n параметр ϑ̂m — средний параметр, полученный при большом числе моделирований Монте-Карло. Пусть Xi — данный смоделированный вектор Монте-Карло
с индексом i, и Xμ — средняя оценка между нижней и верхней границами. Поскольку
по всем моделированиям Монте-Карло

, кроме ∀j, постольку

. Рассмотрим, например, оценку максимального правдоподобия для альфы хвоста Парето,
делим

. При Δ ≥ xm опре-

α̂ (Xi ⊔ ∆)

которая, благодаря выпуклости вверх логарифмической функции, дает неравенство
∀∆ ≥ xm, α̂ (Xi ⊔ ∆) ≥ α̂ (Xi).

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

349

16.3.4. Определение «события»
Даже «знатные» конфликты часто определяются произвольно, что затрудняет учет
статистики: то один и тот же конфликт носит несколько имен, то два и более конфликтов проходят под одним именем. И мы не нашли удовлетворительной классификации,
отличающей войну от конфликта.
Ради единообразия мы считали одним событием то, что длилось менее 25 лет,
и делили более длинный конфликт на последовательность событий, которым приписывали по 25 лет или меньше. Соответственно, монгольские завоевания, которые продолжались больше века с четвертью, мы считали за несколько событий. При другом
подходе получается нелепость; например, придется считать эпоху от Франко-прусской
войны до Второй мировой «германскими завоеваниями», а не последовательностью
событий, которые современники называли разными именами. Собственно, фундаментальные источники, такие как Encyclopedia of War [189], вместо «монгольских
завоеваний» пишут о множестве конфликтов; чем глубже погружается историк в свою
область, тем более он склонен разбивать конфликты на отдельные «знатные» события.
У разных историков монгольские завоевания насчитывают от 12 до 55 конфликтов.
Опять-таки возможные споры о том, что считать «известным событием», разрешаются бутстрэппингом. Кстати, наши выводы инвариантны к укрупнению или дроблению монгольских завоеваний.
Еще одна трудность — нет четкого протокола, как отделить гибель людей непосредственно на войне и сокращение численности населения из-за войны (например,
от голода при блокаде). Известны споры историков вокруг Первой Иудейской войны:
число смертей оценивается в 30 тысяч на войне и много больше (от 350 тыс. до 1 млн,
согласно Иосифу Флавию) от голода и от гибели гражданских лиц.
16.3.5. Пропущенные события
Мы предполагаем, что многие войны не попали в нашу выборку; правда, мы сомневаемся, что пропали события из «хвостов» распределения, поскольку у крупных конфликтов больше шансов попасть в историю. И мы предполагаем, что пропущенные
события распределены между данными случайно, без кластеризации.
Но мы учитываем систематическую ошибку из-за различий в точности и дотошности истории в разные времена: события ближе к современности попадают в анналы
надежнее, чем в далеком прошлом. Если подняли минимальное значение L, рассчитывая, что число пропущенных событий и их влияние должны резко уменьшиться.
И действительно, когда при проверке робастности мы поднимали планку еще выше,
до минимума L = 500 тыс., то результаты анализа не менялись.
Простая оценка методом складного ножа, когда анализ повторяют, удалив из
выборки некоторую часть событий, показывает нам зависимость анализа от пропущенных событий, и мы находим эту зависимость несущественной, если фокусироваться на
хвосте распределения числа жертв. Другими словами, если исследуются экстремальные
значения, и удаление 30 % событий не приводит к расхождению параметров с исходными результатами, можно не беспокоиться о том, что 30 % событий, возможно, было
пропущено в исходных данных — это вряд ли сделало хвосты тоньше1.
1 Обратное неверно. В этом суть несимметричности черного лебедя: такая процедура не компенсирует
отсутствие в данных хвостового события, «черного лебедя». Одно-единственное событие «черного

350

Н АС С И М Н И К ОЛ АС ТА Л Е Б

16.3.6. Систематическая ошибка выжившего
Мы не учитывали в данном анализе систематическую ошибку выжившего, полагая
ее несущественной, до 1960-го, пока вероятность конфликта, уничтожающего все
человечество, была пренебрежимо мала. После этого данный риск повысился, прежде
всего в связи с ядерным и другим оружием массового поражения.
16.4. АНАЛИЗ ДАННЫХ
Наши данные: число жертв в зависимости от времени, — графически представлены
на Рисунках 16.3 и 16.4. На Рисунке 16.3 показаны оценки фактического числа жертв,
а на Рисунке 16.4 это число масштабировано, чтобы привести к населению мира
в 2015-м (около 7,2 миллиарда человек)1. Глядя на Рисунок 16.3, можно предположить,
что с течением истории число смертей в вооруженных конфликтах росло; если так, то
это довод в пользу предположения о росте военного насилия. Глядя на Рисунок 16.4,
можно предположить прямо противоположное, что (масштабированное) число жертв
со временем уменьшалось, особенно в последние сто лет; это довод в пользу предположения о спаде военного насилия. Мы далее покажем, что обе интерпретации безнадежно наивны, потому что не учитывают тот факт, что мы имеем дело с экстремальными событиями.
16.4.1. Превышения над порогом

Экспоненциальные
квантили

Поскольку данные жирнохвостые, что заметно уже в таких простейших проверках,
как гистограммы логарифмов и графики квантиль-квантиль (на Рисунке 16.6 показан
график квантиль-квантиль фактического числа жертв и экспоненциального распределения: очевидная выпуклость вверх сигнализирует о жирнохвостом распределении), — постольку представляется уместным для моделирования зависимости числа
жертв войн от времени прибегнуть к апробированному методу теории экстремальных
значений: метод превышений над порогом (Peaks-over-Threshold, POT) [184].
6
4

2
0
0e + 00

2e + 07

4e + 07

6e + 07

Упорядоченные данные

Рисунок 16.6: Квантиль-квантильный график фактического числа жертв и стандартного экспоненциального квантиля. Точки данных расположены с выпуклостью
вверх — четкий сигнал жирных хвостов
лебедя» способно существенно ужирнить хвост. В данном же случае хвост так и так жирный, и если
часть информации была пропущена, это вряд ли сделало хвост тоньше. — Прим. автора.
1 Заметим, что в формуле (16.1) при H = 7,2 миллиарда φ(x) ≈ x. Поэтому Рисунок 16.4 также хорошо представляет данные после логарифмического преобразования. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

351

По методу POT для последовательности н. о. р. случайных величин случаи превышений над некоторым высоким порогом u (который придется идентифицировать)
происходят в моменты времени согласно однородному процессу Пуассона, тогда как
величину превышений можно моделировать обобщенным распределением Парето
(Generalized Pareto Distribution, GPD). Моменты наступления и величины разных
событий предполагаются независимыми друг от друга.
В нашем случае предположение о независимости войн друг от друга не кажется
слишком смелым, если учесть их разнесенность по эпохам и континентам. Но остальные предположения, напротив, придется проверять.
Начнем с того, что узнаем порог u, выше которого есть шанс успешной аппроксимации распределением GPD. Известен ряд эвристических инструментов для такой
работы, от графика Ципфа до графиков функции среднего избытка, когда ищется
линейность, характерная для жирнохвостых явлений [44, 82]. На Рисунке 16.7 показан
график функции среднего избытка для фактического числа жертв:1 очевиден тренд на
повышение, начинающийся с порога 5 тысяч жертв. Ради лучшей подгонки разумно
взять порог с небольшим запасом, u = 50 тысяч2.

Средний избыток

2,0e + 07

5,0e + 06

0,0e + 00

5,0e + 06

1e + 07

1,5e + 07

2e + 07

Порог

Рисунок 16.7: График функции среднего избытка (mean excess function plot, MEPLOT)
по фактическому числу жертв. Виден тренд на повышение, почти линейный в первой
части графика; это признак жирного правого хвоста. При высоком пороге изменчивость
повышается, но это объясняется тем, что в этой области мало число наблюдений выше
порога; подробно рассматривать такое поведение бесполезно

16.4.2. Интервалы во временных рядах и автокорреляция
Чтобы проверить, что по времени события следуют равномерному процессу Пуассона — это основное допущение для метода POT, — мы можем изучить время между
последовательными свершениями, или интервал, и убедиться, что он следует экспоненциальному распределению. Кроме того, нужно убедиться, что нет автокорреляции
между интервалами.
Что автокорреляции нет, ясно видно на Рисунке 16.8. В совместимости данных
с экспоненциальным распределением интервала между событиями убеждаемся при
1 Аналогичные результаты получаются и для масштабированных величин (наивно и логарифмически). Для
краткости мы всегда, когда нет серьезных различий, показываем на графиках только одну из двух величин. — Прим. автора.
2 Далее удачность этого выбора подтверждается проверками адекватности модели по критериям согласования. — Прим. автора.

352

Н АС С И М Н И К ОЛ АС ТА Л Е Б

помощи ряда эвристических и аналитических инструментов; для краткости мы здесь
опустим эти положительные результаты проверок.
Однако обратим внимание, поскольку это полезно и в других отношениях, на базовые статистические показатели, которые мы приводим в Таблицах 16.2 и 16.3 и которые касаются интервалов между катастрофическими, крупнейшими по числу жертв
событиями1. Уже из этих простых сведений ясно, сколь ненадежны утверждения об
историческом снижении уровня острых конфликтов. Для событий крупнее 10 миллионов жертв по фактическим оценкам видим средний интервал 101,58 года при среднем абсолютном отклонении 144,472. Это значит, что нет ничего необычного в том,
что ни одного события такой величины не свершилось за последние годы; согласно
такому распределению данное событие с равной уверенностью ожидается и завтра,
и через сто лет. Это также значит, что нечего и пытаться экстраполировать тренд для
экстремальных событий данного типа. Напоследок заметим, что событие масштаба
Второй мировой войны придется ждать еще дольше: оно происходит раз в 2014 лет,
если считать по фактическим величинам (по масштабированному числу жертв придется учесть восстание Ань Лушаня).
16.4.3. Анализ хвоста
Убедившись, что данные, очевидно, удовлетворяют предпосылкам POT в отношении
пуассоновского процесса, можем, наконец, подогнать обобщенное распределение
Парето к наблюдаемым избыткам.
Рассмотрим случайную величину X с функцией распределения F и обозначим
Fu функцию условного распределения X выше заданного порога u. Далее определим
(согласно [184]) случайную величину Y, масштабированное превышение порога u
величиной X, как следующую распределению с функцией

при 0 ≤ y ≤ xF – u, где xF — это правая конечная точка исходного распределения F. Пикэндс [190], Болкема и де Ганн [8], [9] и [10] показали, что для широкого класса исходных функций распределения F (в так называемом аттракторе распределения GEV3
[184]) при большом u можно аппроксимировать Fu обобщенным распределением
Парето: Fu(y) → G(y) при u → ∞, где
(16.7)

1 В Таблице 16.2 не приведены средние интервалы между событиями с числом жертв 20 млн (50 млн
и более). Потому что число таких наблюдений в фактических, немасштабированных данных ограничено. В частности, 20 млн жертв превысили только два события, и оба свершились в последние 150 лет,
с интервалом короче 20 лет. Действительно ли мы живем в мирную эпоху? — Прим. автора.
2 По масштабированным величинам интервалы короче, но интерпретация та же. — Прим. автора.
3 Обобщенное распределение экстремальных значений (generalized extreme value distribution, GEV) охватывает семейства распределений Гумбеля, Фреше и Вейбула.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

353

Можно доказать, что распределение GPD охватывает промежуточные случаи
между экспоненциальным распределением (при ξ = 0) и классом распределений
Парето. Подробности есть в [184].
Параметры в формуле (16.7) можно оценить методом максимального правдоподобия или методом взвешенных моментов вероятности [184]. Оценить адекватность
модели затем можно бутстрэп-тестами [262].
В Таблице 16.1 приведены наши оценки по ММП для фактического и масштабированного числа жертв выше порога 50 тыс. Этот порог оказался лучшим компромиссом
между стремлениями к высокой адекватности модели и к использованию большого
числа наблюдений ради надежности стандартных ошибок. Фактические и масштабированные данные дали два разных набора оценок, но интерпретация тех и других
согласуется между собой. По этой причине мы сосредоточимся здесь на обсуждении
фактического числа жертв.
Параметр ξ для нас самый важный: он управляет жирностью правого хвоста.
Если ξ больше 1 (а мы получили 1,5886), то для нашего обобщенного распределения
Парето не определены никакие моменты — ситуация крайней жирнохвостости. Естественно, что для выборки можно рассчитать все моменты, но они будут принципиально ненадежными и их теоретическая интерпретация будет некорректной (хотя данная некорректность встречается сплошь и рядом). Согласно нашей модели, отнюдь не
исключены самые катастрофические события. Стоит отметить, что результаты моделирования статистически значимы, со стандартной ошибкой 0,1467.
На Рисунках 16.9 и 16.10 наша подогнанная модель сравнивается с фактическими данными. На обоих можно видеть адекватность GPD для большинства
наблюдений выше порога 50 тыс. жертв. Есть расхождение для самых крупных
событий, таких как Вторая мировая война и восстание Ань Лушаня:1 по нашей
модели ожидались более крупные события. Это известная проблема с изучением
экстремальных данных [184]: бывает, что особо крупные значения поджидают вас
в ближайшем будущем.
Интервалы во временном ряду

АКФ

0,8

0,4

0
0

5,0e + 06

1e + 07

1,5e + 07

2e + 07

Временной сдвиг

Рисунок 16.8: График автокорреляционной функции (АКФ) промежутков между событиями с одинаковым фактическим числом жертв; никакой статистически значимой
автокорреляции не просматривается
1 Если удалить из данных два самых крупных события, гипотезу GPD станет невозможно отвергнуть при
уровне значимости 5 %. — Прим. автора.

354

Н АС С И М Н И К ОЛ АС ТА Л Е Б

1 − F(x),
логарифмическая шкала

Другое расхождение — для событий от 5 до 10 млн жертв (опять-таки немалых!),
которые случались немного чаще, чем ожидается по нашей модели GPD. Это еще раз
напоминает нам о характерном «экстремальном» поведении числа жертв войны, не
позволяющем экстраполяцию упрощенных трендов.
0,5

0,02

0,001
5

10

50

100

500

5000

x (логарифмическая шкала)

Рисунок 16.9: Подгонка хвоста GPD под данные фактического числа жертв (в десятках
тысяч). Параметры согласно Таблице 16.1, первая строка

Fu (x − u)

0,8

0,4

0
5

10

50

100

500

5000

x (логарифмическая шкала)

Рисунок 16.10: Подгонка кумулятивного распределения GPD под данные фактического числа жертв (в десятках тысяч). Параметры согласно Таблице 16.1, первая
строка

16.4.4. Альтернативный взгляд на максимумы
Другой метод в теории экстремальных значений — блочные максимумы: данные разбивают на блоки, в каждом выбирают максимальное значение и только эти выбранные
максимумы рассматривают далее. Теорема Фишера — Типпета [184] гарантирует, что
нормализованные максимумы сходятся по распределению к обобщенному распределению крайних значений, GEV.

У этого распределения есть естественная связь с GPD, и мы отсылаем к [184] за
подробностями.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

355

Если мы разделим наши данные на 100-летние блоки, получим 21 наблюдение
(последний блок будет остатком истории с 2001 по 2014 год). Метод максимального
правдоподобия дает ξ больше 2, относя распределение к максимальному аттрактору
Фреше, что совместимо с оценкой хвоста явления как тяжелого. Значение ξ больше 2
в распределении GEV дополнительно подтверждает предположение о том, что моментов нет и правый хвост очень тяжелый.
16.4.5. Анализ полных данных
Помня об ограничениях, мы можем попробовать подогнать модель по всем данным,
соблюдая при этом для числа жертв больше 10 000 распределение Парето согласно
формуле (16.3) с α ≈ 0,53. Адекватность модели для «близкого хвоста» (L = 10 тыс.)
можно видеть на Рисунке 16.2. Аналогичные Рисунку 16.2 результаты показаны для
различных значений в приведенной ниже таблице, и у всех одинаковая оценка согласия.
L

σ

10 000

84 260

25 000

899 953

50 000

116 794

100 000

172 733

200 000

232 358

500 000

598 292

Различные возможные значения среднего в формуле (16.4) множно вычислить
для разных наборов α, при одной степени свободы: соответствующая σ — это оценка
по ММП с использованием α как фиксированного параметра. Если размер выборки n
и xi — наблюдения выше

.

Выборочное среднее при L = 10 тыс. составляет 9,12 × 106 по 100 тыс. моделирований, и разброс значений показан на Рисунке 16.15.
«Истинное» среднее из формулы (16.4) составляет 3,1 × 107; мы повторили
вычисления при L = 10 тыс., 20 тыс., 50 тыс., 100 тыс., 200 тыс. и 500 тыс. и нашли
отношение истинной оценки среднего к наблюдаемой строго между 3 и 4, смотрите
Таблицу 16.4. Заметим, что оценка среднего как ≈ в 3,5 раза больше наблюдаемого
среднего по выборке — это только общая прикидка; величина эта стохастическая и не
выявляет точной информации; она лишь показывает нам, сколь нелепо ориентироваться на наивную оценку среднего.
Потому что при жирных хвостах среднее, выведенное из оценок α, строже и имеет
меньшую погрешность. В самом деле, оценка α асимптотически гауссова, тогда как
среднее распределения по степенному закону, если вообще существует, гораздо стохастичнее. По этому вопросу смотрите обсуждение «медленного закона больших чисел»
в Разделе 8.

356

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Мы находим, что среднее с усечением по L= 10 тыс. заметно ниже, если вычислять
по формуле (16.6); около 1,8835 × 107.
В заключение заметим, что среди конфликтов с числом жертв 10 тыс. и выше доля
конфликтов с числом жертв ниже среднего составляет 96 %. Обозначая среднее m,
.

16.5. ДОПОЛНИТЕЛЬНЫЕ ТЕСТЫ РОБАСТНОСТИ И НАДЕЖНОСТИ
16.5.1. Бутстрэп для GPD
Чтобы проверить чувствительность к качеству и точности данных, мы решили выполнить бутстрэп-анализ. И для исходных данных, и для масштабированных мы сгенерировали 100 тыс. новых выборок путем случайного выбора 90 % наблюдений, применяя замену. На Рисунках 16.11, 16.12 и 16.13 показана устойчивость наших оценок ξ.
В частности, ξ > 0 во всех выборках, что показывает крайнюю жирнохвостость числа
жертв вооруженных конфликтов. Оценки ξ в Таблице 16.1, по-видимому, хорошая
аппроксимация для наших действительных параметров формы GPD, невзирая на
неточности и пропуски наблюдений.
Исходные данные:
100 тыс. бутстрэп-выборок

Частота

10 000
0
1

1,2

1,4

1,6

1,8

2

2,2

Рисунок 16.12: Распределение
параметра ξ по 100 тысячам
бутстрэп-выборок наивно масштабированных данных. Каждая выборка сгенерирована
случайным выбором с заменой
при использовании 90 % первоначальных наблюдений

Наивно масштабированные данные:
100 тыс. бутстрэп-выборок

Частота

10 000
0

1,4

Частота

1,6

1,8

2

2,2

2,4

Логарифмически преобразованные данные:
100 тыс. бутстрэп-выборок

10 000
0
1,4

1,6

1,8

2

2,2

Рисунок 16.11: Распределение
параметра ξ по 100 тысячам
бутстрэп-выборок фактических данных. Каждая выборка
сгенерирована случайным
выбором с заменой при
использовании 90 % первоначальных наблюдений

2,4

Рисунок 16.13: Распределение
параметра ξ по 100 тысячам
бутстрэп-выборок логарифмически преобразованных данных.
Каждая выборка сгенерирована
случайным выбором с заменой
при использовании 90 % первоначальных наблюдений

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

357

16.5.2. Внесение возмущений в границы оценок
Мы выполнили анализ для «близкого хвоста» методами Монте-Карло, которые обсудили в Разделе 16.3.3. Посмотрим на p-значения второго порядка, то есть на чувствительность p-значений при различных оценках на Рисунке 16.14: практически все
результаты удовлетворяют одним и тем же уровням статистической значимости и адекватности модели.
Кроме того, посмотрим на значения выборочных средних и средних по ММП на
основе альфы при различных перестановках (Рисунки 16.15 и 16.16).


Рисунок 16.14: p-значения модели Парето —
Ломакса при 100 тыс.
сочетаний. Цель была
не узнать p-значение,
а проверить робастность, посмотрев
на изменчивость при
перестановке оценок

0,25

0,2

0,15

0,1

0,05
0

0,6

0,7

0,8

0,9

1

p-значения


1

0,08

Рисунок 16.15: Масштабированное
выборочное среднее
при 100 тыс. оценок
между нижней и верхней границами

0,06

0,04

0,02

0

8,5×106

9×106

9,5×106

m

358

Н АС С И М Н И К ОЛ АС ТА Л Е Б


0,08

Рисунок 16.16: Масштабированное среднее ММП
при 100 тыс. оценок
между нижней и верхней
границами

0,06

0,04

0,02

0

3×107

3,2×107

3,4×107

3,6×107

3,8×107

m

16.6. ЗАКЛЮЧЕНИЕ: МИР ОПАСНЕЕ, ЧЕМ КАЖЕТСЯ?
Говоря самыми простыми словами, наши выводы таковы, что, даже если дальнейшие события в 3 раза поднимут средний уровень насилия, нам не придется
переписать эту главу или изменить калибровку параметров.








В самом деле, если опираться на анализ статистики, то мир опаснее, чем по
легкомысленным расчетам. Уровень острых конфликтов недооценивается при
статистически неграмотном, в газетном стиле разговоре о среднем без понимания стохастичности интервалов между событиями.
Преобразование к компактному носителю позволило нам выполнить анализ
и калибровку этой недооценки, получив, пусть и с заметным шумом, представление о величине недооценки и границах.
Другими словами, крупное событие и даже рост наблюдаемого среднего
уровня острых конфликтов не нарушит согласия со статистическими свойствами модели, и можно будет сказать, что в наших взглядах «ничего не изменилось».
Мы не можем распространить наши выводы на статистику убийств, поскольку
ограничились L > 10 000, но вряд ли их уровень существенно влияет на хвосты; скорее там его влияние как капля в море. Динамика числа убийств отличается от военного насилия; случалось, что в одних и тех же обществах наблюдался низкий уровень убийств и высочайший риск погибнуть в результате
острого конфликта. (Число жертв убийства при масштабировании из 70 в год
на 100 тыс. жителей на современное население мира дает нам 5,04 × 106. Даже
падение до минимальных уровней не выйдет за пределы погрешности среднего по острым конфликтам крупнее 10 000 жертв.)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В



359

Мы проигнорировали при анализе данных ошибку выжившего (то есть тот
факт, что, будь мир более опасным местом, нас бы здесь не было и мы бы
его не обсуждали). Если учесть ошибку выжившего, оценка риска повысится.
Появление соответствующего хвоста требует начать такой учет в анализе
последующего периода. С 1960 года один-единственный конфликт — который чуть было не случился — способен достичь максимального числа жертв;
раньше такого не было. (Мы можем переписать модель, раздробив мир на множество изолированных друг от друга миров и введя n независимых случайных
величин Xi, каждая с максимальным значением Hi, так что
Hi = H, при
=1. В таком случае максимум (то есть наихудший конфликт)
всех wi > 0,
потребовал бы совместной вероятности того, что все X1, X2, …, Xn окажутся
вблизи своих максимальных значений, что при субэкспоненциальном распределении будет много менее вероятным, чем достижение максимального значения одной случайной величиной.)1

ln ℙ>x
1

f
g

0,01

Рисунок 16.17: Сравнение
на логарифмическом графике
функций f и g. Видно гладкое
закругление вблизи H, аналогичное границе американского
опциона

0,001

10–4

10–5
10

100

1000

104

ln x

16.7. БЛАГОДАРНОСТИ
Данные компилировал капитан Марк Вейзенборн. Благодарим Бена Кирнана за комментарии о восточноазиатских конфликтах.

1 Сколько же нам ждать, чтобы научно обоснованно объявить, что войны некоторой величины стали случаться реже? Все просто: интервалы между войнами следуют экспоненциальному распределению без
памяти, поэтому функция выживания для отклонения втрое больше среднего составляет e-3 ≈ 0,05. Это
значит, что перед научно обоснованными заявлениями надо ждать втрое дольше, чем средний интервал.
Говоря о таких больших войнах, как Первая мировая и Вторая мировая, ждать надо 300 лет. Печально, но
факт. — Прим. автора.

G
КАКОВА ВЕРОЯТНОСТЬ
ТРЕТЬЕЙ МИРОВОЙ ВОЙНЫ? *†

Этот раздел взят из статьи в рамках дискуссий среди публицистов-интеллектуалов, заявивших о снижении уровня насилия «согласно данным» без
понимания научной сложности вопроса; для значимых утверждений в условиях жирных хвостов требуется больше данных и более аккуратные подходы. Наш ответ (автора и П. Чирилло) можно считать подведением итогов
спора и формулировкой морали по поводу наивного эмпиризма при жирных
хвостах.

В одном из последних номеров Significance1 мистер Питер Макинтайр спросил, какова
вероятность третьей мировой войны в текущем столетии. Профессор Майкл Шпагат
написал, что никто не знает ответа — и здесь мы с ним совершенно согласны. Затем
он добавил, что «большая война возможна, но, на мой взгляд, крайне маловероятна».
И в качестве довода сослался на газетные публикации и научно-популярную книгу
профессора Стивена Пинкера «Лучшее в нас». Профессор Пинкер утверждает, что
в мире наблюдается долговременный спад уровня насилия, предполагающий, что
воинственность человечества претерпевает структурные изменения.
И далее в своем ответе профессор Шпагат имел неосторожность упомянуть нашу
статью (в этой книге это Глава 16), часть нашего большого исследования жирнохвостых случайных величин.
В чем особенность жирнохвостых величин? Основное влияние на их параметры
(начиная со среднего значения) оказывают события экстремальные, «в хвостах». Расхожий пример — распределение Парето «80 / 20».

1 Речь идет о редакционной статье 5 января 2016, Ask a statistician: What are the chances of World War III?

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

361

Рисунок G.1: После Наполеона в Европе наступило затишье. Пока не появился национализм

Рисунок G.2: История движется скачками. Жирнохвостый исторический процесс, в котором события распределены
по степенному закону, отвечающему
принципу «80/20», то есть α ≈ 1,13, представленный в 3D как процесс с независимыми приращениями [имеется в виду
последовательность значений случайной
величины в дискретные моменты времени,
в которой приращение этой величины от
одного момента до следующего не зависит
от предшествующих приращений]

362

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Рисунок G.3: Как это себе представляют заявители
«Великой стабилизации» [предположение, что США
с середины 1980-х вступили в эпоху без экономических кризисов] и «Долгого мира» [предположение,
что мир с 1945 вступил в эпоху без мировых войн],
история как тонкохвостый процесс

Мы показываем, говоря прямо, что данные не поддерживают предположение
о структурных изменениях в воинственности человечества. И первая ошибка профессора Шпагата в том, что он неправильно прочитал наше утверждение; мы не делаем
ни пессимистических, ни оптимистических заявлений, мы всего лишь полагаем, что
статистик должен следовать принципам статистической теории и не указывать данным, в чью пользу говорить.
Вернемся к первым принципам.
Фундаментальные принципы
В своей основе статистика — наука о том, как убедить людей не строить научные теории на пустом месте, то есть там, где нет значимого отличия от чистой случайности.
Иначе происходит пресловутое «одурачивание случайностью».
Уточним далее, что, когда случайные величины жирнохвостые, обычные механизмы закона больших чисел существенно замедлены, и для выводов требуется
больше данных за более длительные периоды наблюдений. Коварным образом это так
не для всех утверждений, и для некоторых утверждений достаточно немногих данных:
статистические выводы в домене жирных хвостов асимметричны. Требуется гораздо
больше данных для того, чтобы подтвердить отсутствие черных лебедей, чем для того,

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

363

чтобы подтвердить наличие черных лебедей, и нам нужно гораздо больше данных для
заявлений о спаде насилия, чем для заявлений о его подъеме.
И, наконец, заметим, что те заявления, которые не являются статистически значимыми и для которых незначимость доказана, не следует использовать как опору для
построения научных теорий.
Эти фундаментальные принципы часто упускают, потому что обучение в общественных науках заимствует примитивный инструментарий тонкохвостых доменов [2]. В физике обычны ситуации, где можно делать утверждения по малым наборам
наблюдений и можно обойтись даже без стандартной статистической методологии,
потому что у изучаемых величин низкая дисперсия. Чем выше дисперсия, тем больше
требуется данных для статистических заявлений. При жирных хвостах дисперсия
обычно высока и недооценивается по прошлым данным.
Вторая — и более серьезная — ошибка Шпагата и Пинкера в том, что они полагают хвостовые события как нечто далекое от среднего и не влияющее на него, тогда
как в действительности хвостовые события включены в среднее.

Для жирнохвостых величин среднее почти полностью определяется экстремальными значениями. Если у вас большая неопределенность с хвостами, то у вас большая неопределенность и со средним.

Поэтому некорректно говорить, будто частота острых конфликтов спала, не считая
риска хвостовых событий; это все равно что сказать про человека, что он добрейшая
душа, не считая одного случая, когда он принес в школу автомат и убил 30 учеников.
Робастность
Наше исследование старается построить максимально робастную статистическую
картину острых конфликтов, полагаясь на методы из теории экстремальных значений
и статистические методы работы с жирными хвостами. Кроме того, мы выполняем
проверки робастности, чтобы оценить влияние несовершенства данных, собранных
тысячи лет назад: наши результаты должны оставаться в силе, даже если треть (а то
и больше) данных ошибочна.
Интервалы между событиями
Мы показываем, что интервалы между крупными конфликтами крайне велики
и совместимы с гипотезой о равномерном процессе Пуассона; поэтому никакой тренд
установить невозможно, как и невозможно объявить современных людей менее воинственными, чем прежде. Для конфликтов, вызывающих минимум 10 миллионов жертв
(включая конфликты и менее кровавые, чем Первая мировая война и Вторая мировая война), время ожидания в среднем 136 лет при среднем абсолютном отклонении
267 лет (или чаще, если масштабировать данные к сегодняшнему населению: в среднем 52 года при отклонении 61 год). Очевидно, что семидесяти лет так называемого
«долгого мира» недостаточно для сильных утверждений о возможности третьей мировой войны в близком будущем.

364

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Недооценка среднего
Кроме того, мы находим, что среднее по прошлым конфликтам недооценивает истинное статистическое среднее минимум наполовину. Почему? Учтите, что 90–97 %
наблюдений попадает ниже среднего, и станет ясно, что поправка согласно теории
экстремальных значений будет существенной. (При крайне жирных хвостах статистическое среднее может быть ближе к максимальному прошлому наблюдению, чем
к среднему по выборке.)
Обычная ошибка
Похожие ошибки делались и в прошлом. В 1860 некий Г. Т. Бокль1 рассуждал столь же
антинаучно в отношении статистики, как Пинкер и Шпагат.
Что это варварское занятие вместе с развитием общества быстро падает, известно каждому, даже поверхностно знакомому с историей Европы. Если мы сравним одно столетие с другим, то увидим, что уже довольно давно войны сделались менее частыми;
теперь это движение так ясно видно, что до начала последних военных действий мы
жили в мире почти сорок лет, обстоятельство беспримерное… Возникает вопрос,
насколько нравственное чувство способствовало этому важному успеху2.

Способствовало чему-то нравственное чувство или нет, но столетие после сочинений мистера Бокля оказалось самым большим душегубством за всю историю человечества.
В заключение скажем, что считаем делом чести указать на фундаментальные статистические ошибки в журнале под названием Significance, ибо вопрос стоит именно
о значимости и донесении принципов статистической строгости до широкой публики.

1 Buckle H. T. (1858) History of Civilization in England, Vol. 1, London: John W. Parker and Son. — Прим.
автора.
2 Перевод К. Бестужева-Рюмина, 1863.

Часть VI
С ТАТ Ь И О М Е ТА В Е Р ОЯ Т Н О С Т И

17
КАК ТОЛСТЫЕ ХВОСТЫ ВОЗНИКАЮТ
ИЗ РЕКУРСИВНОЙ ЭПИСТЕМОЛОГИЧЕСКОЙ
НЕОПРЕДЕЛЕННОСТИ †

Противоположность центральной предельной теоремы. В рамках центральной предельной теоремы мы начинаем с некоторого распределения
и приходим к гауссову. Но в этой области скорее случится нечто противоположное. Помните, как мы ужирняли хвосты гауссианы, стохастизируя дисперсию? Давайте теперь используем тот же метод для метавероятности, добавляя
уровни неопределенности1.

Регрессия2 (погрешность погрешности). Главная проблема, порождающая черного лебедя, — ограниченное понимание погрешности модели (или репрезентации), а если это понимание достигнуто, то недостаток понимания погрешностей второго порядка (в методах вычисления погрешностей); согласно логике
регрессии, повторением данного способа размышления нельзя дойти до предела
(особенно если нет причин остановиться). Но нет проблемы остановить эту
рекурсию в заранее объявленной точке, не подпадающей под количественные
и статистические методы.
Новый вывод степенных законов: не статистический, а эпистемологический.
Заметим, что ранее мы выводили степенные законы из статистических соображений,
таких как аккумуляция преимуществ3, предпочтительное связывание4, эффекты игры
1 Ранняя версия этой главы была представлена на семинаре памяти Бенуа Мандельброта 29 апреля
2011 в Нью-Хейвене, штат Коннектикут. — Прим. автора.
2 Англ. Regress Argument — один из доводов скпетицизма, т. н. второе Пирроново положение: Любое доказательство требует доказать то, на что опирается, и так до бесконечности.
3 Англ. cumulative advantage — то же, что Юлов процесс и принцип Матфея: феномен неравномерного распределения преимуществ, в котором сторона, уже ими обладающая, продолжает их накапливать и приумножать. Ср. …ибо всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что
имеет (Мф. 25:29).
4 Англ. Preferential attachment process — процесс роста безмасштабной случайной сети, когда вероятность
добавления связи к тому или иному узлу пропорциональна текущему числу связей узла.

368

Н АС С И М Н И К ОЛ АС ТА Л Е Б

по принципу «победитель получает все», критичность1 и свойства, выведенные Юлом,
Мандельбротом, Ципфом, Саймоном, Баком и другими порождаются структурными
условиями или нарушением той независимости слагаемых в сумме случайных величин, которая предполагается для применения центральной предельной теоремы; см.
[90], [212], [100], [162], [161]. Напротив, эта статья полностью эпистемологическая,
основанная на стандартных философских проблемах сомнения и регрессии.

Рисунок 17.1: Ранняя версия этой
главы была представлена на семинаре
памяти Бенуа Мандельброта

17.1. МЕТОДЫ И ВЫКЛАДКИ
17.1.1. Уровни неопределенности
Возьмем стандартное распределение вероятностей, скажем гауссово. Оценивая его
среднеквадратическое отклонение σ, нужно и самой этой оценке приписать некоторое среднеквадратическое отклонение. Эта неопределенность в оценке неопределенности на жаргоне торговцев опционами называется «волатильность волатильности» (смотрите у Талеба, 1997, Дермана, 1994, Дюпира, 1994, Халла и Уайта, 1997),
а в нашем рассказе здесь это будет «степень неопределенности степени неопределенности». И нет причины останавливаться на этом уровне: мы можем вводить в рас1 Англ. criticality или self-organized criticality — то же, что Баков процесс: поведение вблизи аттрактора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

369

смотрение все новыенеопределенности высоких порядков, степень неопределенности степени неопределенности степени неопределенности и так далее. Нет никаких
оснований полагать, что на каком-то шаге процедуры должна возникнуть полная
определенность.
17.1.2. Интегралы высоких порядков в стандартном гауссовом случае
Начнем с гауссова случая и сосредоточимся на неопределенности предполагаемого
среднеквадратического отклонения. Определим φ(μ, σ; x) как гауссову функцию плотности для значения x при среднем μ и среднеквадратическом отклонении σ.
Стохастическое стандартное отклонение второго порядка — это интеграл φ по
всем значениям σ ∈ ℝ+ согласно функции плотности f ( σ̄ , σ1; σ), где σ1 — ее коэффициент масштаба (согласно нашему намерению отслеживать погрешность погрешности),
который не обязательно представляет собой среднеквадратическое отклонение; математическое ожидание σ̄ обозначим σ̄1̄ .

Обобщая до N-го порядка, находим, что функция плотности f(x) принимает вид

.

(17.1)

Чтобы так исследовать итоговое распределение fN (x), нужно знать множество
параметров и вид множества распределений. Например, в финансовой математике,
чтобы σ не принимала отрицательных значений, для этого параметра вместо гауссова
распределения традиционно используют логнормальное распределение σ2, или гауссово распределение для логарифма отношения

. Для каждого уровня погрешно-

сти придется задавать меру f. Вместо всего этого, как мы увидим далее, можно использовать приближение средним отклонением σ.
Дискретизировать последовательностью вложенных бинарных ветвлений по σ —
простая мультипликативная процедура.
Мы видели в прошлой главе эффективное упрощение для захвата выпуклости
вниз — отношения или разности

и

(отклонение пер-

вого порядка), — путем использования взвешенного среднего значений σ; например,
для простого случая стохастической волатильности первого порядка это будет
σ(1 ± a1),
при 0 ≤ a1 < 1, где a1 — пропорциональное среднее абсолютное отклонение для σ, другими словами — мера абсолютной погрешности для σ. Мы используем как вероятность каждого из двух состояний. В отличие от рассмотренной выше ситуации мы

370

Н АС С И М Н И К ОЛ АС ТА Л Е Б

сохраняем не дисперсию, а среднеквадратическое отклонение. Поэтому распределение с использованием стохастического среднеквадратического отклонения первого
порядка можно выразить так:
(17.2)
Теперь припишем погрешности a1 неопределенность, выраженную через a2 аналогичным образом. Соответственно вместо a1 начнем использовать
(a1 + 1) (a2 + 1) (a3 + 1) σ
(a1 + 1) (a2 + 1) σ
(a1 + 1) (a2 + 1) (1 – a3) σ
(a1 + 1) σ
(a1 + 1) (1 – a2) (a3 + 1) σ
(a1 + 1) (1 – a2) σ
(a1 + 1) (1 – a2) (1 – a3) σ
σ
(1 – a1) (a2 + 1) (a3 + 1) σ
(1 – a1) (a2 + 1) σ
(1 – a1) (a2 + 1) (1 – a3) σ
(1 – a1) σ
(1 – a1) (1 – a2) (a3 + 1) σ
(1 – a1) (1 – a2) σ
(1 – a1) (1 – a2) (1 – a3) σ

Рисунок 17.2: Три уровня погрешности, если σ следует мультипликативной процедуре

Стохастическое среднеквадратическое отклонение второго порядка:

(17.3)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

371

и N-го порядка

где

— i-я строка (скаляр) матрицы MN(2N × 1)

и Ti, j — элемент i-й строки j-го столбца матрицы всех возможных цепочек длины N
в алфавите {–1, 1}, то есть последовательностей вида (1, 1, 1, …) всевозможных сочетаний 1 и –1.
При N = 3

и

.

и т. п.
Таким образом,
Заметим, что разные погрешности ai не аналогичны ошибкам выборочных оценок; скорее их можно сравнить с проекцией уровня погрешности в будущее. Повторим: эти параметры — эпистемологические.
Итоговое смешанное распределение. Взвешенное среднее распределение примет вид (вспомним, что φ — обычная гауссова функция плотности, зависящая от среднего μ, среднеквадратического отклонения σ и значения случайной величины x):

Ее можно аппроксимировать логнормальным распределением для σ и соответствующей дисперсии V. Но нас интересует именно V, и она зависит от поведения
погрешностей высшего порядка.

372

Н АС С И М Н И К ОЛ АС ТА Л Е Б

0,6

0,5

0,4

0,3

0,2

0,1

–6

–4

–2

0

2

4

6

Рисунок 17.3: Утолщение хвостов (и повышение пиков) при росте N; здесь N = 0, 5, 10, 25, 50; все
a=

Рассмотрим далее различные режимы для погрешностей высшего порядка.
РЕЖИМ 1 (ВЗРЫВНОЙ): СЛУЧАЙ ПОСТОЯННОГО ПАРАМЕТРА a
Особый случай постоянного a. Пусть a1 = a2 = … = aN = a, т. е. это случай плоского
графика пропорциональной погрешности a. Матрица M коллапсирует в обычное
биномиальное дерево для рассеяния на уровне N.
(17.4)
Благодаря линейности сумм при постоянном a можно использовать биномиальное
распределение для весовых коэффициентов моментов (снова заметим, что действует
искусственное ограничение этого анализа: первый момент μ жестко задан и известен
априори).
Порядок
1
2
3
4

Момент
μ
σ2(a2 + 1)N + μ2
3μσ2(a2 + 1)N + μ3
6μ2σ2(a2 + 1)N + μ4 + 3(a4 + 6a2 + 1)Nσ4

Снова заметим, что, странным образом, несмотря на взрывной характер высших
моментов, математическое ожидание абсолютной величины x не зависит ни от a, ни

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

373

ℙ(x)
0,1

10–4

a=


; N = 0, 5, 10, 25, 50
¹⁰

10–7

N = 50
N = 25
–10

10

N = 10
N=5
N=0

10–13

1,5

2

3

5

7

10

15

20

30

x

Рисунок 17.4: Вероятность превысить x на графике в дважды логарифмическом
масштабе; видим аналогичное степенному закону приближение к горизонтали
при росте N. Здесь все

от N, поскольку возмущения σ не влияют на первый абсолютный момент =

(где

фигурирует исходное значение σ). Ситуация была бы другой при сложении x.
С каждой рекурсией дисперсия процесса умножается на (1 + a2). Процедура аналогична стохастизации в модели волатильности, где среднеквадратическое отклонение (а не дисперсия) следует логнормальному распределению, волатильность которого растет вместе с N и, следовательно, в пределе дисперсия бесконечна.
Следствия
При постоянном a > 0, как и в более общем случае переменного a, если an ≥ an – 1,
моменты взрываются.
A. При самом малом значении a > 0 величина (1 + a2)N неограниченно возрастает,
из-за чего второй момент (но не первый) уходит в бесконечность при N → ∞. Даже
незначительная, казалось бы, погрешность 0,001 % приведет к взрыву моментов
и непригодности класса распределений ℒ2.
B. В этой ситуации необходимость степенных законов или иных распределений
вне нормы ℒ2 диктуется эпистемологическими причинами и не зависит от наблюдений данных в прошлом.
Заметим, что нужна априорная причина (в философском смысле), чтобы прерваться при некотором N и положить предел безудержному росту второго момента.
Сходимость к свойствам, аналогичным степенным законам. На примере следующего графика в дважды логарифмическом масштабе (Рисунок 17.4) можно видеть,
как при высших порядках статистической волатильности при постоянном пропорцио-

374

Н АС С И М Н И К ОЛ АС ТА Л Е Б

нальном стохастическом коэффициенте

плотность приближается

к степенному закону (подобно логнормальному распределению при высокой дисперсии); это проявляется как более плоский график плотности на дважды логарифмическом графике. Вероятности продолжают расти в хвостах по мере добавления уровней
неопределенности, пока не приближаются к границам степенного закона, хотя первый
момент коварным образом остается инвариантным.
Тот же эффект имеет место, когда a возрастает, приближаясь к 1 и предел показателя хвоста P> x1 приближается к 1, хотя остается > 1.
17.1.3. Влияние на малые вероятности
Далее найдем оценки для эффектов толстого хвоста. Очевидным эффектом является
рост маловероятных событий.
Возьмем вероятность превышения порога K при заданном N и постоянном параметре a:
(17.5)
где erfc(.) — дополнительная функция ошибок,
Эффект выпуклости вниз. В следующих таблицах показано, при разных значениях N, отношение вероятности превысить заданный высокий порог к вероятности
такого же события в случае стандартного гауссова распределения.
Таблица 17.1: Случай
N
5
10
15
20
25

1,01724
1,0345
1,05178
1,06908
1,0864

1,155
1,326
1,514
1,720
1,943

7
45
221
922
3347

Таблица 17.2: Случай
N
5
10
15
20
25

2,74
4,43
5,98
7,38
8,64

146
805
1980
3529
5321

1 То есть правого хвоста функции выживания F̅(x) = 1 – FX(x) = ℙ(X > x).

1,09 × 1012
8,99 × 1015
2,21 × 1017
1,20 × 1018
3,62 × 1018

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

375

17.2. РЕЖИМ 2: СЛУЧАИ ЗАТУХАЮЩИХ ПАРАМЕТРОВ an
Как мы говорили, для затухания параметра a или полного прерывания последовательности при некотором N мы можем задать априорные причины (и, собственно, никакие
другие причины не помогут). Если ai высоких порядков снижаются, моменты в общем
и целом станут ограничены (наследуя хвосты от логнормального распределения σ).
17.2.1. Режим 2-a; «потери» погрешности высокого порядка
Пусть погрешности высокого порядка «теряют энергию» в геометрической прогрессии со знаменателем λ, 0 ≤ λ < 1, так что aN = λaN – 1, и поэтому aN = λN – 1a1, где a1 — обычная сила стохастического среднеквадратического отклонения. Пусть μ = 0.
При N = 2 второй момент принимает вид:

При N = 3 второй момент принимает вид:

При произвольном N второй момент принимает вид:
(17.6)
Формулу (17.6) можно переписать с использованием символа Похгаммера
так:
и тогда предел можно записать как

Четвертый момент получаем рекурсией:
или

(17.7)
в пределе
(17.8)
Таким образом, предельный второй момент при λ = 0,9 и a1 = 0,2 составляет всего-навсего 1,28 σ2, существенное, но не злокачественное смещение выпуклости вниз.
Предельный четвертый момент составляет 9,88 σ4, втрое больше гауссова (3 σ4), но
конечный. При малых a и при λ близко к 1 четвертый момент падает до гауссова.

376

Н АС С И М Н И К ОЛ АС ТА Л Е Б

17.2.2. Режим 2-b; второй метод, немультипликативная погрешность
По второму методу при N рекурсиях среднеквадратическое отклонение становится
σ(1 ± (a1(1 ± (a2(1 ± a3(…))))))
,
где (TN⋅AN)i — скалярное произведение i-й строки TN, матрицы всех цепочек длины N
в алфавите {1, –1}, на AN, вектор из степеней параметра a

L — длина матрицы TN1.
Например, при N = 3 имеем

и

Моменты имеют вид:
M1(N) = μ,
M2(N) = μ2 + 2σ,

и в пределе

и это весьма умеренное значение.
17.3. ПРЕДЕЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Смотрите у Талеба и Чирилло [241], как исследуется предельное распределение, которое при правильных условиях оказывается логнормальным. Собственно, логнормальные аппроксимации работают хорошо, если погрешность погрешности составляет
постоянную долю.
1 То есть L = 2N.

18
СТОХАСТИЧЕСКИЙ ПОКАЗАТЕЛЬ
ХВОСТА ПРИ АСИММЕТРИЧНЫХ

СТЕПЕННЫХ ЗАКОНАХ

Мы исследуем случайные величины в классе степенного закона / медленно
меняющихся функций при стохастическом показателе степени хвоста α,
имеющем собственное распределение1. Мы показываем, какое влияние оказывает стохастичность на математическое ожидание и высшие моменты случайной величины. В частности, моменты асимметричной случайной величины
с правым хвостом или перекосом в правую сторону, если существуют, растут
с увеличением дисперсии α, а для случайной величины с перекосом влево —
убывают. То же относится к условным потерям (conditional shortfall, они же
conditional value at risk, CVaR)2, или функциям среднего избытка (mean excess,
ME).
Мы доказываем утверждение в общем случае и исследуем особую ситуацию логнормального распределения α ∈ [b, ∞), b > 1.
Стохастичность показателя степени порождает существенное смещение
оценки среднего и высших моментов; таков эффект неопределенности данных. Он сказывается на погрешности выборки: неопределенность относительно α повышает ожидаемое среднее.
Это смещение сохраняется при накоплении наблюдений, даже когда достигается сходимость к устойчивому распределению. Мы выводим неравенства,
связанные с такой асимметрией.
Кроме того, мы рассматриваем ситуацию усеченного степенного закона
(т. е. с компактным носителем) и применяем результаты к изучению статистики острых конфликтов Чирилло и Талебом (2016). Мы показываем, что
с учетом неопределенности исторических данных необходимо увеличивать
истинное среднее.

1 Первое сообщение на конференции Extremes and Risks in Higher Dimensions в Lorentz Center, Лейден,
Нидерланды, сентябрь 2016.
2 Они же ожидаемые потери (expected shortfall, ES).

378

Н АС С И М Н И К ОЛ АС ТА Л Е Б

18.1. ИСТОРИЯ ВОПРОСА
Стохастическая волатильность появилась как эвристический прием в финансовой
математике, изобретенный трейдерами, которые искали смещение в оценке опционов;
суть приема в том, чтобы приписать гауссову распределению несколько возможных
дисперсий, действующих на коротких участках или начиная с некоторой даты в будущем. Опционы «далеко от денег»1 (т. е. связанные с хвостовыми событиями) приносят
тем бо́льшую прибыль, чем больше неопределенность в дисперсии распределения,
поскольку имеют выпуклость вниз по среднеквадратическому отклонению.
Идея стохастической волатильности породила семейство моделей броуновского
движения со стохастической дисперсией (смотрите обзор Гезерала [102]) и оказалась
полезной для изучения поведения негауссовых случайных величин и их функций
(например, цен опционов).
Подобно опционам, которые имеют выпуклость вниз по масштабу распределения,
во многих ситуациях ожидания имеют выпуклость вниз по показателю степени хвоста
степенного закона. В данном тезисе исследуется два случая:



Стандартные степенные законы — с одним хвостом или асимметричные.
Псевдостепенные законы — где поведение случайной величины сходно
со степенным законом, однако носитель компактный, как в исследовании
частоты острых конфликтов [46], где число жертв войны не может превысить
некоторый максимум.

18.2. ОДНОХВОСТЫЕ РАСПРЕДЕЛЕНИЯ СО СТОХАСТИЧЕСКОЙ
АЛЬФОЙ
18.2.1. Общие случаи
Определение 18.1
Пусть X — случайная величина из класса правых хвостов степенного закона, и тем
самым ее носитель [x0, +∞), x0 ∈ ℝ, и пусть она принадлежит следующему подклассу.
Подкласс 𝔓1:
.

(18.1)

Заметим, что в этом подклассе допустим сдвиг функции распределения и любые
отрицательные x0, лишь бы x0 > –∞. Весь класс следующий.
Класс 𝔓:
(18.2)
1 Англ. far from the money — опционы, страйк-цена которых сильно отличается от текущей рыночной цены
базового актива. Владелец опциона колл может воспользоваться правом купить по страйк-цене, владелец
опциона пут может воспользоваться правом продать по страйк-цене; так или иначе, нахождение опциона
далеко от денег означает для владельца опциона возможность большой прибыли, если опцион «в деньгах» (in the money option), то есть если разница между ценами в ту сторону, в какую выгодно владельцу
опциона. Если разница между ценами не в ту сторону, владелец увидит, что опцион «вне денег» (out of
the money option), и не станет им пользоваться.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

379

где ~ значит, что в пределе отношение правой части к левой стремится к 1 при
x → ∞, и где L: [xmin, +∞) → (0, +∞) — медленно меняющаяся функция, определяемая по
критерию

при любых k > 0. L' (x) монотонна. Константа α > 0.

Допустим также, что:
(18.3)
(18.4)
Имеем
𝔓1 ⊂ 𝔓.
Заметим, что первый класс соответствует распределениям Парето (при должном
сдвиге и масштабировании), если L константа, а класс 𝔓 соответствует более общему
одностороннему степенному закону.
18.2.2. Неравенство стохастической альфы
В дальнейшем в этой статье будем обозначать X' версию случайной величины X со
стохастической α, константой в случае X.
Утверждение 18.1
Пусть p = 1, 2, …, и X' аналогична описанной выше случайной величине X из 𝔓1 (класс
однохвостых правильно меняющихся распределений) с x0 ≥ 0, но со стохастической α,
причем во всех реализациях αi > p и среднее по всем реализациям сохраняется, ᾱ = α.
Тогда
𝔼X′ p ≥ 𝔼X p.
Утверждение 18.2
Пусть K — некоторый порог. Для случайной величины X в классе 𝔓 ожидаемые условные потери (CVar):

Схема доказательства следующая.
Заметим, что 𝔼X p имеет выпуклость вниз по α в следующем смысле. Пусть
— случайная величина, следующая распределению с постоянным показателем хвоста αi, где αi > p, ∀i, и пусть ωi — положительные нормированные веса́:
Согласно неравенству Йенсена:

Поскольку классы определяются по функциям выживания, нам сначала нужно
найти соответствующие функции плотности, φ(x) = αx–α – 1L(x, α) – x–αL(1, 0)(x, α), и нормирующую константу

380

Н АС С И М Н И К ОЛ АС ТА Л Е Б

(18.5)
α ≠ 1, 2, когда существует соответственно первая и вторая производная. Запись частной производной как L(p, 0)(x0, α) — сокращение1 вместо
Согласно теореме представления Караматы, [22], [248], функция L на [x0, +∞) медленно меняющаяся тогда и только тогда, когда представима в виде

где η(.) — ограниченная измеримая функция, сходящаяся к конечному числу при
x → +∞, и ε(x) — ограниченная измеримая функция, сходящаяся к нулю при x → + ∞.
Соответственно L' (x) уходит в 0 при x → ∞. Мы дополнительно предполагали в (18.3) и (18.4), что L' (x) стремится к 0 быстрее, чем x, и что Lʺ (x) стремится
к 0 быстрее, чем x2. Интегрируя по частям, получаем

где F̅ — функция выживания в формулах (23.1) и (18.2). Интегрируя по частям еще три
раза и устраняя производные L(.) порядка выше 2, получаем
(18.6)
что в особом случае X из 𝔓1 сводится к:
.

(18.7)

Что же касается Предложения 2, мы можем подойти к доказательству со стороны
того свойства, что
Это позволяет доказать закон Ван дер Вейка об инвариантности неравенства Парето к порогу хвоста, то есть что
сходится к константе при K → +∞.
Формула (18.6) представляет точные требования к функциональной форме L(x),
при которых выпуклость вниз распространяется на подклассы между 𝔓1 и 𝔓.
Наши результаты сохраняют силу для распределений, преобразованных путем
сдвига и масштабирования, вида x ↦ x – μ + x0 (Парето II), или путем дальнейшего
преобразования к типам Парето II и IV.
Заметим, что для простоты наше представление 𝔓1 использует один и тот же параметр x0 и как коэффициент масштаба, и как минимальное значение.
Мы можем убедиться, что математическое ожидание из формулы (18.7) выпукло
вниз по
1 Две позиции для указания порядка производной отвечают двум аргументам, по которым возможно дифференцирование.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

381

18.2.3. Аппроксимации для класса 𝔓
Для остальных распределений класса, 𝔓 \ 𝔓1, наши результаты остаются в силе, когда
мы записываем аппроксимацию математического ожидания случайной величины X
как константу, умноженную на интеграл x –α, а именно как
(18.8)
где k — положительная константа, не зависящая от α, и ν(.) приближается линейной
функцией α (плюс порог). Это математическое ожидание будет выпукло вниз по α.
Пример: t-распределение Стьюдента. Для t-распределения Стьюдента с хвостовым
α — это «сложная» медленно меняющаяся функция, которая широко используется для
симметричных степенных хвостов в финансовой математике, — половинное среднее,
или среднее одностороннего распределения (т. е. с носителем ℝ+) принимает вид

где Γ(.) — гамма-функция.
18.3. СУММЫ СТЕПЕННЫХ ЗАКОНОВ
Поскольку мы изучаем здесь сходимость к устойчивому распределению, мы рассматриваем ситуации 1 < α < 2, так что p = 1, и мы будем заботиться только о среднем1.
Мы видим, что выпуклость вниз среднего инвариантна к суммированию случайных величин, следующих распределению Парето, как рассмотренная выше случайная величина X. Устойчивое распределение имеет среднее, и при стандартном наборе
параметров оно выглядит не зависящим от α, тогда как на самом деле зависимость
есть.
Пусть случайная величина Y следует распределению Парето с плотностью
f (y) ≜ αλαy–α – 1, y ≥ λ > 0 и показатель хвоста 1 < α < 2. Пусть далее Y 1, Y 2, …, Yn — идентичные независимые копии Y. Пусть χ(t) — характеристическая функция для f(y); она
имеет вид χ(t) = α(–it)α Γ(–α, –it), где Γ(., .) — неполная гамма-функция. Из характеристической функции можно получить среднее n слагаемых
как

а именно

. Взяв первую производную

(18.9)
1 Поскольку моменты порядка p = 2, 3, …, т. е. дисперсия и высшие моменты, заведомо бесконечны.

382

Н АС С И М Н И К ОЛ АС ТА Л Е Б

и предел
(18.10)
видим, что сходящееся асимптотическое распределение для среднего будет иметь
средним коэффициент масштаба, умноженный на

и не будет зависеть от n.

Пусть χS(t) — характеристическая функция соответствующего устойчивого распределения Sα, β, μ, σ, которому следует сумма бесконечного числа копий случайной
величины Y. Согласно теореме Леви о непрерывности следующие два утверждения
равносильны:


которая следует распределению Sα, β, μ, σ (где

значит сходимость

по распределению) и

Таким образом, мы имеем дело со стандартным результатом [272], [209] точного
выражения для сумм Парето [269], заменяя стандартное μ на среднее, полученное
выше:
S

8.4. АСИММЕТРИЧНЫЕ УСТОЙЧИВЫЕ РАСПРЕДЕЛЕНИЯ
Пользуясь соображениями симметрии, мы можем убедиться, что отражение распределения из подклассов 𝔓1 и 𝔓2 вокруг yϑ дает случайную величину с отрицательным
средним и, следовательно, деградацию от стохастической α.
Центральными вопросами становятся следующие.

Замечание 17: Сохранение асимметрии
Нормированная сумма в классе однохвостых распределений 𝔓1 с математическим ожиданием, зависящим от формы в (18.8), должна сходиться по распределению к асимметричному устойчивому распределению Sα, β, μ, 1 с β ≠ 0.

Замечание 18
Пусть Y ʹ — это Y при стохастической α, сохраняющей среднее. Влияние
выпуклости вниз принимает вид
sgn(𝔼Y ʹ – 𝔼Y) = sgn(β).

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

383

Схема доказательства такая. Рассмотрим две медленно меняющиеся функции из
(23.1), по одной с каждой стороны от хвостов. Их комбинация

позволяет задать разные пределы
.
Как показано в [209],
если
то Y сходится по распределению к Sα, β, μ, 1 с коэффициентом
Мы можем показать, что среднее представимо как

где

18.5. РАСПРЕДЕЛЕНИЕ ПАРЕТО С ЛОГНОРМАЛЬНЫМ
РАСПРЕДЕЛЕНИЕМ АЛЬФЫ
Теперь допустим, что α следует сдвинутому логнормальному распределению со средним α0 и минимальным значением b, то есть α – b следует логнормальному распределению

Параметр b позволяет нам работать с нижним пределом показателя

хвоста, чтобы удовлетворить требуемому конечному среднему. Мы знаем, что показатель хвоста в конечном итоге сойдется к b, но этот процесс может оказаться медленным.
Предложение 18.3
Предполагая для стохастизированной случайной величины Xʹ конечное математическое ожидание и для сдвинутого показателя хвоста α – b логнормальное распределение по закону

используя b ≥ 1 как минимальное значение для α и коэф-

фициент масштаба λ, получаем
(18.11)
Нам нужно b ≥ 1, чтобы избежать проблем с бесконечным математическим ожиданием.
Пусть φ(y; α) — плотность при стохастическом показателе хвоста. При α > 0,
α0 > b, b ≥ 1, σ > 0, Y ≥ λ > 0

(18.12)

384

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Аппроксимация плотности
При b = 1 (это нижняя граница для b) получаем плотность при стохастической α:
φ(y; α0, σ) =

.

(18.13)

Этот результат получен разложением α вблизи ее нижнего предела, b (для простоты мы взяли b = 1), с последующим интегрированием каждого слагаемого.
18.6. РАСПРЕДЕЛЕНИЕ ПАРЕТО С ГАММА-РАСПРЕДЕЛЕНИЕМ АЛЬФЫ
Предложение 18.4
Предполагая конечное математическое ожидание для случайной величины X ′ с коэффициентом масштаба λ и стохастизированным показателем α таким, что все значения α превышают 1 и сдвинутая случайная величина α – 1 следует гамма-распределению с плотностью φ(.), средним α0 –1 и дисперсией s2, получаем
(18.14)
Доказательство.

1

.

2

(18.15)

3

=
4

.

=

=
(18.16)

1 В самом деле, в стандартных обозначениях, если X ~ Gamma(a, b–1), т. е. случайная величина X ∈ ℝ+ следует
гамма-распределению с коэффициентом формы a > 0 и коэффициентом масштаба b > 0, то плотность вероятности

, среднее , дисперсия

. В нашем случае альфа минус

случайная величина альфа минус 1 следует гамма-распределению с коэффициентом формы

фициентом масштаба

, и плотность вероятности

и коэф-

среднее α0 – 1,

дисперсия s2.
2 В самом деле, случайная величина X′ [λ, ∞) следует распределению Парето и имеет плотность fX′ (x; α) =
= αλαx–α – 1φ(α).
3 В самом деле,
4 В самом деле, без стохастизации показателя хвоста случайная величина X ∈ [λ, ∞) следует распределению Парето с плотностью

и математическим ожиданием

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

385

18.7. ОГРАНИЧЕННЫЙ СТЕПЕННОЙ ЗАКОН В РАБОТЕ ЧИРИЛЛО
И ТАЛЕБА (2016)
В таких исследованиях, как [46] и [45], используются ограниченные степенные законы
в применении соответственно к уровню острых конфликтов и к операционному риску.
Благодаря верхней границе случайная величина Z имеет конечное ожидание даже при
α < 1.
Предложенные методы предусматривали следующее гладкое преобразование случайной величины: мы начинаем с Z ∈ [L, H), L > 0 и растягиваем до X ∈ [L, ∞), для
которой будет корректно предположить распределение по степенному закону.
Для этого используем гладкое логарифмическое преобразование случайной величины:

и распределение плотности случайной величины X по степенному закону

1

.

Так мы получаем распределение случайной величины Z, имеющее конечное математическое ожидание при любой положительной α, по которой вторая производная

(18.17)

Итак, стохастическая прибавка к математическому ожиданию

.
1 Случайная величина X ∈ [L, ∞) следует обобщенному распределению Парето (generalized Pareto
distribution, GPD) с коэффициентом масштаба σ > 0, коэффициентом формы, он же показатель степени
хвоста α > 0 и коэффициентом положения L ∈ ℝ, если функция распределения имеет вид степенного
закона
Плотность вероятности
α ≤ 1, иначе

однохвостая с максимумом на краю x = L; среднее ∞ при

; дисперсия ∞ при α ≤ 2, иначе

386

Н АС С И М Н И К ОЛ АС ТА Л Е Б

очевидно положительна в диапазоне возмущений, который рассматривался в [46]1,2.
При тех значениях α, в районе , выпуклость вниз математического ожидания по α
велика и, соответственно, смещение оценки ярко выражено.
Такая выпуклость вниз имеет практические следствия. Исторические данные
о числе жертв острых конфликтов за два тысячелетия в принципе ненадежны [46].
Из погрешности данных вытекает неточность в оценке показателя хвоста, которую
надо как-то учесть в вычислениях. Изложенные выше результаты показывают, что
неопределенность в α сместит «истинное» статистическое среднее (среднее согласно
процедуре, а не наивное выборочное среднее) скорее вверх, чем вниз; тем самым
подтверждается, что учет еще и этой неопределенности заставляет повысить оценку
числа жертв3.
18.8. ДОПОЛНИТЕЛЬНЫЕ КОММЕНТАРИИ
Оценка среднего и ожидаемых потерь может смещаться из-за неопределенности
в показателе хвоста при анализе недостаточных, ненадежных или даже незащищенных от подделки данных.
Эти результаты можно расширить со статистических выводов на моделирование
процессов, таких как сложный пуассоновский процесс с иерархией степенных законов [217] (по которым распределены время наступления пуассонова события и скачок)
или процесс Леви. Последний можно анализировать как последовательность распределений с так называемой «выборкой по уровням», или дискретизацией процесса [50].
Поскольку математическое ожидание суммы скачков равно сумме математических
ожиданий, появляется та же выпуклость вниз, которую мы получили в формуле (18.8).
18.9. БЛАГОДАРНОСТИ
Марко Авельянеде, Роберту Фрею, Рафаэлю Дуади, Паскуале Чирилло.

1

— это G-функция Мейера. — Прим. автора.

2 G-функция Мейера определяется через интеграл Меллина — Барнса на комплексной плоскости как

3 Особенно в далеком прошлом, если в нем неопределенность особенно велика. Таким образом, максимально правдоподобное число жертв в далеком прошлом надо повысить; это прольет воду на мельницу
гипотезы Пинкера и пр. о большом числе жертв в прошлом и тенденции снижения в наше время.

19
МЕТА-РАСПРЕДЕЛЕНИЕ
p-ЗНАЧЕНИЙ И p-ХАКИНГ ‡

Мы представляем точное распределение вероятностей p-значений (метараспределение) для ансамблей статистически одинаковых явлений, а также
распределение минимального p-значения среди m независимых тестов. Мы
выводим распределение для выборок малого размера 2 < n ≤ n* ≈ 30, а также
предельное распределение для большого n. Мы рассматриваем свойства
«силы» теста через распределение его инверсии при данном p-значении
и параметрах.
Доказано, что p-значения крайне асимметричны и волатильны, независимо
от размера выборки n, и сильно варьируют при повторении с теми же протоколами в отношении идентичных копий данного стохастического процесса; из-за
этой волатильности минимальное p-значение существенно смещено от «истинного». Доказано, что задание силы мало помогает без существенного увеличения размера выборки или уменьшения p-значения на порядок величины.
Формулы позволяют исследовать устойчивость воспроизведения результатов, «p-хакинг»1 и другие аспекты метаанализа — включая метараспределение результатов p-хакинга.
С теоретико-вероятностной точки зрения ни p-значение 0,05, ни «статистическая мощность»2 0,9 ничего не дают.

Если мы знаем «истинное» p-значение ps, как будут выглядеть его реализации в различных попытках на идентичных копиях одного и того же статистического явления?
Под истинным значением ps мы подразумеваем ожидаемое значение согласно закону
1 Тестирование втайне от публики большого числа маловероятных гипотез в надежде на удачу и попытка
затем создать впечатление статистической значимости данных, подтверждающих удачную гипотезу.
2 Англ. statistical power — вероятность, с которой некоторая процедура тестирования некоторой гипотезы
защищена от ложноотрицательного заключения (от т. н. ошибки второго рода). Когда требуют мощность ≥ 0,9 от научного исследования, проверяющего некоторую гипотезу, тем самым требуют, чтобы
при данном методе исследования риск отвергнуть верную гипотезу не превышал 0,1.

388

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Плотность
10

8

6

4

2

0

0,05

0,1

0,15

0,2

p

Рисунок 19.1: Различные значения по формуле 19.1, показывающие сходимость к предельному
распределению p-значения

больших чисел на ансамбле m возможных выборок исследуемого явления, то есть
(где

означает сходимость по вероятности). Аналогичный анализ схо-

димости можно предложить в отношении соответствующей «истинной медианы» pM.
Главный результат статьи в том, что распределение выборок малого n можно представить более-менее в явном виде (с использованием обратных специальных функций), как
и простое предельное распределение для большого n, использовав единственный параметр — медианное p-значение, pM. Нам не удалось получить явное выражение для ps, но
мы обошлись медианой. В итоге доступна простая формула для распределения минимального p-значения, позволяющая понять смещения в научных исследованиях.
Оказалось, как видно на Рисунке 19.2, что распределение крайне асимметрично,
а именно перекошено вправо, так что 75 % реализаций «истинного» p-значения 0,05
будут оценены < 0,05 (и если по протоколу положено признавать успешное наблюдение некоторого явления на основании полученных данных, когда вероятность, что
они всего лишь игра случая, ниже 0,05, то пограничные по надежности попытки пронаблюдать явление будут признаны втрое чаще, чем отвергнуты). Что еще хуже, 60 %
случаев с истинным p-значением 0,12 будут оценены ниже 0,05.

Хотя носитель распределения компактный, оно ведет себя как крайне жирнохвостое. Так, при наблюдаемом p-значении 0,02 «истинное» p-значение, скорее всего, > 0,1 (и вполне может приблизиться к 0,2), притом что среднеква-

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

389

дратическое отклонение > 0,2 (то есть получился плюс-минус слон) и среднее
отклонение около 0,35 (то есть получился слон плюс-минус два слона). Из-за
суровой асимметрии оценка дисперсии в ℒ1 и ℒ2 (и в нормах высших порядков) сильно варьирует в зависимости от ps; таким образом, среднеквадратическое отклонение не является пропорциональным: когда по выборке p-значение
0,01, есть существенная вероятность, что истинное значение > 0,3.
Итак, рассуждая о p-значениях, мы не знаем, о чем говорим.

Прошлые попытки построить явное метараспределение можно видеть в публикациях [132] и [208]; там рассматривается иерархия гауссовых распределений
и система параметров не столь лаконична. Серьезность проблемы со значимостью
так называемой «статистической значимости» обсуждалась в [105]; вносились байесовские поправки, [138], и по результатам рекомендовалось такое же ужесточение стандарта, до p-значений ≈ 0,01. Но серьезность асимметрии распределения
p-значений становится очевидна, только если увидеть метараспределение.
Ради удобства обозначений мы используем n как размер выборки в заданном
исследовании и m как число испытаний, приводящих к p-значению.
19.1. ДОКАЗАТЕЛЬСТВА И ВЫВОД ФОРМУЛ
Предложение 19.1
Пусть случайная величина P ∈ [0, 1] отвечает полученному из выборки однохвостому
p-значению согласно паре t-статистика (с неизвестной дисперсией) — медианное
значение 𝕄(P) = pM ∈ [0, 1], полученное по выборке размером n. Распределение по
ансамблю копий выборки с одинаковой статистикой имеет функцию плотности

(19.1)
где
ная неполная бета-функция.

и

— обратная регуляризован-

390

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Замечание 19
При

распределение не существует в теории, хотя на практике возможно,

и эту трудность можно обойти с помощью последовательности

как

показано на Рисунке 19.3, где график сходится к равномерному распределению
на [0, 1]. Заметим также, что «нулевой гипотезой» называют множество меры 0.

Доказательство. Пусть Z — случайная нормированная величина с реализациями ζ из вектора ν⃗, содержащего n реализаций и имеющего выборочное среднее mv
и выборочное среднеквадратичное отклонение

где mh — это уровень,

по которому выполняется тестирование; поэтому, предполагая следование t-распределению Стьюдента с n степенями свободы и, что важно, предположительно обеспечивающему среднее , имеем

где B(., .) — стандартная бета-функция. Пусть g(.) — однохвостая функция выживания t-распределения Стьюдента с нулевым средним и n степенями свободы:

,

где I(.)(.,.) — неполная бета-функция.
Рассмотрим теперь распределение g ◦ f (ζ). Пользуясь тем, что функция g(.) —
заведомо борелевская, и обозначая p случайную величину вероятность, стандартным
преобразованием получаем:

Благодаря симметричности Z мы можем преобразовать ζ̄ в соответствующую
медианную вероятность выживания. Поскольку ровно по половине наблюдений попадает с каждой стороны от ζ̄, мы можем гарантировать, что преобразование сохранит
медиану:
жительные

значит,

Поэтому в итоге случаи разбиваются на полои отрицательные

ной получаем формулу (19.1), и Предложение 19.1 доказано.

Заме▪

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

391

Заметим, что n не повышает значимость: p-значения вычисляются из нормированных величин (из чего следует универсальность метараспределения), и большое n
соответствует повышенной сходимости к гауссиане. При больших n мы можем доказать следующее предложение.
Предложение 19.2
При тех же предположениях, что выше, для φ(.) предельное распределение
(19.2)
где erfc(.) — дополнительная функция ошибок и erfc–1(.) — обратная функция.
Предельная кумулятивная функция распределения Φ(.):
(19.3)
становится гауссовым,

Доказательство. При большом n распределение
и однохвостая функция выживания

стремится



Плотность/
частота

0,15

~ 53% реализаций < 0,05
~ 25% реализаций < 0,01
0,1

Медиана

0

p-значение (истинное среднее)

5%-я точка
отсечения

0,05

0,05

0,1

0,15

0,2

p

Рисунок 19.2: Распределение вероятностей однохвостого p-значения при математическом
ожидании 0,11, сгенерированное как методом Монте-Карло (гистограмма), так и аналитически
(график φ(.) непрерывной линией). Мы извлекли все возможные подвыборки из ансамбля с заданными свойствами. Грубая асимметрия распределения делает среднее значение существенно
выше большинства наблюдений, создавая многочисленные иллюзии «статистической значимости»

392

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Это предельное распределение применимо к парам с тестами, имеющими известную или предположительную выборочную дисперсию, поскольку тест становится
гауссовой случайной величиной, что эквивалентно сходимости t-теста Стьюдента
к гауссиане при большом n.
φ
5

4

3

0,025
0,01
2

0,15
0,5

1

0

0,2

0,4

0,6

0,8

1

p

Рисунок 19.3: Распределение вероятностей p-значения при различных значениях pM. Видно, что
при pМ=

возникает равномерное распределение

Замечание 20
При значениях p, близких к 0, φ в формуле (19.2) удобно вычислять так:

(19.4)
Эта аппроксимация работает точнее в диапазоне значений

— то

есть самых употребительных.

Отсюда можем получить численные результаты для свертки φ при преобразовании Фурье и аналогичных методах.
Можем получить распределение минимального p-значения при m испытаниях
статистически одинаковых ситуаций и так получить представление о «p-хакинге»,

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

393

который определяют как попытку исследователя получить как можно более низкие
p-значения для большого числа экспериментов или повторять попытки, пока один из
тестов не покажет статистическую значимость.
Предложение 19.3
Распределение минимума по m наблюдениям статистически одинаковых p-значений
становится (при предельном распределении из Предложения 19.2) таким:

(19.5)

Взяв первую проДоказательство.
изводную, получаем результат.

Не пользуясь предельным распределением, мы выполняем численное интегрирование при разных значениях m, как показано на Рисунке 19.4. Для m испытаний математическое ожидание с большей точностью вычисляется как

Ожидаемое
минимальное
p-значение
0,12

0,1

0,08

n=5
n=5

0,06

0,04

0,02

2

4

6

8

10

12

14

m испытаний

Рисунок 19.4: Значение «p-хакинга» при различном числе испытаний m и при pM = 0,15
и ps = 0,22

19.2. ОБРАТНАЯ МОЩНОСТЬ ТЕСТА
Пусть β — мощность теста и p — его p-значение применительно к наблюдаемому
значению X, полученному по случайным выборкам размера n, притом что ненаблю-

394

Н АС С И М Н И К ОЛ АС ТА Л Е Б

даемый параметр был ϑ. Чтобы перекалибровать надежность β как истинную меру
мощности, решим обратную задачу:
β
Δ↕

→ Xϑ, p, n


β –1(X)
Предложение 19.4
Пусть βc — проекция мощности теста из реализаций, которые предположительно следуют t-распределению Стьюдента и оцениваются при параметре ϑ. Тогда

где
(19.6)

,

(19.7)

и

где

19.3. ПРИЛОЖЕНИЕ И ВЫВОДЫ




Можно смело утверждать, что при такой стохастичности реализаций p-значений и распределения их минимума желающие иметь пресловутую 5 %-ю
доверительность — и с опорой на нее делать статистические выводы — должны требовать p-значения на добрый порядок ниже.
Авторам, пытающимся исследовать воспроизводимость, например, в статье Центра открытой науки1 в «Сайенс» [49], следовало бы учесть предел
погрешности в собственной процедуре и существенное смещение в сторону

1 Некоммерческая организация в Шарлотсвилле, штат Виргиния; основана в 2013 г. с миссией «повысить
открытость, честность и воспроизводимость научных исследований». Вначале исследовала воспроизводимость в психологии.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В



395

желаемых ими результатов (ошибка первого типа). Неудивительно, что тесты,
исходно показавшие значимость, не достигают ее при воспроизведении; на
самом деле удивительным было бы как раз воспроизведение результатов,
исходно показавших значимость вблизи пограничной.
«Мощность» теста имеет ту же проблему, если не снизить p-значения или не
переставить планку теста на более высокий уровень, такой как 0,99.

БЛАГОДАРНОСТИ
Марко Авельянеде, Паскуале Чирилло, Яниру Бар-Яму, дружественным собеседникам
в твиттере…

H
НЕКОТОРЫЕ НЕДОРАЗУМЕНИЯ
В ПОВЕДЕНЧЕСКОЙ ЭКОНОМИКЕ

Мы видели ранее (Главы 3 и 11), что проблема «переоценки хвостов» участниками психологического эксперимента скорее должна относиться на счет
использования ложной «нормативной» модели психологами и специалистами
по принятию решений, ничего не понимающими в жирных хвостах. Здесь
мы используем два случая как иллюстрацию такого неправильного использования вероятности, разоблачаемого нашей простой эвристикой — ввести
эффект второго порядка и посмотреть, как повлияет неравенство Йенсена на
оператор математического ожидания.
Одно из упомянутых вольных использований вероятности (загадка премии
по акциям) связано со сторонниками «подталкивания», навязчивого и нечестного метода, придуманного теми психологами, которые ищут способы манипулировать решениями, принимаемыми гражданами.

H.1. ПРИМЕР ИССЛЕДОВАНИЯ: ЛОЖНАЯ СПЕЦИФИКАЦИЯ
БЛИЗОРУКОЙ БОЯЗНИ ПОТЕРЬ
Пресловутая «загадка премии по акциям», первоначально обнаруженная Мехрой
и Прескоттом [169], названа так потому, что исторически доходность акций превосходила инвестиции с фиксированным доходом, хотя, казалось бы, такая разница должна
была привлечь спекулянтов и исчезнуть.
Мы сразу обнаруживаем, что тот анализ упускал из виду неэргодичность в данной
области, что мы видели в Главе 3: на самом деле участники не стремились к безусловной оценке рыночной отдачи; со стороны индивидуального инвестора было бы глупо
использовать вероятности ансамбля и закон больших чисел, имея всего одну жизнь.
Кроме того, «положительное математическое ожидание рыночной отдачи» не достаточное условие для положительного математического ожидания инвестора; требуется
стратегия масштабирования пути в стиле Келли, или динамическое хеджирование,
зависящее от пути.
Бенарци и Талер [17] утверждают, что теория перспектив Канемана — Тверски [139] объясняет такое поведение, порожденное близорукостью.Даже если это
верно, такой анализ рассыпается при толстых хвостах.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

397

Давайте ужирним хвосты распределения, стохастизировав, например, коэффициент масштаба, и посмотрим, что останется от приводимых в литературе результатов,
на первый взгляд абсурдных. Как мы сейчас увидим, при более строгом теоретиковероятностном анализе эта абсурдность подтверждается.
Близорукая боязнь потерь
Ha, 21

Рисунок H.1: На «полезность» Ha, p(t) из теории перспектив влияет
неопределенность
второго порядка —
неопределенность
дисперсии. Здесь σ = 1,
μ =1 и t — переменная
[как поясняется в тексте,

–0,04

–0,05

–0,06

–0,07

здесь выполняется стохастизация дисперсии в 1 ± a раз:
с вероятностью в 1 + a раз

–0,08

Более высокие
значения a
–0,09
0,1

0,15

0,2

t

0,25

и с вероятностью
в 1 – a раз]

Ha, 21
H1

Рисунок H.2: Отношение

1,6
1,5

, или спад «полез-

1,4

ности» под действием
эффектов второго
порядка

1,3
1,2
1,1

0,2

0,4

0,6

0,8

a

Возьмем из теории перспектив оценивающую функцию w изменения финансового
положения x с параметрами λ и α:
wλ, α(x) = xα 𝟙x ≥ 0 – λ(–xα) 𝟙x < 0.
— плотность нормального распределения с соответствующими
Пусть
средним и среднеквадратическим отклонением (масштабированными с коэффициентом t).

398

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Ожидаемая «полезность» (в смысле теории перспектив):
(H.1)

(H.2)
Из формулы (H.2) видим, что более частая выборка эффективности ведет к снижению полезности. Таким образом, Бенарци и Талер на самом деле пытались найти близорукость при такой периодичности выборки и, соответственно, частоте выборки, при которой возникает «премия»; ошибка их в том, что они упустили эффекты второго порядка.
Мы же, пробуя разные стохастизации σ, эвристически открываем другую картину:
что, если, с малой вероятностью, дисперсия может многократно возрастать при неизменной общей дисперсии? Важно, что мы не изменяем дисперсию; мы только сдвигаем распределение в хвосты. Мы щедро допускаем, что по закону больших чисел
было установлено, что «загадка премии по акциям» на самом деле имела место и что
акции действительно превзошли бонды по эффективности.
Итак, будем переключаться между двумя состояниями, (1 + a)σ2 с вероятностью p
и (1 – a)σ2 с вероятностью 1 – p.
Перепишем (H.1) как
(H.3)
Результат. В итоге, как видим на Рисунках H.1 и H.2, эффекты второго порядка отменяют утверждения на основе «близорукой» боязни потерь. Это не значит, что близорукость не проявляется; она просто не может объяснить «премию по акциям» как внешний
эффект (когда распределение дает другую доходность); эффект оказывается внутренним, происходящим из структуры функции стоимости Канемана — Тверски v(x).
Комментарий. Мы использовали эвристику 1 ± a как иллюстрацию; можно было бы
использовать полноценное распределение σ2 и получить аналогичные результаты.
Например, для гамма-распределения с плотностью

с математиче-

ским ожиданием V, отвечающим дисперсии в теории «премии по акциям».
Переписывая (H.3) с учетом этого выражения, получаем

и для этой формулы есть явное выражение, только оно длинновато для нашего изложения.
Настоящая проблема Бенарци и Талера. Конечно, проблема была связана с толстыми хвостами и сходимостью по ЗБЧ, о которой мы рассказываем отдельно.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

399

Ошибка временных предпочтений для модели
Другой пример эффекта из-за рандомизации параметра можно описать как создание
лишнего уровня неопределенности.
Автор этой книги однажды, к своему ужасу, видел, как некий Лейбсон [150] на
конференции в Колумбийском университете развивал тезис в том духе, что люди
ведут себя нерационально, если, например, сначала выберут вместо покупки одного
сеанса массажа сегодня покупку сразу двух сеансов — завтра, но через год вернутся
к прежнему поведению; что требуется исправить положение дел некоторой политикой. (Обзор по проблеме дисконтирования по времени и временных предпочтений
смотрите в [96], при обсуждении экономистов, которые приписывают участникам
переменную «ставку дисконтирования», выводимую по упрощенной модели)1.
На интуитивном уровне: пусть я узнал, что предложение о массаже исходит, вероятно, от мошенника. Понятно, что я переверну предпочтения, предпочту немедленную услугу долгосрочному абонементу с большой условной выгодой, условие которой состоит в том, что продавец абонементов не исчезнет до срока. Смоделируем это
явление.
Во-первых, дисконтирование по времени должно иметь вид геометрической прогрессии, чтобы льготная цена не становилась отрицательной: линейное дисконтирование по времени вида Ct, где C — константа и t — время в будущем, исключено. Нужна
формула вида C t или, чтобы была видна ставка, (1 + k)t. Прогрессию можно математически упростить до показательной функции путем предельного перехода к непрерывному времени. Запишем экспоненциальный дисконт в виде e –kt. Дисконтирование
с таким мелководным профилем предотвращает «временную несостоятельность»,
гарантируя, что при δ < t

Теперь добавим уровень стохастичности: стохастизируем коэффициент дисконтирования, который обозначим λ.
Теперь мы можем выразить H(t) только как

Нетрудно вывести для общего случая, теми же методами, что в Разделе 4.1, что
при симметрической стохастизации с интенсивностью ∆λ (то есть с вероятностью по
отклониться в любую сторону от центра распределения):

где ch — гиперболический косинус; данное выражение сойдется к некоторому значению в будущем, когда временные льготы выйдут на горизонталь.
1 Фармер и Геанокоплос [89] применяли аналогичный подход к гиперболическому дисконтированию
(Hyperbolic discounting). — Прим. автора.

400

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Пример: гамма-распределение. При гамма-распределении на носителе ℝ+ с параметрами α и β,

получаем

откуда

Это значит, что предпочтения становятся горизонтальными в будущем независимо от крутизны наклона в настоящем, и это объясняет спад ставки дисконтирования
в экономической литературе.
Более того, если подправить и нормировать распределение, когда

получаем нормативно построенное так называемое гиперболическое дисконтирование:

которое оказывается отнюдь не эмпирически выявленной «патологией», как заявляют
наивные исследователи, у которых на самом деле в моделях не хватало одного уровня
неопределенности.

Часть VII
Т О Р Г О ВЛ Я О П Ц И О Н А М И
И Ц Е Н Ы П Р И Ж И Р Н Ы Х Х В О С ТА Х

20
НЕУДАЧИ ФИНАНСОВОЙ ТЕОРИИ
КАСАТЕЛЬНО ЦЕН ОПЦИОНОВ †

Обсудим, почему теория опционов в так называемой неоклассической экономике терпит неудачу в реальном мире. Каким образом финансовая теория
назначает цену финансовому продукту? Принципиальная разница в подходе,
который Башелье предложил в 1900 году, [6], и современной финансовой
модели Блэка — Шоулза — Мертона, [24] и [171], лежит в ряде центральных
допущений, причем Башелье был ближе к реальности и практике трейдеров,
традиция которой насчитывает не одно столетие.

0,012

0,01

0,008

0,006

0,004

0,002

0

Рисунок 20.1: Ошибки хеджирования для портфеля опционов
(в режиме ежедневного пересмотра) на протяжении 3000 дней,
смоделированные при t-распределении Стьюдента с постоянной волатильностью и показателем хвоста α = 3. Технически
ошибки не должны сходиться за конечное время, так как их
распределение имеет бесконечную дисперсию

404

Н АС С И М Н И К ОЛ АС ТА Л Е Б

0,012

0,01

0,008

0,006

0,004

0,002

Рисунок 20.2: Ошибки
хеджирования для портфеля опционов (в режиме
ежедневного пересмотра),
смоделированные при тех
же параметрах, но в мире
Блэка — Шоулза (фантастическом)

0

0,05

0,04

0,03

0,02

Рисунок 20.3: Ошибки портфельного хеджирования
(в режиме ежедневного
пересмотра), включая крах
фондового рынка в 1987

0,01

0

20.1. БАШЕЛЬЕ, А НЕ БЛЭК — ШОУЛЗ
Модель Башелье основана на ожидаемых итоговых страховых выплатах, а не на
динамическом хеджировании. Это значит, что можно использовать любое распределение! Более формальное доказательство с использованием теории меры приведено
в Главе 21, а пока поговорим на интуитивном уровне с минимумом математики.
Тот же метод в дальнейшем предлагался рядом исследователей, например Спренклом [216] в 1964, Бонессом [26] в 1964, Кассуфом и Торпом [253] в 1967 и Торпом [249] (опубликовано только в 1973).
Все они наткнулись на следующую проблему: как создать параметр риска —
ставку дисконтирования рискованного актива, — чтобы он был совместим с портфельной теорией? Для модели CAPM (от Capital Asset Pricing Model, модель ценообразования капитальных активов) требуется, чтобы ценные бумаги проявляли ожидаемую
доходность пропорционально рискованности. В подходе Блэка — Шоулза — Мертона
цена опциона выводится из непрерывного по времени динамического хеджирования
и только как свойство такого хеджирования; ниже мы расскажем о динамическом
хеджировании подробнее. Благодаря этому методу опцион коллапсирует в детерминистскую платежную функцию и обеспечивает доходность независимо от рынка; следовательно, рисковая премия для опциона не требуется.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

405

20.1.1. Искажения из-за идеализации
Суть наших претензий к подходу Блэка — Шоулза — Мертона в том, что их требования к динамическому хеджированию грубо идеализированы; они содержат следующие
строгие условия. Оператор предполагается способным покупать и продавать на рынке
без потерь на трение, то есть без транзакционных затрат. Процедура не допускает, чтобы
цена зависела от последовательности потока, — если оператор продаст некоторое количество акций, это не повлияет на цену. Оператор знает распределение вероятностей,
и оно гауссово с фиксированными неизменными коэффициентами в течение всего времени. Наконец, самое существенное ограничение: не допускаются масштабируемые
скачки. В поздней редакции [Мертон, 1976] допускаются скачки, но только пуассоновы
по времени ожидания и одинаковые по величине, в крайнем случае гауссовы.
Система не разрешает использовать степенные законы, ни практически, ни математически. Рассмотрим математику для потока динамических хеджей в уравнении
Блэка — Шоулза — Мертона.
Без потери общности допустим, что процентная ставка r = 0, без риска. Каноническая модель Блэка — Шоулза — Мертона предусматривает продажу опциона «колл»
и приобретение акций, которые обеспечивают хедж против мгновенных изменений
в ценных бумагах. Следовательно, портфель π, локально «хеджированный» против
рисков первого момента распределения, будет такой:
(20.1)
где C — цена опциона «колл» и S — исходные ценные бумаги. Рассмотрим изменение
в стоимости портфеля
(20.2)
Разложением вблизи начальных значений S получаем изменения в портфеле в дискретном времени. Обычная теория опционов применяет гауссово распределение, где
все порядки выше (∆S)2 и ∆t быстро исчезают:
(20.3)
Берем математическое ожидание от обеих частей равенства и видим, из (20.3),
весьма жесткие ограничения на конечность моментов: все моменты должны сходиться. Если мы добавим слагаемое

, оно может оказаться значимым, если

распределение вероятностей имеет значительные компоненты третьего или четвертого порядка. В самом деле, даже если n-я производная по S резко падает, это не устраняет последствия для опционов со страйк-ценой K далеко от центра распределения,
потому что моменты растут непропорционально быстро.
Итак, мы настаиваем, что здесь требуется конечность всех моментов и спад их
влияния; никакая аппроксимация недопустима. Признаем, что модель диффузионных скачков (Мертон, 1976) так легко не разваливается, поскольку в ней все моменты
существуют. Беспокойство вызывает то, что при степенном законе бесконечны все
моменты выше α, и для такого закона уравнение портфеля Блэка — Шоулза — Мертона не сработает.

406

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Как мы уже говорили, логика так называемого решения Блэка — Шоулза — Мертона, благодаря формуле Ито, состоит в том, что портфель коллапсирует в детерминистскую платежную функцию. Но посмотрим, насколько быстро и эффективно это
работает на практике.
20.1.2. Фактическая процедура репликации
Платежную функцию опциона «колл» нужно реплицировать следующим потоком
динамических хеджей, предел которого между t и T
.

(20.4)

Мы разбили временной период на n приращений по ∆t. Здесь коэффициент хеджирования

вычисляется на момент t + (i – 1)∆t, но мы получаем неожиданную раз-

ность между ценой на момент инициации хеджа и результирующей ценой в момент
t + i∆t.
Предполагается, что это сделает платежную функцию детерминистской в пределе
по времени ∆t → 0. В гауссовом мире она будет одним из интегралов Ито — Маккина.
20.1.3. Провал: погрешность хеджирования может сделать модель непригодной
Вследствие показанных выше математических особенностей погрешность хеджирования при кубической α оказывается такой же, как при процессе с бесконечной дисперсией. Более того, погрешность непропорционально сильно влияет на страйк-цены
далеко от денег.
Коротко: динамическое хеджирование в мире степенного закона нисколько не
устраняет риск.
ДАЛЕЕ
В следующей главе, применяя теорию меры, покажем, почему опционы все-таки
могут быть нейтральными к риску.

21
ЕДИНСТВЕННАЯ МЕРА ДЛЯ ЦЕН ОПЦИОНОВ
(БЕЗ ДИНАМИЧЕСКОГО ХЕДЖИРОВАНИЯ
ИЛИ ПОЛНОГО РЫНКА) ‡

Мы представляем доказательство того, что при простых допущениях, таких
как ограничения паритета «пут» — «колл», теоретико-вероятностная мера
для оценки европейских опционов имеет среднее, выводимое из форвардной
цены1, которое может быть или не быть нейтральным к риску при любом обычном распределении вероятностей, обходясь без доводов динамического хеджирования Блэка — Шоулза — Мертона и не требуя полных рынков и прочих
сильных допущений. Мы подтверждаем, что эвристика, веками используемая
трейдерами, более робастна, состоятельна и строга, чем считается в литературе по экономике. Мы также показываем, что цены опционов можно моделировать при распределениях с бесконечной дисперсией (и конечным средним).

21.1. ИСТОРИЯ ВОПРОСА
Методы оценки опциона использовались трейдерами веками и с высокой эффективностью (Хог и Талеб, [126]). Кроме того, оценки по математическому ожиданию суммарного выигрыша заставляют среднее по распределению вероятностей, используемому для цен опционов, становиться ценой форварда благодаря пут-колл-паритету,
и, если цена форварда нейтральна к риску, опцион тоже будет нейтрален к риску. Считается, что доводы Блэка — Шоулза (Блэка и Шоулза, 1973, Мертон, 1973) состоят
в допущении, что цены опционов нейтральны к риску благодаря динамическому
хеджированию, поскольку опционы становятся излишни (ведь платежную функцию
опциона можно построить как линейную комбинацию кэша и исходного актива, динамически корректируемую с течением времени). Это загадка, поскольку (1) динамическое хеджирование операционно неисполнимо на финансовом рынке из-за преобладания портфельных изменений в результате скачков; (2) доводы динамического
хеджирования математически рушатся при жирных хвостах; требуется особый «мир
1 Англ. forward price (иногда переводится также как «курс по сделкам на срок») — цена, указанная в «форварде», взаимном обязательстве покупателя и продавца совершить куплю-продажу в оговоренную дату
по оговоренной цене. Форварды отличаются от фьючерсов тем, что не стандартизированы и не перепродаются на бирже.

408

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Блэка — Шоулза» с рядом невозможных допущений, в том числе конечных биквадратных отклонений; (3) трейдеры используют тот же «довод нейтральности к риску»
Блэка — Шоулза для оценки опционов по активам, не допускающим динамической
репликации; (4) трейдеры систематически торгуют опционами в областях, где доводы
нейтральности к риску неприменимы; (5) есть фундаментальные информационные
ограничения, препятствующие сходимости стохастического интеграла1.
Было несколько предшественников у данного тезиса, объявляющего пут-коллпаритет достаточным ограничением, чтобы навязать некоторую структуру на уровне
среднего по исходному распределению, например Дерман и Талеб (2005), Хог и Талеб
(2010). Их подходы были эвристичны и робастны, но сочтены запальчивыми (Руффино и Трюссар [207]). Они также показали, что участникам нужно использовать
среднее, нейтральное к риску. Эта глава решает следующие задачи:







Переходит от «запальчивости» к формальным доказательствам.
Использует полностью свободный от распределения, основанный на математическом ожидании подход и обосновывает довод нейтральности к риску без
динамического хеджирования и без допущений о распределении.
Устанавливает, даже в отсутствие нейтральности к риску, единственное распределение цен опционов. Цена форварда (или фьючерса) может включать
в себя ожидания и отклоняться от цены арбитража (благодаря, скажем, регуляторным и иным ограничениям), и все же цены опционов могут следовать
распределению, соответствующему среднему такого форварда.
Показывает, как можно на практике иметь рынок опционов без «полноты»
и выполнения теорем финансовой экономики.

Это достигается при всего лишь двух ограничениях: «горизонтальном» — о путколл-паритете и «вертикальном» — о том, что разные оценки разных страйк-цен приводят к теоретико-вероятностной мере, для которой доказывается единственность. Из
экономических допущенией требуется лишь существование и оправданность рынка
форвардов; если единственная цена форварда не существует, бессмысленно обсуждать цены стандартных опционов. Мы также требуем, чтобы теоретико-вероятностные меры соответствовали распределениям с конечным первым моментом.
Предыдущие работы в этом направлении были следующие. Бриден и Лиценбергер [31] и Дюпир [72] показывают, как опционный спред обеспечивает единственную
вероятностную меру; есть статьи, где строится более широкое множество отношений
арбитража между опционами, например Карра и Мадана [37]2.
Однако (1) ни в одной из этих статей не строился мост между опционами «колл»
и «пут» через форвард, переводящий взаимосвязь с языка арбитража между опцио-

1 Кроме того, упомянем научно-историческую загадку: точная формула, которая теперь называется «формулой Блэка — Шоулза — Мертона», была эвристически выведена (и использована) Эдвардом Торпом на
основе математического ожидания без помощи динамического хеджирования; см. Торп [251]. — Прим.
автора.
2 Смотрите также публикации Грина и Джерроу [114] и Нахмана [175]. Мы знали о возможности цен, нейтральных к риску, и без динамического хеджирования, со времен Харрисона и Крепса [123], но та теория
нуждается в сильных, нереалистичных допущениях, таких как абсолютно полные рынки и многопериодичное ядро цен. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

409

нами, обеспечивающего вероятностное распределение, на язык необходимого выравнивания по среднему распределения форварда, и поэтому нейтрального к риску
(в случае, где есть арбитраж форварда); (2) ни в одной из этих статей не доказывалось,
что даже отсутствие второго момента (скажем, из-за бесконечной дисперсии) ничуть
не мешает определять цены опционов. Наши методы и доказательства не пользуются
дисперсией; (3) наш метод много проще, более прямой и робастный к изменениям
в допущениях.
Мы не делаем допущений о полноте общего рынка. Опционы не являются избыточными ценными бумагами и не превращаются в таковые. В Таблице 21.1 сведены
основные результаты статьи1,2.
Таблица 21.1: Основные практические различия между аргументацией динамического
хеджирования и статическим пут-колл-паритетом со спредами по страйк-ценам
Блэк — Шоулз — Мертон
Тип

Непрерывная ребалансировка

Предел

Закон больших чисел по времени (горизонтальный)

Допущения о рынке

1) Непрерывные рынки без разрывов, без скачков

2) Возможность занимать и ссужать исходный актив во все
даты
3) Никаких транзакционных
издержек при торговле активом
Вероятностное распределение

Требуется конечность всех
моментов. Исключается класс
распределений по медленно
меняющейся функции

Пут-колл-паритет
со спредами
Интерполяционный статический хедж
Закон больших чисел
по страйк-ценам (вертикальный)
1) Допускаются разрывы
и скачки. Можно рассмотреть непрерывные страйкцены или допустимое число
страйк-цен
2) Возможность занимать
и ссужать исходный актив
для одной-единственной
даты форварда
3) Низкие транзакционные
издержки при торговле
опционами
Требуется конечность
1-го момента (допустима
бесконечная дисперсия)

1 Знаменитый парадокс Хаккансона звучит так: если рынки полные и опционы излишни, зачем кто-то станет ими пользоваться? Если рынки неполные, то опционы могут принести пользу, только как назначить
им цену? Настоящее обсуждение, возможно, решает этот парадокс: рынки неполные, но мы можем назначить цену опционам. — Прим. автора.
2 Цены опционов не уникальны в абсолютном смысле: премия сверх фундаментальной стоимости может
пробегать целый спектр значений; просто ограничения пут-колл-паритета заставляют меры, используемые для опционов «пут» и «колл», склеиться друг с другом и сравняться по математическому ожиданию
с форвардом. Опционы — полноправная разновидность ценных бумаг, просто у них сильная связь с форвардом. — Прим. автора.

410

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Продолжение таблицы 21.1
Полнота рынка
Реалистичность допущений
Сходимость

Настраивается
по реальности

Достигается через динамическую полноту
Низкая

Не требуется (в традиционном смысле)
Высокая

Неопределенная; один большой
скачок изменяет математическое
ожидание
Только после «подправки» среднеквадратических отклонений
для каждой страйк-цены

Робастная

Гибридно, с использованием
специального распределения и адаптации к реальности

21.2. ДОКАЗАТЕЛЬСТВО
Определим C(St 0, K, t) и P(St 0, K, t) как европейские опционы соответственно «колл»
и «пут» со страйк-ценой K, сроком t и стоимостью исходных ценных бумаг St 0
в момент t0, t ≥ t0 и возможной стоимостью St исходных ценных бумаг в момент t.
21.2.1. Случай 1: форвард как мера, нейтральная к риску
Определим

доход безрискового валютного фонда, и

выплата по активу (непрерывные дивиденды по акции или внешний процент по
валютному займу).
Арбитражную цену на форвард
можно представить как

(21.1)
по арбитражу, см. у Кейнса, 19241. Назовем поэтому ценой фьючерса или форварда,
полученной арбитражем при ставке, нейтральной к риску. Пусть
— фьючерс, для
которого требуется «ожидаемый доход» m, связанный с риском, и ожидаемая цена
форварда
.

(21.2)

Замечание: по арбитражу все торгуемые ценности с заданной ценой форварда St 0
должны быть равны .
«Торгуемые» здесь означает не «фактически проданные», а лишь подлежащие
репликации арбитража типа «кэш-энд-керри», то есть спекуляции путем заимствования кэша и хранения ценных бумаг в расчете на доход d, если доход охваченного
форварда отклонится от r.
1 Возможно, отсылка к переписке в период работы над двухтомной книгой A Treatise on Money, опубликованной в 1930.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

411

21.2.2. Вывод формул
Примем на дальнейшее, что F обладает собственной динамикой — независимо от
попадания под случай 1 или 2 — и, следовательно, единственной вероятностной
мерой Q.
Определим

, где

и

Рассмотрим класс стандартных (упрощенных) вероятностных пространств (Ω, μi),
проиндексированных номером i, где μi — вероятностная мера, т. е. мера, удовлетво.
ряющая требованию

Теорема 6
Для данного срока платежа по займу T существует единственная мера μQ,
задающая цены европейских опционов «пут» и «колл» по ожидаемому суммарному выигрышу.

Эта мера может быть нейтральной к риску в том смысле, что задает цену форварда , но может и не быть такой и задавать ставку дохода по акциям, охваченным
форвардом.
Лемма 21.1
Для заданного срока платежа T существует две меры μ1 и μ2 для европейских опционов «колл» и «пут», с общим сроком исполнения и общими исходными ценными бумагами, связанными с оценкой согласно ожидаемому суммарному выигрышу, — которые
единственны и таковы, что для любых опционов «колл» и «пут» со страйк-ценой K
имеет место соответственно
(21.3)
и
(21.4)
где fC и fP — это соответственно (St – K)+ и (K – St)+.
Доказательство. Для ясности, не теряя общности, зададим для r и δ значение 0. В силу арбитража при пут-колл-паритете позитивное владение опционом
«колл» («длинным») и негативное владение опционом «пут» («коротким») реплицирует торгуемый форвард; из-за изменчивости P/L возникает разница, которую, приписывая длинным опционам положительную стоимость и коротким — отрицательную,
можно записать в виде:
,
(21.5)
торгуемый.
поскольку форвард
Пут-колл-паритет остается в силе для всех страйк-цен, поэтому:
(21.6)
при всех K ∈ Ω.

412

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Заметим, что спред по опционам колл в единицах
C(St 0, K + ∆K, t) — P(St 0, K + ∆K, t)
приносит 1 доллар, если St > K + ∆K (то есть отвечает индикаторной функции 𝟙S > K + ∆K),
0 долларов, если St ≥ K (т. е. 𝟙S > K ), и столько долларов, сколько содержится в нашей
единице

, умноженной на St – K, если K < St ≤ K + ∆K, — значит, между 0 и 1 долла-

ром (смотрите у Бридена и Лиценбергера, 1978 [31]). Аналогичным образом рассмотрим обратную аргументацию для опциона «пут», при ∆K < St.
В пределе при ∆K → 0
.

(21.7)

В силу той же аргументации:
.

(21.8)

Поскольку полузакрытые интервалы образуют всю борелеву σ-алгебру на Ω, это

доказывает, что меры μ1 и μ2 — единственные.
Лемма 21.2
Вероятностные меры опционов «пут» и «колл» совпадают, а именно для всякого
борелевского множества A в Ω эти две меры равны: μ1(A) = μ2(A).
Доказательство. Комбинируя формулы (21.5) и (21.6), деля на
к пределу при ∆K → 0, получаем:

и переходя

(21.9)
при всех значениях K, поэтому
(21.10)
поэтому μ1(AK) = μ2(AK) при всех K ∈ [0, ∞). В силу справедливости этого равенства для
всякого полузакрытого интервала оно распространяется на всякое борелевское множество.

Лемма 21.3
В силу статического арбитража опционы «пут» и «колл» должны оцениваться той
же нейтральной к риску мерой μQ, что и торгуемый форвард.
Доказательство.
(21.11)
из формулы (21.5)
.

(21.12)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

413

Дифференцируя обе части и пользуясь тем, что fC – fP = St 0 + K, получаем, что производная1 Радона — Никодима:
(21.13)


для всех значений K.
21.3. СЛУЧАЙ ФОРВАРДА БЕЗ НЕЙТРАЛЬНОСТИ К РИСКУ

Рассмотрим случай, где форвард Ft наблюдаемый и торгуемый, и используем его
только как исходную ценную бумагу с собственной динамикой. В этом случае мы
можем полностью игнорировать динамику его номинального актива S или использовать «предполагаемую» ставку, без нейтральности к риску, привязывающую кэш
к форварду,
.
Ставка m может охватывать премию за риск, трудности с финансированием,
структурные или регуляторные препятствия для займов; для итогового результата это
все равно.
В этой ситуации можно показать, что применимы в точности те же результаты,
что выше, просто заменив меру μQ на другую меру μQ*. Цены опционов останутся
единственными2.
21.4. КОММЕНТАРИЙ
Мы заменили громоздкое и неудобоотслеживаемое динамическое хеджирование на
простую, легкую задачу интерполяции и объяснили эффективность операторов опционов до Блэка — Шоулза, использовавших простую эвристику и правила, обходясь без
теорем финансовой экономики.
Опционы могут оставаться не излишними и рынки неполными: наша аргументация исходит лишь из существования некоторых арбитражных цен (включая нейтральные к риску цены на уровне математического ожидания вероятностной меры). Этого
достаточно, чтобы использовать любое из вероятностных распределений с конечным
первым моментом, включая логнормальное, при котором воспроизводится модель
Блэка — Шоулза.
Еще одно сравнение напоследок. При динамическом хеджировании пропуск одного-единственного хеджа или возникновение одного-единственного разрыва (хвостового события) может все разрушить — как мы упоминали, требуется ряд допущений
помимо математических, сверх ряда строгих и крайне нереалистичных математиче1 Производная меры относительно меры; обозначается
рием

и определяется через интеграл Лебега крите-

для всех измеримых множеств A ⊂ Ω. Существование гарантируется теоремой

Радона — Никодима, если мера ν в борелевом пространстве Ω абсолютно непрерывна относительно
меры μ в том же борелевом пространстве. Теорема доказана в 1913 Радоном для Ω = ℝn и в 1930 Никодимом для общего случая.
2 Мы предполагали, для простоты доказательств, нулевую ставку дисконтирования; если она отлична от
нуля, премии дисконтируются по ставке оператора арбитража. — Прим. автора.

414

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ских ограничений. В классе жирнохвостых распределений повышение частоты хеджей
не гарантирует снижение риска. Кроме того, аргументация для стандартного динамического хеджирования требует точного задания нейтрального к риску стохастического
процесса между t0 и t, с неуклюжей эконометрикой, из-за чего обычно представлением
процесса вообще не пользуются, а прибегают к реинжинирингу по ценам опционов,
то есть к интерполяции, ориентированной на арбитраж.
У нас же, по методам на основе пут-колл-паритета, возможность отслеживать нейтральное к риску распределение гарантировано сложением страйк-цен, и, поскольку
сумма вероятностей дает 1, число степеней свободы в реконструированной мере
μQ в области разрыва между страйк-ценой K и следующей по величине страйк-ценой K + ∆K, существенно сокращается: мера в этом интервале ограничена разностью
. Другими словами, никакой отдельно взятый разрыв между страйк-ценами не может существенно повлиять на вероятностную меру, не говоря уже о первом
моменте, от чего не застраховано динамическое хеджирование. На самом деле наш
метод не отличается от стандартного ядерного сглаживания1 статистических выборок,
только примененного к распределению по страйк-ценам2.
Допущение о наличии страйк-цен естественное: раз мы обсуждаем практику
опционов, значит, страйк-цены опционов существуют. Более того, маркет-мейкеры3
способны, как автору довелось испытать на себе, добавлять внебиржевые страйкцены по своему усмотрению, как им заблагорассудится.
БЛАГОДАРНОСТИ
Питеру Карру, Марко Авельянеде, Эльетт Жиман, Рафаэлю Дуади, Гуру Губерману,
Эспену Хогу и Хоссейну Каземи.

1 Англ. kernel smoother, или kernel smoothing, — сглаживание пикселей изображения или иной статистической информации, при котором в поправке для данной точки велик вес близких точек, составляющих
«ядро» сглаживания.
2 О методах интерполяции подразумеваемого вероятностного распределения между страйк-ценами смотрите у Авельянеды и др. [4]. — Прим. автора.
3 Дословно «делатели рынка» (market makers) — участники рынка, действия которых оказывают главное
влияние на курс акций.

22
ТОРГОВЦЫ ОПЦИОНАМИ
НЕ ПОЛЬЗУЮТСЯ ФОРМУЛОЙ
БЛЭКА — ШОУЛЗА — МЕРТОНА *‡

Торговцы опционами пользуются эвристически нащупанными формулами
для цен и адаптируют их, изменяя хвосты и асимметрию, путем варьирования одного параметра: среднеквадратического отклонения гауссова распределения. У широкой публики формулы эти называются «формулами
Блэка — Шоулза — Мертона» и приписываются одноименному открытию,
хотя регулировка среднеквадратического отклонения ему противоречит. Мы
же собрали исторические свидетельства, что (1) упомянутые Блэк, Шоулз
и Мертон никаких формул не изобретали, а просто построили аргументацию
в пользу известной и употребительной формулы и сделали ее приемлемой для
истеблишмента экономистов, удалив параметр риска путем динамического
хеджирования, (2) трейдеры, торгующие опционами, пользуются (есть свидетельства, что с 1902) сложной эвристикой и приемами, скорее совместимыми
с прошлыми версиями формулы Луи Башелье и Эдварда Торпа (где допустимо
выбирать из широкого спектра вероятностных распределений), и устраняют
параметр риска при помощи пут-колл-паритета, (3) после 1973 торговцы
опционами не начали пользоваться формулами Блэка — Шоулза — Мертона
или подобными и продолжали придерживаться эвристики «снизу вверх»,
более робастной к редким влиятельным событиям. Глава опирается на исторически применявшиеся методы торговли и ссылается на источники XIX
и XX веков, игнорируемые в финансовой литературе. Не надо повторять ложную атрибуцию нашей практики назначать цены опционов.

22.1. ПРЕРЫВАНИЕ ЦЕПИ ПЕРЕДАЧИ
Для нас, практиков, теории должны рождаться из практики1. Это объясняет нашу
настороженность по поводу идеи «научного подхода», по которому практика должна
настраиваться по теории. Хеджирование опционов, назначение цен и торговля — это
1 Здесь под практиками понимаются те, кто ежедневно принимает решения о хеджировании опционов,
взвешивает отношение P/L риска и ставит свою шкуру на кон, а не просто ассистент — финансовый
математик, который пишет программы для вычисления цен, или ученый, оказывающий консалтинговые
услуги. — Прим. автора.

416

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ни философия, ни математика. Это развитое ремесло, которому трейдеры учатся
у трейдеров (или в котором трейдеры копируют трейдеров), и приемы развиваются
под давлением эволюционного отбора, снизу вверх. Это техника, а не наука.
Подчинись трейдеры научному подходу, их отрасль погибла бы, потому что, как
мы увидим, предлагаемая эмпирическая и научная настройка цен и теории хеджирования в лучшем случае недостаточны и ненаучны (а в худшем случае методы хеджирования не устраняют риск, а создают). Наш подход в этой главе состоит в том, чтобы
откопать исторические свидетельства техник, показывающих, как трейдеры делали
бизнес с опционами в прошлом.
Как мы покажем, опционы использовались весьма активно и до современных
финансов. Приемы и эвристически нащупанные методы торговли опционами и управления рисками держателей деривативов были разработаны на протяжении прошлого
столетия и с большим эффектом применены операторами. Параллельно математики
произвели свои изыскания. Но мейнстримная литература по экономике не признала
их вклада и заменила предложенные рядом экономистов повторные открытия и последующие переформулировки на свою линию. Есть доказательства проблемы с атрибуцией формулы опционов Блэка — Шоулза — Мертона: она разработана, использована
и адаптирована робастным образом предшествующей традицией исследователей,
она давно использовалась эвристически держателями опционных портфелей. Более
того, в порядке научно-исторического парадокса точная формула Блэка — Шоулза —
Мертона была записана и использована Эдвардом Торпом, причем, дополнительный
парадокс, была сочтена нестрогой, хотя была робастной и реалистичной. Приходим
к выводу, что (1) инновация Блэка — Шоулза — Мертона сводилась к аргументации
в пользу неоклассической финансовой математики, попросту к мысленному эксперименту1, и что (2) не видно, чтобы трейдеры использовали эту аргументацию и соответствующую версию формулы.
Давно пора вернуть честь открытия тем, кому она принадлежит.
22.2. ВВЕДЕНИЕ И РЕЗЮМЕ
22.2.1. Теория Блэка — Шоулза была аргументом в дискуссии
Торговцы опционами называют формулой Блэка — Шоулза — Мертона ту формулу, которой пользуются, не подозревая, что она мало походит на то, что предложили Блэк и Шоулз, 1973, и Мертон, 1973, — во всяком случае, меньше, чем на
другие формулы, предложенные за последний век. На самом деле из всех предложенных за долгую историю формул лишь одна незадачливая была уязвима к прыжкам и хвостовым событиям, — и это как раз была формула Блэка — Шоулза —
Мертона.
Начнем с потерь при переводе: Блэк и Шоулз [25] и Мертон [172] вообще не
выдвинули новой формулы опциона, они выдвинули теоретико-экономический
1 Мы здесь ставим под вопрос идею путаного мысленного эксперимента в гипотетическом мире, без предсказательной силы, научной или практической. Тот факт, что аргументация Блэка — Шоулза — Мертона
работает в платоническом мире и смотрится элегантно, ничего не значит; всегда можно сотворить платонический мир, в котором твоя формула будет работать или в котором получается строгое доказательство, — такая процедура суть не что иное, как обратный инжиниринг. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

417

довод, построенный на новом способе вывода уже известной формулы. Этот довод,
как мы увидим, крайне уязвим из-за связанных с ним допущений. К этому времени
основы хеджирования и цен опционов уже были заложены, и куда более прочные.
Аргументация Блэка — Шоулза — Мертона, в простых словах, заключалась в том,
что опцион можно хеджировать определенным методом, так называемым динамическим хеджированием, и тем превратить его в свободный от риска инструмент; портфель не будет стохастическим, в отличие от его содержимого. На самом деле Блэк,
Шоулз и Мертон занимались, по сути, продвижением хорошо известной формулы
в современный им экономический истеблишмент, причем в ходе этого маркетинга
исказили суть метода.

Рисунок 22.1: Луи Башелье, предложивший
формулу опционов, базирующуюся на математическом ожидании. Она обоснована строже,
чем аргументация Блэка — Шоулза в пользу динамического хеджирования, поскольку не требует
тонкохвостого распределения. Мало кто знает,
что так называемое открытие Блэка — Шоулза
заключалось не в выводе новой формулы, а в призыве устранить математическое ожидание
исходных ценных бумаг

Предложенная аргументация потребовала странных, надуманных допущений:
некоторой ликвидности на уровне транзакций, осведомленности о вероятности будущих событий (в неоклассическом стиле Эрроу — Дебрё1) и, что еще критичнее, некоторой математической структуры, требующей тонкохвостой, умеренной случайности —
об этом ниже2. Это странная и неприемлемая аргументация, если смотреть с точки
зрения клинических, базирующихся на наблюдениях исследований, а не того стиля,
что сложился в неоклассической экономике. В простых словах аргументация динами-

1 В модели рынка Эрроу — Дебрё доказывается существование равновесия. Допущения: индивиды-потребители могут свободно обмениваться экономическими благами, а фирмы — производители экономических благ распределяют доходы между индивидами (владеющими долями дохода фирм).
2 Из всех неуместных допущений Блэка — Шоулза, низводящих их построение до статуса мысленного
эксперимента (элегантного с виду, как и вся современная портфельная теория), именно некоторая осведомленность о будущей дисперсии случайной величины (или о будущем вероятностном распределении)
создает противоречие с практикой; рынок ужирняет хвосты, и мысленный эксперимент Блэка — Шоулза
проваливается. — Прим. автора.

418

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ческого хеджирования опасна для практики, потому что толкает вас к риску обанкротиться; она не имеет смысла, если только ваша задача не состоит в защите неоклассической экономической теории. Аргументация и формулы Блэка — Шоулза — Мертона
следуют в русле построения общей теории равновесия сверху вниз, отталкиваясь от
тех допущений, что операторы работают в условиях полной оведомленности о вероятностном распределении будущих результатов, и еще ряда предположений, которые,
как мы увидим, математически неверны; главное из них — о возможности устранить
риски с помощью непрерывной торговли, что на самом деле работает только в узком
специальном случае тонкохвостых распределений. И не только изъяны мешают применять эту теорию на практике: торговцы опционами вообще не клюют на теории
и тем более не клюют на умозрительные общие теории равновесия, находя их слишком рискованными и не отвечающими стандартам надежности. Попросту говоря, теория о том, как должно быть, недостаточно хороша, чтобы принимать по ней решения
в условиях неопределенности (тем более если хронически расходится с эмпирическими наблюдениями). Участники могут принимать решения с учетом умозрительных теорий, но не так, чтобы опираться на хрупкие стороны теорий при управлении
рисками.
Тем не менее профессиональные трейдеры и исследователи, включая авторов этой книги (а также, увы, Шведскую королевскую академию наук) пребывали
в плену иллюзии, будто все пользуются формулой Блэка — Шоулза — Мертона.
Этот миф все более укреплялся в литературе и бизнес-школах параллельно с забвением источников или взглядом на источники как на досадные случайности (Мертон [174]).

Рисунок 22.2: Типичное «устранение рисков», достигаемое в аргументации Блэка — Шоулза —
Мертона. Перед нами отклонения динамически хеджируемого портфеля (причем вполне типичного). БШМ действительно «сглаживает» отклонения, но подвергает оператора риску массивных хвостовых событий, напоминающих лопнувший пузырь LTCM*. Другие формулы опционов
робастны к редким событиям и не притязают на «устранение рисков»
* Long-Term Capital Management — хедж-фонд, основанный в 1994 с участием Шоулза и Мертона. В кризис 1998 понес убытки, подвергся рекапитализации и в 2000 был ликвидирован.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

419

Мы здесь обсудим, как наш реальный мир и его обитатели понимали цены опционов и хеджирование, и будем опираться на фактические действия торговцев опционами за последние сто с лишним лет, включая настоящее время.
Есть общая проблема. Как мы уже говорили, торговцы опционами, подобно многим профессионалам, выработали цепь передачи своего ремесла. Проблема же в том,
что эта цепь часто прерывается, поскольку университеты не стали хранителями накопленного операторами искусства. За годы опыта приобретено множество робастных,
эмпирически нащупанных наработок, но экономический истеблишмент отказался
упоминать их ипризнавать. Из-за этого трейдерам периодически приходится учиться
разным вещам заново. Например, провал динамического хеджирования в 1987, практиковавшегося такой фирмой, как «Лиланд, О’Брайен, Рубинштейн»1, не нашел заметного отражения в академической литературе после события (Мертон [174], Рубинштейн [205], Росс [203]); напротив, динамическое хеджирование осталось в мнении
этих авторов стандартным образом действий2.
Есть центральные элементы реального мира, способные ускользать от академического исследования в отсутствие обратной связи с практикой (когда речь о прикладной науке) и приводить к расхождению, которое мы наблюдаем между лабораторией
и жизнью. Этим объясняется, почему так много ученых так часто достигают гладких доходов и затем терпят банкротство, использовав свои собственные теории3. Мы
начнем с другого конца, начнем с многолетнего опыта торговли опционами, где были
совершены миллионы хеджей и тысячи продаж опционов. Этот опыт, в сочетании
с изучением забытого и игнорируемого древнего знания о ценах опционов и торговле
ими, поможет нам разоблачить мифы о ценах опционов и хеджировании. По существу,
этих мифов два:




будто мы дожидались формулы опционов Блэка — Шоулза — Мертона,
чтобы начать торговлю опционами, задавать их цены и управлять опционными портфелями. На самом деле после аргументации Блэка, Шоулза
и Мертона риски только увеличились, отбросив тех, кто прислушался, назад
в искусстве управления рисками. А вообще-то это миф, будто трейдеры
полагаются на теории, тем более общие теории равновесия, когда задают
цены опционов;
будто мы пользуемся формулой цен опционов Блэка — Шоулза — Мертона.
Мы ею не пользуемся.

1 Leland O’Brien Rubinstein Associates, Inc.: Portfolio Insurance, LOR — американская финансово-консультационная фирма. Основана в 1980. До краха 1987 рекомендовала страхование портфеля: задать нижний
предел портфеля ценных бумаг, создав по существу опцион «пут» по широкому рыночному индексу.
2 Пример того, как ошибки так и не достигают уровня сознания: Марк Рубинштейн был в 1995 назван
финансовым инженером года по версии Международной ассоциации финансовых инженеров (International Association of Financial Engineers). Страхование портфеля не упоминалось, провал динамического хеджирования не упоминался. — Прим. автора.
3 О характерной реакции на редкое событие смотрите здесь: «Нынешнюю среду мы в Квантландии запомним надолго, — заявил м-р Ротман из Чикагского университета, возглавлявший инвестиционный фонд
квантативно-математических финансовых стратегий, а затем поступивший в Lehman Brothers. — События, которые согласно модели могли происходить только раз в 10 000 лет, повторялись три дня подряд»
(Wall Street Journal, 11.08.2007, p. B3). — Прим. автора.

420

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Обсуждая эти мифы, мы сосредоточимся на литературе о теории опционов,
построенной снизу вверх; на книгах, сосланных в потайные закоулки библиотек. Речь
будет только о дошедших до нас письменах; еще больше могла содержать фактическая
практика торговцев опционами, ныне утерянная.
22.3. МИФ 1: ТРЕЙДЕРЫ НЕ ЗАДАВАЛИ ЦЕНЫ ОПЦИОНАМ ДО БШМ
Принято считать, что теория Блэка — Шоулза — Мертона дала трейдерам возможность вычислять дельта-хедж (по исходному активу) и задавать цены опционам. Эта
точка зрения весьма спорная, как исторически, так и аналитически.
Опционы активно торговались как минимум с 1600-х годов, как описывает Йозеф
де ла Вега; отсюда следует, что существовало в той или иной форме искусство опционной торговли, с эвристическим методом устанавливать цены опционов и работать
с их рисками. Де ла Вега описывает торговлю опционами в Нидерландах, указывая,
что операторы обладают некоторым опытом в ценах опционов и хеджировании. Он
в общих чертах описывает нечто вроде пут-колл-паритета, хотя в его книге никоим
образом не ставилась задача обучить читателя технике торговли опционами. Мы
настаиваем на давнем использовании пут-колл-паритета по следующей причине:
предметом гордости Блэка — Шоулза — Мертона является устранение необходимости дрейфа с учетом риска по исходным ценным бумагам, чтобы сделать торговлю
нейтральной к риску. Но для этого не требуется динамическое хеджирование; достаточно простого пут-колл-паритета (Дерман и Талеб, 2005), о чем мы поговорим ниже.
По-видимому, именно это удаление рисковой премии подтолкнуло Нобелевский
комитет присудить Мертону и Шоулзу премию, которая в те годы называлась Премия Шведского национального банка по экономическим наукам памяти Альфреда
Нобеля: выдающийся вклад Блэка, Шоулза и Мертона состоял в том, чтобы доказать
избыточность учета рисковой премии при оценке стоимости опциона. Это не значит,
что рисковая премия исчезает; просто она уже включена в биржевую цену. Поначалу
именно за это удаление влияния дрейфа на стоимость опциона, на основании мысленного эксперимента, их работа стала цитироваться, хотя то же самое механическим
образом присутствовало в любой форме торговли и конвертации с помощью намного
более простых технических приемов.
История опционов богаче, чем показано в обычной литературе. Форвардные
контракты, судя по всему, прослеживаются аж до глиняных табличек Междуречья
1750 года до н. э. Гелдерблом и Йост [104] показывают, что амстердамские торговцы
зерном пользовались опционами и форвардами уже в 1550.
В конце 1800-х и в начале 1900-х активно действуют рынки опционов в Лондоне
и Нью-Йорке, а также в Париже и ряде других европейских бирж. К 1870-м рынки
опционов развились и усложнились; Каирис и Валерио (1997) обсуждают рынок для
опционов по ценным бумагам в США 1870-х, косвенно показывая, что трейдеры той
эпохи уже научились задавать цену хвостовым событиям1.

1 Историческое описание рынка остается информативным, пока Каирис и Валерио [140] не начинают
попытки судить, имелась ли в 1870-е тенденция недооценивать или переоценивать опционы (методами
в стиле Блэка — Шоулза — Мертона). Период охватывает одно хвостовое событие, панику в сентябре
1873. Каирис и Валерио находят, что придерживание опционов «пут» было выгодным, но считают панику
на рынке всего лишь единичным событием: «Пут-контракты, однако, выиграли от финансовой паники,

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

421

Между некоторыми из тех рынков имелась даже активная арбитражная торговля
опционами. Есть длинный список утраченных работ о торговле опционами: мы обнаружили следы минимум десяти германских монографий и диссертаций, написанных
между концом 1800-х и эпохой гиперинфляции1.
22.4. МЕТОДЫ И ВЫВОД ФОРМУЛ
Один из дошедших до нас информативных источников, Нельсон [176], красноречивее всяких монографий: торговец опционами и арбитражер, он опубликовал «Азбуку
опционов и арбитража», где поделился своим опытом в начале XX века. Согласно
Нельсону (1904), телеграфные компании передавали до 500 сообщений в час и порядка
2000–3000 сообщений в день между рынками Лондона и Нью-Йорка, и на передачу
сообщения тратилось менее минуты. Эвристически, не теоретизируя — стиль, воспроизведенный в Динамическом хеджировании [225], — Нельсон описывает множество
клинически строгих аспектов своего арбитражного бизнеса: расходы на пересылку
акций, расходы на страхование акций, расходы по выплате процентов, возможности прямого обмена акциями между долгим держателем ценных бумаг в Нью-Йорке

Рисунок 22.3: Эспен Хог (соавтор данной главы) вместе
с Мандельбротом и автором
этой книги в 2007 году

поразившей рынок в сентябре 1873. Считая данное событие одноразовым, мы повторили анализ путопционов, исключив контракты, подписанные до и продолжавшие действовать на момент биржевой
паники». И заключают, ссылаясь на экономическую литературу, в которой делается вывод об общей
переоценке опционов в 1950, 1960 и 1970-е: «Как показывает наш анализ, в целом опционные контракты
переоценивались и не были привлекательны для приобретения мелкими инвесторами. — И добавляют: — Эмпирически мы находим, что и пут-, и колл-опционы регулярно переоценивались относительно теоретической модели оценки». С этими результатами спорит практик Нельсон (1904): «Большинство великих торговцев опционами на опыте убедились, что в конечном итоге в выигрыше остаются те,
кто вкладывает деньги через опционы, а не забирает». — Прим. автора.
1 Часть этого списка: Bielschowsky, R. (1892): Ueber die rechtliche Natur der Prämiengeschäfte, Bresl. Genoss. —
Buchdr; Granichstaedten-Czerva, R. (1917): Die Prämiengeschäfte an der Wiener Börse, Frankfurt am Main; Holz,
L. (1905: Die Prämiengeschäfte, Thesis (doctoral)–Universität Rostock; Kitzing, C. (1925): Prämiengeschäfte:
Vorprämien-, Rückprämien-, Stellagen- u. Nochgeschäfte; Die solidesten Spekulationsgeschäfte mit Versicherg
auf Kursverlust, Berlin; Leser, E. (1875): Zur Geschichte der Prämiengeschäfte; Szkolny, I. (1883): Theorie und
Praxis der Prämiengeschäfte nach einer originalen Methode dargestellt, Frankfurt am Main; Author Unknown
(1925): Das Wesen der Prämiengeschäfte, Berlin: Eugen Bab & Co., Bankgeschäft. — Прим. автора.

422

Н АС С И М Н И К ОЛ АС ТА Л Е Б

и коротким в Лондоне, чтобы сэкономить на пересылке и страховании, и ряд других
технических приемов.
Официальный канон финансовой экономики не содержит источников вне финансовой экономики; этот механизм обсуждает Талеб (2007) [227]. Согласно официальной литературе по опционам, пут-колл-паритет впервые был полноценно описан
Столлом [219], но ни он, ни его коллеги не упоминают Нельсона. Притом что аргументация пут-колл-паритета полностью осознается и подробно описывается Нельсоном, который, в свою очередь, часто ссылается на Хиггинса (1902) [129]. В качестве
примера того, как Нельсон (1904) ссылается на Хиггинса (1902), процитируем:
Стоит отметить, что сделки типа опцион «колл» заключаются чаще, чем «пут», что,
возможно, объясняется склонностью большинства биржевых игроков смотреть на
вещи оптимистически и, соответственно, ожидать подъема цен, а не падения.
Однако эта склонность покупать опционы «колл» и упорно избегать опционов
«пут» не приводит к тенденции дорогих «коллов» и дешевых «путов», потому что,
как можно доказать, искусный опционный дилер способен сконвертировать «пут»
в «колл», «колл» в «пут» и несколько «коллов» в «пут-энд-колл», то есть, по сути,
любой опцион в любой другой, играя на бирже против первого опциона. Мы можем,
следовательно, заключить с приемлемой точностью, что в каждый момент «колл» по
некоторым акциям стоит столько же, сколько «пут» по тем же акциям, и половину того,
сколько стоит «пут-энд-колл».

«Пут-энд-колл» — это просто пара опционов «пут» и «колл» с одинаковой страйкценой и сроком; то, что мы бы назвали двойным опционом1. Нельсон описывает
пут-колл-паритет во всех подробностях, на нескольких страницах. Статическое нейтральное к рынку дельта-хеджирование также было известно в то время; так, Нельсон
пишет в своей книге:
Наученные долгим опытом продавцы опционов в Лондоне, продав опцион «колл»,
немедленно приобретают половину акций, против которых играли, продавая «колл»;
а продав опцион «пут», немедленно продают половину этих акций.

Чтобы правильно понять это наблюдение, учтем, что стандартные опционы
в Лондоне тех лет заключались «на деньгах» (о чем ясно сообщает Нельсон); кроме
того, все стандартные опционы в Лондоне были в европейском стиле. Опционы
«в деньгах» или «вне денег» торговались в Лондоне лишь эпизодически и считались «вычурными опционами» (fancy options). Отсюда, как и из книги Нельсона
в целом, ясно, что опционные дилеры отлично понимали, что дельта по опционам
«на деньгах» примерно 50 %. Несомненно, торговля опционами «на деньгах» в Лондоне тех лет настраивалась под страйк-цену, равную форварду «на деньгах», чтобы
цены опционов «пут» и «колл» сравнялись. Сегодня мы знаем, что опционы, равные
форварду «на деньгах», при небольшом сроке имеют дельту, близкую к 50 % (или
1 Более жаргонный вариант этого термина по-русски — дословный: «стеллаж» или «стрэддл», от straddle.
Жаргонные названия есть и у модификаций двойного опциона с неравным количеством путов и коллов,
хотя по-прежнему с одинаковым страйком и сроком: два колла и один пут называются «стрэп», от strap,
а два пута и один колл называются «стрип», от strip.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

423

минус 50 % для опционов «пут»). Типичные опционы в Лондоне тех лет заключались на срок один месяц.
Нельсон также указывает, в общих чертах, на динамическое дельта-хеджирование, и что оно лучше работает в теории, чем на практике (смотрите Хог [125]). Из всех
подробностей у Нельсона очевидно, что в начале 1900-х опционы активно торговались и что опционные трейдеры тех лет отнюдь не чувствовали себя беспомощными
при определении цен и хеджировании.
Еще один опционный трейдер Герберт Файлер торговал опционами с 1919 по
1960-е. Файлер (1959) описывает вполне активный рынок опционов в Нью-Йорке
и Европе в начале 1920-х и в 1930-е. Файлер упоминает, что из-за Второй мировой
войны европейские биржи закрылись. Далее он упоминает, что в Лондоне торговля
опционами возобновилась только в 1958. В начале 1900-х опционные трейдеры Лондона считались самыми умудренными, согласно [177]. Не исключено, что Вторая
мировая война и прекращение торговли опционами на долгие годы были причиной
забвения робастных принципов опционного арбитража, которые пришлось заново
открывать профессорам финансовой математики, таким как Столл.
Задолго до него, в 1908, Винценс Бронзин опубликовал книгу, где вывел несколько
формул для цен опционов, включая близкую к той, что ныне называется формулой
Блэка — Шоулза — Мертона, см. также у Хафнера и Циммермана (2007, 2009) [117].
Бронзин обосновал свою оценку опциона, нейтрального к риску, на робастных принципах арбитража, таких как пут-колл-паритет и привязка опционов «пут» и «колл»
к цене форварда способом, который был переоткрыт Дерманом и Талебом (2005)1. На
самом деле ограничения пут-колл-паритета достаточно, чтобы устранить необходимость инкорпорировать будущие доходы в исходных ценных бумагах; оно выравнивает опционы по цене форварда2.
А затем в 1910 и Анри Дойч описывает пут-колл-паритет, хотя не так подробно, как
Хиггинс и Нельсон. А затем в 1961 и Рейнах описывает пут-колл-паритет, с подробностями (еще один текст, обычно игнорируемый академической публикой). Трейдеры
на Нью-Йоркской фондовой бирже, специализирующиеся на применении пут-коллпаритета для конвертации опционов «пут» в опционы «колл» или коллов в путы, назывались в те годы Конвертерами (Converters). Рейнах (1961) [198]:
Не могу подтвердить числами, но, по моей оценке, более 60 процентов всех опционов
«колл» обязаны своим появлением существованию Конвертеров.

1 Аргументация Дермана и Талеба (2005) [63] имелась в [225], но осталась незамеченной. — Прим. автора.
2 Руффино и Трюссар (2006) [204] признают, что этот автор, возможно, решил задачу рисковой премии
случайно (не понимая, что пут-колл-паритет интенсивно использовался на протяжении истории), но
якобы неудовлетворительно. На самом деле аргументация Бронзина кажется неудовлетворительной для
того, кто далее усложняет представление о мире рядом инструментов финансовой математики, таких как
«стохастические ставки дисконтирования», и в то же время неправомерно упрощает картину, ограничиваясь гауссовыми распределениями, допускающими динамическое хеджирование. Руффино и Трюссар
пишут, что использование нестохастической ставки дисконтирования, обычное для опционов «колл»
и «пут», несовместимо с современной теорией ценообразования капитальных активов. Учитывая, что мы
не видели ни одного практика, который бы пользовался стохастической ставкой дисконтирования, мы,
подобно нашим предшественникам — опционным трейдерам, находим, что пут-колл-паритет достаточен
и прекрасно справляется сам. Ситуация напоминает ученых, которые учат птиц летать и потом гордятся
успехами подопечных, хотя наставляли их неправильно. — Прим. автора.

424

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Другими словами, конвертеры (дилеры), по сути маркет-мейкеры, были способны
обрабатывать и хеджировать большую часть риска путем статического хеджирования
опционов опционами. Рейнах пишет, что был опционным трейдером (конвертером),
и приводит примеры, как он и его коллеги были склонны хеджировать и включать
в арбитражные сделки одни опционы против других опционов, используя те опционы,
которые охватывались конвертируемыми облигациями:
Авторы опционов и трейдеры выработали и другие процедуры, чтобы извлекать прибыли, выписывая Путы и Коллы. По большей части они слишком специальны для всех,
кроме матерых профи. Согласно одной такой процедуре, нужно, приобретя конвертируемый бонд, выписать Коллы на акции, в которые можно конвертировать этот бонд.
Если акции по Коллам будут затребованы, можно будет сконвертировать бонд и предоставить акции.

Хиггинс, Нельсон, Рейнах — все они описывают, как важен пут-колл-паритет
и как важно хеджировать опционы опционами. Опционные трейдеры никоим образом не были беспомощны в хеджировании или задании цен до формулы Блэка —
Шоулза — Мертона. Опираясь на простые принципы арбитража, им удавалось хеджировать опционы робастнее, чем по Блэку — Шоулзу — Мертону. Мы уже упомянули,
что статическое нейтральное к рынку дельта-хеджирование было описано Хиггинсом
и Нельсоном в 1902 и 1904. Уильям Ганн (1937) тоже обсуждает нейтральное к рынку
дельта-хеджирование для опционов «на деньгах», хотя не столь подробно, как Нельсон (1904). Кроме того, Ганн указывает некоторые виды дополнительного динамического хеджирования.
Миллс (1927) приводит примеры описания скачков и жирных хвостов в литературе
до эпохи современной портфельной теории. Он пишет: «(…) распределение может оказаться далеким от гауссова из-за влияния одного-двух экстремальных изменений цен».
22.4.1. Формулы опционов и дельта-хеджирование
Что возвращает нас к формулам ценообразования опционов. Первая узнаваемая формула принадлежит Башелье (1900) [5]. Спренкл в 1961 [215] расширил работу Башелье,
предположив, что цена актива следует логнормальному распределению, а не гауссову.
Кроме того, модель Башелье избегала дисконтирования (что не суть важно, потому
что на многих рынках, в частности на рынках США, опционные премии выплачиваются в момент истечения срока).
Джеймс Бонесс (1964) [26] тоже предположил логнормальную цену актива. Он
выводит формулу для цены опциона «колл», практически совпадающую с формулой
Блэка — Шоулза — Мертона 1973 года, только Блэк, Шоулз и Мертон при выводе
опирались кто на непрерывное динамическое дельта-хеджирование, кто на CAPM
и смогли освободиться от ожидаемой доходности. Другими словами, открытием
Блэка — Шоулза — Мертона была признана не столько формула, сколько подход к ее
выводу. На это указывал, например, Рубинштейн (2006) [206]:
По-настоящему важным для финансово-математической теории инвестирования стала
не сама формула, а способ, которым она была выведена. Формулу десятью годами
раньше уже вывели Кейс Спренкл [215] и Джеймс Бонесс [26].

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

425

Самуэльсон (1969) и Торп (1969) опубликовали формулы ценообразования опционов, отчасти похожие на формулы Бонесса и Спренкла. Торп (2007) заявлял, что
запрограммировал в своем компьютере формулу, тождественную формуле Блэка —
Шоулза — Мертона, за несколько лет до того, как Блэк, Шоулз и Мертон опубликовали
свою теорию.
Перейдем теперь к дельта-хеджированию. Как уже упоминалось, статическое
нейтральное к рынку дельта-хеджирование несомненно описывалось Хиггинсом
и Нельсоном в 1902 и 1904. Торп и Кассуф (1967) представили нейтральное к рынку
статическое дельта-хеджирование подробнее, и не только для опционов «на деньгах», но и для опционов с любой дельтой. В своей статье 1969 Торп кратко описал нейтральное к рынку статическое дельта-хеджирование, а также кратко указал
в направлении некоторого динамического дельта-хеджирования не как на центральный инструмент ценообразования, а как на средство управления рисками. Файлер
также указывает на динамическое хеджирование опционов, но не показывает больших знаний о том, как вычислять дельту. Еще один игнорируемый забытый текст —
брошюра, опубликованная в 1970 финансово-консультационной фирмой Arnold
Bernhard & Co. Авторы несомненно знакомы с нейтральным к рынку статическим
дельта-хеджированием, или, как они его называют, сбалансированным хеджем при
любом уровне страйк-цены и цены актива. В этой брошюре приводится множество
примеров, как приобрести варранты или конвертируемые бонды и построить нейтральный к рынку дельта-хедж, создав нужное количество коротких позиций по тем
же акциям. Арнольд Бернхард и Компания также опубликовали дельты для большого
числа варрантов и конвертируемых бондов, которые распространили среди инвесторов на Уолл-стрит.
Если сравнивать с Торпом и Кассуфом (1967), Блэк, Шоулз и Мертон продвинули
идею динамического хеджирования на шаг вперед. Блэк и Шоулз писали (1973):
Если хедж обрабатывается непрерывно, то упомянутые выше аппроксимации становятся точными равенствами, а доходы по хеджированной позиции — полностью независимыми от изменений в стоимости акций. Доходность по хеджированной позиции
становится просто гарантированной. На это нам указал Роберт Мертон.

Возможно, математически это блестящая идея, но торговля опционами не математическая теория. Оторванная от реальности теоретическая идея не будет робастной
на практике. Удивительно скорее то, что лишь один принцип опционные трейдеры
должны были отвергнуть и действительно не стали использовать: подход, названный
в честь той самой формулы; эту тему мы обсудим далее.
22.5. МИФ 2: СОВРЕМЕННЫЕ ТРЕЙДЕРЫ ПОЛЬЗУЮТСЯ
БЛЭКОМ — ШОУЛЗОМ
Трейдеры не выполняют Оценку.
Во-первых, технически цена не то же самое, что оценка. Для оценки требуется
сильная система теоретических предположений с соответствующей хрупкостью
по предположениям и по структуре модели. Для трейдеров цена, построенная для
покупки опциона, когда неизвестно будущее вероятностное распределение, никакая
не оценка, а риторический прием. Такая цена может изменяться. Такая цена не отра-

426

Н АС С И М Н И К ОЛ АС ТА Л Е Б

жает воззрений трейдера. Она может быть установлена и по имеющемуся у него портфелю акций.
Различие между ценой и оценкой важно: трейдеры — инженеры, они мыслят
в рамках ограниченной рациональности (и могут вовсе не интересоваться никакой
разновидностью вероятностной рациональности), они не допущены в информационную прозрачность о будущих состояниях мира и их вероятностях. Поэтому им не
нужна общая теория образования цены; им достаточно знать, что нельзя набрать
«голландскую книгу» ставок (подставляться под арбитраж) и поэтому надо соблюдать стандартные ограничения: пут-колл-паритет, а еще запреты: торговать опционом «колл» со страйк-ценой K по цене ниже K + ∆K (отрицательные спреды «колл»
и «пут»), делать опцион «колл» со страйк-ценой K и опцион «колл» со страйк-ценой K + 2∆K дороже, чем два опциона со страйк-ценой K + ∆K (негативные бабочки),
делать отрицательные горизонтальные календарные спреды (при низких процентных
ставках) и так далее. Число степеней свободы для трейдеров сокращается, потому что
им приходится соблюдать пут-колл-паритет и совместимость с остальными опционами на рынке.
В этом смысле трейдерам не нужно выполнять оценку с помощью некоторого
ценообразующего ядра до срока погашения ценной бумаги; вместо этого им нужно
произвести цену опциона, совместимую с остальными инструментами на рынках,
без учета времени владения, которое стохастично. Им не нужна наука, построенная
сверху вниз.
22.5.1. Когда мы оцениваем стоимость?
Если бы вы нашли трейдеров, выброшенных на необитаемый остров, и одному из
них потребовалось бы произвести цену опциона и держать этот опцион до окончания
срока, и на местном рынке не было бы форварда, то тогда, пожалуй, потребовалась бы
оценка, только трейдерская книга получилась бы маленькая. И в этом мысленном эксперименте есть искажение против реальности: люди не станут торговать опционами,
если только речь не о профессионалах, а если они опционные трейдеры, у них должна
быть книга с величинами торговой маржи. Если торговой маржи не существует, вряд
ли трейдеры смогут создать позицию, кроме самой малой (пренебрежимой), недостаточной для динамического хеджирования. (Мы и не слышали, чтобы нашлось много
неразорившихся трейдеров или учреждений, которым удалось работать в вакууме аргументации Блэка — Шоулза — Мертона.) К невозможности такого хеджирования мы
сейчас и обратимся.
22.6. О МАТЕМАТИЧЕСКОЙ НЕВОЗМОЖНОСТИ ДИНАМИЧЕСКОГО
ХЕДЖИРОВАНИЯ
Обсудим напоследок серьезные изъяны в концепции динамического хеджирования.
В нем допускается, в смысле требуется, чтобы у вероятностного распределения существовали все моменты1.
1 По-видимому, Мертон (1992) соглашался с неприменимостью динамического хеджирования, но, возможно, полагал, что недостатки исчезнут, поскольку предсказал, что финансовый мир входит «по спирали в динамическую полноту». Спустя пятнадцать лет если мы и продвинулись по спирали, то уж точно
не к «динамической полноте», а от нее. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

427

Допустим, что распределение доходов имеет безмасштабное, или фрактальное
свойство, которое, в упрощенной формулировке, звучит так: при большом x (т. е. в хвостах) отношение вероятностей

зависит от n, но не от x. Скажем, X — ежеднев-

ный доход по ценным бумагам, и нет причин, по которым ℙ (X > 20 %) / ℙ (X > 10 %)
отличается от ℙ(X > 15 %) / ℙ(X > 7,5 %). Такое самоподобие при всех масштабах
порождает распределение с хвостом степенного закона, он же хвост Парето; в таком
хвосте выше точки перехода вероятность ℙ(X > x) = Kx–α. Такое случается; глядя на
миллионы порций данных, такое свойство характерно чуть ли не для всех рынков,
если пренебречь ошибкой выборки. Несметное количество эмпирических примеров
этого закона смотрите у Мандельброта (1963), задолго до Блэка — Шоулза — Мертона (1973) и диффузионных скачков Мертона (1976); смотрите их также у Стэнли
и др. (2000) и Габе и др. (2003). Доводы предположить безмасштабность такие: даже
если в конце концов распределение становится тонкохвостым, выше некоторого значения X, мы все равно не знаем этой точки; пребывая в эпистемологической темноте
относительно границы безмасштабности, мы вынуждены отодвинуть эту границу
в бесконечность.
Как возражение на эти «истинно жирные хвосты» встречается тот довод, что,
хотя ежедневная доходность ведет себя именно так, все же действие центральной предельной теоремы сделает сумму большого числа наблюдений гауссовой, если α превышает 2. Эта аргументация рассыпается из-за доасимптотического поведения масштабируемых распределений: Бушо и Поттерс (2003) и Мандельброт и Талеб (2007)
настаивают, что предасимптотика фрактальных распределений замедляет и делает
ничтожным действие центральной предельной теоремы в хвостах. Более того, растет
погрешность выборки, так как для долгих периодов мы собираем мало данных и, следовательно, мало хвостовых эпизодов; тем самым мы склонны создавать иллюзию
более тонких хвостов. К тому же точка, в которой накопление приводит к истончению
хвостов, неприменима при динамическом хеджировании, где оператор вынужден опираться на часто обновляемые данные и статистические показатели. Безмасштабность
в периоде динамического хеджа сохраняется, так что высокие моменты подвержены
бурному росту до бесконечности и не дают сформировать портфель динамических
хеджей. Разложение в ряд Тейлора просто невозможно, потому что моменты порядка
выше 2 критически важны, и один из моментов уходит в бесконечность.
Механика динамического хеджирования следующая. Допустим, без потери общности, нейтральную к риску процентную ставку 0. Канонический пакет Блэка —
Шоулза — Мертона заключается в том, чтобы продать опцион «колл» и приобрести
акции, обеспечивающие хедж против мгновенных изменений в этих ценных бумагах. Таким образом, портфель π, локально «хеджированный» против риска первого
момента распределения, такой:

где C — цена опциона «колл», а S — цена исходных ценных бумаг. Рассмотрим изменение стоимости портфеля за шаг дискретного времени

428

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Разлагая его в ряд вблизи начальных значений S, находим изменения портфеля
в дискретном времени. Общепринятая теория опционов применяет гауссиану, у которой порядки выше ∆S 2 быстро исчезают.
Беря математическое ожидание от обеих частей равенства, видим строгие
требования к конечности моментов: все моменты должны сходиться. Добавление
слагаемого порядка ∆S 3 может оказаться существенно при вероятностном распределении с кубическими и биквадратными компонентами. Даже если n-я производная по S резко спадает, это все равно не стабилизирует хеджи для опционов со
страйк-ценой K далеко от центра распределения, где высшие моменты S растут
непропорционально быстро. Итак, нужны все моменты, и никакая аппроксимация недопустима. Логика так называемого решения Блэка — Шоулза — Мертона
заключалась в том, что по формуле Ито портфель коллапсирует в детерминистскую платежную функцию. Но посмотрим, насколько быстро или эффективно это
сработает на практике.
На самом деле репликация происходит так: платеж к опциону «колл» нужно
реплицировать потоком динамических хеджей, предел которого, как можно видеть,
находится между t и T:

(22.1)

Эта политика не соответствует стоимости опциона «колл»: разность остается стохастической (хотя по Блэку — Шоулзу должна съежиться), если только дело не происходит в фантастическом мире, где такое устранение риска возможно.
В дальнейших работах Мертона видим непоследовательность, из-за которой становится непонятно, что, собственно, утверждает теория: у Мертона (1976) видим
согласие с использованием опционных деривативов в стиле Башелье, если есть скачки
и разрывы, обходясь без динамического хеджирования, но только если цена исходных
акций не коррелирует с рынком. Похоже на признание, что аргументация за динамическое хеджирование применима только к некоторым ценным бумагам: тем, которые
не скачут и коррелируют с рынком.
22.6.1. Сбивающая с толку робастность гауссианы
Своим успехом формула, выведенная в окончательном виде Торпом и названная формулой Блэка — Шоулза — Мертона, обязана простому свойству гауссианы: как гауссово представимо любое вероятностное распределение, даже с жирными хвостами,
если варьировать среднеквадратическое отклонение σ на уровне плотности случайной
величины. Это не значит, что вы пользуетесь гауссианой; это не значит, что гауссиана
особенно экономное средство описания (ведь приходится назначать отдельную σ каждому уровню цены). Это значит только то, что гауссианой можно представить любое
распределение, если вместо коэффициента σ подставить функцию, в том числе зависящую от страйк-цены и оставшегося срока.
Такая улыбка волатильности, то есть варьирование одного параметра, чтобы
получить σ(K), или поверхность волатильности, если варьировать два параме-

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

429

тра, σ (S, t), — это то, чем, по сути, занимались, каждый по-своему, Дюпир (1994,
2005) [72, 73] и Дерман [61, 64], смотрите об этом у Гезерала (2006 [103]). Они
допускали волатильность процесса — не потому, что процесс обязательно волатильный, а только лишь как метод подогнать цены опционов под гауссиану. Более того,
хотя у гауссова распределения второй момент конечный (и все высшие моменты
конечны), масштабируемое распределение с бесконечной дисперсией можно представить поверхностью волатильности гауссова распределения. Остается одно строгое ограничение на параметр σ — он должен быть одинаков для опционов «пут»
и «колл» с одинаковой страйк-ценой (если оба европейского стиля), и дрейф должен
быть дрейфом форварда.
Ирония в том, что на самом деле улыбка волатильности противоречит теории
Блэка — Шоулза — Мертона. Из-за этого появились сотни, если не тысячи статей
с попытками расширить модель Блэка — Шоулза — Мертона (насколько ее понимали авторы статей) и охватить стохастическую волатильность и диффузионные
скачки. Ряд исследователей при этом выражали удивление, как мало трейдеров на
деле используют модели стохастической волатильности. Модель ничего не позволяет сказать о форме улыбки волатильности и как она должна меняться со временем; поверхность волатильности и ее эволюция со временем определяются методом хеджирования, который робастен и согласован с безарбитражной поверхностью
волатильности.
Другими словами, поверхность волатильности можно использовать как карту, но
не как территорию. И ею пользуются, только было бы глупо этим оправдывать модель
Блэка — Шоулза — Мертона; повторим: гауссиана не дает использовать вероятностные распределения, отличные от гауссова, тогда как вывод законов нединамического
хеджирования (Башелье, Торп) не основан на гауссиане.
22.6.2. Поток заказов и опционы
Очевидно, что опционные трейдеры не обязаны интересоваться вероятностными
распределениями на момент окончания срока; для них это такая же абстракция, как
метафизика. Помимо ограничений пут-колл-паритета, которые уже были полностью
разработаны в 1904, можно хеджировать инвестиционный риск опционов другими
опционами. У этого метода есть то важное следствие, что из-за хеджирования опционов опционами цены опционов начинают опираться на спрос и предложение. Это,
в отличие от теории Блэка — Шоулза — Мертона (1973), основанной на идеализированном мире геометрического броуновского движения1 с непрерывным по времени
дельта-хеджированием, а не на спросе и предложении опционов, просто не должно
влиять на цену опционов. Если кто-то желает купить больше опционов, маркет-мейкеры могут просто создать их динамическим дельта-хеджированием, которое будет
прекрасным заменителем самого опциона.
Здесь приходится сделать важное заявление: опционные трейдеры не оценивают
шансы редких событий, ориентируясь на цены опционов «без денег». Они реагируют
на спрос и предложение. Идея подразумеваемого вероятностного распределения —
это всего лишь утверждение типа оглядки на «голландскую книгу».

1 Случайный процесс, в котором логарифм величины ведет себя как координата броуновской частицы.

430

Н АС С И М Н И К ОЛ АС ТА Л Е Б

22.6.3. Башелье — Торп
Часто и недальновидно выдвигаемый довод приписывает успех объема опционов
высокому качеству формулы Блэка — Шоулза, и это слабый довод. Особенно с учетом
того факта, что опционы имели успех в разные периоды и в разных местах.
Более того, есть свидетельства, что, хотя Чикагская биржа опционов и формула
Блэка — Шоулза — Мертона появились около 1973, модель «редко использовалась
трейдерами» до 1980-х (О’Конелл, 2001). Когда один из авторов этой книги, Талеб,
стал брокером товарной биржи в 1992, почти через два десятка лет после Блэка —
Шоулза — Мертона, то, к своему удивлению, обнаружил, что многие трейдеры продолжали задавать цены опционов без таблиц, по бабочке и по конверсии, не пользуясь
никакими формулами.
Еще в 1975 книга, написанная финансовыми математиками, ссылалась на Торпа
и Кассуфа (1967), а не на Блэка и Шоулза (1973), хотя и включила последних в список
литературы. Остер (1975):
Сидни Фрайд писал о хеджах на варранты до 1950 года, но только в 1967 книга1 Обыграй рынок Эдварда Торпа и Шина Кассуфа строго, но просто объяснила широкой
читательской аудитории хедж шорта по варранту лонгом по обычной акции.

В заключение такое замечание. К сожалению, все формулы до Блэка — Шоулза —
Мертона, от первой (Башелье) до последней (Торп), используют безмасштабное распределение. Идея явным образом удалить математическое ожидание из форварда
впервые была представлена Кейнсом (1924) и позже Блау (1944) — потому что лонг
по коллу и шорт по путу той же страйк-цены равны форварду. Эта взаимосвязь через
арбитраж, очевидно, понималась еще в 1904.
Нетрудно связать взрывной рост объема опционов с компьютерной эпохой и упрощением обработки транзакций, а также с долгой полосой мирного экономического
роста и отсутствия гиперинфляции. Удалив пропаганду, видим, что развитие финансовой науки скорее было сопутствующим явлением, а не причиной торговли опционами.
Повторим: если вы учили птиц летать, это не дает вам права поставить себе в заслугу,
что они научились.
Вот почему мы приписываем формулу Башелье — Торпу. Мы пользовались ею всю
дорогу и давали ей ложные названия, в честь неправильного метода и в честь не тех
авторов. Отсюда не следует, что о динамическом хеджировании нужно забыть; просто
это не центральная часть парадигмы ценообразования. Оно привело к описанию некоторого стохастического процесса, которое еще может пригодиться, если рынки когданибудь «придут по спирали в динамическую полноту». Но не в настоящем.

1 Beat the Market by Edward O. Thorp and Sheen T. Kassouf, Random House, 1967.

23
ЦЕНООБРАЗОВАНИЕ ОПЦИОНОВ
ПРИ СТЕПЕННЫХ ЗАКОНАХ:
РОБАСТНАЯ ЭВРИСТИКА *‡

В этой (исследовательской) главе1 мы построим эвристику, которая по данной
цене опциона в хвостах со страйк-ценой K расширяет цены на все опционы
«колл» и страйк-цены > K и на все опционы «пут» и страйк-цены < K, в предположении, что продолжение хвостов вырождается в то, что мы назвали «константой Караматы», поведение за «точкой Караматы», в области, где воцаряется строгий закон Парето.
Эвристика дает относительные цены опционов, зависящие от единственного параметра — показателя хвоста α, при некоторых мягких арбитражных
ограничениях.
Обычно встречающиеся ограничения, такие как конечность дисперсии,
отпадают.
Эта эвристика позволяет критически изучить поверхность волатильности
и протестировать теории ошибочной оценки и переоценки относительной
стоимости хвостового опциона, которые обычно основываются на тонкохвостых моделях и модификациях формулы Блэка — Шоулза — Мертона.

Логарифм
функции
выживания

l

Рисунок 23.1: Точка Караматы, в которой
медленно меняющуюся функцию можно
смело заменить константой L(S ) = l. Константа разная в зависимости от использования цены S или геометрической доходности — но асимптотический наклон
один и тот же, он отвечает показателю
хвоста α
ln S

1 С участием сотрудников хедж-фонда Universa Investments: Брэндон Яркин, Читпьюнит Манн, Дамир
Делич и Марк Шпицнагель.

432

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Цена
опциона

Степенной закон

1

Улыбка волатильности
Блэк — Шоулз

0,8

0,6

0,4

0,2

115

120

125

130

K

Рисунок 23.2: Мы показываем прямую цену опциона Блэка — Шоулза
(при постоянной волатильности),
цену при улыбке волатильности
(когда коэффициент масштаба
растет в хвостах) и цену опционов
при степенном законе. В упрощенном случае, когда исходный актив
распределен по степенному закону,
цена опционов линейно зависит от
страйк-цены K

23.1. ВВЕДЕНИЕ
Класс степенных законов обычно определяют через свойство функции выживания
следующим образом. Пусть случайная величина X принадлежит классу распределений с правым хвостом степенного закона, то есть:
ℙ(X > x) = L(x) x –α,

(23.1)

где L: [xmin, +∞) → (0, +∞) — медленно меняющаяся функция, определенная по критерию

при всех k > 0 [22].

Говорят, что функция выживания случайной величины X принадлежит классу
правильно меняющихся функций RV. Функция f: ℝ+ → ℝ + меняется на бесконечности
с показателем α (пишут f ∈ RVα), когда

В более практичном варианте существует точка, где L(x) приближается к своему
пределу, l, и становится константой, как на Рисунке 23.1; мы называем этот предел
«константой Караматы». За этой точкой хвост степенного закона калибруется стандартными методами, по формуле Хилла. Распределение в этой зоне Б. Мандельброт называл сильным законом Парето [162], [75].
23.2. ЦЕНООБРАЗОВАНИЕ «КОЛЛОВ» ЗА КОНСТАНТОЙ КАРАМАТЫ
Теперь определим цену европейского опциона «колл» C(K) со страйк-ценой K и ценой
исходного актива S, где K, S ∈ (0, +∞), как (S – K)+, и оценка выполняется при вероятностной мере P; тогда можно задать цену опциона как
. Это
позволяет нам немедленно доказать следующее.
23.2.1. Первый подход, S в классе правильно меняющихся функций
Начнем с упрощенного примера, чтобы построить интуитивное понимание. Пусть S
имеет функцию выживания в классе правильно меняющихся функций RVα согласно
(23.1). При всех K > l и α > 1
(23.2)

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

433

Замечание 21
Обратим внимание, что параметр l, если выведен из существующей цены
опциона, содержит всю необходимую информацию о вероятностном распределении ниже S = l, и тогда при данном параметре α не приходится оценивать
среднее, «волатильность» (то есть коэффициент масштаба) и прочие атрибуты.

Допустим, что α задана внешним образом (выведена при подгонке распределений
или просто взята из прошлого опыта; так или иначе, предполагается, что флуктуации α минимальны [239]). Заметим, что C(K) инвариантна к калибровкам распределений, и единственный нужный параметр, l, будучи константой, исчезает в отношениях. Теперь допустим, что дана рыночная цена «якорного» хвостового опциона Cm
со страйк-ценой K1 и для остальных опционов рассматривается отношение их цены
к цене этого опциона. Мы можем просто сгенерировать все дальнейшие страйк-цены,
начиная с
и применяя формулу (23.2).

Результат 1: Относительное ценообразование при распределении для S
При K1, K2 ≤ l
(23.3)

Удобная формула, в которой устранены все параметры распределений: чтобы построить механизм однозначного ценообразования, нужны только цена хвостового опциона и α.
Замечание 22: Как не перепутать разные функции L и показатели хвоста α
Показатель хвоста α и константа Караматы l должны соответствовать заданному распределению рассматриваемого исходного актива. Показатель хвоста α для стоимости S в классе правильно меняющихся функций согласно
формуле (23.1), из которой выводится формула (23.2), отличен от показателя
У величин S и R разные графики Ципфа
хвоста для доходности
и прочие представления.
1. Даже если

и

и кон-

станта α будет одна и та же, все равно разные L(.) будут выходить на уровень
константы с разной скоростью.
2. Если
, эта величина вообще не принадлежит классу правильно
меняющихся функций; смотрите Теорему 7.

434

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Причина, по которой α остается одной и той же, в том, чтоэто безмасштабный
атрибут хвоста.

Теорема 7: Логарифм доходности
Пусть S — случайная величина доходности с функцией выживания
φS(s) = L(s)s–α ∈ RVα, где L(.) — медленно меняющаяся функция. Пусть Rl —
логарифм доходности,
классу RVα.

. Функция выживания

не принадлежит



Доказательство непосредственное. Преобразование1

Заметим, что, даже если на практике для динамичной ситуации требуется непрерывное начисление процентов [229], в нашем подходе предполагается, что эта динамика охвачена ценой якорного опциона, выбранного для анализа, или l. Более того,
вне далекого хвоста нет осязаемых различий между

и

2

.

23.2.2. Второй подход, геометрическая доходность от S в классе правильно
меняющихся функций
Теперь применим аналогичный подход к реалистичному случаю, где доходность
распределена по Парето. Рассмотрим, при R > l, стоимость S = (1 + R)S 0, где S 0 —
начальная стоимость исходного актива и R ~ 𝒫(l, α), распределение Парето I с функцией выживания
(23.4)
и подгоним ее под Cm, задав

как и в предыдущем случае, это покажет, что практически вся информация о распределении содержится в l.
Пусть

в классе правильно меняющихся функций. При S ≥ S 0(1 + l)
(23.5)

1 Можно представить функцию выживания логарифма доходности Rl и как функцию rl . Обратное преобразование

, поэтому

, и это не только не степенной закон, но даже, в случае совсем медленной функции L,
экспоненциальный закон, как хвост гауссианы.
2 В самом деле, вне далекого хвоста

так что

.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

435

Таким образом, мы можем переписать формулу (23.3), устранив l:
Результат 2: Относительные цены под распределением для
При K1, K2 ≥ (1 + l)S 0

P

(23.6)

fix K: 90 (8d) α: 3,4 DTE: 0,5 mo
Model Theo Market

P

fix K: 85 (3d) α: 3,55 DTE: 0,5 mo
Model Theo Market

P

25

10

20

8

4

15

6

3

10

4

2

5

2
50

P

60

70

80

90

K

fix K: 90 (11d) α: 3,25 DTE: 1 mo
Model Theo Market

5

1
50

P

55

60

65

70

75

80

85

K

fix K: 85 (5d) α: 3,6 DTE: 1 mo
Model Theo Market

20

40

50

P

60

70

80

90

K

fix K: 90 (18d) α: 2,9 DTE: 2 mo
Model Theo Market

P

fix K: 85 (10d) α: 3,45 DTE: 2 mo
Model Theo Market

60
50

80

40

60

30

40

20

20

60

65

70

75

80

85

50

P

60

70

80

90

fix K: 90 (21d) α: 2,75 DTE: 3 mo
Model Theo Market

50

55

60

65

70

75

80

P

fix K: 85 (13d) α: 3,35 DTE: 3 mo
Model Theo Market

85

60

70

80

90

50

55

60

65

70

75

P

fix K: 80 (5d) α: 3,8 DTE: 2 mo
Model Theo Market

80

K

50

55

60

65

70

75

P

fix K: 80 (7d) α: 3,85 DTE: 3 mo
Model Theo Market

80

K

40

40

50

K

30
20

20

K

80

50

60

50

fix K: 80 (2d) α: 3,7 DTE: 1 mo
Model Theo Market

K

80

100

75

30
25
20
15
10
5

100

150

P

K

10

K

70

4

55

100

65

2
50

120

60

8

5

10

55

6

10

20

50

10

15

30

fix K: 80 (1d) α: 3,4 DTE: 0,5 mo
Model Theo Market

10
50

55

60

65

70

75

80

85

K

50

55

60

65

70

75

80

K

Рисунок 23.3: Цены опционов «пут» в индексе S&P 500, если использовать как якорь режим
«фиксировать K» (погашение 31 декабря 2018) и сгенерировать цены опционов по показателю
хвоста α, соответствующему ценам рынка (синие кривые, Model), и по показателю α = 2,75
(красные кривые). Видим, что цены рынка имеют тенденцию (1) ложиться на степенной закон
(соответствует стохастической волатильности с подправленными параметрами), но (2) со значением α, приуменьшающим жирность хвостов. Это показывает, как грубо ошибаются модели,
обосновывающие переоценку хвостов

436

Н АС С И М Н И К ОЛ АС ТА Л Е Б

IV Ratio
(w/ Mkt)

IV Ratio
(w/ Mkt)

fix K: 90 (11d) DTE: 1 mo
Theo

1,12
1,1
1,08
1,06
1,04
1,02

1,1
1,08
1,06
1,04
1,02

70

75

IV Ratio
(w/ Mkt)

80

85

90

K

1

1,15

65

70

75

80

85

90

K

74

76

78

80

82

K

84

1
60

70

80

90

K

1,07
1,06
1,05
1,04
1,03
1,02
1,01
70

74

76

78

80

fix K: 80 (5d) DTE: 2 mo
Theo

1,06
1,04
1,02
65

70

75

80

85

K

60

65

IV Ratio
(w/ Mkt)

fix K: 85 (13d) DTE: 3 mo
Theo

70

75

80

K

fix K: 80 (7d) DTE: 3 mo
Theo

1,15

1,1

1,1

1,05

1,05

55

60

65

70

75

80

85

K

50

55

60

65

70

75

80

Рисунок 23.4: Те же результаты, что на Рисунке 23.3, но выраженные через предполагаемую
волатильность. Мы подогнали цены по предполагаемой волатильности для страйк-цен нижней
половины (якоря 90, 85 и 80), используя отношения нашей модели к рынку

Логарифм
цены опциона
1

0,1

0,01

α=2
α = ⁵₂
α=2

0,001

Блэк — Шоулз
120

K

1,1

60

50

72

1,08

1,15

1,05

fix K: 80 (2d) DTE: 1 mo
Theo

IV Ratio
(w/ Mkt)

fix K: 85 (10d) DTE: 2 mo
Theo

IV Ratio
(w/ Mkt)

fix K: 90 (21d) DTE: 3 mo
Theo

1,1

50

72

1,12
1,1
1,08
1,06
1,04
1,02

1,05

IV Ratio
(w/ Mkt)

70

IV Ratio
(w/ Mkt)

fix K: 90 (18d) DTE: 2 mo
Theo

1,1

60

IV Ratio
(w/ Mkt)

fix K: 85 (5d) DTE: 1 mo
Theo

140

160

180

ln K

Рисунок 23.5: Интуитивное понимание по дважды логарифмическому
графику при второй калибровке

K

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

437

Замечание 23
В отличие от методов ценообразования в классе модификаций Блэка —
Шоулза (модели стохастической и локальной волатильности смотрите в обзорах Дюпира, Дермана и Гезерала [74], [102], [60]) в нашей модели ценообразования опционов конечность дисперсии, вообще говоря, не требуется, как
показано в [229]. Требуется только α > 1, то есть конечный первый момент.

23.3. ЦЕНЫ ОПЦИОНОВ «ПУТ»
Рассмотрим теперь страйк-цены опционов «пут» (или соответствующих опционов
«колл» в отрицательном хвосте, где цены можно определить арбитражом пут-коллпаритета). В отличие от опционов «колл» будет достаточно рассмотреть отклонения
, не переходя к логарифмической доходности (или к рассмотрению стоимости S,
взятой отдельно).
Мы строим отрицательную сторону по отрицательной доходности исходного
актива. Обозначим R доходность, S = (1 – R)S 0, и пусть R > l > 0 распределена по Парето
в положительной области, с плотностью fR(r) = α l α r –α –1. Теоретико-вероятностным
преобразованием и масштабированием функции плотности исходного актива получаем:

где константа масштабирования

задана так, чтобы интеграл от fS(s) давал 1. Впрочем, параметр λ близок к 1, и масштабирующая поправка незначительна в приложениях, где

(σ — это эквивалент-

ная предполагаемая волатильность Блэка — Шоулза и t — время до окончания опциона).
Замечательным образом устранились оба параметра, и l, и константа масштабирования λ.

Результат 3: Цены опционов «пут»
При K1, K2 ≤ (1 – l)S 0,
(23.7)

438

Н АС С И М Н И К ОЛ АС ТА Л Е Б

23.4. ГРАНИЦЫ АРБИТРАЖА
Очевидно, что не существует арбитража для страйк-цен выше базовой K1 в приведенных выше формулах. Потому что мы можем подтвердить результат Бридена — Лиценбергера [32], где плотность реконструируется по второй производной опциона относительно страйк-цены
Однако остается возможность арбитража между страйк-ценами K1 + ∆K, K1
и K1 – ∆K, если нарушить следующую границу. Пусть BSC(K, σ(K)) — стоимость
опциона «колл» по Блэку — Шоулзу при страйк-цене K и волатильности σ(K), зависящей от страйк-цены и времени t до окончания срока. Тогда
C(K1 + ∆K) + BSC(K1 — ∆K) ≥ 2C(K1),

(23.8)

где BSC(K1, σ(K1)) = C(K1). Чтобы удовлетворить неравенству (23.8), требуется неравенство спредов «колл», взятое в пределе:
(23.9)
Такой арбитраж задает нижнюю границу для показателя хвоста α. Предполагая
для простоты нулевую доходность, получаем:

(23.10)
23.5. КОММЕНТАРИИ
Как видно на Рисунке 23.5, модели стохастической волатильности и аналогичные
адаптации (скажем, диффузионные скачки или варианты стандартного распределения
Пуассона) обычно проваливаются «в хвостах», вне зоны начальной калибровки. Делались неудачные попытки экстраполировать цены опционов по подправленному тонкохвостому распределению, а не Парето; сделанные на этой основе многочисленные
заявления в финансовой литературе о «переоценке» хвостовых опционов и псевдопсихологические рассуждения о «боязни риска» некорректны. Предложенные методы
позволяют нам подойти к подобным заявлениям с бо́льшим реализмом.
И последнее. Заметим, что наш подход показывает не абсолютную погрешность
цен для хвостовых опционов, а лишь погрешность относительно данной страйк-цены,
которая ближе «к деньгам».
БЛАГОДАРНОСТИ
Бруно Дюпиру, Питеру Карру, студентам Политехнического института Нью-Йоркского университета.

24
ЧЕТЫРЕ ОШИБКИ
В ФИНАНСОВОЙ МАТЕМАТИКЕ *‡

Обсудим комментарии Джеффа Хоулмена (сделанные, между прочим, в то
время, что он был старшим сотрудником по управлению рисками в крупном
хедж-фонде), опубликованные в Quantitative Finance, чтобы проиллюстрировать четыре поучительные ошибки:
1) путать хвосты (4-й момент и выше) с волатильностью (2-й момент);
2) упускать из виду неравенство Йенсена при вычислении потенциала
доходности;
3) анализировать результаты хеджирования в отрыве от эффективности
исходного актива;
4) забывать о роли денег как масштаба цен.
Отзыв мистера Хоулмена на книгу «Антихрупкость» (4 декабря 2013)
изобилует фактическими, логическими и аналитическими ошибками. Мы
упомянем здесь только важные, затрагивающие сообщества специалистов по
управлению рисками и финансовой математике; они поучительны как коренные ошибки, которые грозят начинающим финматематикам и риск-менеджерам.

24.1. ПУТАНИЦА МЕЖДУ ВТОРЫМ И ЧЕТВЕРТЫМ МОМЕНТАМИ
Начинающим важно избегать следующей элементарной ошибки. Мистер Хоулмен
неправильно описывает связь между VIX (контрактами по индексу волатильности) и
пари на хвостовые события. Вспомним, что наличие хвостовых событий свидетельствует о непропорционально сильном влиянии хвостов на свойства распределения,
что математически равносильно слабому влиянию «туловища»1.
М-р Хоулмен, видимо, понял вторую часть насчет атрибутов жирнохвостости
с точностью до наоборот. Неверно принимать VIX за индикатор хвостовых собы1 Суть бросается в глаза в любой справочной таблице: эксцесс, который служит стандартной мерой жирнохвостости, вычисляется нормированием четвертого момента по квадрату дисперсии. — Прим. автора.

440

Н АС С И М Н И К ОЛ АС ТА Л Е Б

тий. Главное влияние на VIX оказывают опционы «на деньгах», соответствующие центру распределения и скорее близкие ко второму моменту, чем к четвертому (опционы «на деньгах» на самом деле имеют линейную платежную функцию
и соответствуют условному первому моменту). Как объяснялось примерно 17 лет
назад в Динамическом хеджировании (Талеб, 1997) (смотрите Приложение) в разговоре о таких хвостовых пари, или «ставках на четвертый момент», если вы ставите
на жирность хвоста и большую роль экстремальных событий, продавайте опционы
«вокруг денег» (такие, как контракты по VIX) и приобретайте опционы в хвостах
с целью извлечь второй момент и достичь по нему нейтральности (в некотором роде
«нейтральности к рынку»). Для нейтральности требуется «короткая волатильность»
в туловище, потому что, будь эксцесс выше, событий в центре распределения стало
бы меньше.
Математический механизм объясняется в технической серии Incerto: жирные хвосты означают «высокие пики» в распределении, потому что чем жирнее хвосты, тем
больше времени рынок проводит между

и

, где σ — сред-

неквадратическое отклонение и μ — среднее распределения (мы здесь использовали
гауссиану для простоты, но аргументация применима ко всем одногорбым, колоколообразным распределениям, так называемым полувыпуклым вверх). И «высокие пики»
означают меньше отклонений, отличных от хвостовых событий: больше спокойных
времен, а не меньше. Чтобы прочувствовать последствия для цен опционов, рекомендую читателю контрольный вопрос, который предлагаю студентам после первой лекции по деривативам: «Что случится с опционами на деньгах, если ужирнить хвосты?»;
правильный ответ: их стоимость упадет1.
Практически, как показано в более сложной аргументации в статье в «Куонтитатив файненс» (Талеб и Дуади, 2013), наш коэффициент хрупкости имеет обратную
чувствительность к событиям вокруг центра распределения, поскольку — как получается из рассмотрения вероятности выживания — что хрупко, то чувствительно к хвостовым шокам и не должно критически меняться в туловище (в противном случае оно
бы разбилось).
24.2. НЕУЧЕТ НЕРАВЕНСТВА ЙЕНСЕНА ПРИ АНАЛИЗЕ
ДОХОДНОСТИ ОПЦИОНОВ
Вот ошибка, которую любой ценой следует избегать при обсуждении стратегий волатильности, да и любых финансовых вопросов. М-р Хоулмен как будто упустил из виду
неравенство Йенсена, без которого владеть опционом бессмысленно, как расписано во
1 Технический вопрос: где начинается хвост? Как мы видели в Разделе 4.3, для широкого класса симметричных распределений с хвостами степенного закона хвосты начинаются в точках:
где α бесконечна в случае гауссианы со стохастической волатильностью и σ —
среднеквадратическое отклонение. «Хвосты» располагаются между 2 и 3 среднеквадратическими отклонениями. Это вытекает из эвристического определения хрупкости как эффекта второго порядка: хвост —
это часть распределения, выпуклая вниз по погрешности оценки коэффициента масштаба. На практике
исторически сложившийся коэффициент, среднеквадратическая ошибка смещена вниз из-за эффектов
малой выборки (как мы любим повторять, жирные хвосты подчеркивают эффекты малой выборки),
и отклонения будут > 2–3 среднеквадратических ошибок. — Прим. автора.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

441

всех подробностях в книге «Антихрупкость». Первый признак, что человек упускает
из виду эффект выпуклости вниз, — критический просчет при наивном допущении,
как опционы реагируют на VIX:
1 доллар инвестиций 1 января 2007 по стратегии покупать и откатывать краткосрочные
фьючерсы VIX поднялся бы до 4,84 доллара 20 ноября 2008, а затем потерял 99 %
стоимости за следующие четыре с половиной года, придя к 31 мая 2013 на уровне
0,05 доллара1.

В данном рассуждении доходность опциона недооценивается на порядки величины. М-р Хоулмен анализирует хвостовую стратегию, используя VIX (или фьючерсы
VIX) как пример инвестиции в финансовые опционы, но такой пример математически
хромает из-за эффектов второго порядка; с тем же успехом можно пытаться оценить
инвестиции в горнолыжный курорт, анализируя температурные фьючерсы. Допустим,
что опционная стратегия — периодический откат: опцион в пяти среднеквадратических отклонениях от денег2 растет по стоимости в 16 раз, если его предположительная волатильность поднимается на 4, а теряет, если волательность уходит в 0, всего
лишь одну свою стоимость. При 10 среднеквадратических отклонениях разница уже
будет в 144 раза. И, чтобы показать величину ускорения, заметим, что, если бы торговались опционы в двадцати среднеквадратических отклонениях, разница была бы
в 210 000 раз3. Вторая критическая ошибка в данной дискуссии: м-р Хоулмен в своих
вычислениях исключает платежи по опционам «в деньгах».
Нужно помнить, что VIX — не цена, а обратная функция; индекс, производный от
цены. «Волатильность» не продается на рынке, как помидоры; операторы покупают
опционы, соответствующие такого рода обратной функции, и зависимость далека
от линейной. Хотя по сравнению с хвостовыми опционами VIX ближе к линейной
зависимости, этот индекс тоже выпуклый вниз по фактической волатильности рынка,
где-то между дисперсией и среднеквадратическим отклонением, поскольку «стрип
опционов», охватывающий все страйк-цены, должен сравняться с дисперсией (Гезерал, 2006). Предлагаем желающим задачку. Пусть VIX «покупается», скажем, при
10 % — то есть входящие в него опционы покупаются при сочетании волатильностей,
которое соответствует VIX на этом уровне. Пусть доходы в квадратах. Из-за нелинейности пакет может выиграть от эпизода 4 %-й волатильности, за которым последует эпизод 15 %, дав средний уровень 9,5 %; между тем м-р Хоулмен полагает или
пытается убедить читателя, что случится убыток 0,5 процентного пункта — вопреки
реальности, где неровности второго порядка в колебаниях волатильности важнее, чем
этот эффект первого порядка.

1 М-р Хоулмен в той же дискуссии демонстрирует доказательства жалкой доходности индексного опциона
«пут», который, как мы сказали выше, реагирует на волатильность, а не на хвостовые события. На биржевом жаргоне он называется «пут для молокососов» (sucker put). — Прим. автора.
2 Мы используем предположительную волатильность как точку отсчета для ее среднеквадратической
ошибки. — Прим. автора.
3 Автор был свидетелем такого события: при ликвидации хедж-фонда Виктора Нидерхоффера опционы
продавали по 0,05 доллара, а затем покупали обратно уже по 38 долларов; на этом обанкротилась брокерская фирма Refco, причем опционы так и не приблизились к деньгам: это был просто панический взлет
предполагаемой волатильности. — Прим. автора.

442

Н АС С И М Н И К ОЛ АС ТА Л Е Б

24.3. НЕРАЗРЫВНАЯ СВЯЗЬ МЕЖДУ СТРАХОВКОЙ И ПРЕДМЕТОМ
СТРАХОВАНИЯ
Нельзя вычислять стоимость страховки, не сдвигая ее на доходность, генерируемую пакетами, которые иначе не были бы куплены. Даже если бы м-р Хоулмен
в приведенном выше примере правильно определил знак волатильности, все равно
при анализе эффективности стратегии покупать опционы для защиты от хвостовых событий нельзя не добавить доходность самого портфеля; это все равно что
подсчитывать затратную часть страховки без учета эффективности актива, составляющего предмет страхования, — без этого страховку не купили бы. За тот период,
который он обсуждает, рынок вырос больше чем на 100 %; будет разумно сравнить
доход с заработком инвестора (и, конечно, избавиться от возни с контрактами по
VIX и сосредоточиться на мелких инвестициях в хвостовые опционы, где возможна
напористая политика). Многие инвесторы (включая автора) держались бы подальше
от рынка или перестали бы вкладывать в него дополнительные фонды, не будь такой
страховки.
24.4. НЕОБХОДИМОСТЬ МАСШТАБА ЦЕН В ФИНАНСОВОЙ
МАТЕМАТИКЕ
Есть и более глубокая ошибка в анализе.
«Штангу»1 определяют в «Антихрупкости»2 как инвестиционную стратегию
с двугорбым профилем, по которому часть портфеля — вложения в «объект, сохраняющий стоимость» (защищенный от инфляции и пр.), а остальное — вложение
в рискованные ценные бумаги. М-р Хоулмен пускается в нигилистический дискурс
о несуществовании защищенного от риска инвестиционного объекта (в духе софистики: кто-то утверждает, что на суше обычно безопаснее, чем в море, но что, если
вдруг землетрясение?).
Известные выкладки Блэка и Шоулза опираются на безрисковый актив как точку
отсчета; литература примерно с 1977 года перешла с термина «кэш» (наличные
деньги) на numéraire (объект, сохраняющий стоимость), а также приняла идею работы
с разными валютами, что технически означает работу с несколькими мерами вероятности. Numéraire3 определяется как условная денежная единица, в которую можно
переводить все остальные денежные единицы (то есть практически это такая валютная корзина, что происходящие внутри ее отклонения не сказываются на благосостоянии инвестора). К сожалению, без объекта, сохраняющего стоимость, невозможно
определить вероятностную меру и исследовать количественные показатели в финансовой математике; общая валютная единица, в которую переводится все остальное,
необходима. В эмоциональной тираде м-р Хоулмен не только отвергает штангу, но
и запрещает применять оператор математического ожидания к любой экономической

1 Жаргонный термин для стратегии портфеля с кратко- и долгосрочными бумагами без среднесрочных; от
barbell, буквально гантеля или штанга в форме гантели.
2 «Если вы размещаете 90 процентов средств в скучной наличке (предположим, вы защищены от инфляции) или в чем-то вроде «объекта, сохраняющего стоимость», а 10 процентов — в очень рисковых, максимально рисковых ценных бумагах, вы не сможете потерять больше 10 процентов средств, в то время
как ваши доходы могут быть велики» (перевод Н. Караева).
3 Читается «нюмере́р»; от фр. счетное, числовое, номерное.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

443

величине, тем самым нападая на все публикации по финансовой математике и сам
журнал «Куонтитатив файненс», в котором публикует свою рецензию.
Очевидно, что гневная рецензия м-ра Хоулмена насыщена ошибочными и бестолковыми заявлениями, но я не сомневаюсь, что читатель «Куонтитатив файненс» их
заметил, и, как мы уже говорили, цель этой дискуссии — научиться избегать аналитических ошибок в финансовой математике.
И последнее: автор приветствует критику со стороны финансового сообщества,
если она содержит доводы по существу, а не беспорядочные выпады против ложных
целей или, как в случае м-ра Хоулмена, против основ данной науки.
24.5. ПРИЛОЖЕНИЕ (СТАВКИ НА ХВОСТЫ РАСПРЕДЕЛЕНИЯ)
Из книги «Динамическое хеджирование», страницы 264–265:
Ставка на четвертый момент означает «лонг» или «шорт»1 по «волатильности»
«волатильности». Она делается с помощью опционов «вне денег» или с помощью
календарных спредов2. Пример: «пропорциональный обратный спред»3 — метод,
при котором покупаются опционы «вне денег», в больших объемах, и продаются
опционы «на деньгах», в меньших объемах, но с таким расчетом, чтобы обмен
удовлетворял «кредитному правилу» (т. е. приносил кэш на начальном этапе).
Кредитное правило требует большей возни, когда используются опционы «в деньгах». В этом случае нужно вычислить текущее значение основной части каждого
опциона, пользуясь правилом пут-колл-паритета, чтобы пересчитать эти опционы
по опционам «вне денег».
Обмен на Рисунке 24.1 был достигнут приобретением путов «вне денег» и коллов
«вне денег» и продажей меньшего объема «стеллажей» «на деньгах» с тем же остающимся сроком.
На Рисунке 24.2 показан второй метод, в котором покупаются 60-дневные опционы
в одном объеме и продаются, в объеме 80 % первого объема, 20-дневные опционы.
Оба обмена создают позицию, выигрывающую от жирных хвостов и высоких пиков.
Однако у этих обменов разная вега-чувствительность;4 при этом модифицированная
вега у них близка к плоской.

1 На жаргоне трейдеров сделка «лонг», или «длинная», — это покупка актива в надежде потом продать по
выросшей цене, сделка «шорт», или «короткая», — это продажа актива в надежде потом купить его же
по упавшей цене; от long и short.
2 От calendar, или calendar spread. Продажа опциона с коротким сроком и покупка опциона с той же
страйк-ценой, но с долгим сроком.
3 От ratio backspread или ratio reverse spread.
4

, мера чувствительности стоимости V опциона к предполагаемой волатильности σ цены исходного
актива. Обозначается нестандартной заглавной буквой «ню», представляющей собой увеличенных размеров строчную букву «ню»; чтение «вега» (vega) предположительно появилось из-за путаницы с латинской V и в подражание двусложным названиям греческих букв.
Есть несколько показателей риска опционов, обозначаемых греческими буквами и более экзотическими
символами, под общим названием «греки» (Greeks); «вега» принадлежит к «грекам» первого порядка.

ν

444

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Пропорциональный обратный спред
60

Сегодня

40

Сегодня + 3 дня

110,5

108 ,5

106,5

104,5

102,5

100,5

98,5

94,5

96,5

92,5

90,5

0

88,5

P/L

20

Цена актива

Рисунок 24.1: Первый метод
извлечь прибыль из четвертого момента (из книги
«Динамическое хеджирование», 1997)

–20

–40

–60

Календарный спред
25

Сегодня
20

Сегодня + 3 дня

15

111

109,5

108

106,5

105

102

103,5

100,5

99

97,5

96

94,5

93

88,5

0

91,5

5

90

P/L

10

Цена актива

Рисунок 24.2: Второй метод
извлечь прибыль из четвертого момента (из книги
«Динамическое хеджирование», 1997)

–5
–10
–15

Смотрите Раздел 4.3. Туловище, плечи и хвосты, где мы предполагаем, что хвосты
начинаются при том уровне выпуклости вниз отрезка вероятностного распределения,
который отвечает масштабу распределения.

25
ОГРАНИЧЕНИЯ ХВОСТОВОГО РИСКА
И МАКСИМАЛЬНАЯ ЭНТРОПИЯ ‡

Выбор портфеля анализировался в финансовой литературе, по сути, при двух
центральных предположениях: о полном знании совместного вероятностного
распределения доходов по ценным бумагам, составляющим искомый портфель, и о том, что предпочтения инвесторов выражаются функцией полезности. В реальном мире операторы строят портфели при ограничениях риска,
выражаемых клиентами и регуляторами и сказывающихся на максимальных
потерях, которые могут образоваться в заданный период при заданном доверительном уровне (так называемая стоимость под риском). Интересно, что
в финансовой литературе серьезная дискуссия о том, как мало известно с теоретико-вероятностной точки зрения о многомерной плотности для доходов от
активов, не считается важной.
Мы же, напротив, хотим высветить эти проблемы и затем уложить их
в систему максимизации энтропии, чтобы представить реальную неосведомленность об «истинных» вероятностных распределениях, одномерных
и многомерных, для доходов от торгуемых ценных бумаг. В этих рамках мы
выясняем, каков оптимальный портфель при ряде ограничений риска понижательной тенденции. На свет выходят два интересных результата: (i) ограничения левого хвоста достаточно сильны, чтобы переопределить остальные
соображения, рассматриваемые в обычной теории; (ii) «портфель штанги»
(максимальная определенность / низкий риск в одном пакете и максимальная
неопределенность в другом), хорошо знакомый трейдерам, в нашем построении появляется естественным образом.

25.1. РИСК ЛЕВОГО ХВОСТА КАК ЦЕНТРАЛЬНОЕ ОГРАНИЧЕНИЕ
ПОРТФЕЛЯ
С точки зрения клиента — оператора или активного инвестора, работающего в институциональной системе параметров, принципиально использовать нормативные обязательные лимиты на хвостовые потери, чтобы задать уровни риска в портфелях; для

446

Н АС С И М Н И К ОЛ АС ТА Л Е Б

банков это обязательное требование регулятора со времен Базеля II1. Расчеты опираются на стресс-тесты, стоп-лоссы2, стоимость под риском (VaR), ожидаемые потери
(ожидаемые при том условии, что превысят VaR; ожидаемые потери называют также
условной стоимостью под риском, CVaR) и подобные методы ограничения потерь, не
заботясь о полезности. В частности, запасы на финансовые транзакции калибруются
клиринговыми фирмами и биржами по хвостовым потерям, которые оцениваются
по вероятностному распределению и по стресс-тестам. (В терминологии активных
инвестиций стоп-лосс — это ордер с целью полностью или частично выйти из рискованного вложения по триггеру, в случае заранее определенных номинальных потерь.
Базелем II обычно называют рекомендации по банковским законам и нормативам,
выпущенные Базельским комитетом по банковскому надзору. Стоимость под риском,
VaR, определяется как величина K пороговых потерь, для которых вероятность того,
что данный портфель в данном горизонте времени понесет потери тяжелее данного
значения, составляет ε. Стресс-тест — это проверка эффективности в случае произвольно заданного отклонения параметров исходных активов.) Информация, заложенная в выборе константы, является, мягко говоря, важной статистической характеристикой аппетита к риску и формы желательного распределения.
Операторы озабочены не столько колебаниями портфеля, сколько риском истощения запасов в некотором временном окне. Кроме того, они не знают совместного
вероятностного распределения компонентов в своем портфеле (не считая туманного
представления об ассоциации и хеджах), но могут управлять потерями естественными
методами размещения средств, учитывающими максимальный риск. (Идея заменить
дисперсию на риск может показаться очень странной практикующим активным инвесторам. Цель современной портфельной теории, понизить дисперсию, несовместима
с предпочтениями рационального инвестора, вопреки боязни риска, поскольку минимизирует также вариативность в области прибылей — кроме узкого круга ситуаций,
где есть уверенность в средних будущих доходах, и натянутого примера с инвестором,
которому разрешено вкладывать только в случайные величины с симметричным вероятностным распределением и/или симметричной платежной функцией. Стоп-лоссы
и процедуры управления хвостовым риском нарушают такую симметрию.) Возможно,
используются, хотя и не напрямую, и обычные идеи функции полезности и дисперсии, поскольку эта информация заложена в ограничении хвостовых потерь.
Поскольку методы управления рисками, подобные стоп-лоссу или VaR (и ожидаемых потерь), учитывают только один отрезок распределения: отрицательную часть
области определения, — мы можем получить двойственный подход, подражая разделению портфеля на конструкцию в стиле «штанги», чтобы инвестор мог вкладываться
в позиции в разных частях распределения доходов. Здесь наше определение «штанги»
означает портфель со смесью двух экстремальных свойств, подобно линейной комбинации максимального консерватизма для доли w портфеля, где w ∈ (0, 1), и максимального (или высокого) риска для оставшейся доли (1 – w).
Исторически финансовая теория предпочитала параметрические, менее робастные методы. Идея, будто принимающий решения имеет ясное и безошибочное зна1 Принятые в 2004 рекомендации Базельского комитета по банковскому надзору в области банковского
регулирования.
2 Англ. stop order или stop-loss order — приказ продавать или покупать некоторые акции, если они достигнут заданной стоп-цены; цель — ограничить убытки.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

447

ние о распределении будущих платежей, оказалась живуча вопреки практической
и теоретической несостоятельности — например, требуемые корреляции слишком
неустойчивы, чтобы получать точные оценки. Такой подход опирается на уверенность
в распределении и его параметрах, и это может быть интересно для исследователя, но
не приспособлено к решениям об активных инвестициях. (Корреляции неустойчивы
неустойчивым образом, поскольку совместные доходы по активам не эллиптичны;
смотрите у Бушо и Шишпортика (2012) [42].)
Есть, грубо говоря, две традиции: в одной, уважаемой экономическим истеблишментом (представленным по большей части Марковицем [166]), принятие решений
сильно опирается на параметры, а в другой — на менее сильные допущения, известные
как критерий Кэлли (Кэлли, 1956 [142], смотрите у Белла и Коувера, 1980 [15].) (В отличие от подхода минимальной дисперсии метод Кэлли — разработанный примерно в те
же годы, что метод Марковица, — не требует знать совместное распределение или
функцию полезности. На практике требуется динамически корректируемое отношение
ожидаемой прибыли к доходам худшего случая, позволяющее избежать разорения. Очевидно, что погрешность моделирования имеет меньшие последствия при использовании критерия Кэлли; смотрите у Торпа (1969) [250], Хэя (2000) [119], Маклейна, Зембы
и Блазенко [157]. Обсуждение различий между двумя подходами смотрите в возражении Самуэльсона против критерия Кэлли и логарифмических размеров у Торпа (2010)
[252].) Кроме того, метод Кэлли связан и с управлением левым хвостом благодаря пропорциональным инвестициям, которые автоматически сокращают портфель в случае
потерь; но для первоначального метода требуется жесткий, непараметрический сценарий наихудшего случая, то есть для ценных бумаг требуется нижняя граница отклонений, аналогично игре в казино, и достичь такого в финансовой области можно только
с бинарными опционами. Вдобавок критерий Кэлли требует точного знания некоторых
параметров будущих доходов, таких как среднее. Наш подход выходит за этот метод,
приспособляясь к большей неопределенности относительно доходов, и оператор может
управлять левым хвостом только через деривативы и прочие средства страхования или
построив динамический портфель на основе стоп-лоссов. (Су, У, Цзян и Сон (2014) [266]
противопоставляют среднюю дисперсию максимальной энтропии и используют энтропию для построения робастных портфелей.) Вкратце, мы прикручиваем к системе механизм прерывания потерь, но в остальном допускаем максимальную неопределенность
относительно доходов. Точнее, мы приравниваем распределение доходов к максимально
энтропийному расширению ограничений, выраженных в статистических ожиданиях, на
поведение в левом хвосте, а также на ожидание доходов или логарифма доходности
в неопасной зоне. (Заметим, что все время используем шенноновскую энтропию1. Есть
и другие меры информации, такие как энтропия Цаллиса2 [256] и энтропия Реньи3 [137],
1 Информационная эн т р о п и я п о Ш е н н о н у; прирост энтропии приравнивается к утраченной неопределенности.
2 Э нт ропия Ца ллис а — обобщение стандартной энтропии Гиббса на неэкстенсивные (неаддитивные)
системы, где сильное взаимодействие создает новые степени свободы. Энтропия Гиббса обобщает энтропию Больцмана на случай, где микросостояния системы не равновероятны. Энтропия Больцмана, с точностью до постоянного множителя и выбора единиц измерения, — это логарифм числа микросостояний,
отвечающих данному макросостоянию.
3 Э нт ропия Реньи — обобщение шенноновской энтропии, энтропии Хартли, энтропии столкновений
и min-энтропии; допускает дробное число измерений фрактальной системы. Служит мерой разнообразия, неопределенности и случайности для широкого класса систем.

448

Н АС С И М Н И К ОЛ АС ТА Л Е Б

обобщающая шенноновскую энтропию; возможно, какие-то из этих мер более удобны
для вычислений в отдельных случаях. Тем не менее шенноновская энтропия остается
наиболее изученной мерой для систем максимизации.)
Здесь под «поведением в левом хвосте» подразумеваются жесткие, институциональные ограничения, которые мы обсудили выше. Мы описываем форму и исследуем
прочие свойства результирующего распределения, так называемого maxent-распределения1. Помимо математического результата, выявляющего связь между допустимыми
хвостовыми потерями (VaR) и ожидаемыми доходами в системе среднего и дисперсии
гауссианы, наш вклад содержит две новации: (1) исследование формы распределения
доходов от построения портфеля при более естественных ограничениях, чем те, что
налагаются методом среднего и дисперсии, и (2) использование стохастической энтропии для представления остаточной неопределенности.
Методы VaR и CVaR не свободны от погрешности — параметрический VaR славится неэффективностью как отдельный метод контроля рисков. Однако эти методы
можно сделать робастными, использовав построения, которые, после уплаты цены
за страховку, больше не зависят от параметрических предположений. Достичь этого
можно с помощью деривативов или органического построения (очевидно, что, если
иметь 80 % портфеля в ценных бумагах, сохраняющих стоимость, риск потерять более
20 % нулевой независимо от возможных моделей доходности; колебания в объекте,
сохраняющем стоимость, не считаются рискованными).
Мы используем «чистую робастность» VaR и нулевые потери с помощью «жесткого упора» или страховки, представляющие в нашей статье особый случай построения, которые мы выше назвали «штангой».
Нелишне заметить, что, согласно давно известной в экономике идее, инвестор
может построить портфель на основе двух разных категорий риска, смотрите у Хикса
(1939) [128]. Современная портфельная теория выдвигает теорему о «разделении» взаимных фондов, гласящую, что все инвесторы способны получить желаемые портфели,
смешивая два взаимных фонда, один с безрисковым активом и один с оптимальным
портфелем по среднему и дисперсии, касательных к заданным ограничениям; смотрите у Тобина (1958) [254], Марковица (1959) [167] и, в других версиях, у Мертона
(1972) [170] и Росса (1978) [202]. В нашем случае безрисковый актив — часть хвоста,
в которой риск задан в точности равным нулю. Заметим, что в традиционной финансовой экономике у рискованной части портфеля должна быть минимальная дисперсия;
по нашему методу для рискованной части представление прямо противоположное.
25.1.1. Штанга с точки зрения Э. Т. Джейнса
Наш подход — ограничивать только то, что поддается ограничению (робастным образом)
и максимизировать энтропию во всем остальном, — вторит примечательному прозрению
Э. Т. Джейнса в статье «Как нам следует использовать энтропию в экономике?» [134]:
Может оказаться, что макроэкономическая система не подчиняется (или не вполне
подчиняется) стимулам, которые должны диктовать ее поведение согласно существующим теориям; возможно, она просто движется в направлении роста энтропии, ограниченного законами сохранения, которые наложены Природой и Правительством.
1 Вероятностное распределение с максимальной энтропией (от maximum entropy probability distribution).

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

449

25.2. ВЕРНЕМСЯ К ЗАДАНИЮ СРЕДНЕГО И ДИСПЕРСИИ
Пусть X ⃗ = (X1, …, Xm) обозначает доходы от актива за данный период с совместной
плотностью g( x⃗), средними доходами = µ⃗ (μ1, …, μm) и ковариационной матрицей Σ
размера m × m, Σij = 𝔼(Xi Xj) – μi μj, 1 ⩽ i, j ≤ m. Допустим, что μ и Σ можно надежно оценить по данным.
Тогда доходы от портфеля с весами w⃗ = (w1, …, wm) будут

и среднее и дисперсия этой величины будут
𝔼(X) = w⃗ µ⃗ T, 𝕍(X) = w⃗ Σ w⃗ T.
В стандартной портфельной теории минимизируют 𝕍X по всем w⃗, удовлетворяющим 𝔼X = μ при некотором фиксированном желательном среднем доходе μ. Эквивалентным образом максимизируется ожидаемый доход 𝔼X, удовлетворяющий некоторой фиксированной дисперсии 𝕍X. В этой системе дисперсия служит суррогатом риска.
Чтобы проследить связь с нашим подходом на основе энтропии, рассмотрим следующие два стандартных случая.
(1) Мир нормального распределения: совместное распределение g(x⃗) доходов от
актива представляет собой многомерную гауссиану 𝒩(µ⃗, Σ). Предположение о нормальности равносильно предположению о том, что у g(x⃗) максимальная (шенноновская) энтропия среди всех многомерных распределений при заданных статистических
параметрах первого и второго порядка, µ⃗ и Σ. Более того, при фиксированном среднем
𝔼X минимизировать дисперсию 𝕍X равносильно тому, чтобы минимизировать энтропию (неопределенность) величины X. (Это верно, поскольку совместная нормальность
делает X одномерной нормальной величиной при любом выборе весов, а энтропия
случайной величины с распределением 𝒩(μ, σ2)

Это естественно в мире с полной информацией. (Идея энтропии как средней
неопределенности выдвинута Филиппатосом и Уилсоном (1972) [188]; смотрите
у Чжоу и др. (2013) [270] обзор по энтропии в финансовой экономике и у Джорджеску-Регена (1971) [107] по экономике в целом.)
(2) Неизвестное многомерное распределение. Поскольку мы предполагаем, что
можем судить о структуре второго порядка, мы все еще можем выполнить программу
Марковица, т. е. выбирать веса портфеля в поисках эффективности, оптимальной по
среднему и дисперсии, задавая 𝔼X = μ and 𝕍X = σ2. Однако мы не знаем распределения величины дохода X. Заметим, что предположение о нормальном распределении
X ~ 𝒩(μ, σ2) равносильно предположению о максимальной энтропии X, поскольку,
повторим, нормальное распределение имеет максимальную энтропию при данном
среднем и дисперсии, смотрите [188].
Наша стратегия в том, чтобы обобщить второй сценарий, заменив дисперсию σ2 на
два ограничения стоимости под риском в левом хвосте, и смоделировать доходы портфеля как максимально энтропийное расширение этих ограничений совместно с ограничением на общую эффективность или на рост портфеля в неопасной зоне.

450

Н АС С И М Н И К ОЛ АС ТА Л Е Б

25.2.1. Анализ ограничений
Пусть X имеет плотность вероятности f (x). Далее везде будем считать, что K < 0 —
нормирующая константа, выбранная для согласования с капиталом активного инвестора. При любых ε > 0 и ν– < K ограничения на стоимость под риском следующие.
(1) Хвостовая вероятность:

(2) Ожидаемые потери (CVaR):

В предположении (1) ограничение (2) равносильно тому, что

При заданных параметрах стоимости под риском ϑ = (K, ε, ν–), пусть Ωvar(ϑ) обозначает множество функций плотности вероятности f, удовлетворяющих двум ограничениям. Заметим, что Ωvar(ϑ) выпукла вниз:
если f1, f2 ∈ Ωvar(ϑ), то α f1 + (1 – α) f2 ∈ Ωvar(ϑ).
Позже мы добавим еще одно ограничение, касающееся общего среднего.
25.3. ВЕРНЕМСЯ К ГАУССОВУ СЛУЧАЮ
Пусть величина X — гауссова со средним μ и дисперсией σ 2. В принципе будет возможно удовлетворить ограничениям VaR, поскольку есть два свободных параметра.
В самом деле, как показано ниже, ограничения левого хвоста задают среднее и дисперсию; смотрите Рисунок 25.1. Однако выполнение ограничений VaR накладывает
любопытные ограничения на μ и σ и ведет к естественному неравенству в духе «бесплатных обедов не бывает».

0,4

K

Площадь = ε

Рисунок 25.1: Если задать K
(стоимость под риском),
вероятность ε превысить K
и ожидаемые при этом
потери, при гауссовом распределении не остается свободы:
σ и μ заданы, и построения,
согласно портфельной теории,
теряют значение

0,3

0,2

ν−

–4

–2

0,1

2

4

Доходы

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

451

Пусть η(ε) — это ε-квантиль стандартного нормального распределения, т. е.
η(ε) = Φ –1(ε), где Φ — кумулятивная функция стандартного нормального распределения, имеющего плотность φ(x). Кроме того, зададим

Предложение 25.1
Если величина X ~ 𝒩(μ, σ2) и удовлетворяет двум ограничениям VaR, то среднее и дисперсия имеют вид

Более того, B(ε) < –1 и limε↓0 B(ε) = –1.
Доказательство приведено в Приложении. Ограничения VaR непосредственно
ведут к двум линейным уравнениям относительно μ и σ:
μ + η(ε)σ = K, μ – η(ε)B(ε)σ = ν–.
Рассмотрим условия, при которых ограничения VaR допускают положительный
средний доход μ = 𝔼X > 0. Во-первых, из приведенного выше линейного уравнения
относительно μ и σ, содержащего η(ε) и K, мы видим, что σ растет1 с ростом ε при
любом фиксированном среднем μ и что μ > 0 тогда и только тогда, когда

, т. е.

для дисперсии нужнопринять нижнюю границу, растущую с ε, — это поведение
выглядит логично. Во-вторых, из выражения для μ в Предложении 25.1 видим, что
μ > 0 ⇔ |ν–| > KB(ε)2.
Следовательно, единственная возможность иметь положительный ожидаемый
доход — принять достаточно большой риск, выраженный рядом компромиссов между
параметрами риска ϑ, удовлетворяющими приведенному выше неравенству.
Этот тип ограничения применим также к более общему случаю симметричных
распределений, поскольку ограничения на левые хвосты влияют через симметрию
структуры на положение и масштаб. Например, в случае t-распределения Стьюдента
с коэффициентом масштаба s, коэффициентом положения m и показателем хвоста α применимо такое же линейное соотношение между s и m: s = (K – m)κ(α), где
— обратная регуляризованная неполная бета-функция и s — решение уравнения

1 В самом деле, в посылке Предложения 25.1 стоимость под риском, K, зафиксирована, а ε-квантиль, η(ε),
при повышении вероятности ε уменьшается.
2 В самом деле, величины ν–, K, B(ε) и 1 + B(ε) все отрицательные. Чтобы дробь
тельна, числитель должен быть отрицателен, ν– < –KB(ε).

была положи-

452

Н АС С И М Н И К ОЛ АС ТА Л Е Б

25.3.1. Смесь двух нормальных распределений
Во многих прикладных науках смесь двух нормальных распределений дает полезное
и естественное обобщение гауссианы; в финансовой математике соответствующая
модель получила название «гипотеза смешанного распределения» (Mixture Distribution
Hypothesis, MDH) — имеется в виду смесь двух нормальных распределений, —
и была широко исследована (смотрите, например, у Ричардсона и Смита (1995) [200]).
Э. Жиман и Т. Ан (1996) [2] показывают, как бесконечная смесь нормальных распределений акций возникает при введении «стохастических часов», отвечающих за неравномерную интенсивность информационного потока на финансовых рынках. Кроме того,
опционные трейдеры давно используют смешивание для представления жирных хвостов и оценки чувствительности портфеля к росту эксцесса (модель DvegaDvol); смотрите у Талеба (1997) [225]. Наконец, Бриго и Меркурио (2002) [34] с помощью смеси
двух нормальных распределений откалибровали асимметрию в фондовых опционах.
Рассмотрим смесь
f(x) = λ𝒩(μ1, ) + (1 – λ)(μ2, ).
Интуитивно простым и привлекательным подходом кажется зафиксировать общее
среднее μ и принять λ = ε и μ1 = ν–; в таком случае μ2 придется взять
. Тогда
ограничения левого хвоста приблизительно выполнятся при достаточно малых σ1, σ2.
В самом деле, когда σ1 = σ2 ≈ 0, плотность по существу состоит из двух пиков (нормальных распределений низкой дисперсии), причем левый сцентрирован по ν– и правый сцентрирован по
. В крайнем случае слева имеем дельта-функцию Дирака,
как мы увидим далее.
Динамический стоп-лосс, краткий комментарий. Можно задать такой уровень K,
что ниже его не будет массы, и результаты будут зависеть от точности выполнения
такого стоп-ордера. Распределение справа от стоп-лосса больше не похоже на стандартную гауссиану, поскольку скашивается в положительную сторону согласно расстоянию стоп-уровня от среднего. Завершим это обсуждение иллюстрациями на
Рисунке 25.2.

Вероятность

Рисунок 25.2: Динамический стоп-лосс играет роль
поглощающего барьера,
создавая дельта-функцию
Дирака в точке исполнения
стоп-ордера

Доходы

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

453

25.4. МАКСИМАЛЬНАЯ ЭНТРОПИЯ
Из комментариев и анализа, приведенных выше, очевидно, что на практике плотность f доходов X неизвестна; в частности, ни одна теория ее не находит. Допустим,
что можем уточнять параметры портфеля, чтобы удовлетворить ограничениям VaR
и, возможно, еще одному ограничению на ожидаемую величину некоторой функции X
(например, общее среднее). Тогда мы бы хотели вычислить интересующие нас вероятности и математические ожидания, например, P(X > 0) или вероятность потерять
больше 2K, или ожидаемую прибыль при условии, что X > 0. Одна из возможных стратегий состоит в том, чтобы получить такие оценки и предсказания при самых непредсказуемых обстоятельствах, совместимых с ограничениями. То есть использовать максимально энтропийное расширение (maximum entropy extension, MEE) ограничений
как модель для f(x).
«Дифференциальная энтропия» для f — это h(f) = –∫ f(x) ln f(x) dx. (В общем случае
этот интеграл, возможно, не существует.) Энтропия выпукла вверх на том пространстве плотностей, для которого определена. В общем случае MEE определяется как

где Ω — пространство плотностей, удовлетворяющее набору ограничений вида
𝔼φj(X) = cj, j = 1, …, M. Как известно, в предположении непустого Ω максимально-энтропийная fMEE единственная и (вдали от границ допустимой области) представима как
экспоненциальное распределение функций ограничений, — то есть в виде

где C = C(λ1, …, λM) — нормирующая константа. (Эта формула возникает, если продифференцировать соответствующий функционал J(f) относительно энтропии, приравнять интеграл к единице и наложить ограничения методом множителей Лагранжа.)
В специальных случаях, приведенных ниже, мы используем это представление, чтобы
найти MEE при наших ограничениях.
В нашем случае мы хотим максимизировать энтропию при ограничениях VaR
совместно с любыми другими, какие понадобится наложить. В самом деле, ограничения VaR сами по себе не диктуют MEE, поскольку не ограничивают плотность f(x)
при x > K. Энтропию можно сделать неограниченно большой, допуская f быть тождественно равной

по всем K < x < N и допуская N → ∞. Но допустим, что доба-

вили одно или несколько ограничений на поведение f, которые совместимы с ограничениями VaR в том смысле, что множество плотностей Ω, удовлетворяющее всем
ограничениям, не пусто. Здесь Ω будет зависеть от параметров VaR, ϑ = (K, ε, ν–), и от
параметров дополнительных ограничений.
25.4.1. Случай A: ограничиваем глобальное среднее
Простейший случай — когда мы добавляем ограничение на средний доход, т. е. фиксируем 𝔼X = μ.

454

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Поскольку 𝔼X = ℙ(X ⩽ K)𝔼(X | X ⩽ K) + ℙ(X > K)𝔼(X | X > K), добавление ограничения на среднее равносильно добавлению ограничения
𝔼(X | X > K) = ν+,
где ν+ удовлетворяет требованию εν– + (1 – ε)ν+ = μ.
Определим

и

.
Нетрудно проверить, что обе функции при интегрировании дают 1. Тогда
fMEE(x) = ε f–(x) + (1 – ε) f+(x)
будет максимально энтропийным расширением при трех ограничениях. Во-первых,
очевидно, что
1.

2.
3.

;1
;2
3

,

то есть все ограничения соблюдены. Во-вторых, fMEE(x) представима экспонентой от
наших функций ограничений:
fMEE(x) = C –1 exp( –( λ1 x + λ2 𝟙x ≤ K + λ3 x𝟙x ≤ K)).
Форма f– зависит от соотношения между K и ожидаемыми потерями ν–. Чем ближе
ν– к K, тем быстрее спадает хвост. При ν– → K функция f– сходится к единичному пику4
при x = K (Рисунки 25.3 и 25.4).
1
2
3
4

Это ограничение вида 𝔼φ1(X) = c1, где φ1(x) = f–(x) и c1 = ε.
Это ограничение вида 𝔼φ2(X) = c2, где φ2(x) = x f–(x) и c1 = εν–.
Это ограничение вида 𝔼φ3(X) = c3, где φ3(x) = x f+(x) и c1 = (1 – ε)ν+.
По-видимому, имеется в виду пик плотности, площадь под которым 1 и ширина которого ↓0.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

455

Возмущение ε
0,4

0,3

Рисунок 25.3: Случай A: Влияние
различных значений ε на форму
распределения*

0
0,1
0,5

0,2

0,25

* Использованы K = –1,75, ν– = –3,05,
ν+ = 2,75.

0,1

–20

–10

10

20

Возмущение ν−
0,5

−2,5

0,4

−3

Рисунок 25.4: Случай A: Влияние
различных значений ν– на форму
распределения*

−3,5

0,3

−4

* Примерно такое семейство
графиков получается при K = –2,
ε = 0,25, ν+ = 0,3.

−4,5
0,2

−5
−5,5

0,1

–10

–5

5

10

25.4.2. Случай B: ограничиваем абсолютное среднее
Если вместо этого ограничить абсолютное среднее:

то максимально энтропийное расширение будет не столь очевидно, но все-таки найти
его можно. Определим f–(x) как выше и примем
.
Тогда можно выбрать λ1 так, что

25.4.3. Случай C: степенные законы для правого хвоста
Если мы полагаем, что фактические доходы имеют «жирные хвосты», в частности,
что правый хвост убывает не экспоненциально (как плотность при нормальном и экспоненциальном распределениях), а по степенному закону, то можем добавить такое

456

Н АС С И М Н И К ОЛ АС ТА Л Е Б

ограничение к ограничениям VaR, вместо работы со средним или абсолютным средним. Глядя на экспоненциальное представление MEE, понятно, что плотность f+(x)
будет иметь степенной закон, а именно

при α > 0, если ограничение имеет вид

Более того, еще раз обратимся к теории MEE, пользуясь тем, что параметр получен минимизацией логарифма нормирующей функции. В этом случае легко показать, что

Отсюда следует, что A и α удовлетворяют уравнению

Мы можем относиться к этому уравнению как определяющему скорость спада α
при заданном A или же как определяющему значение ограничения A, необходимое для
получения конкретного α для степенного закона.
Тогда итоговое максимально энтропийное расширение ограничений VaR
совместно с ограничением на логарифм доходности будет

(смотрите Рисунки 25.5 и 25.6).

Возмущение α
1,5

Рисунок 25.5: Случай C:
Влияние различных значений α на форму жирнохвостого максимально
энтропийного распределения*

1
3
2

1,0

2
5
2

3

0,5

–2

–1

1

* Примерно такое семейство графиков получается
при K = –2; ε = 0,01; ν– = –3;
ν+ = 0. — Прим. перев.
2

3

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

457

Возмущение α

Рисунок 25.6: Случай C:
Влияние различных значений α на форму жирнохвостого максимально
энтропийного распределения (при K, более
близком к нулю)*

1,5

1
3
2
1,0

2
5
2

3

* Примерно такое семейство графиков получается
при K = –0,5; ε = 0,1;
ν– = –3; ν+ = 0. — Прим.
перев.

0,5

–2

–1

1

2

3

25.4.4. Расширение на несколько периодов: комментарий
Рассмотрим поведение в течение нескольких периодов. Используя наивный подход,
мы суммируем эффективность так, как будто никакой реакции на прошлые доходы не
происходит. Можно видеть, что Случай A приближается к обычной гауссиане, а Случай C этого не делает (Рисунок 25.7).
Возмущение α
0,5

0,4

0,3

0,2

0,1

–4

–2

2

4

6

8

10

Рисунок 25.7: Средний доход
за много периодов при наивной стратегии Случая A, где
размер позиции не зависит
от эффективности в прошлом
и допустима независимая
оценка размеров. Периоды четко
складываются в стандартную
гауссиану и, как показывает
формула (25.1), сжимаются
в дельта-функцию Дирака
в точке среднего значения

Для Случая A характеристическую функцию можно записать как

С помощью свертки можно вывести, что ΨA(t)n сходится к сумме n гауссиан.
Характеристическая функция в пределе среднего стратегий, то есть

(25.1)

458

Н АС С И М Н И К ОЛ АС ТА Л Е Б

представляет собой характеристическую функцию дельта-функции Дирака, демонстрируя заметный эффект закона больших чисел и обеспечивая тот же результат, что
гауссово распределение со средним ν+ – ε(ν+ – ν–).
В Случае C, при степенном законе, сходимость к гауссиане медленная и только
при α ≥ 2.
25.5. КОММЕНТАРИИ И ЗАКЛЮЧЕНИЕ
Заметим, что стоп-лосс играет бо́льшую роль в определении стохастических свойств,
чем в составлении портфеля. Упрощая, жесткий упор срабатывает не в ответ на отклонения отдельных компонент, а при отклонениях портфеля в целом. Это освобождает
анализ от фокуса на отдельных компонентах портфеля, когда мы знаем только хвост
и управляем только хвостом — через деривативы или органическое построение.
В заключение отметим, что большинство финансово-математических статей,
в которых фигурирует энтропия, использовали как критерий оптимизации минимизацию энтропии. Например, Фрителли (2000) [98] выявляет однозначность «меры
минимально энтропийного мартингала» при некоторых условиях и доказывает, что
минимизация энтропии эквивалентна максимизации экспоненциальной полезности
конечного капитала. Мы же, не обращаясь ни к какому критерию полезности, предложили максимизацию энтропии как признак неопределенности в распределении
стоимости активов. При ограничениях VaR и ожидаемых потерь мы получили полную
общность «портфеля штанги» как оптимального решения, расширив до весьма общей
ситуации подход, известный по теореме о разделении на два фонда.
25.6. ПРИЛОЖЕНИЕ / ДОКАЗАТЕЛЬСТВА
Доказательство Предложения 25.1: Поскольку X ~ 𝒩(μ, σ2), ограничение хвостовой
вероятности

По определению, Φ(η(ε)) = ε. Значит,
K = μ + η(ε)σ.

(25.2)

Для ограничения ожидаемых потерь

Поскольку 𝔼(X | X < k) = εν–, и в силу определения B(ε), получаем, что
ν– = μ – η(ε)B(ε)σ.

(25.3)

2

Решение (25.2) и (25.3) относительно μ и σ дает выражения в Предложении 25.1.
Наконец, в силу симметрии стандартного нормального распределения к «неравенству
верхнего хвоста», получаем при x < 0, что Φ(x) ≤
. Выбором x = η(ε) = Φ –1(ε) достигаем
ε = ℙ(X < η(ε)) ≤ εB(ε) или 1 + B(ε) ≤ 0. Поскольку неравенство верхнего хвоста является
асимптотически точным, при x→ –∞ имеем B(0) = –1, на чем доказательство завершено.

ПЕРСОНАЛИИ

Абрамовиц, Милтон (Milton Abramowitz, 1915–1958) и Айрин Энн Стеган (Irene Ann
Stegun, 1919–2008) — американские математики.
Авельянеда, Марко (Marco Avellaneda, 1955–2022) — американский математик.
Амбре, Поль (Paul Embrechts, р. 1953) — бельгийский математик.
Баз, Джамиль (Jamil Baz, р. 1959) — ливанский и американский экономист; сотрудник
Математического института Оксфордского университета.
Бак, Пер (Per Bak, 1948–2002) — датский физик-теоретик.
Барберис, Николас (Nicholas C. Barberis, р. 1971) — профессор финансов в Йельской
школе менеджмента.
Бар-Ям, Янир (Yaneer Bar-Yam, р. 1959) — американский физик, специалист по сложным системам.
Баффетт, Уоррен (Warren Buffett; р. 1930) — американский инвестор; его состояние на
ноябрь 2021 оценивалось в 105,2 млрд долларов (десятый самый богатый человек в мире).
Башелье, Луи Жан-Батист Альфонс (Louis Jean-Baptiste Alphonse Bachelier, 1870–
1946) — французский математик.
Бейль, Пьер (Pierre Bayle, 1647–1706) — философ и богослов.
Белл, Роберт (Robert M. Bell) — американский физик, работает в AT&T Inc.
Бенарци, Шломо (Shlomo Benartzi, р. 1968) — израильский и американский поведенческий экономист.
Бернулли, Якоб (Jakob Bernoulli, 1655–1705) — швейцарский математик.
Бернштейн, Сергей Натанович (1880–1968) — советский математик. Предложил первую
аксиоматику в теории вероятностей; продолжил исследования петербургской школы Чебышёва — Маркова по предельным теоремам; разработал теорию слабозависимых случайных
величин; исследовал стохастические дифференциальные уравнения.
Биллингсли, Патрик (Patrick Paul Billingsley, 1925–2011) — американский математик
и актер.
Блазенко, Джордж (George W. Blazenko) — канадский статистик, работает в Университете Британской Колумбии.
Блэк, Фишер (Fischer Sheffey Black, 1938–1995) — американский экономист.
Бокль, Генри Томас (Henry Thomas Buckle, 1821–1862) — английский историк, автор
«Истории цивилизации в Англии».
Болкема, А. (A. Balkema) — нидерландский математик.
Больцман, Людвиг (Ludwig Eduard Boltzmann, 1844–1906) — австрийский физик.

460

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Большев, Логин Николаевич (1922–1978) — советский математик, работал в области
математической статистики и теории вероятностей.
Бонесс, Артур Джеймс (Arthur James Boness, 1900–1978) — американский экономист.
Борель, Эмиль (Émile Borel, 1871–1956) — французский математик.
Брайер, Гленн (Glenn Wilson Brier, 1913–1998) — американский метеоролог.
Брайтон, Генри (Henry Brighton) — сотрудник Института гуманитарных и цифровых
исследований при международном университе Тилбурга (Нидерланды).
Брейман, Лео (Leo Breiman, 1928–2005) — американский математик.
Бриго, Дамиано (Damiano Brigo, р. 1966) — итальянский и британский экономист. Работал в миланском Институте Св. Павла, теперь в Имперском колледже Лондона.
Бриден, Дуглас (Douglas T. Breeden) — американский финансовый математик, профессор Дюкского университета, штат Северная Каролина.
Бронзин, Винценс (Vinzenz Bronzin, 1872–1970) — итальянский математик.
Вапник, Владимир Наумович (р. 1936) — советский и американский математик.
Варадхан, Шриниваса (Sathamangalam Ranga Iyengar Srinivasa Varadhan, р. 1940) — американский математик индийского происхождения.
Вега, Йозеф (Хосе) де ла (Joseph De La Vega, 1650–1692) — амстердамский торговец
алмазами сефардского происхождения, известный как знаток финансов, моралист и поэт.
Вейбулл, Валодди (Waloddi Weibull, 1887–1979) — шведский инженер и математик.
Вейк, Й. Ван дер (J. van der Wijk) — нидерландский экономист, на его статью Inkomensen
Vermogensverdeling в журнале Publication of the Nederlandsch Economisch Instituut (том 26,
1939) принято ссылаться в статистике.
Винсор, Чарльз (Charles Paine Winsor, 1895–1951) — американский инженер и биостатистик.
Витгенштейн, Людвиг (Ludwig Josef Johann Wittgenstein, 1889–1951) — австрийскобританский философ. Ему принадлежит такое замечание: то, что выглядит как проверка
длины стола мерной планкой (Maßstab), иногда является проверкой мерной планки столом.
В наше время Линейкой Витгенштейна называют принцип: если в модели много неизвестных параметров, применение модели будет работать не на оценку моделируемого явления,
а на оценку модели.
Гаан, Лоренц де (Laurens de Haan, р. 1937) — нидерландский математик.
Габе, Ксавье (Xavier Gabaix, р. 1971) — французский и американский экономист. В 2003
в соавторстве опубликовал статью A Theory of Power-Law Distributions in Financial Market
Fluctuations.
Ганн, Уильям Делберт (William Delbert Gann, 1878–1955) — американский трейдер,
автор книг по биржевой торговле.
Гега, Доминик (Dominique Guéguan) — французский экономист.
Гезерал, Джим (Jim Gatheral) — американский ученый, специалист по финансовой математике.
Гелл-Манн, Мюррей (Murray Gell-Mann, 1929–2019) — американский физик-теоретик,
автор основополагающей работы по странности и очарованию элементарных частиц.
Гиббс, Джозайя (Josiah Willard Gibbs, 1839–1903) — американский физик.
Гигеренцер, Герд (Gerd Gigerenzer; р. 1947) — немецкий психолог, член Леопольдины.
Директор отдела «Адаптивное поведение и познание» и директор Хардинг-центра по оценке
рисков в Институте человеческого развития Общества Макса Планка в Берлине. Работает
над ограниченной рациональностью, эвристикой и эффективными деревьями принятия
решений.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

461

Гливенко, Валерий Иванович (1896–1940) — советский математик и логик.
Гнеденко, Борис Владимирович (1912–1995) — советский математик.
Голди, Чарльз (Charles M. Goldie, р. ~1940) — английский математик.
Голдстайн, Дэниэл (Daniel G. Goldstein, р. 1969) — американский ученый, специалист
в когнитивной психологии. Внес вклад в теорию и эксперименты эвристики распознания
и эвристики выбора оптимального варианта.
Грам, Йёрген Педерсен (Jørgen Pedersen Gram, 1850–1916) — датский математик.
Губерман, Гур (Gur Huberman) — американский исследователь в области финансовой
математики.
Гумбель, Эмиль Юлиус (Emil Julius Gumbel, 1891–1966) — немецкий и американский
математик и политический публицист.
Дагум, Камило (Camilo Dagum, 1925–2005) — аргентинский математик, специалист по
эконометрике.
Дебрё, Жерар (Gerard Debreu, 1921–2004) — американский экономист французского
происхождения. Лауреат Нобелевской премии по экономике 1983 года.
Дембо, Амир (Amir Dembo, р. 1958) — израильский и американский математик.
Дерман, Эммануэль (Emanuel Derman, р. 1945) — южноафриканский и американский
финансовый аналитик, бизнесмен и писатель.
Джейнс, Эдвин Томпсон (Edwin Thompson Jaynes, 1922–1998) — американский физик
и специалист по математической статистике.
Джорджеску-Реген, Николас (Николае) (Nicholas Georgescu-Roegen, Nicolae Georgescu,
1906–1994) — румынский и американский экономист, математик и статистик.
Диаконис, Перси Уоррен (Persi Warren Diaconis, р. 1945) — американский математик
и иллюзионист.
Донскер, Монро (Monroe David Donsker, 1924–1991) — американский математик.
Дуади, Рафаэль (Raphael Douady) — французский экономист.
Дюпир, Бруно (Bruno Dupire, р. 1958) — французский и американский финансовый
математик.
Жибра, Робер (Robert Gibrat, 1904–1980) — французский инженер, сформулировал Правило пропорционального роста фирмы: скорость роста фирмы пропорциональна текущему
размеру фирмы. В результате распределение фирм по размеру должно быть логнормальным.
Жиман, Дональд (Donald Jay Geman) — американский математик.
Жиман, Эльетт (Hélyette Geman) — французская исследовательница в области финансовой математики.
Звет, Виллем ван (Willem Rutger van Zwet, 1934–2020) — датский математик.
Зеитуни, Офер (Ofer Zeitouni, р. 1960) — израильский математик.
Земба, Уильям (William T. Ziemba) — канадский статистик, работает в Университете
Британской Колумбии.
Золотарёв, Владимир Михайлович (1931–2019) — советский и российский математик.
Йор, Марк (Marc Yor; р. 1949–2014) — французский математик.
Ито, Киёси (Kiyosi Itô, 1915–2008) — японский математик.
Каземи, Хоссейн (Hossein B. Kazemi) — американский исследователь в области финансовой математики.
Канеман, Даниел (Daniel Kahneman, р. 1934) — израильско-американский психолог,
один из основоположников поведенческой экономики.
Кантелли, Франческо Паоло (Francesco Paolo Cantelli, 1875–1966) — итальянский математик.

462

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Карамата, Йован (Јован Карамата, 1902–1967) — сербский математик.
Карацас, Иоан (Ioannis Karatzas, р. ~1954) — американский математик греческого происхождения.
Карр, Питер (Peter Carr, 1958–2022) — американский математик, один из авторов модели
цен деривативов CGMY и соответствующего распределения, «умеренно устойчивого».
Кассуф, Шин (Sheen T. Kassouf, 1928–2005) — американский экономист.
Кейнс, Джон Мейнард (John Maynard Keynes, 1883–1946) — английский экономист,
основатель кейнсианского направления в экономической науке.
Келли, Джон (John Larry Kelly Jr., 1923–1965) — американский инженер и математик,
автор финансовой стратегии ставок, известной как критерий Келли.
Кирнан, Бенедикт Ф. (Benedict F. Kiernan, р. 1953) — австралийский историк.
Козлов, Валерий Васильевич (р. 1950) — советский и российский математик и механик.
Колмогоров, Андрей Николаевич (1903–1987) — советский математик, один из основоположников современной теории вероятностей.
Коувер, Томас (Thomas M. Cover, 1938–2012) — американский физик, работал в Стэнфордском университете.
Крамер, Харальд (Harald Cramér, 1893–1985) — шведский математик и статистик.
Крейн, Гарри (Harry Crane) — американский матстатистик, сотрудник Ратгеровского
университета, Нью-Джерси.
Куммер, Эрнст (Ernst Eduard Kummer, 1810–1893) — немецкий математик.
Кэлли, Джон (John Larry Kelly Jr., 1923–1965) — американский физик, работал в Лабораториях Белла.
Лебег, Анри Леон (Henri Léon Lebesgue, 1875–1941) — французский математик. Интеграл Лебега обобщает традиционный интеграл, чтобы интегрировать быстро меняющиеся
функции; при этом, по Лебегу, разрешается мельче разбивать область там, где интегрируемая
функция изменяется быстрее.
Леви, Поль Пьер (Paul Pierre Lévy) — французский математик. В 1937 году в книге
Théorie de l’addition des variables aléatoires дал обобщенную версию ЦПТ.
Лежандр, Адриен Мари (Adrien-Marie Legendre, 1752–1833) — французский математик.
Лейбсон, Дэвид (David I. Laibson, р. 1966) — американский экономист, один из крупнейших специалистов в области нейроэкономики и поведенческой экономики.
Линник, Юрий Владимирович (1914–1972) — советский математик в области теории
вероятностей, математической статистики и теории чисел.
Лиценбергер, Роберт (Robert Litzenberger) — американский финансовый математик,
профессор Уортонской школы бизнеса при Пенсильванском университете.
Ломакс К. (K. S. Lomax) — британский и американский статистик. На его статью Business Failures: Another Example of the Analysis of Failure Data (1954) принято ссылаться среди
исследователей распределений Парето.
Лоу, Эндрю (Andrew Wen-Chuan Lo, р. 1960) — профессор финансов и экономики
в Школе менеджмента Слоуна при Массачусетском технологическом институте.
Лоэв, Мишель (Michel Loève, 1907–1979) — французский и американский математик.
Лулакис, Михалис (Michalis Loulakis) — греческий и американский математик.
Лунберг, Филип (Ernst Filip Oskar Lundberg, 1876–1965) — шведский математик и статистик.
Ляпунов, Александр Михайлович (1857–1918) — русский математик и механик, основоположник теории устойчивости равновесия и движения механических систем с конечным
числом параметров. Также работал в области дифференциальных уравнений, гидродинамики, теории вероятностей.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

463

Мадан, Дилип (Dilip Madan) — американский финансовый математик, профессор Мэрилендского университета в Колледж-Парке, один из основателей Bachelier Finance Society
и руководитель семинаров Quant.
Маддала, Гангадхаррао (Gangadharrao Soundalyarao Maddala, 1933–1999) — индийский
и американский экономист.
Маккин, Генри (Henry P. McKean, Jr., р. 1930) — американский математик.
Маклейн, Л. (L. C. Maclean) — канадский статистик, работает в Университете Далхаузи.
Мандельброт, Бенуа (Benoît B. Mandelbrot, 1924–2010) — французский и американский
математик, создатель фрактальной геометрии.
Манн, Читпьюнит (Chitpuneet Mann) — американский финансовый аналитик, сотрудник
Universa Investments.
Марков, Андрей Андреевич (1856–1922) — русский математик, внесший вклад в теорию
вероятностей, математический анализ и теорию чисел. Отец Андрея Андреевича Марковамладшего (1903–1979), основоположника советской школы конструктивной математики.
Марковиц, Гарри Макс (Harry Max Markowitz, р. 1927) — американский экономист,
предложивший в 1952 теорию, которая высоко оценивает эффективность инвестиционного
портфеля.
Марченко, Владимир Александрович (р. 1922) — советский и украинский математик.
Маскерони, Лоренцо (Lorenzo Mascheroni, 1750–1800) — итальянский математик.
Мейер, Корнелис (Cornelis Simon Meijer, 1904–1974) — голландский математик.
Меллин, Ялмар (Robert Hjalmar Mellin, 1854–1933) — финский математик.
Меркурио, Фабио (Fabio Mercurio, р. 1966) — итальянский и американский экономист.
Работал в миланском Институте Св. Павла, теперь в нью-йоркском Центре количественной
аналитики при корпорации Блумберга.
Мёрт, Анри Дойч де ла (Henri Deutsch de la Meurthe, 1846–1919) — французский бизнесмен («нефтяной король Европы») и заядлый сторонник ранней авиации.
Мертон, Роберт (Robert Carhart Merton, р. 1944) — американский экономист, лауреат
Нобелевской премии по экономике 1997 года.
Мехра, Раджниш (Rajnish Mehra, р. 1950) — индийский и американский специалист по
финансовой экономике.
Миланович, Бранко (Branko Milanović, р. 1953) — сербско-американский экономист.
Миллс, Фредерик (Frederick Cecil Mills, 1892–1964) — американский экономист и статистик.
Муавр, Абрахам де (Abraham de Moivre, 1667–1754) — английский математик французского происхождения, ученик Ньютона.
Нагаев, Сергей Викторович (р. 1932) — советский и российский математик, автор трудов в области цепей Маркова и больших уклонений.
Нидерхоффер, Виктор (Victor Niederhoffer, р. 1943) — американский экономист и менеджер.
Никодим, Отто Мартин (Otton Marcin Nikodym, 1887–1974) — польский математик.
О’Конелл, Мартин (Martin P. O’Connell) — автор книги The Business of Options: TimeTested Principles and Practice, Wiley, 2001.
Оксендал, Бернт (Bernt Karsten Øksendal, р. 1945) — норвежский математик.
Орнштейн (Орнстин), Леонард (Leonard Salomon Ornstein, 1880–1941) — нидерландский физик.
Пастур, Леонид Андреевич (р. 1937) — советский и украинский математик и физик.

464

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Петерс, Оле (Ole Peters) — специалист по неэргодическим стохастическим процессам,
сотрудник Лондонской математической лаборатории.
Петров, Валентин Владимирович (р. 1931) — советский и российский математик, специалист в области предельных теорем теории вероятностей и вероятностных неравенств.
Пикетти, Том (Thomas Piketty, р. 1971) — французский экономист.
Пикэндс, Джеймс (James Pickands III, ок. 1932–2022) — американский математик.
Питерс, Оле (Ole Peters) — современный англо-американский математик и физик, специалист в теории игр.
Питман, Эдвин (Edwin James George Pitman, 1897–1993) — австралийский математик.
Поппер, Карл (Karl Raimund Popper, 1902–1994) — австрийский и британский философ
и социолог.
Поттерс, Марк (Marc Potters) — физик и один из руководителей Capital fund Management.
Похгаммер, Лео Август (Leo August Pochhammer, 1841–1920) — немецкий математик.
Прескотт, Эдвард (Edward C. Prescott, р. 1940) — американский экономист, лауреат
Нобелевской премии 2004 года.
Радон, Иоганн (Johann Karl August Radon, 1887–1956) — австрийский математик.
Робертс, Расс (Russell David «Russ» Roberts, р. 1954) — сотрудник Гуверовского института при Стэнфордском университете и ведущий подкаста EconTalk.
Рейнах, Энтони (Anthony M. Reinach) — американский экономист.
Реньи, Альфред (Rényi Alfréd, 1921–1970) — венгерский математик.
Ричардсон, Мэтью (Matthew Richardson) — американский экономист, работал в Уортонской школе бизнеса при Пенсильванском университете, теперь в Стерновской школе бизнеса
при Нью-Йоркском университете.
Романовский, Всеволод Иванович (1879–1954) — русский и советский математик, основатель ташкентской математической школы, автор трудов по математической статистике.
Росс, Стивен Алан (Stephen Alan Ross, 1944–2017) — американский экономист.
Рубинштейн, Марк (Mark Edward Rubinstein, 1944–2019) — финансовый экономист
и финансовый инженер.
Руффино, Дориана (Doriana Ruffino) — американский экономист, занимающая высокие
посты в Федеральной резервной системе США.
Саймон, Герберт Александер (Herbert Alexander Simon, 1916–2001) — американский
ученый в области социальных, политических и экономических наук.
Салмон, Феликс (Felix Salmon, р. 1972) — американский финансовый журналист.
Самородницкий, Геннадий Пенхосович (р. ~1954) — советский и американский шахматист, математик и физик.
Самуэльсон, Пол (Paul Anthony Samuelson, 1915–2009) — американский экономист, лауреат Нобелевской премии по экономике 1970 года.
Санстейн, Касс (Cass Robert Sunstein, р. 1954) — американский ученый, специалист
в области права и поведенческой экономики.
Слуцкий, Евгений Евгеньевич (1880–1948) — российский и советский математик, статистик и экономист. Один из создателей современной теории случайных функций.
Смирнов, Николай Васильевич (1900–1966) — советский математик, один из создателей
непараметрических методов математической статистики и теории предельных распределений порядковых статистик.
Смит, Том (Thomas (Tom) Smith, р. 1958) — австралийский экономист.
Сон, Сюэфэн (Xuefeng Song, р. 1980) — китайский и финский специалист по математической статистике.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

465

Сорнетт, Дидье (Didier Sornette, р. 1957) — французский и швейцарский физик и экономист.
Спренкл, Кейс (Case Middleton Sprenkle, р. 1935) — американский экономист, автор первой модели ценообразования опционов.
Столл, Ганс (Hans Reiner Stoll, 1939–2020) — американский экономист германского происхождения.
Стэнли, Юджин (Harry Eugene Stanley, р. 1941) — американский физик, специалист по
статистике.
Су, Инйин (Yingying Xu) — китайский и американский специалист по эконометрике.
Такку, Мюрад (Murad Taqqu, р. ~1924) — американский математик иракского происхождения.
Талер, Ричард (Richard H. Thaler, р. 1945) — американский экономист. Лауреат премии
по экономике памяти Альфреда Нобеля 2017 года за вклад в область поведенческой экономики.
Тверски (Тверский), Амос (Amos Tversky, 1937–1996) — израильский психолог, пионер
когнитивной науки.
Типпетт, Леонард (Leonard Tippett, 1902–1985) — английский статистик.
Тобин, Джеймс (James Tobin; 1918–2002) — американский экономист, лауреат премии
по экономике памяти Альфреда Нобеля 1981 года.
Тойгелс, Йозеф (Jozef L. Teugels) — бельгийский математик.
Торп, Эдвард (Edward Oakley Thorp, р. 1932) — американский математик и экономист,
специалист в теории игр.
Трюссар, Джонатан (Jonathan Treussard) — американский экономист, занимающий высокие посты в финансовых корпорациях.
У, Чжуву (Zhuwu Wu) — китайский и американский специалист по математической статистике.
Уишхарт, Джон (John Wishart, 1898–1956) — шотландский математик и статистик.
Уленбек, Джордж (Георг) (George Eugene Uhlenbeck, 1900–1988) — нидерландский
и американский физик.
Учайкин, Владимир Васильевич (р. 1941) — советский и российский математик и физик.
Феллер, Уильям (William Feller, 1906–1970) — американский математик.
Феррейра, Ана (Ana Ferreira, р. ~1970) — португальский специалист по стохастическим
процессам.
Филиппатос, Джордж (George C. Philippatos, 1938–2016) — американский экономист,
работал в Уортонской школе бизнеса при Пенсильванском университете.
Финетти, Бруно де (Bruno de Finetti, 1906–1985) — итальянский математик, специалист
по теории вероятностей и математической статистике.
Фишер, Роналд Эйлмер (Sir Ronald Aylmer Fisher, 1890–1962) — английский статистик
и биолог.
Фишхофф, Барух (Baruch Fischhoff, р. 1946) — американский математик и психолог,
один из основоположников теории принятия решений и специалист в области управления
рисками.
Фонтанари, Андреа (Andrea Fontanari) — итальянский экономист.
Фрайд, Сидни (Sidney Fried) — автор биржевых учебников.
Фреше, Морис Рене (Maurice René Fréchet, 1878–1973) — французский математик.
Фрителли, Марко (Marco Frittelli) — современный итальянский экономист, сотрудник
Миланского университета.

466

Н АС С И М Н И К ОЛ АС ТА Л Е Б

Хайек, Фридрих Август фон (Friedrich August von Hayek, 1899–1992) — австро-британский экономист и политический философ. Представитель новой австрийской школы экономики. Обосновал преимущество свободных цен перед плановой экономикой.
Хёффдинг, Василий (Wassily Hoeffding, 1914–1991) — финский математик.
Хикс, Джон (Sir John Richard Hicks, 1904–1989) — британский экономист, лауреат премии по экономике памяти Альфреда Нобеля 1972 года.
Хинчин, Александр Яковлевич (1894–1959) — советский математик.
Хог, Эспен (Espen Gaarder Haug) — норвежский математик.
Хэй, Джон (John Haigh) — британский статистик, работает в Университете Сассекса.
Цаллис, Константино (Constantino Tsallis, р. 1943) — бразильский физик греческого происхождения.
Цварц, Берт (Bert Zwart) — сотрудник Центра математики и информатики, Амстердам.
Цвивович, Диего (Diego Zviovich) — американский прикладной математик, специалист
по риску.
Цзян, Лон (Long Jiang) — китайский специалист по математической статистике.
Ципф (Зиф), Джордж Кингсли (George Kingsley Zipf, 1902–1950) — американский лингвист и экономист.
Чебышёв, Пафнутий Львович (1821–1894) — основоположник петербургской математической школы.
Червоненкис, Алексей Яковлевич (1938–2014) — советский и российский ученый
в области информатики.
Чернов, Герман (Herman Chernoff, р. 1923) — американский математик.
Чжоу, Ронси (Rongxi Zhou) — китайский математик, работает в Пекинском научно-техническом университете.
Чирилло, Паскуале (Pasquale Cirillo) — итальянский экономист.
Чистяков, Владимир Павлович (р. 1934) — советский и российский математик.
Шарлье, Карл (Carl Charlier, 1862–1934) — шведский астроном.
Шеннон, Клод (Claude Elwood Shannon, 1916–2001) — американский инженер, криптоаналитик и математик.
Ширяев, Альберт Николаевич (р. 1934) — советский и российский математик, специалист в области стохастических процессов и финансовой математики.
Шишпортик, Реми (Rémy Chicheportiche) — французский эконофизик.
Шоулз, Майрон (Myron Samuel Scholes, р. 1941) — американский экономист канадского
происхождения, лауреат Нобелевской премии 1997 года.
Шрив, Стивен (Steven Eugene Shreve, р. ~1950) — американский германист и математик.
Эйлер, Леонард (Leonhard Euler, 1707–1783) — швейцарский, прусский и российский
математик и механик.
Элиазар, Иддо Исаак (Iddo Isaac Eliazar, р. ~1970) — израильский математик.
Эрмит, Шарль (Charles Hermite, 1822–1901) — французский математик.
Эрроу, Кеннет (Kenneth Joseph Arrow, 1921–2017) — американский экономист, лауреат
премии по экономике памяти Альфреда Нобеля 1972 года.
Юл, Джордж Удни (George Udny Yule, 1871–1951) — шотландский статистик.
Юм, Дэвид (David Hume, 1711–1776) — шотландский философ.
Яркин, Брэндон (Brandon Yarkin) — американский экономист и инвестор, главный оперативный директор Universa Investments, Майами.

БИБЛИОГРАФИЯ

[1] Inmaculada B Aban, Mark M Meerschaert, and Anna K Panorska. Parameter estimation for the
truncated pareto distribution. Journal of the American Statistical Association, 101(473):270–277, 2006.
[2] Thierry Ané and Hélyette Geman. Order flow, transaction clock, and normality of asset
returns. The Journal of Finance, 55(5):2259–2284, 2000.
[3] Kenneth J Arrow, Robert Forsythe, Michael Gorham, Robert Hahn, Robin Hanson, John
O Ledyard, Saul Levmore, Robert Litan, Paul Milgrom, Forrest D Nelson, et al. The promise of
prediction markets. Science, 320(5878):877, 2008.
[4] Marco Avellaneda, Craig Friedman, Richard Holmes, and Dominick Samperi. Calibrating
volatility surfaces via relative-entropy minimization. Applied Mathematical Finance, 4(1):37–64,
1997.
[5] L. Bachelier. Theory of speculation in: P. Cootner, ed., 1964, The random character of stock
market prices,. MIT Press, Cambridge, Mass, 1900.
[6] Louis Bachelier. Théorie de la spéculation. Gauthier-Villars, 1900.
[7] Kevin P Balanda and HL MacGillivray. Kurtosis: a critical review. The American
Statistician, 42(2):111–119, 1988.
[8] August A Balkema and Laurens De Haan. Residual life time at great age. The Annals of
probability, pages 792–804, 1974.
[9] August A Balkema and Laurens De Haan. Limit distributions for order statistics. i. Theory
of Probability & Its Applications, 23(1):77–92, 1978.
[10] August A Balkema and Laurens de Haan. Limit distributions for order statistics. ii. Theory
of Probability & Its Applications, 23(2):341–358, 1979.
[11] Shaul K Bar-Lev, Idit Lavi, and Benjamin Reiser. Bayesian inference for the power law
process. Annals of the Institute of Statistical Mathematics, 44(4):623–639, 1992.
[12] Nicholas Barberis. The psychology of tail events: Progress and challenges. American
Economic Review, 103(3):611–616, 2013.
[13] Jonathan Baron. Thinking and deciding, 4th Ed. Cambridge University Press, 2008.
[14] Norman C Beaulieu, Adnan A Abu-Dayya, and Peter J McLane. Estimating the distribution
of a sum of independent lognormal random variables. Communications, IEEE Transactions on,
43(12):2869, 1995.
[15] Robert M Bell and Thomas M Cover. Competitive optimality of logarithmic investment.
Mathematics of Operations Research, 5(2):161–166, 1980.
[16] Shlomo Benartzi and Richard Thaler. Heuristics and biases in retirement savings behavior.
Journal of Economic perspectives, 21(3):81–104, 2007.

468

Н АС С И М Н И К ОЛ АС ТА Л Е Б

[17] Shlomo Benartzi and Richard H Thaler. Myopic loss aversion and the equity premium
puzzle. The quarterly journal of Economics, 110(1):73–92, 1995.
[18] Shlomo Benartzi and Richard H Thaler. Naive diversification strategies in defined
contribution saving plans. American economic review, 91(1):79–98, 2001.
[19] Sergei Natanovich Bernshtein. Sur la loi des grands nombres. Communications de la
Société mathématique de Kharkow, 16(1):82–87, 1918.
[20] Patrick Billingsley. Probability and measure. John Wiley & Sons, 2008.
[21] Patrick Billingsley. Convergence of probability measures. John Wiley & Sons, 2013.
[22] Nicholas H Bingham, Charles M Goldie, and Jef L Teugels. Regular variation, volume 27.
Cambridge university press, 1989.
[23] Giulio Biroli, J-P Bouchaud, and Marc Potters. On the top eigenvalue of heavy-tailed
random matrices. EPL (Europhysics Letters), 78(1):10001, 2007.
[24] Fischer Black and Myron Scholes. The pricing of options and corporate liabilities.
81:637–654, May–June 1973.
[25] Fischer Black and Myron Scholes. The pricing of options and corporate liabilities. The
journal of political economy, pages 637–654, 1973.
[26] A. J. Boness. Elements of a theory of stock-option value. 72:163–175, 1964.
[27] Jean-Philippe Bouchaud, Marc Mézard, Marc Potters, et al. Statistical properties of stock
order books: empirical results and models. Quantitative Finance, 2(4):251–256, 2002.
[28] Jean-Philippe Bouchaud and Marc Potters. Theory of financial risk and derivative pricing:
from statistical physics to risk management. Cambridge University Press, 2003.
[29] Olivier Bousquet, Stéphane Boucheron, and Gábor Lugosi. Introduction to statistical
learning theory. In Advanced lectures on machine learning, pages 169–207. Springer, 2004.
[30] George Bragues. Prediction markets: The practical and normative possibilities for the
social production of knowledge. Episteme, 6(1):91–106, 2009.
[31] D. T. Breeden and R. H. Litzenberger. Price of state-contigent claimes implicit in option
prices. 51:621–651, 1978.
[32] Douglas T Breeden and Robert H Litzenberger. Prices of state-contingent claims implicit
in option prices. Journal of business, pages 621–651, 1978.
[33] Henry Brighton and Gerd Gigerenzer. Homo heuristicus and the bias– variance dilemma.
In Action, Perception and the Brain, pages 68–91. Springer, 2012.
[34] Damiano Brigo and Fabio Mercurio. Lognormal-mixture dynamics and calibration to market
volatility smiles. International Journal of Theoretical and Applied Finance, 5(04):427–446, 2002.
[35] Peter Carr. Bounded brownian motion. NYU Tandon School of Engineering, 2017.
[36] Peter Carr, Hélyette Geman, Dilip B Madan, and Marc Yor. Stochastic volatility for lévy
processes. Mathematical finance, 13(3):345–382, 2003.
[37] Peter Carr and Dilip Madan. Optimal positioning in derivative securities. 2001.
[38] Lars-Erik Cederman. Modeling the size of wars: from billiard balls to sandpiles. American
Political Science Review, 97(01):135–150, 2003.
[39] Bikas K Chakrabarti, Anirban Chakraborti, Satya R Chakravarty, and Arnab Chatterjee.
Econophysics of income and wealth distributions. Cambridge University Press, 2013.
[40] David G Champernowne. A model of income distribution. The Economic Journal,
63(250):318–351, 1953.
[41] Shaohua Chen, Hong Nie, and Benjamin Ayers-Glassey. Lognormal sum approximation
with a variant of type iv pearson distribution. IEEE Communications Letters, 12(9), 2008.
[42] Rémy Chicheportiche and Jean-Philippe Bouchaud. The joint distribution of stock returns
is not elliptical. International Journal of Theoretical and Applied Finance, 15(03), 2012.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

469

[43] VP Chistyakov. A theorem on sums of independent positive random variables and its
applications to branching random processes. Theory of Probability & Its Applications, 9(4):640–
648, 1964.
[44] Pasquale Cirillo. Are your data really pareto distributed? Physica A: Statistical Mechanics
and its Applications, 392(23):5947–5962, 2013.
[45] Pasquale Cirillo and Nassim Nicholas Taleb. Expected shortfall estimation for apparently
infinite-mean models of operational risk. Quantitative Finance, pages 1–10, 2016.
[46] Pasquale Cirillo and Nassim Nicholas Taleb. On the statistical properties and tail risk of
violent conflicts. Physica A: Statistical Mechanics and its Applications, 452:29–45, 2016.
[47] Pasquale Cirillo and Nassim Nicholas Taleb. What are the chances of war? Significance,
13(2):44–45, 2016.
[48] Pasquale Cirillo and Nassim Nicholas Taleb. Tail risk of contagious diseases. Nature
Physics, 2020.
[49] Open Science Collaboration et al. Estimating the reproducibility of psychological science.
Science, 349(6251): aac4716, 2015.
[50] Rama Cont and Peter Tankov. Financial modelling with jump processes, volume 2. CRC
press, 2003.
[51] Harald Cramér. On the mathematical theory of risk. Centraltryckeriet, 1930.
[52] George Cybenko. Approximation by superpositions of a sigmoidal function. Mathematics
of control, signals and systems, 2(4):303–314, 1989.
[53] Camilo Dagum. Inequality measures between income distributions with applications.
Econometrica, 48(7):1791–1803, 1980.
[54] Camilo Dagum. Income distribution models. Wiley Online Library, 1983.
[55] Anirban DasGupta. Probability for statistics and machine learning: fundamentals and
advanced topics. Springer Science & Business Media, 2011.
[56] Herbert A David and Haikady N Nagaraja. Order statistics, 2003.
[57] Bruno De Finetti. Probability, induction, and statistics, 1972.
[58] Bruno De Finetti. Philosophical Lectures on Probability: collected, edited, and annotated
by Alberto Mura, volume 340. Springer Science & Business Media, 2008.
[59] Amir Dembo and Ofer Zeitouni. Large deviations techniques and applications, volume 38.
Springer Science & Business Media, 2009.
[60] Kresimir Demeterfi, Emanuel Derman, Michael Kamal, and Joseph Zou. A guide to
volatility and variance swaps. The Journal of Derivatives, 6(4):9–32, 1999.
[61] Kresimir Demeterifi, Emanuel Derman, Michael Kamal, and Joseph Zou. More than you
ever wanted to know about volatility swaps. Working paper, Goldman Sachs, 1999.
[62] Victor DeMiguel, Lorenzo Garlappi, and Raman Uppal. Optimal versus naive
diversification: How inefficient is the 1/n portfolio strategy? The review of Financial studies,
22(5):1915–1953, 2007.
[63] E. Derman and N. Taleb. The illusion of dynamic delta replication. Quantitative Finance,
5(4):323–326, 2005.
[64] Emanuel Derman. The perception of time, risk and return during periods of speculation.
Working paper, Goldman Sachs, 2002.
[65] Marco Di Renzo, Fabio Graziosi, and Fortunato Santucci. Further results on the
approximation of log-normal power sum via pearson type iv distribution: a general formula for logmoments computation. IEEE Transactions on Communications, 57(4), 2009.
[66] Persi Diaconis and David Freedman. On the consistency of bayes estimates. The Annals
of Statistics, pages 1–26, 1986.

470

Н АС С И М Н И К ОЛ АС ТА Л Е Б

[67] Persi Diaconis and Sandy Zabell. Closed form summation for classical distributions:
variations on a theme of de moivre. Statistical Science, pages 284–302, 1991.
[68] Cornelius Frank Dietrich. Uncertainty, calibration and probability: the statistics of
scientific and industrial measurement. Routledge, 2017.
[69] NIST Digital Library of Mathematical Functions. http://dlmf.nist.gov/, Release 1.0.19 of
2018–06–22. F. W. J. Olver, A. B. Olde Daalhuis, D. W. Lozier, B. I. Schneider, R. F. Boisvert,
C. W. Clark, B. R. Miller and B. V. Saunders, eds.
[70] Daniel Dufresne. Sums of lognormals. In Proceedings of the 43rd actuarial research
conference. University of Regina, 2008.
[71] Daniel Dufresne et al. The log-normal approximation in financial and other computations.
Advances in Applied Probability, 36(3):747–773, 2004.
[72] Bruno Dupire. Pricing with a smile. 7(1), 1994.
[73] Bruno Dupire. Exotic option pricing by calibration on volatility smiles. In Advanced
Mathematics for Derivatives: Risk Magazine Conference, 1995.
[74] Bruno Dupire et al. Pricing with a smile. Risk, 7(1):18–20, 1994.
[75] Danny Dyer. Structural probability bounds for the strong pareto law. Canadian Journal of
Statistics, 9(1):71–77, 1981.
[76] Iddo Eliazar. Inequality spectra. Physica A: Statistical Mechanics and its Applications,
469:824–847, 2017.
[77] Iddo Eliazar. Lindy’s law. Physica A: Statistical Mechanics and its Applications, 486:797–
805, 2017.
[78] Iddo Eliazar and Morrel H Cohen. On social inequality: Analyzing the rich– poor disparity.
Physica A: Statistical Mechanics and its Applications, 401:148–158, 2014.
[79] Iddo Eliazar and Igor M Sokolov. Maximization of statistical heterogeneity: From
shannon’s entropy to gini’s index. Physica A: Statistical Mechanics and its Applications,
389(16):3023–3038, 2010.
[80] Iddo I Eliazar and Igor M Sokolov. Gini characterization of extreme-value statistics.
Physica A: Statistical Mechanics and its Applications, 389(21):4462–4472, 2010.
[81] Iddo I Eliazar and Igor M Sokolov. Measuring statistical evenness: A panoramic overview.
Physica A: Statistical Mechanics and its Applications, 391(4):1323–1353, 2012.
[82] Paul Embrechts. Modelling extremal events: for insurance and finance, volume 33.
Springer, 1997.
[83] Paul Embrechts and Charles M Goldie. On convolution tails. Stochastic Processes and
their Applications, 13(3):263–278, 1982.
[84] Paul Embrechts, CharlesMGoldie, and Noël Veraverbeke. Subexponentiality and infinite
divisibility. Probability Theory and Related Fields, 49(3):335–347, 1979.
[85] M Émile Borel. Les probabilités dénombrables et leurs applications arithmétiques.
Rendiconti del Circolo Matematico di Palermo (1884–1940), 27(1):247–271, 1909.
[86] Michael Falk et al. On testing the extreme value index via the pot-method. The Annals of
Statistics, 23(6):2013–2035, 1995.
[87] Michael Falk, Jürg Hüsler, and Rolf-Dieter Reiss. Laws of small numbers: extremes and
rare events. Springer Science & Business Media, 2010.
[88] Kai-Tai Fang. Elliptically contoured distributions. Encyclopedia of Statistical Sciences, 2006.
[89] Doyne James Farmer and John Geanakoplos. Hyperbolic discounting is rational: Valuing
the far future with uncertain discount rates, 2009.
[90] J Doyne Farmer and John Geanakoplos.Power laws in economics and elsewhere. In Santa
Fe Institute, 2008.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

471

[91] William Feller. 1971an introduction to probability theory and its applications, vol. 2.
[92] William Feller. An introduction to probability theory, 1968.
[93] Baruch Fischhoff, John Kadvany, and John David Kadvany. Risk: A very short introduction.
Oxford University Press, 2011.
[94] Ronald Aylmer Fisher and Leonard Henry Caleb Tippett. Limiting forms of the frequency
distribution of the largest or smallest member of a sample. In Mathematical Proceedings of the
Cambridge Philosophical Society, volume 24, pages 180–190. Cambridge University Press, 1928.
[95] Andrea Fontanari, Pasquale Cirillo, and Cornelis W Oosterlee. From concentration profiles
to concentration maps. new tools for the study of loss distributions. Insurance: Mathematics and
Economics, 78:13–29, 2018.
[96] Shane Frederick, George Loewenstein, and Ted O’donoghue. Time discounting and time
preference: A critical review. Journal of economic literature, 40(2):351–401, 2002.
[97] David A Freedman. Notes on the dutch book argument “. Lecture Notes, Department of
Statistics, University of Berkley at Berkley, http://www. stat. berkeley. edu/˜ census/dutchdef. pdf, 2003.
[98] Marco Frittelli. The minimal entropy martingale measure and the valuation problem in
incomplete markets. Mathematical finance, 10(1):39–52, 2000.
[99] Xavier Gabaix. Power laws in economics and finance. Technical report, National Bureau
of Economic Research, 2008.
[100] Xavier Gabaix. Power laws in economics: An introduction. Journal of Economic
Perspectives, 30(1):185–206, 2016.
[101] Armengol Gasull, Maria Jolis, and Frederic Utzet. On the norming constants for normal
maxima. Journal of Mathematical Analysis and Applications, 422(1):376–396, 2015.
[102] Jim Gatheral. The Volatility Surface: a Practitioner’s Guide. John Wiley & Sons, 2006.
[103] Jim Gatheral. The Volatility Surface: A Practitioner’s Guide. New York: John Wiley &
Sons, 2006.
[104] Oscar Gelderblom and Joost Jonker. Amsterdam as the cradle of modern futures and
options trading, 1550–1650. William Goetzmann and K. Geert Rouwenhorst, 2005.
[105] Andrew Gelman and Hal Stern. The difference between “significant” and “not significant”
is not itself statistically significant. The American Statistician, 60(4):328–331, 2006.
[106] Donald Geman, Hélyette Geman, and Nassim Nicholas Taleb. Tail risk constraints and
maximum entropy. Entropy, 17(6):3724, 2015.
[107] Nicholas Georgescu-Roegen. The entropy law and the economic process, 1971.
Cambridge, Mass, 1971.
[108] Gerd Gigerenzer and Daniel G Goldstein. Reasoning the fast and frugal way: models of
bounded rationality. Psychological review, 103(4):650, 1996.
[109] Gerd Gigerenzer and Peter M Todd. Simple heuristics that make us smart. Oxford
University Press, New York, 1999.
[110] Corrado Gini. Variabilità e mutabilità. Reprinted in Memorie di metodologica statistica
(Ed. Pizetti E, Salvemini, T). Rome: Libreria Eredi Virgilio Veschi, 1912.
[111] BV Gnedenko and AN Kolmogorov. Limit Distributions for Sums of Independent
Random Variables (1954).
[112] Charles M Goldie. Subexponential distributions and dominated-variation tails. Journal
of Applied Probability, pages 440–442, 1978.
[113] Daniel Goldstein and Nassim Taleb. We don’t quite know what we are talking about
when we talk about volatility. Journal of Portfolio Management, 33(4), 2007.
[114] Richard C Green, Robert A Jarrow, et al. Spanning and completeness in markets with
contingent claims. Journal of Economic Theory, 41(1):202–210, 1987.

472

Н АС С И М Н И К ОЛ АС ТА Л Е Б

[115] Emil Julius Gümbel. Statistics of extremes, 1958.
[116] Laurens Haan and Ana Ferreira. Extreme value theory: An introduction. Springer Series
in Operations Research and Financial Engineering, 2006.
[117] Wolfgang Hafner and Heinz Zimmermann. Amazing discovery: Vincenz bronzin’s
option pricing models. 31:531–546, 2007.
[118] Torben Hagerup and Christine Rüb. A guided tour of chernoff bounds. Information
processing letters, 33(6):305–308, 1990.
[119] John Haigh. The kelly criterion and bet comparisons in spread betting. Journal of the
Royal Statistical Society: Series D (The Statistician), 49(4):531–539, 2000.
[120] Peter Hall. On the rate of convergence of normal extremes. Journal of Applied Probability,
16(2):433–439, 1979.
[121] Mahmoud Hamada and Emiliano A Valdez. Capm and option pricing with elliptically
contoured distributions. Journal of Risk and Insurance, 75(2):387–409, 2008.
[122] Godfrey Harold Hardy, John Edensor Littlewood, and George Pólya. Inequalities.
Cambridge university press, 1952.
[123] J Michael Harrison and David M Kreps. Martingales and arbitrage in multiperiod
securities markets. Journal of Economic theory, 20(3):381–408, 1979.
[124] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The elements of statistical
learning: data mining, inference, and prediction, springer series in statistics, 2009.
[125] Espen G. Haug. Derivatives: Models on Models. New York: John Wiley & Sons,
2007.
[126] Espen Gaarder Haug and Nassim Nicholas Taleb. Option traders use (very) sophisticated
heuristics, never the black–scholes–merton formula. Journal of Economic Behavior & Organization,
77(2):97–106, 2011.
[127] Friedrich August Hayek. The use of knowledge in society. The American economic
review, 35(4):519–530, 1945.
[128] John R Hicks. Value and capital, volume 2. Clarendon press Oxford, 1939.
[129] Leonard R. Higgins. The Put-and-Call. London: E. Wilson, 1902.
[130] Wassily Hoeffding. Probability inequalities for sums of bounded random variables.
Journal of the American statistical association, 58(301):13–30, 1963.
[131] P. J. Huber. Robust Statistics. Wiley, New York, 1981.
[132] HM James Hung, Robert T O’Neill, Peter Bauer, and Karl Kohne. The behavior of the
p-value when the alternative hypothesis is true. Biometrics, pages 11–22, 1997.
[133] Rob J Hyndman and Anne B Koehler. Another look at measures of forecast accuracy.
International journal of forecasting, 22(4):679–688, 2006.
[134] E. T. Jaynes. How should we use entropy in economics? 1991.
[135] Johan Ludwig William Valdemar Jensen. Sur les fonctions convexes et les inégalités
entre les valeurs moyennes. Acta Mathematica, 30(1):175–193, 1906.
[136] Hedegaard Anders Jessen and Thomas Mikosch. Regularly varying functions.
Publications de l’Institut Mathematique, 80(94):171–192, 2006.
[137] Petr Jizba, Hagen Kleinert, and Mohammad Shefaat. Rényi’s information transfer
between financial time series. Physica A: Statistical Mechanics and its Applications, 391(10):2971–
2989, 2012.
[138] Valen E Johnson. Revised standards for statistical evidence. Proceedings of the National
Academy of Sciences, 110(48):19313–19317, 2013.
[139] Daniel Kahneman and Amos Tversky. Prospect theory: An analysis of decision under
risk. Econometrica, 47(2):263–291, 1979.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

473

[140] Joseph P Kairys Jr and NICHOLAS VALERIO III. The market for equity options in the
1870s. The Journal of Finance, 52(4):1707–1723, 1997.
[141] Ioannis Karatzas and Steven E Shreve. Brownian motion and stochastic calculus
springer-verlag. New York, 1991.
[142] John L Kelly. A new interpretation of information rate. Information Theory, IRE
Transactions on, 2(3):185–189, 1956.
[143] Gideon Keren. Calibration and probability judgements: Conceptual and methodological
issues. Acta Psychologica, 77(3):217–273, 1991.
[144] Christian Kleiber and Samuel Kotz. Statistical size distributions in economics and
actuarial sciences, volume 470. John Wiley & Sons, 2003.
[145] Andrei Nikolaevich Kolmogorov. On logical foundations of probability theory. In Probability theory and mathematical statistics, pages 1–5. Springer, 1983.
[146] Andrey Kolmogorov. Sulla determinazione empirica di una lgge di distribuzione. Inst.
Ital. Attuari, Giorn., 4:83–91, 1933.
[147] Samuel Kotz and Norman Johnson. Encyclopedia of Statistical Sciences. Wiley, 2004.
[148] VV Kozlov, T Madsen, and AA Sorokin. Weighted means of weakly dependent
random variables. MOSCOW UNIVERSITY MATHEMATICS BULLETIN C/C OF VESTNIKMOSKOVSKII UNIVERSITET MATHEMATIKA, 59(5):36, 2004.
[149] Jean Laherrere and Didier Sornette. Stretched exponential distributions in nature and
economy:“fat tails” with characteristic scales. The European Physical Journal B-Condensed Matter
and Complex Systems, 2(4):525–539, 1998.
[150] David Laibson. Golden eggs and hyperbolic discounting. The Quarterly Journal of
Economics, 112(2):443–478, 1997.
[151] Deli Li, M Bhaskara Rao, and RJ Tomkins. The law of the iterated logarithm and central
limit theorem for l-statistics. Technical report, PENNSYLVANIA STATE UNIV UNIVERSITY
PARK CENTER FOR MULTIVARIATE ANALYSIS, 1997.
[152] Sarah Lichtenstein, Baruch Fischhoff, and Lawrence D Phillips. Calibration of probabilities:
The state of the art. In Decision making and change in human affairs, pages 275–324. Springer, 1977.
[153] Sarah Lichtenstein, Paul Slovic, Baruch Fischhoff, Mark Layman, and Barbara Combs.
Judged frequency of lethal events. Journal of experimental psychology: Human learning and
memory, 4(6):551, 1978.
[154] Michel Loève. Probability Theory. Foundations. Random Sequences. New York: D. Van
Nostrand Company, 1955.
[155] Filip Lundberg. I. Approximerad framställning af sannolikhetsfunktionen. II. Återförsäkring af kollektivrisker. Akademisk afhandling… af Filip Lundberg,… Almqvist och Wiksells
boktryckeri, 1903.
[156] HL MacGillivray and Kevin P Balanda. Mixtures, myths and kurtosis. Communications
in Statistics-Simulation and Computation, 17(3):789–802, 1988.
[157] LC MacLean, William T Ziemba, and George Blazenko. Growth versus security in
dynamic investment analysis. Management Science, 38(11):1562–1585, 1992.
[158] Dhruv Madeka. Accurate prediction of electoral outcomes. arXiv preprint
arXiv:1704.02664, 2017.
[159] Spyros Makridakis, Evangelos Spiliotis, and Vassilios Assimakopoulos. The m4
competition: Results, findings, conclusion and way forward. International Journal of Forecasting,
34(4):802–808, 2018.
[160] Spyros Makridakis and Nassim Taleb. Decision making and planning under low levels
of predictability, 2009.

474

Н АС С И М Н И К ОЛ АС ТА Л Е Б

[161] Benoit Mandelbrot. A note on a class of skew distribution functions: Analysis and
critique of a paper by ha simon. Information and Control, 2(1):90–99, 1959.
[162] Benoit Mandelbrot. The pareto-levy law and the distribution of income. International
Economic Review, 1(2):79–106, 1960.
[163] Benoit Mandelbrot. The stable paretian income distribution when the apparent exponent
is near two. International Economic Review, 4(1):111–115, 1963.
[164] Benoit B Mandelbrot. New methods in statistical economics. In Fractals and Scaling in
Finance, pages 79–104. Springer, 1997.
[165] Benoît B Mandelbrot and Nassim Nicholas Taleb. Random jump, not random walk,
2010.
[166] Harry Markowitz. Portfolio selection*. The journal of finance, 7(1):77–91, 1952.
[167] Harry M Markowitz. Portfolio selection: efficient diversification of investments, volume
16. Wiley, 1959.
[168] RARD Maronna, Douglas Martin, and Victor Yohai. Robust statistics. John Wiley &
Sons, Chichester. ISBN, 2006.
[169] R. Mehera and E. C. Prescott. The equity premium: a puzzle. Journal of Monetary
Economics, 15:145–161, 1985.
[170] Robert C Merton. An analytic derivation of the efficient portfolio frontier. Journal of
financial and quantitative analysis, 7(4):1851–1872, 1972.
[171] Robert C. Merton. The relationship between put and call prices: Comment. 28(1):183–
184, 1973.
[172] Robert C. Merton. Theory of rational option pricing, 4:141–183, Spring 1973.
[173] Robert C. Merton. Option pricing when underlying stock returns are discontinuous.
3:125–144, 1976.
[174] Robert C Merton and Paul Anthony Samuelson. Continuous-time finance, 1992.
[175] David C Nachman. Spanning and completeness with options. The review of financial
studies, 1(3):311–328, 1988.
[176] S. A. Nelson. The A B C of Options and Arbitrage. The Wall Street Library, New York,
1904.
[177] S. A. Nelson. The A B C of Options and Arbitrage. New York: The Wall Street Library,
1904.
[178] Hansjörg Neth and Gerd Gigerenzer. Heuristics: Tools for an uncertain world. Emerging
trends in the social and behavioral sciences: An Interdisciplinary, Searchable, and Linkable
Resource, 2015.
[179] Donald J Newman. A problem seminar. Springer Science & Business Media, 2012.
[180] Hong Nie and Shaohua Chen. Lognormal sum approximation with type iv pearson
distribution. IEEE Communications Letters, 11(10), 2007.
[181] John P Nolan. Parameterizations and modes of stable distributions. Statistics &
probability letters, 38(2):187–195, 1998.
[182] Bernt Oksendal. Stochastic differential equations: an introduction with applications.
Springer Science & Business Media, 2013.
[183] Joel Owen and Ramon Rabinovitch. On the class of elliptical distributions and their
applications to the theory of portfolio choice. The Journal of Finance, 38(3):745–752, 1983.
[184] T. Mikosch P. Embrechts, C. Kluppelberg. Modelling Extremal Events. Springer, 2003.
[185] Vilfredo Pareto. La courbe des revenus. Travaux de Sciences Sociales, pages 299–345,
1896 (1964).
[186] O. Peters and M. Gell-Mann. Evaluating gambles using dynamics. Chaos, 26(2), 2016.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

475

[187] T Pham-Gia and TL Hung. The mean and median absolute deviations. Mathematical and
Computer Modelling, 34(7–8):921–936, 2001.
[188] George C Philippatos and Charles J Wilson. Entropy, market risk, and the selection of
efficient portfolios. Applied Economics, 4(3):209–220, 1972.
[189] Charles Phillips and Alan Axelrod. Encyclopedia of Wars:(3-Volume Set). Infobase Pub.,
2004.
[190] James Pickands III. Statistical inference using extreme order statistics. the Annals of
Statistics, pages 119–131, 1975.
[191] Thomas Piketty. Capital in the 21st century, 2014.
[192] Thomas Piketty and Emmanuel Saez. The evolution of top incomes: a historical and
international perspective. Technical report, National Bureau of Economic Research, 2006.
[193] Iosif Pinelis. Characteristic function of the positive part of a random variable and related
results, with applications. Statistics & Probability Letters, 106:281–286, 2015.
[194] Steven Pinker. The better angels of our nature: Why violence has declined. Penguin, 2011.
[195] Dan Pirjol. The logistic-normal integral and its generalizations. Journal of Computational
and Applied Mathematics, 237(1):460–469, 2013.
[196] EJG Pitman. Subexponential distribution functions. J. Austral. Math. Soc. Ser. A,
29(3):337–347, 1980.
[197] Svetlozar T Rachev, Young Shin Kim, Michele L Bianchi, and Frank J Fabozzi. Financial
models with Lévy processes and volatility clustering, volume 187. John Wiley & Sons, 2011.
[198] Anthony M. Reinach. The Nature of Puts & Calls. New York: The Bookmailer, 1961.
[199] Lewis F Richardson. Frequency of occurrence of wars and other fatal quarrels. Nature,
148(3759):598, 1941.
[200] Matthew Richardson and Tom Smith. A direct test of the mixture of distributions
hypothesis: Measuring the daily flow of information. Journal of Financial and Quantitative
Analysis, 29(01):101–116, 1994.
[201] Christian Robert and George Casella. Monte Carlo statistical methods. Springer Science
& Business Media, 2013.
[202] Stephen A Ross. Mutual fund separation in financial theory — the separating distributions.
Journal of Economic Theory, 17(2):254–286, 1978.
[203] Stephen A Ross. Neoclassical finance. Princeton University Press, 2009.
[204] Francesco Rubino, Antonello Forgione, David E Cummings, Michel Vix, Donatella
Gnuli, Geltrude Mingrone, Marco Castagneto, and Jacques Marescaux. The mechanism of diabetes
control after gastrointestinal bypass surgery reveals a role of the proximal small intestine in the
pathophysiology of type 2 diabetes. Annals of surgery, 244(5):741–749, 2006.
[205] Mark Rubinstein. Rubinstein on derivatives. Risk Books, 1999.
[206] Mark Rubinstein. A History of The Theory of Investments. New York: John Wiley &
Sons, 2006.
[207] Doriana Ruffino and Jonathan Treussard. Derman and taleb’s ‘the illusions of dynamic
replication’: a comment. Quantitative Finance, 6(5):365–367, 2006.
[208] Harold Sackrowitz and Ester Samuel-Cahn. P values as random variables— expected
p values. The American Statistician, 53(4):326–331, 1999.
[209] Gennady Samorodnitsky and Murad S Taqqu. Stable non-Gaussian random processes:
stochastic models with infinite variance, volume 1. CRC Press, 1994.
[210] D Schleher. Generalized gram-charlier series with application to the sum of log-normal
variates (corresp.). IEEE Transactions on Information Theory, 23(2):275–280, 1977.
[211] Jun Shao. Mathematical Statistics. Springer, 2003.

476

Н АС С И М Н И К ОЛ АС ТА Л Е Б

[212] Herbert A Simon. On a class of skew distribution functions. Biometrika, 42(3/4):425–
440, 1955.
[213] SK Singh and GS Maddala. A function for size distribution of incomes: reply.
Econometrica, 46(2), 1978.
[214] Didier Sornette. Critical phenomena in natural sciences: chaos, fractals, selforganization,
and disorder: concepts and tools. Springer, 2004.
[215] C. M. Sprenkle. Warrant prices as indicators of expectations and preferences. Yale
Economics Essays, 1(2):178–231, 1961.
[216] C. M. Sprenkle. Warrant Prices as Indicators of Expectations and Preferences: in
P. Cootner, ed., 1964, The Random Character of Stock Market Prices,. MIT Press, Cambridge,
Mass, 1964.
[217] AJ Stam. Regular variation of the tail of a subordinated probability distribution. Advances
in Applied Probability, pages 308–327, 1973.
[218] Stephen M Stigler. Stigler’s law of eponymy. Transactions of the New York academy of
sciences, 39(1 Series II):147–157, 1980.
[219] Hans R Stoll. The relationship between put and call option prices. The Journal of Finance,
24(5):801–824, 1969.
[220] Cass R Sunstein. Deliberating groups versus prediction markets (or hayek’s challenge to
habermas). Episteme, 3(3):192–213, 2006.
[221] Giitiro Suzuki. A consistent estimator for the mean deviation of the pearson type
distribution. Annals of the Institute of Statistical Mathematics, 17(1):271–285, 1965.
[222] E. Schechtman S. Yitzhaki. The Gini Methodology: A primer on a statistical methodology.
Springer, 2012.
[223] N N Taleb and R Douady. Mathematical definition, mapping, and detection of (anti)
fragility. Quantitative Finance, 2013.
[224] Nassim N Taleb and G Martin. The illusion of thin tails under aggregation (a reply to jack
treynor). Journal of Investment Management, 2012.
[225] Nassim Nicholas Taleb. Dynamic Hedging: Managing Vanilla and Exotic Options. John
Wiley & Sons (Wiley Series in Financial Engineering), 1997.
[226] Nassim Nicholas Taleb. Incerto: Antifragile, The Black Swan, Fooled by Randomness,
the Bed of Procrustes, Skin in the Game. Random House and Penguin, 2001–2018.
[227] Nassim Nicholas Taleb. Black swans and the domains of statistics. The American
Statistician, 61(3):198–200, 2007.
[228] Nassim Nicholas Taleb. Errors, robustness, and the fourth quadrant. International Journal
of Forecasting, 25(4):744–759, 2009.
[229] Nassim Nicholas Taleb. Finiteness of variance is irrelevant in the practice of quantitative
finance. Complexity, 14(3):66–76, 2009.
[230] Nassim Nicholas Taleb. Antifragile: things that gain from disorder. Random House and
Penguin, 2012.
[231] Nassim Nicholas Taleb. Four points beginner risk managers should learn from jeff
holman’s mistakes in the discussion of antifragile. arXiv preprint arXiv:1401.2524, 2014.
[232] Nassim Nicholas Taleb. The meta-distribution of standard p-values. arXiv preprint
arXiv:1603.07532, 2016.
[233] Nassim Nicholas Taleb. Stochastic tail exponent for asymmetric power laws. arXiv
preprint arXiv:1609.02369, 2016.
[234] Nassim Nicholas Taleb. Election predictions as martingales: an arbitrage approach.
Quantitative Finance, 18(1):1–5, 2018.

С ТАТ И С Т И Ч Е С К И Е П О С Л Е Д С Т В И Я Ж И Р Н Ы Х Х В О С Т О В

477

[235] Nassim Nicholas Taleb. How much data do you need? an operational, preasymptotic
metric for fat-tailedness. International Journal of Forecasting, 2018.
[236] Nassim Nicholas Taleb. Skin in the Game: Hidden Asymmetries in Daily Life. Penguin
(London) and Random House (N.Y.), 2018.
[237] Nassim Nicholas Taleb. Technical Incerto, Vol 1: The Statistical Consequences of Fat
Tails, Papers and Commentaries. Monograph, 2019.
[238] Nassim Nicholas Taleb. Common misapplications and misinterpretations of correlation
in social» science. Preprint, Tandon School of Engineering, New York University, 2020.
[239] Nassim Nicholas Taleb. The Statistical Consequences of Fat Tails. STEM Academic
Press, 2020.
[240] Nassim Nicholas Taleb, Elie Canetti, Tidiane Kinda, Elena Loukoianova, and Christian
Schmieder. A new heuristic measure of fragility and tail risks: application to stress testing.
International Monetary Fund, 2018.
[241] Nassim Nicholas Taleb and Pasquale Cirillo. Branching epistemic uncertainty and
thickness of tails. arXiv preprint arXiv:1912.00277, 2019.
[242] Nassim Nicholas Taleb and Raphael Douady. On the super-additivity and estimation biases
of quantile contributions. Physica A: Statistical Mechanics and its Applications, 429:252–260, 2015.
[243] Nassim Nicholas Taleb and Daniel G Goldstein. The problem is beyond psychology:
The real world is more random than regression analyses. International Journal of Forecasting,
28(3):715–716, 2012.
[244] Nassim Nicholas Taleb and George A Martin. How to prevent other financial crises.
SAIS Review of International Affairs, 32(1):49–60, 2012.
[245] Nassim Nicholas Taleb and Avital Pilpel. I problemi epistemologici del risk management.
Daniele Pace (a cura di). Economia del rischio. Antologia di scritti su rischio e decisione economica,
Giuffre, Milano, 2004.
[246] Nassim Nicholas Taleb and Constantine Sandis. The skin in the game heuristic for
protection against tail events. Review of Behavioral Economics, 1:1–21, 2014.
[247] NN Taleb and J Norman. Ethics of precaution: Individual and systemic risk, 2020.
[248] Jozef L Teugels. The class of subexponential distributions. The Annals of Probability,
3(6):1000–1011, 1975.
[249] Edward Thorp. A corrected derivation of the black-scholes option model. Based on
private conversation with Edward Thorp and a copy of a 7 page paper Thorp wrote around 1973,
with disclaimer that I understood Ed. Thorp correctly, 1973.
[250] Edward O Thorp. Optimal gambling systems for favorable games. Revue de l’Institut
International de Statistique, pages 273–293, 1969.
[251] Edward O Thorp. Extensions of the black-scholes option model. Proceedings of the 39th
Session of the International Statistical Institute, Vienna, Austria, pages 522–29, 1973.
[252] Edward O Thorp. Understanding the kelly criterion. The Kelly Capital Growth Investment
Criterion: Theory and Practice, World Scientific Press, Singapore, 2010.
[253] Edward O. Thorp and S. T. Kassouf. Beat the Market. New York: Random House, 1967.
[254] James Tobin. Liquidity preference as behavior towards risk. The review of economic
studies, pages 65–86, 1958.
[255] Jack L Treynor. Insights-what can taleb learn from markowitz? Journal of Investment
Management, 9(4):5, 2011.
[256] Constantino Tsallis, Celia Anteneodo, Lisa Borland, and Roberto Osorio. Nonextensive
statistical mechanics and economics. Physica A: Statistical Mechanics and its Applications,
324(1):89–100, 2003.

478

Н АС С И М Н И К ОЛ АС ТА Л Е Б

[257] Vladimir V Uchaikin and Vladimir M Zolotarev. Chance and stability: stable distributions
and their applications. Walter de Gruyter, 1999.
[258] Aad W Van Der Vaart and Jon A Wellner. Weak convergence. In Weak convergence and
empirical processes, pages 16–28. Springer, 1996.
[259] Willem Rutger van Zwet. Convex transformations of random variables, volume 7.
Mathematisch centrum, 1964.
[260] SR Srinivasa Varadhan. Large deviations and applications, volume 46. SIAM, 1984.
[261] SR Srinivasa Varadhan. Stochastic processes, volume 16. American Mathematical Soc.,
2007.
[262] José A Villaseñor-Alva and Elizabeth González-Estrada. A bootstrap goodness of fit test
for the generalized pareto distribution. Computational Statistics & Data Analysis, 53(11):3835–
3841, 2009.
[263] Eric Weisstein. Wolfram MathWorld. Wolfram Research www.wolfram.com, 2017.
[264] Rafał Weron. Levy-stable distributions revisited: tail index> 2 does not exclude the levystable regime. International Journal of Modern Physics C, 12(02):209–223, 2001.
[265] Heath Windcliff and Phelim P Boyle. The 1/n pension investment puzzle. North American
Actuarial Journal, 8(3):32–45, 2004.
[266] Yingying Xu, Zhuwu Wu, Long Jiang, and Xuefeng Song. A maximum entropy method
for a robust portfolio problem. Entropy, 16(6):3401–3415, 2014.
[267] Yingying Yang, Shuhe Hu, and Tao Wu. The tail probability of the product of dependent
random variables from max-domains of attraction. Statistics & Probability Letters, 81(12):1876–
1882, 2011.
[268] Jay L Zagorsky. Do you have to be smart to be rich? the impact of iq on wealth, income
and financial distress. Intelligence, 35(5):489–501, 2007.
[269] IV Zaliapin, Yan Y Kagan, and Federic P Schoenberg. Approximating the distribution of
pareto sums. Pure and Applied geophysics, 162(6–7):1187–1228, 2005.
[270] Rongxi Zhou, Ru Cai, and Guanqun Tong. Applications of entropy in finance: A review.
Entropy, 15(11):4909–4931, 2013.
[271] Zolotarev V. M. One-dimensional stable distributions, volume 65. American Mathematical Soc., 1986.
[272] Zolotarev V. M. On a new viewpoint of limit theorems taking into account large
deviationsr // Selected Translations in Mathematical Statistics and Probability. 9:153, 1971.

Научно-популярное издание Танымал ғылыми басылым

ТАЛЕБ НАССИМ НИКОЛАС

СТАТИСТИЧЕСКИЕ ПОСЛЕДСТВИЯ
ЖИРНЫХ ХВОСТОВ
О новых вычислительных подходах к принятию решений

Редакторы А. Захарова, М. Терехова
Художественный редактор М. Левыкин
Технический редактор Л. Синицына
Корректоры С. Луконина, О. Левина
Верстка Н. Козель, Т. Коровенкова
В оформлении обложки использована иллюстрация
© tinkivinki/Shutterstock.com
Подписано в печать / Баспаға қол қойылды 20.10.2023.
Формат 72 × 100 1⁄16. Гарнитура «Times».
Бумага офсетная. Печать офсетная. Усл. печ. л. 39,9.
Доп. тираж 4000 экз. B-CHM-28300-03-R. Заказ №
Дата изготовления / Өндірілген күні 16.11.2023.
Срок службы (годности): не ограничен. / Қызмет (жарамдылық) мерзімі: шектелмеген.
Условия хранения: в сухом помещении. / Сақтау шарттары: құрғақ үй-жайда.
Изготовитель:
ООО «Издательская Группа «Азбука-Аттикус» –
обладатель товарного знака КоЛибри
115093, Москва, вн. тер. г. муниципальный округ
Даниловский, пер. Партийный, д. 1, к. 25
Тел. (495) 933-76-01, факс (495) 933-76-19
E-mail: sales@atticus-group.ru
Филиал ООО «Издательская Группа
«Азбука-Аттикус»
в г. Санкт-Петербурге
191123, Санкт-Петербург,
Воскресенская набережная, д. 12, лит. А
Тел. (812) 327-04-55
E-mail: trade@azbooka.spb.ru
www.azbooka.ru; www.atticus-group.ru
Отпечатано в России.

Өндіруші:
«Издательская Группа «Азбука-Аттикус» ЖШҚ –
КоЛибри тауар белгісінің иесі,
115093, Мәскеу, қ. іш. аум. Даниловский
муниципалдық округі, Партийный т.ш., 1-үй, к. 25
Тел. (495) 933-76-01, факс (495) 933-76-19
E-mail: sales@atticus-group.ru
Санкт-Петербург қ.
«Издательская Группа
«Азбука-Аттикус» ЖШҚ филиалы,
191123, Санкт-Петербург,
Воскресенская жағалауы, 12-үй, А лит.
Тел. (812) 327-04-55
E-mail: trade@azbooka.spb.ru
www.azbooka.ru; www.atticus-group.ru
Ресейде басып шығарылған.

Техникалық реттеу туралы РФ заңнамасына сай басылымның сәйкестігін
растау туралы мәліметтерді мына адрес бойынша алуға болады:
http://atticus-group.ru/certification/.
Знак информационной продукции
(Федеральный закон № 436-ФЗ от 29.12.2010 г.)
Товар соответствует требованиям ТР ТС 007/2011 «О безопасности продукции,
предназначенной для детей и подростков».

Ақпараттық өнім белгісі (29.12.2010 ж. № 436-ФЗ федералдық заң)
Тауар КО ТР 007/2011 «Балалар мен жасөспірімдерге арналған
өнімдердің қауіпсіздігі туралы» талаптарына сәйкес келеді.

В «Черном лебеде» Талеб показал, что повсюду нас поджидают невероятные и непредсказуемые события, в «Антихрупкости» открыл положительные стороны неопределенности и превратил ее в нечто желанное и необходимое для роста и развития, в «Одураченных случайностью»
исследовал удачу, вероятность, человеческие ошибки и принятие решений в мире, который мы
не понимаем, а в книге «Рискуя собственной шкурой» рассказал об искажениях и сложных
системах, о равенстве и неравенстве, о рациональности и принятии риска. Ценным дополнением к перечисленным бестселлерам знаковой серии Incerto становится эта книга из серии The
Technical Incerto Collection, посвященная тем классам статистических распределений, от которых можно ждать экстремальных событий. Талеб показывает, как использовать эти распределения для статистических выводов и принятия решений.