Войти в почту

Отрывок из книги Сергея Самойленко «Вероятности и неприятности»

Почему «на вкус и цвет товарищей нет», а автобуса почти всегда приходится ждать долго? Почему за черной полосой наступает белая? И как работают «законы подлости»? Ответы на эти вопросы может дать математика. Делимся отрывком из книги Сергея Самойленко «Вероятности и неприятности», где автор смотрит на жизнь через математику.

.disclamer { display: block; background-color:#f3f9f9; font-family:sans-serif; font-size: smaller; text-align: left; padding: 10px; }

Вероятности и неприятности. Математика повседневной жизни

Сергей Самойленко

Издательство: «Манн, Иванов и Фербер», 2022

Закон велосипедиста

Я большой энтузиаст любительского велосипедного спорта. Многие задачи, вошедшие в эту книгу, я обмозговывал в седле, вертя их мысленно и так и эдак, пытаясь найти наиболее наглядный и простой подход к их объяснению. Что может быть лучше, чем мчаться по трассе ранним утром, по холодку, скатываясь с легкого склона… Это ощущение стоит того, чтобы ради него преодолевать бесконечные подъемы или сопротивление встречному ветру! Правда, порой кажется, что подъемов больше, чем спусков, а ветер норовит быть встречным, куда ни поверни. В книгах по мерфологии в связи с этим приводится закон велосипедиста:

Независимо от того, куда вы едете, — это в гору и против ветра.

Живу я на Камчатке. В Петропавловске много горок — катаясь по городу, их не миновать. Однако меня должна успокаивать такая мысль: начиная свой путь из дома, я возвращаюсь снова туда, а это значит, что суммарный спуск должен быть равен суммарному подъему. Особенно честным будет маршрут, в котором прямой и обратный пути совпадают.

Представим себе 2-километровую трассу, которая состоит из одной симметричной горки: километр вверх, километр вниз. Вверх по склону я могу достаточно долго ехать со скоростью 10 км/ч, а на спуске стараюсь держать скорость 40 км/ч (я осторожный велосипедист). Исходя из этих условий, на подъем я буду тратить в четыре раза больше времени, чем на спуск, и общая картина получится такой: ⅘ времени путешествия уйдет на тягучий подъем и лишь ⅕ — на приятный спуск. Обидно — 80% времени прогулки займет сложный участок пути! Этот результат не зависит от длины горок, а определяется лишь соотношением скоростей. Если я выкачусь из нашего холмистого города в сторону океана или в долину реки Авачи, горок почти не будет, но в моем распоряжении остаются встречный и попутный ветер или участки с плохой дорогой, которые также способны отнять значительную часть времени путешествия.

Взглянем на закон велосипедиста несколько иначе. Если я сделаю множество селфи на протяжении своей велопрогулки в случайные моменты, а потом займусь их подсчетом и классификацией, то обнаружу, что большинство картинок показывает мне согбенную фигуру в оранжевом шлеме, упорно ползущую вверх по склону либо сопротивляющуюся встречному ветру. Доля снимков с летящим и сияющим велосипедистом, как на рекламной картинке, увы, составит лишь около 20%. А что скажет статистика? Если мы выпустим на холмистую трассу большую толпу велосипедистов, подождем немного и понаблюдаем за их плотностью, то увидим, что бoльшая часть спортсменов толпится на трудных участках, а доля безмятежно улыбающихся лиц не так уж и велика!

Измеряем уровень подлости

Давайте, как когда-то в школе, покажем на графике зависимость перемещения велосипедиста от времени при движении по симметричной треугольной горке. Только сделаем все «по-взрослому», в так называемых собственных масштабах задачи: расстояние станем измерять не в километрах, а в долях общего пути. Так же поступим и со временем путешествия. Первую половину пути велосипедист двигался медленно и долго — ⅘ всего времени, — а вторую преодолел быстро — за ⅕ времени.

Что же нам показывает полученный график? Во-первых, мы можем сравнить скорости на разных участках (наклоны) со средней скоростью, которая соответствует диагональной линии. Во-вторых, становится наглядным соотношение 80/50 — 80% времени путешествия заняла трудная половина маршрута. Кроме того, из графика можно заключить, что за первую половину расчетного времени путешествия велосипедист успеет преодолеть лишь треть пути. Пока все предельно просто и понятно.

Рис. 1.3. Диаграмма перемещения велосипедиста в долях от общего пути времени

А что, если маршрут велосипедиста усложнится и перестанет быть симметричным? Что, если участков с подъемами и спусками окажется несколько, и все они будут разными по сложности? Можно изобразить путешествие и на этот раз — например, так, как показано на рис. 1.4.

Рис. 1.4. Диаграмма перемещения велосипедиста для более сложного маршрута

Диаграмма хорошо отражает характер пути, но не дает представления об общем соотношении легких и трудных участков; иными словами, она ничего не говорит о распределении скоростей. О том, какой смысл мы вкладываем в слово «распределение», речь пойдет в следующей главе; пока же доверимся интуиции и тому, что мы используем его достаточно часто и порой не вкладываем в него точный математический смысл. Чтобы увидеть это распределение, упорядочим отрезки пути по скорости от самых медленных до самых быстрых, после чего вновь нанесем их на диаграмму (рис. 1.5).

Рис. 1.5. Диаграмма перемещения велосипедиста для распределения скоростей

Мы потеряем при этом информацию о последовательности участков, зато получим обобщающую картину, отражающую то, что можно было бы условно назвать «справедливостью» распределения. Более того, если вместо одного велосипедиста мы взглянем на группу спортсменов, ездящих по этому маршруту в произвольном направлении, то наша диаграмма практически не изменится, разве что несколько сгладится из-за разброса скоростей. Ее смысл останется прежним: она покажет, насколько этот маршрут отклоняется от самого справедливого, на котором время преодоления участка не зависит от его «трудности», а определяется только его длиной.

Пора пояснить, откуда взялась такая странная терминология. С начала XX века у эконометристов, демографов, экологов и маркетологов появились вполне универсальные способы суждения о несправедливости этого мира — кривая Лоренца и связанный с ней индекс Джини.

Для известного распределения в некоторой популяции чего-нибудь ценного, например денег, можно, отсортировав элементы множества по возрастанию уровня богатства, построить кумулятивную кривую. Она строится путем последовательного суммирования вкладов каждого члена группы и показывает, как по мере добавления новых членов растет общее благосостояние популяции. Далее нужно поделить все значения, отмеченные по оси X, на численность популяции, а по оси Y — на общее ее благосостояние, перейдя от конкретных чисел к долям или процентам. Получится кривая, носящая имя американского экономиста Макса Отто Лоренца. Когда мы строили график перемещения велосипедиста по простой треугольной горке, мы, по существу, создали кривую Лоренца для распределения скоростей по отрезкам пути, состоящего всего из двух столбцов, как показано на рис. 1.6.

Рис. 1.6. Распределение скорости велосипедиста по пройденному пути

Конечно, не всякий график перемещения можно воспринимать как кривую Лоренца. Для начала нужно отсортировать периоды путешествия по возрастанию скорости, после чего приступать к построению. Можно построить гистограмму скоростей, сгруппировав известные нам данные по принадлежности к известным интервалам значений, после чего последовательно суммировать вклады всех данных гистограммы, начиная с малых значений и заканчивая самыми большими. Результатом должна стать всюду вогнутая кривая, которая проходит ниже диагонали, — настоящая кривая Лоренца. Упомянутая диагональ называется кривой равенства, она в нашем случае соответствует постоянной (средней) скорости на всем пути или гистограмме с единственным столбиком (такое распределение называется вырожденным). В экономическом контексте кривая равенства отражает всеобщее равенство благосостояния в обществе. Чем больше кривая Лоренца отклоняется от кривой равенства, тем менее «справедливым» можно считать распределение. И, раз уж мы изучаем законы подлости и несправедливости нашего мира, разумно использовать терминологию и инструменты, созданные именно для исследования справедливости.

Площадь под кривой Лоренца для любого невырожденного распределения будет меньше площади под кривой равенства. Их разница может служить формальной характеристикой неравенства или «несправедливости» распределения. Эту роль на себя берет индекс Джини. Он вычисляется как удвоенная площадь замкнутой фигуры, образуемой кривой равенства и кривой Лоренца (ее мы показали заливкой на рис. 1.5), и лежит в диапазоне от 0 до 1. Для кривой равенства, идеального вырожденного мира, индекс Джини равен 0, а в самом кошмарном варианте, когда все богатство группы принадлежит одному ее члену, он равен 1. В рассмотренном нами примере он составляет 0,35. Это неплохой показатель. Скажем, распределение богатства среди населения в России сейчас имеет индекс Джини 0,39, в США — 0,49, в Австрии и Швеции не превышает 0,3, а для всего мира он в 2017 году составил 0,66. Так что приведенная нами в качестве примера ситуация с велосипедистами, конечно, несправедлива, но вполне терпима.

Обратите внимание на то, что с помощью некоторого формального индекса мы стали сопоставлять совершенно разные и несравнимые вещи. Это одновременно и заманчиво, и опасно. Нужно отдавать себе отчет в том, что формальные индексы и числовые показатели всегда чему-то равны, независимо от того, есть в этом какой-либо смысл или нет. Мы сравниваем распределение богатства среди населения стран и распределение времени, затрачиваемого на преодоление пути, с точки зрения отличия от некоторого варианта, который сочли бы справедливым. Пока мы ведем фривольные и подчас хулиганские разговоры о законах подлости, пожалуй, это оправданное сравнение; но в науке так, конечно, делать нельзя. Кривую Лоренца и индекс Джини можно формально рассчитать и для гистограммы яркости пикселов на картинке или для частотности слов в живой речи. Но к справедливости это не будет иметь никакого отношения, да и смысла останется совсем немного, поэтому, имея в виду индекс Джини для чего попало, мы будем его называть индексом подлости, чтобы не вводить читателя в заблуждение наукообразностью терминов.

Кривые Лоренца и индекс подлости позволят нам смело сравнивать возмутительно разные вещи. Математика — точная наука, но никто не запрещает математикам хулиганить. В своем, конечно, кругу и без драк.

В рубрике «Открытое чтение» мы публикуем отрывки из книг в том виде, в котором их предоставляют издатели. Незначительные сокращения обозначены многоточием в квадратных скобках. Мнение автора может не совпадать с мнением редакции.