Нормальное распределение и оценка своих навыков

В публикации про эффект Даннинга — Крюгера в своём канале, я привёл в пример эксперимент в котором 80 % водителей утверждали, что их скилл вождения выше среднего. И упомянул, что это невозможно статистически. Хочу объяснить, как пришёл к этой точке зрения.

Нормальное распределение
Нормальное или гауссовское распределение играет важнейшую роль в анализе данных. Определение из википедии:

«Если величина является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то центрированное и нормированное распределение такой величины при достаточно большом числе слагаемых стремится к нормальному распределению».

Простыми словами — если мы что-то исследуем, то на небольшой выборке (скажем, 10 человек) результаты могут быть любыми. Но при большом количестве опрошенных, результаты распределяются определённым образом. Большая часть — некие средние показатели. Средний рост, вес и так далее. Крайних значений будет намного меньше. Очень высокие или очень низкие люди встречаются реже людей, чей рост укладывается в некие привычные нам рамки. На графике нормальное распределение выглядит так:

Важно отметить, что нормальное распределение появляется именно на больших выборках. Это легко проиллюстрировать на примере анализа успеваемости в школе.

Представим, что в каждой параллели есть четыре класса: А, Б, В и Г. Классы А — отличники, классы Г — отстающие ребята. В моей школе так и было. Если рассмотреть оценки только из 9г класса, то можно сделать вывод, что в школе учатся только двоечники. Но если учесть все классы, то увидим нормальное распределение. Круглых отличников и полных двоечников будет мало. Остальные ребята будут распределены между ними. Большая часть учеников будет где-то посередине.

Опасность малой выборки
Хорошие исследования стараются охватить как можно большую выборку. Так как на малой выборке легко получить неверные результаты (или подтвердить нужную гипотезу).

Смешной, но реальный пример. В моей квартире живут: я, Полина и два наших котика. У меня и Фрая эпилепсия. Какие выводы по эпилепсии я могу сделать из этого?

  1. Половина млекопитающих страдают эпилепсией.
  2. Половина котов болеют эпилепсией.
  3. Мужчины болеют эпилепсией (Все белые мужчины болеют эпилепсией, все картавые мужчины болеют эпилепсий, все бывшие гаишники болеют эпилепсией).
  4. Женщины эпилепсией не болеют.

Правдивы эти выводы? И да, и нет. Относительно нашей выборки — да. Относительно всей популяции людей или животных — нет. Эпилепсией болеют около 1 % людей. У котов, наверное, так же. Просто нашей квартире повезло, в ней оказались довольно веселые жильцы.

Делать заключения, опираясь на малую выборку может быть опасным. Например, люди не пристёгиваются в автомобилях, потому что «вот у моего знакомого был брат, который не пристегнулся и выжил». Тем не менее, именно ремень безопасности обеспечивает 70 % спасений в критичных авариях. Или отказываются от прививок потому что «Ленка сделала прививку ребёнку, он после этого заболел! И болел три недели! И температура была 39!». Но именно прививки помогли победить многие смертельные болезни.

Исследования с водителями
В исследовании, которое я упомянул в посте, приняло участие 178 водителей. 80 % из них оценили себя выше среднего.

Почему, несмотря, на малую выборку я склонен ему доверять? Существуют методы подбора респондентов, которые позволяют на малой выборке получить результаты, которые можно экстраполировать на большую выборку. Подробно с этими методами я не знаком, поэтому раскрыть эту тему полнее не могу. (Если вы знаете — напишите в комментариях, пожалуйста.)

В другом, не менее интересном исследовании, водителей попросили оценить свои навыки в опасных ситуациях до и после обучения безопасному вождению. После обучения водители оценивали свои навыки скромнее.

Водителей с реальным навыком вождения «выше среднего» в определённой выборке может быть больше 50 %. Или даже сто. Но точно так же может быть, что большая часть водителей водит хуже среднего. Это зависит от того, какой величины была выборка, и где она была сделана — среди выпускников районной автошколы или выпускников курсов экстремального вождения. Проиллюстрировал это на примере.

Если тестировать всех водителей, то людей с навыками «выше среднего» будет не больше половины. Исследования с водителями показывает не навык вождения, а то как люди оценивают свой навык. Если мы протестируем уровень вождения, то все выпускники курсов экстремального вождения действительно будут выше среднего. Но если мы попросим их оценить свой уровень, то рискну предположить, что выпускники обычной автошколы оценят себя выше, нежели ученики доп. курсов.

Иллюзорное превосходство
Люди склонны преувеличивать свои достоинства и преуменьшать недостатки по сравнению с другими людьми. Это называется когнитивное искажение называется иллюзорное превосходство. Оно проявляется в работе, социальном положении, в оценке личных качеств и других областях. Простыми словами — мы любим прихвастнуть. Втянуть живот перед девушкой на пляже, немного преувеличить успехи ребёнка в школе или похвастаться в инстаграме отпуском на море (в моём моря нет, только шуточки — подписывайтесь :)

Словом, водители, как и все люди, просто слегка прихвастнули в своих ответах.


Посоветуйте курс лекций по статистике для новичков, пожалуйста. Уровень сложности примерно как в «Экономике для не экономистов» от ВШЭ.

Популярное