Как лгать при помощи статистики

Как верно лгать посредством статистики (17 фото)

Существуют три вида лжи: неправда, наглая неправда и статистика.

Как лгать при помощи статистики

Имеется таковой превосходный жанр — вредные рекомендации, в котором детям дают рекомендации, а дети, как мы знаем, всё делают напротив и получается всё именно верно. Возможно и со всем остальным так окажется?
Статистика, инфографика, big data, анализ данных и data science — этим на данный момент кто лишь не занят. Все знают как верно всем этим заниматься, осталось лишь кому-то написать как Не требуется этого делать. В данном посте мы как раз этим и займемся.

Всё возможно продемонстрировать несложнее, чем думается.

Предвзятая выборка (Sampling bias)

В 1948 году на протяжении президентской гонки в Соединенных Штатах в ночь на оглашение результатов выборов Труман (демократы) против Дьюи (республиканцы) газета Chicago Tribune опубликовала свой, пожалуй, самый известный заголовок DEWEY DEFEATS TRUMAN (см. фото). Сразу после закрытия участков газета провела опрос, обзвонив огромное (достаточное для выборки) число избирателей, и всё предвещало оглушительную победу Дьюи. На фото мы видим смеющегося Трумана, победителя выборов 48го года. Что же пошло не так?

Как лгать при помощи статистики

Людей обзванивали вправду случайно и в достаточном количестве, но в 48-ом году телефон был доступен лишь людям определенного достатка и редко виделся у людей с маленьким доходом. Так, сам способ опроса вносит поправку в распределение голосов. Выборка не учитывала достаточно широкий пласт избирателей Трумана (в большинстве случаев демократы имеют значительную часть голосов среди бедного населения), которым телефон со своей стороны был недоступен. Такая выборка и называется предвзятой.

Народное творчество о данном феномене:

Согласно данным интернет-голосования 100% людей пользуются интернетом.

Никого не удивляло, что в то время, когда мы слышим о заработных платах выпускников ВУЗов, то почему-то неизменно это неправдоподобно высокие цифры? В Соединенных Штатах на данный момент доходит дело кроме того до судов, где выпускники утверждают, что данные по заработным платам искусственно завышены.

Это достаточно ветхая неприятность, в соответствии с Daren Huff, подобный вопрос появлялся у выпускников Yale 24-го года. И в действительности все говорят правду, да лишь не всю. Сбор статистики происходил в виде опросов (а в те годы посредством бумажной почты). Отправляют ответ не все, а лишь часть всех выпускников; активнее других отвечают те, у кого дела идут хорошо (что довольно часто выражается в неплохой заработной), исходя из этого мы видим лишь хорошую часть картины. Это-то и создаёт предвзятость выборки совершает результаты аналогичных опросов полностью ненужными.

Верно выбираем среднее (Well-chosen average)

Представим себе компанию, в которой начальник получает 25 тысяч, его помощник 7,6 тысяч, топ-менеджеры по 5,5 тысяч, менеджеры среднего звена по 3,5 тысячи, младшие менеджеры по 2,5 тысячи, а простые работники по 1,4 тысячи (абстрактных фунтиков) в месяц.

И наша задача представить данные о компании в положительном свете. Мы можем написать средняя зарплата в компании образовывает X, но что свидетельствует среднее? Рассмотрим вероятные варианты

Это самая ненужная информация с позиций работника — 3,472 среднестатистическая заработная плата, но за счет чего получается такая высокая цифра? За счет высоких заработных платов управления, что формирует иллюзию, что работник будет получать столько же. С позиций работника данная величина не есть очень информативной.

Конечно же народное творчество не обошло стороной эту особенность средней величины в виде средне арифметического

Госслужащие едят мясо, я — капусту. В среднем мы едим голубцы.

Несложнее говоря, добрая половина работников получает больше данной величины, а добрая половина меньше — ровно середина распределения! Данная статистика достаточно информативна для работников компании, поскольку она разрешает выяснить как заработная плат сотрудника соотносится с большинством сотрудников.

Мода конечного множества X=, это число m, которое видится в X значительно чаще. В этом случае, мода возможно наиболее информативна для человека, который планирует начать работать в данной компании.

Так в зависимости от ситуации под средним значением может пониматься каждая из вышеуказанных величин (в принципе и не только из них). Исходя из этого очень важно осознать, как же рассчитывается это среднее значение.

Как лгать при помощи статистики

И еще 10 неудачных опытов, про каковые мы не написали

Опустим простую газету в серную кислоту, а журнал ТВ Парк — в дистиллированную воду! Почувствовали отличие? С журналом ничего не случилось — бумага как новая!

В конечном итоге выборка для опыта составляла всего лишь дюжину человек (в соответствии с Daren Huff и уже упомянутой книге). Это как раз та выборка, которая нужна, чтобы получить каждые результаты! Представим, что мы подбрасываем монетку пять раз. Какова возможность, что все пять раз выпадет орел? (1/2)5 = 1/32. Всего лишь одна тридцать вторая, это не может быть просто совпадением, в случае если выпадут все пять орлов, поскольку так? А сейчас представим, что мы повторяем данный опыт 50 раз. Хоть одна из этих попыток увенчается успехом. О ней-то мы и напишем в отчете, а все другие опыты никуда не отправятся. Так мы возьмём только случайные данные, каковые превосходно вписываются в нашу задачу.

Играем со шкалой

Предположим, завтра необходимо продемонстрировать на заседании, что мы догнали соперников, но числа мало не сходятся, что же делать? Давайте мало подвигаем шкалой! Кроме того известный своей качественной работой с данными New York Times выпустил подобный совсем сбивающий с толку график (обратите внимание на скачок с 800к до 1,5м в центре шкалы).

Представим, что в прошедшем сезоне молоко стоило 10 копеек за литр и хлеб был 10 копеек за буханку. В текущем году молоко подешевело на 5 копеек, а хлеб вырос на 20. Внимание вопрос, что мы желаем доказать?

Представим, что прошедший год — это 100%, основание для расчетов. Тогда молоко подешевело на 50% процентов, а хлеб вырос до 200%, среднее 125%, соответственно в целом цены выросли на 25%.

Давайте попытаемся еще разок, пускай этот год — 100%, значит цены на молоко составляли 200% в прошедшем сезоне, а хлеб 50%. Соответственно, в прошедшем сезоне цены в среднем были на 25% выше!

Скрываем необходимые числа

Лучший метод что-то скрыть — это отвлечь внимание. К примеру, рассмотрим зависимость количества частных и публичных школ (в тысячах штук) по годам. Из графика видно, что число публичных школ уменьшается, а число частных существенно не изменяется.

В действительности рост числа частных школ скрыт на фоне числа публичных школ. Так как они отличаются на порядок, то практически каждые трансформации будут не заметны на шкале с большим шагом. Перерисуем число частных школ раздельно; сейчас мы четко видим значительный рост числа частных школ, который был скрыт на прошлом графике.

В случае если сравнивать не с чем, а запутать весьма хочется, то самое время для непонятных визуальных метафор. К примеру, в случае если мы изобразим вместо длины площадь на графике, то любой рост будет казаться значительно более большим.

Как лгать при помощи статистики

Рассмотрим потребление количества пива в Соединенных Штатах за 1970-1978 годы в миллионах баррелей и долю рынка компании Schlitz (см. график ниже). Хорошо выглядит, внушительно. Не правда ли?

А сейчас давайте избавимся от ненужного мусора на данном графике и перерисуем его в обычном виде. Уже как-то не так внушительно и без шуток выходит.

Первая картина не лжёт, все числа в ней верные, лишь она неявно преподносит данные в совсем другом свете.