Kategorialnye metody analiza dannyh

Post on 11-Feb-2017

471 views 1 download

transcript

КАТЕГОРИАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ В ЗАДАЧЕ

ПРОГНОЗИРОВАНИЯ ЭЛЕКТОРАЛЬНОГО ПОВЕДЕНИЯ

к.э.н., доцент Галицкий Е. Б.,лаборатория анализа данных ФОМ,

кафедра маркетинга фирмы НИУ ВШЭ

1

Доклад на 38-ом заседании международной научной школы-семинара «Системное моделирование социально-экономических процессов» имени академика С.С. Шаталинаг. Казань, 2-8 октября 2015 г.

Проблемы прогнозирования поведения больших групп людей• Примеры ситуаций, когда необходимо прогнозирование

• предупреждение массовых «панических атак» на банки

• возникновение массовых протестных движений

• предвыборная борьба

• Трудность прогнозирования таких ситуаций в том, что многие избиратели принимают решения спонтанно, сами не могут предсказать, что сделают через неделю

• Методика прогнозирования электорального поведения применялась в ФОМе с 2000 года для общероссийских, региональных, городских и т.п. выборов, а также выборов в Грузии и на Украине

• Методика точнее «работает» на общероссийском уровне, чем на региональном, т.к. в меньшей степени влияют локальные события, резко меняющие ситуацию

2

Гипотезы, лежащие в основе прогнозирования1. Об электоральном поведении всех избирателей можно

судить по ответам небольшого числа «правильно отобранных» респондентов

2. Респонденты отвечают на вопросы, раскрывая тем самым свои скрытые (латентные) установки

3. Электоральные установки можно оценить, построив:• индикатор склонности участвовать в выборах

• индикаторов отношения к каждому кандидату

4. Т.к. индикатор выражает то общее, что проявляется во всех этих вопросах, анализ ответов на них может подсказать «правило» построения индикатора

3

Построение индикатора отношения к кандидатам

4

Вопросы для индикатора отношения• К кому из этих людей Вы относитесь положительно, с доверием? (Здесь и далее

демонстрируется список кандидатов.)

• А к кому из этих людей Вы относитесь отрицательно, с недоверием?

• За кого из кандидатов на пост губернатора нашей области Вы, скорее всего, проголосуете?

• Здесь предусмотрены, но не демонстрируются респондентам также и варианты «испорчу бюллетень», «не пойду на выборы» и «затрудняюсь ответить»

• Если Вам сложно определиться, то возможно, Вы могли бы назвать двух-трёх кандидатов, из числа которых Вы, скорее всего, будете выбирать?

• Вопрос задаётся только затруднившимся ответить на предыдущий

• Я буду называть имена кандидатов, а Вы скажите, пожалуйста, про каждого, допускаетели Вы в принципе возможность проголосовать за него на выборах

• Пять вариантов: «безусловно допускаю», «скорее допускаю», …, «безусловно исключаю», «затрудняюсь ответить»

• По Вашему мнению, кто из людей, перечисленных на карточке, в принципе мог бы справиться с обязанностями губернатора области?

• Агитация в пользу каких кандидатов Вам нравится, не вызывает раздражения?

• Предвыборная агитация в пользу каких кандидатов Вам не нравится, вызывает раздражение?

5

Ключевая проблема построения индикаторов отношения• Рассмотрим респондента, который сказал

следующее:• Про одного кандидата:

• назвал в числе тех, кому доверяет• скорее допускает возможность проголосовать

• Про другого кандидата:• не назвал в числе тех, кому доверяет• безусловно допускает возможность проголосовать

• К какому из этих кандидатов индикатор отношения данного респондента выше?

• Правило построения индикатора должно быть единым для всех кандидатов

6

Данные для построения индикатора отношения к каждому из k кандидатов (7 столбцов, 1000*k строк)

1. Доверяете?(да- 1, нет - 0)

… 6. Допускаете?(5-балльная)

7. Способен?(да- 1, нет - 0)

Все респондентыо 1-ом кандидате

(1000 строк)…

Все респондентыо 1-ом кандидате

Все респондентыо 1-ом кандидате

Все респондентыо 2-ом кандидате

(1000 строк)…

Все респондентыо 2-ом кандидате

Все респондентыо 2-ом кандидате

… … … …

Все респондентыо k-ом кандидате

(1000 строк)…

Все респондентыо k-ом кандидате

Все респондентыо k-ом кандидате

7

Метод построения индикатораотношения• Классический анализ главных компонент

невозможен, т.к. есть ранговые переменные:• не голосую, буду выбирать, голосую• безусловно не допускаю, скорее не допускаю и т.д.

• Категориальный анализ главных компонент (CATPCA) позволяет:

• найти квантификации таких переменных• построить фактор, объясняющий наибольшую долю

дисперсии

• Фактор преобразуется в шкалу [0;100]

• Выясняется, сколько баллов вносит каждый ответ

8

Пример: квантификация вопросов о выборе из списка кандидатов, баллы

9

0,0

9,4

20,3

не назвал назвал в числе нескольких возможных

сказал, что проголосует

Пример: квантификация вопросов о выборе из списка кандидатов и участии в выборах, баллы

10

0,0

8,8

19,0 19,020,4

не назвал назвал в числе нескольких возможных

проголосовал бы, но не

пойду

проголосовал бы, но

допускаю, что не пойду

проголосую, точно пойду

Пример: квантификация вопросов о возможности голосования за каждого кандидата по отдельности, баллы

11

0,0 0,5 0,7

11,7

21,9

безусловно не допускают

скорее не допускают

затруднились ответить

скорее допускают

безусловно допускают

Правило построения индикатора отношения к кандидату

12

Ответ Баллы

«Безусловно допускаю возможность за него проголосовать» 21,9

«Я за него проголосую» 20,3«Я ему доверяю» 18,9

«Он мог бы, в принципе, исполнять обязанности губернатора» 17,7

«Агитация в его пользу мне нравится, не вызывает раздражения» 12,0

«Скорее допускаю возможность за него проголосовать» 11,7

«Он один из тех, из которых буду выбирать» 9,4

«Я не могу сказать, что ему не доверяю» 5,1

«Не могу сказать, что агитация его в пользу мне не нравится» 4,1

«Затрудняюсь ответить на вопрос о возможности проголосовать» 0,7

«Скорее не допускаю возможности за него проголосовать» 0,5

«Безусловно не допускаю возможности за него проголосовать» 0

Если ничего не сказал о кандидате – 9,9 балла («нейтраль»)

Предварительный (без учёта явки) прогноз распределения голосов

• Рассчитываются индикаторы отношения к каждому кандидату и для каждого респондента находится максимум по всем кандидатам

• Если этот максимум меньше «нейтрали» (респондент «ругал» всех кандидатов), он испортит бюллетень

• Если максимум равен «нейтрали» («респондент ни про кого ничего не сказал»), его голос распределяется пропорционально голосам остальных респондентов

• Если максимум больше «нейтрали», голос респондента засчитывается кандидату с наибольшими значениями индикатора

• Если таких кандидатов несколько, голос делится между ними поровну

13

Построение индикатора склонности участвовать в выборах

14

Принципы прогнозирования участия в выборах• О вероятности фактического участия респондента в выборах можно

судить по его ответам на соответствующие вопросы анкеты

• Вероятности участия в выборах у респондентов с различными электоральными предпочтениями могут различаться

• В частности, вероятности участия в выборах тех респондентов, хотя бы часть голоса которых может отойти кандидату от действующей власти, может оказаться ниже вероятности участия остальных респондентов

• Примечание. Это не относится к респондентам с нейтральным отношением ко всем кандидатам. Вероятность их участия в выборах равна средней вероятности участия остальных респондентов

• Разные вероятности участия голосующих и не голосующих за власть позволяют внести «поправку» на социально одобряемые ответы (большинству респондентов проще декларировать мнение, которого придерживается большинство - «спираль молчания» Ноэль Нойман)

• Параметры зависимости вероятности участия в выборах от ответов респондентов можно оценить по данным о результатах прошедших выборов

15

Для построения индикатора склонности участвовать в выборах использовались вопросы:

• Как Вы думаете, большинство Ваших знакомых, друзей примут или не примут участие в выборах губернатора?

• 5 вариантов: «безусловно примут», «скорее примут», …, «безусловно не примут», «затрудняюсь ответить»

• Посмотрите, пожалуйста, на карточку и уточните: Вы лично примете или не примете участие в выборах?

• 6 вариантов демонстрируется респондентам:• «совершенно точно не приму участия», «вероятнее всего не

приму участия», «скорее не приму, чем приму участие», …, «совершенно точно приму участие»

• не демонстрируется вариант «затрудняюсь ответить»

16

Особенность методики построения данного индикатора • Поскольку вопрос о склонности большинства

знакомых респондента участвовать в выборах, не относится к респонденту напрямую, он используется только для квантификации основного вопроса

17

Квантификация вопроса о склонности участвовать в выборах

18

0,03,2

10,9

17,8

53,4

71,8

100,0

совершенно точно не приму

участие

вероятнее всего не приму

участия

скорее не приму, чем

приму участие

затрудняюсь ответить

скорее приму, чем не приму

участие

вероятнее всего приму

участие

совершенно точно приму

участие

Поиск вероятности участия в выборах при каждом значении индикатора

• S-образная кривая вероятности участия респондента в выборах в зависимости от значений индикатора отыскивается как интегральная функция нормального распределения

• Параметры этой функции (среднее значение и стандартное отклонение) отыскиваются путём минимизации различий между прогнозами и результатами прошедших ранее выборов

• Используется эволюционный метод, реализованный в надстройке MS Excel (http://www.solver.com)

• С весом 0,7 учитывается квадраты расхождений по голосованию «за власть», с весом 0,3 – расхождения по явке

19

Результаты оптимального подбора вероятностей(По горизонтальной оси равноудалённые ответы)

20

18,3 18,8 20,2

21,5

29,133,4

40,4

15,0 16,219,1

22,0

40,3

51,0

67,0

0

10

20

30

40

50

60

70

80

совершенно точно не

приму участие

вероятнее всего не

приму участия

скорее не приму, чем

приму участие

затрудняюсь ответить

скорее приму, чем не приму

участие

вероятнее всего приму

участие

совершенно точно приму

участие

ВЕР

ОЯ

ТНО

СТЬ

УЧ

АС

ТИЯ

МН

ОЖ

ЕНА

НА

10

0)

ОТВЕТЫ РЕСПОНДЕНТА О НАМЕРЕНИИ УЧАСТВОВАТЬ В ВЫБОРАХ

Хотя бы часть голоса - "за власть"

Не голосует "за власть"

*Параметры кривых подбирались по данным 4-х опросов за неделю до выборов 2015 г. и 4 опросов – за месяц.

Результаты оптимального подбора вероятностей (По горизонтальной оси квантификация ответов)

21

0

10

20

30

40

50

60

70

80

0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00

ВЕР

ОЯ

ТНО

СТЬ

УЧ

АС

ТИЯ

МН

ОЖ

ЕНА

НА

10

0)

КВАНТИФИКАЦИЯ ОТВЕТОВ РЕСПОНДЕНТОВ О НАМЕРЕНИИ УЧАСТВОВАТЬ В ВЫБОРАХ

Хотя бы часть голоса - "за власть"

Не голосует "за власть"

*Параметры кривых подбирались по данным 4-х опросов за неделю до выборов 2015 г. и 4 опросов – за месяц.

Результаты расчётов с новыми параметрами модели

22

Доли голосов за кандидатов в губернаторы от партии «Единая Россия» (расчёт и данные ЦИК)

50,1 51,9

70,364,2

56,6 56,7

68,8

77,3

50,8 49,6

71,4

60,0

50,6 53,3

70,4

82,1

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

Расчёт после оптимизации параметров Данные ЦИК

23

*В регионах, помеченных звёздочкой, опросы проводились за неделю до выборов, а в остальных – за месяц.

Расчёт доли голосов, отданных за кандидатов партии «Единая Россия»

53

,0

52

,6

76

,3

68

,4

60

,1 63

,1

77

,5 81

,8

50

,1

51

,9

70

,3

64

,2

56

,6

56

,7

68

,8

77

,3

50

,8

49

,6

71

,4

60

,0

50

,6

53

,3

70

,4

82

,1

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

Расчёт до выборов Расчёт после оптимизации параметров Данные ЦИК

24

Расчётная и фактическая явка

41,036,7 35,5 37,1 36,8

33,531,1 32,5

49,6

29,2

36,133,8 33,5

21,0

39,6

44,5

0,0

10,0

20,0

30,0

40,0

50,0

60,0

Расчёт после оптимизации параметров Данные ЦИК

25

Выводы

• Многомерные методы анализа категориальных данных способны помочь в поиске скрытых даже от самих людей (латентных) характеристик, от которых зависит их поведение

• В частности, квантификация категорий вопроса о намерении участвовать в выборах почти линеаризует кривую вероятности

26

ДополнениеОнлайн сервис для прогнозирования итогов выборовmpp.fom.ru

27

ФОМ. Машина предвыборных прогнозов

28

29

30

31

32

Спасибо за внимание!Галицкий Ефим Борисович

galitskiy@fom.ru, egalit@yandex.ru

33