+ All Categories
Home > Science > Kategorialnye metody analiza dannyh

Kategorialnye metody analiza dannyh

Date post: 11-Feb-2017
Category:
Upload: fom-media
View: 471 times
Download: 1 times
Share this document with a friend
33
КАТЕГОРИАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ЭЛЕКТОРАЛЬНОГО ПОВЕДЕНИЯ к.э.н., доцент Галицкий Е. Б., лаборатория анализа данных ФОМ, кафедра маркетинга фирмы НИУ ВШЭ 1 Доклад на 38-ом заседании международной научной школы- семинара «Системное моделирование социально- экономических процессов» имени академика С.С. Шаталина г. Казань, 2-8 октября 2015 г.
Transcript
Page 1: Kategorialnye metody analiza dannyh

КАТЕГОРИАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ В ЗАДАЧЕ

ПРОГНОЗИРОВАНИЯ ЭЛЕКТОРАЛЬНОГО ПОВЕДЕНИЯ

к.э.н., доцент Галицкий Е. Б.,лаборатория анализа данных ФОМ,

кафедра маркетинга фирмы НИУ ВШЭ

1

Доклад на 38-ом заседании международной научной школы-семинара «Системное моделирование социально-экономических процессов» имени академика С.С. Шаталинаг. Казань, 2-8 октября 2015 г.

Page 2: Kategorialnye metody analiza dannyh

Проблемы прогнозирования поведения больших групп людей• Примеры ситуаций, когда необходимо прогнозирование

• предупреждение массовых «панических атак» на банки

• возникновение массовых протестных движений

• предвыборная борьба

• Трудность прогнозирования таких ситуаций в том, что многие избиратели принимают решения спонтанно, сами не могут предсказать, что сделают через неделю

• Методика прогнозирования электорального поведения применялась в ФОМе с 2000 года для общероссийских, региональных, городских и т.п. выборов, а также выборов в Грузии и на Украине

• Методика точнее «работает» на общероссийском уровне, чем на региональном, т.к. в меньшей степени влияют локальные события, резко меняющие ситуацию

2

Page 3: Kategorialnye metody analiza dannyh

Гипотезы, лежащие в основе прогнозирования1. Об электоральном поведении всех избирателей можно

судить по ответам небольшого числа «правильно отобранных» респондентов

2. Респонденты отвечают на вопросы, раскрывая тем самым свои скрытые (латентные) установки

3. Электоральные установки можно оценить, построив:• индикатор склонности участвовать в выборах

• индикаторов отношения к каждому кандидату

4. Т.к. индикатор выражает то общее, что проявляется во всех этих вопросах, анализ ответов на них может подсказать «правило» построения индикатора

3

Page 4: Kategorialnye metody analiza dannyh

Построение индикатора отношения к кандидатам

4

Page 5: Kategorialnye metody analiza dannyh

Вопросы для индикатора отношения• К кому из этих людей Вы относитесь положительно, с доверием? (Здесь и далее

демонстрируется список кандидатов.)

• А к кому из этих людей Вы относитесь отрицательно, с недоверием?

• За кого из кандидатов на пост губернатора нашей области Вы, скорее всего, проголосуете?

• Здесь предусмотрены, но не демонстрируются респондентам также и варианты «испорчу бюллетень», «не пойду на выборы» и «затрудняюсь ответить»

• Если Вам сложно определиться, то возможно, Вы могли бы назвать двух-трёх кандидатов, из числа которых Вы, скорее всего, будете выбирать?

• Вопрос задаётся только затруднившимся ответить на предыдущий

• Я буду называть имена кандидатов, а Вы скажите, пожалуйста, про каждого, допускаетели Вы в принципе возможность проголосовать за него на выборах

• Пять вариантов: «безусловно допускаю», «скорее допускаю», …, «безусловно исключаю», «затрудняюсь ответить»

• По Вашему мнению, кто из людей, перечисленных на карточке, в принципе мог бы справиться с обязанностями губернатора области?

• Агитация в пользу каких кандидатов Вам нравится, не вызывает раздражения?

• Предвыборная агитация в пользу каких кандидатов Вам не нравится, вызывает раздражение?

5

Page 6: Kategorialnye metody analiza dannyh

Ключевая проблема построения индикаторов отношения• Рассмотрим респондента, который сказал

следующее:• Про одного кандидата:

• назвал в числе тех, кому доверяет• скорее допускает возможность проголосовать

• Про другого кандидата:• не назвал в числе тех, кому доверяет• безусловно допускает возможность проголосовать

• К какому из этих кандидатов индикатор отношения данного респондента выше?

• Правило построения индикатора должно быть единым для всех кандидатов

6

Page 7: Kategorialnye metody analiza dannyh

Данные для построения индикатора отношения к каждому из k кандидатов (7 столбцов, 1000*k строк)

1. Доверяете?(да- 1, нет - 0)

… 6. Допускаете?(5-балльная)

7. Способен?(да- 1, нет - 0)

Все респондентыо 1-ом кандидате

(1000 строк)…

Все респондентыо 1-ом кандидате

Все респондентыо 1-ом кандидате

Все респондентыо 2-ом кандидате

(1000 строк)…

Все респондентыо 2-ом кандидате

Все респондентыо 2-ом кандидате

… … … …

Все респондентыо k-ом кандидате

(1000 строк)…

Все респондентыо k-ом кандидате

Все респондентыо k-ом кандидате

7

Page 8: Kategorialnye metody analiza dannyh

Метод построения индикатораотношения• Классический анализ главных компонент

невозможен, т.к. есть ранговые переменные:• не голосую, буду выбирать, голосую• безусловно не допускаю, скорее не допускаю и т.д.

• Категориальный анализ главных компонент (CATPCA) позволяет:

• найти квантификации таких переменных• построить фактор, объясняющий наибольшую долю

дисперсии

• Фактор преобразуется в шкалу [0;100]

• Выясняется, сколько баллов вносит каждый ответ

8

Page 9: Kategorialnye metody analiza dannyh

Пример: квантификация вопросов о выборе из списка кандидатов, баллы

9

0,0

9,4

20,3

не назвал назвал в числе нескольких возможных

сказал, что проголосует

Page 10: Kategorialnye metody analiza dannyh

Пример: квантификация вопросов о выборе из списка кандидатов и участии в выборах, баллы

10

0,0

8,8

19,0 19,020,4

не назвал назвал в числе нескольких возможных

проголосовал бы, но не

пойду

проголосовал бы, но

допускаю, что не пойду

проголосую, точно пойду

Page 11: Kategorialnye metody analiza dannyh

Пример: квантификация вопросов о возможности голосования за каждого кандидата по отдельности, баллы

11

0,0 0,5 0,7

11,7

21,9

безусловно не допускают

скорее не допускают

затруднились ответить

скорее допускают

безусловно допускают

Page 12: Kategorialnye metody analiza dannyh

Правило построения индикатора отношения к кандидату

12

Ответ Баллы

«Безусловно допускаю возможность за него проголосовать» 21,9

«Я за него проголосую» 20,3«Я ему доверяю» 18,9

«Он мог бы, в принципе, исполнять обязанности губернатора» 17,7

«Агитация в его пользу мне нравится, не вызывает раздражения» 12,0

«Скорее допускаю возможность за него проголосовать» 11,7

«Он один из тех, из которых буду выбирать» 9,4

«Я не могу сказать, что ему не доверяю» 5,1

«Не могу сказать, что агитация его в пользу мне не нравится» 4,1

«Затрудняюсь ответить на вопрос о возможности проголосовать» 0,7

«Скорее не допускаю возможности за него проголосовать» 0,5

«Безусловно не допускаю возможности за него проголосовать» 0

Если ничего не сказал о кандидате – 9,9 балла («нейтраль»)

Page 13: Kategorialnye metody analiza dannyh

Предварительный (без учёта явки) прогноз распределения голосов

• Рассчитываются индикаторы отношения к каждому кандидату и для каждого респондента находится максимум по всем кандидатам

• Если этот максимум меньше «нейтрали» (респондент «ругал» всех кандидатов), он испортит бюллетень

• Если максимум равен «нейтрали» («респондент ни про кого ничего не сказал»), его голос распределяется пропорционально голосам остальных респондентов

• Если максимум больше «нейтрали», голос респондента засчитывается кандидату с наибольшими значениями индикатора

• Если таких кандидатов несколько, голос делится между ними поровну

13

Page 14: Kategorialnye metody analiza dannyh

Построение индикатора склонности участвовать в выборах

14

Page 15: Kategorialnye metody analiza dannyh

Принципы прогнозирования участия в выборах• О вероятности фактического участия респондента в выборах можно

судить по его ответам на соответствующие вопросы анкеты

• Вероятности участия в выборах у респондентов с различными электоральными предпочтениями могут различаться

• В частности, вероятности участия в выборах тех респондентов, хотя бы часть голоса которых может отойти кандидату от действующей власти, может оказаться ниже вероятности участия остальных респондентов

• Примечание. Это не относится к респондентам с нейтральным отношением ко всем кандидатам. Вероятность их участия в выборах равна средней вероятности участия остальных респондентов

• Разные вероятности участия голосующих и не голосующих за власть позволяют внести «поправку» на социально одобряемые ответы (большинству респондентов проще декларировать мнение, которого придерживается большинство - «спираль молчания» Ноэль Нойман)

• Параметры зависимости вероятности участия в выборах от ответов респондентов можно оценить по данным о результатах прошедших выборов

15

Page 16: Kategorialnye metody analiza dannyh

Для построения индикатора склонности участвовать в выборах использовались вопросы:

• Как Вы думаете, большинство Ваших знакомых, друзей примут или не примут участие в выборах губернатора?

• 5 вариантов: «безусловно примут», «скорее примут», …, «безусловно не примут», «затрудняюсь ответить»

• Посмотрите, пожалуйста, на карточку и уточните: Вы лично примете или не примете участие в выборах?

• 6 вариантов демонстрируется респондентам:• «совершенно точно не приму участия», «вероятнее всего не

приму участия», «скорее не приму, чем приму участие», …, «совершенно точно приму участие»

• не демонстрируется вариант «затрудняюсь ответить»

16

Page 17: Kategorialnye metody analiza dannyh

Особенность методики построения данного индикатора • Поскольку вопрос о склонности большинства

знакомых респондента участвовать в выборах, не относится к респонденту напрямую, он используется только для квантификации основного вопроса

17

Page 18: Kategorialnye metody analiza dannyh

Квантификация вопроса о склонности участвовать в выборах

18

0,03,2

10,9

17,8

53,4

71,8

100,0

совершенно точно не приму

участие

вероятнее всего не приму

участия

скорее не приму, чем

приму участие

затрудняюсь ответить

скорее приму, чем не приму

участие

вероятнее всего приму

участие

совершенно точно приму

участие

Page 19: Kategorialnye metody analiza dannyh

Поиск вероятности участия в выборах при каждом значении индикатора

• S-образная кривая вероятности участия респондента в выборах в зависимости от значений индикатора отыскивается как интегральная функция нормального распределения

• Параметры этой функции (среднее значение и стандартное отклонение) отыскиваются путём минимизации различий между прогнозами и результатами прошедших ранее выборов

• Используется эволюционный метод, реализованный в надстройке MS Excel (http://www.solver.com)

• С весом 0,7 учитывается квадраты расхождений по голосованию «за власть», с весом 0,3 – расхождения по явке

19

Page 20: Kategorialnye metody analiza dannyh

Результаты оптимального подбора вероятностей(По горизонтальной оси равноудалённые ответы)

20

18,3 18,8 20,2

21,5

29,133,4

40,4

15,0 16,219,1

22,0

40,3

51,0

67,0

0

10

20

30

40

50

60

70

80

совершенно точно не

приму участие

вероятнее всего не

приму участия

скорее не приму, чем

приму участие

затрудняюсь ответить

скорее приму, чем не приму

участие

вероятнее всего приму

участие

совершенно точно приму

участие

ВЕР

ОЯ

ТНО

СТЬ

УЧ

АС

ТИЯ

МН

ОЖ

ЕНА

НА

10

0)

ОТВЕТЫ РЕСПОНДЕНТА О НАМЕРЕНИИ УЧАСТВОВАТЬ В ВЫБОРАХ

Хотя бы часть голоса - "за власть"

Не голосует "за власть"

*Параметры кривых подбирались по данным 4-х опросов за неделю до выборов 2015 г. и 4 опросов – за месяц.

Page 21: Kategorialnye metody analiza dannyh

Результаты оптимального подбора вероятностей (По горизонтальной оси квантификация ответов)

21

0

10

20

30

40

50

60

70

80

0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00

ВЕР

ОЯ

ТНО

СТЬ

УЧ

АС

ТИЯ

МН

ОЖ

ЕНА

НА

10

0)

КВАНТИФИКАЦИЯ ОТВЕТОВ РЕСПОНДЕНТОВ О НАМЕРЕНИИ УЧАСТВОВАТЬ В ВЫБОРАХ

Хотя бы часть голоса - "за власть"

Не голосует "за власть"

*Параметры кривых подбирались по данным 4-х опросов за неделю до выборов 2015 г. и 4 опросов – за месяц.

Page 22: Kategorialnye metody analiza dannyh

Результаты расчётов с новыми параметрами модели

22

Page 23: Kategorialnye metody analiza dannyh

Доли голосов за кандидатов в губернаторы от партии «Единая Россия» (расчёт и данные ЦИК)

50,1 51,9

70,364,2

56,6 56,7

68,8

77,3

50,8 49,6

71,4

60,0

50,6 53,3

70,4

82,1

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

Расчёт после оптимизации параметров Данные ЦИК

23

*В регионах, помеченных звёздочкой, опросы проводились за неделю до выборов, а в остальных – за месяц.

Page 24: Kategorialnye metody analiza dannyh

Расчёт доли голосов, отданных за кандидатов партии «Единая Россия»

53

,0

52

,6

76

,3

68

,4

60

,1 63

,1

77

,5 81

,8

50

,1

51

,9

70

,3

64

,2

56

,6

56

,7

68

,8

77

,3

50

,8

49

,6

71

,4

60

,0

50

,6

53

,3

70

,4

82

,1

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

Расчёт до выборов Расчёт после оптимизации параметров Данные ЦИК

24

Page 25: Kategorialnye metody analiza dannyh

Расчётная и фактическая явка

41,036,7 35,5 37,1 36,8

33,531,1 32,5

49,6

29,2

36,133,8 33,5

21,0

39,6

44,5

0,0

10,0

20,0

30,0

40,0

50,0

60,0

Расчёт после оптимизации параметров Данные ЦИК

25

Page 26: Kategorialnye metody analiza dannyh

Выводы

• Многомерные методы анализа категориальных данных способны помочь в поиске скрытых даже от самих людей (латентных) характеристик, от которых зависит их поведение

• В частности, квантификация категорий вопроса о намерении участвовать в выборах почти линеаризует кривую вероятности

26

Page 27: Kategorialnye metody analiza dannyh

ДополнениеОнлайн сервис для прогнозирования итогов выборовmpp.fom.ru

27

Page 28: Kategorialnye metody analiza dannyh

ФОМ. Машина предвыборных прогнозов

28

Page 29: Kategorialnye metody analiza dannyh

29

Page 30: Kategorialnye metody analiza dannyh

30

Page 31: Kategorialnye metody analiza dannyh

31

Page 32: Kategorialnye metody analiza dannyh

32

Page 33: Kategorialnye metody analiza dannyh

Спасибо за внимание!Галицкий Ефим Борисович

[email protected], [email protected]

33


Recommended