Лингвистический анализ корпуса текстов для выявления...

38
Андрей Кутузов (НИУ ВШЭ — Москва) Ольга Мирясова (Институт социологии РАН) Лингвистический анализ корпуса текстов для выявления структуры представлений о власти в среде социальных активистов

Transcript of Лингвистический анализ корпуса текстов для выявления...

Андрей Кутузов (НИУ ВШЭ — Москва)Ольга Мирясова (Институт социологии РАН)

Лингвистический анализ корпуса текстов для выявления структуры представлений о власти в среде

социальных активистов

Методология исследования: теория фреймов Ирвинга Гофмана

Фреймы — совокупность привычных практик, латентных смыслов действий и взаимодействий, которые воспринимаются как должные участниками взаимодействия

Карин Клеман (ЕУ СПб):

– применение идей Гофмана к социальным движениям в России: идея трансформации фрейма

– большинство людей живут с «обывательским» фреймом, который в определенный момент может начать трансформироваться в «активистский»

– люди подключаются к общественной деятельности на основании практического смысла, эмоций и под влиянием необходимости решить проблему

– в сложившихся структурах субординации большинство граждан лишено власти, несмотря на наличие ряда формальных демократических процедур

Трансформация фрейма: от «обывателя» к «активисту»

(1) от восприятия проблемы как частной к восприятию как общей

(2) от индивидуальных способов решения проблем к коллективному действию

(3) от восприятия себя как объекта в политической сфере к восприятию как субъекта, актора («политическое» понимается как отношения по поводу власти)

(4) рост установки на солидарность и чувства уполномоченности (empowerment)

Кейс «Питание в детсадах»Состав социального движения: ● мамы дошкольников (женщины примерно от 22 до 45

лет, как минимум в одном случае — папа и в одном — бабушка, жительницы Москвы, в отдельных случаях — других регионов), пишущие в теме «Питание в детсадах» на форуме «Материнство» в течение 2012 года

● всего 722 пользователя, которые оставили хотя бы одно сообщение в теме

● основная коммуникация — на форуме, иногда — личные встречи (на собраниях в Департаменте образования Москвы, на митингах и пикетах, т.д.)

● проблема: ухудшение качества питания

Митинг в феврале 2012 года

Эмпирические данные● включенное наблюдение-участие в деятельности

движения в 2012 году (обсуждение на форуме, организация акций протеста, встречи в Департаменте образования Москвы, Общественной палате РФ);

● сообщения пользователей форума в теме «Питание в детсадах» (кроме персональных высказываний пользователи иногда копировали в теме тексты официальных документов и статьи из СМИ);

● сообщения в случайной выборке других тем родительского форума в разделе «От 3 до 7 лет», не связанных с протестами.

Митинг в феврале 2012 года

8

Источник текстовых данныхhttp://forum.materinstvo.ru/ - тема о

родительских протестах, связанных с питанием в детсадах (2012)

9

Извлечение текста из форума

(1)Анализируем структуру URL (http://forum.materinstvo.ru/index.php?showtopic=1662341&st=1350)

(2)Скачиваем интересующие нас темы постранично

(3)Получаем несколько тысяч html-файлов

(4)Это сырые данные

(5)Из них нужно сделать структурированные

10

Структурирование данных

● Анализируем html-разметку форума● Пишем регулярные выражения для

извлечения интересующей нас информации, например для текста сообщения:posttext = '<div class=\"postcolor\">(.+?)<!-- THE POST →'

● Получаем структуру данных (21 тысяча сообщений):

Код темы Номер поста

Дата поста

Пост Имя Всего постов

Дата регистрации

Место жительства

1657534 1105 2012-10-23

Пишут, что замораживают

LuMix 14286 23.11.2007 Москва

11

Нормализация текста (лемматизация и фильтрация мусора)● Для анализа нам понадобятся только

значимые слова, притом приведённые к исходной форме. Следовательно необходим список стоп-слов и лемматизатор

«У меня ощущение, что у тех, кто эти нововведения составляет, детей нет вообще и никогда не было, и нет детей у их родственников, ну или они все ходят в частные платные дс.»

«ощущение нововведения составлять дитя вообще дитя родственник ходить частный платный дс»

12

Нормализация текста (лемматизация и фильтрация мусора)● Лемматизатор: Freeling

http://nlp.lsi.upc.edu/freelingНатренирован при помощи скрытых марковских моделей на большом размеченном русском корпусе

● Список стоп-слов: не мудрствуя лукаво, взят из Natural Language ToolKit (NLTK)http://www.nltk.org/nltk_data/

13

Выделение подкорпусов

● Структурированные данные — значит, всегда можно получить любой необходимый срез корпуса (подкорпус):– Только посты «активистов» ( выделенных экспертом-

социологом)

– Только посты зарегистрировавшихся в феврале 2012

– Только посты за август 2012

– ...и так далее

● Общий объём корпуса постов после нормализации: 529498 словоупотреблений (токенов), 43434 слова

14

Преимущества и недостатки анализа текстов форума (по сравнению с полуструктурированными

фокусированными интервью)

1. высказывания имеют место сразу после события или в ходе актуального обсуждения (в интервью – апостериори)

2. высказывания относительно спонтанны и не носят презентационного характера (как в интервью)

3. можно отследить эволюцию высказываний по мере участия в движении

Недостатки:

– неполный характер многих высказываний (форма «сообщение/высказывание — реакция» предполагает неполные предложения),

– тема обсуждения нередко развивается случайным образом в том или ином направлении, и важные явления могут получать минимальное внимание (в интервью можно сконцентрировать внимание на нужном аспекте),

– оценки, мнения, по которым есть консенсус, не являются предметом обсуждения совсем, а спорные вопросы, напротив, обсуждаются долго и подробно

15

Распределение количества постов по пользователям подчиняется закону Ципфа

16

AntConc: частотные словариhttp://www.antlab.sci.waseda.ac.jp/antconc_index.html

17

AntConc: конкордансы

18

AntConc: n-граммы и коллокаты

19

AntConc: n-граммы и коллокаты -2Метрика Mutual Information (MI)

20

AntConc: ключевые словаМетрика Log-Likelihood (LL)

21

Ключевых слова у «активисток» по сравнению с остальными участницами темы

Активисткидепартамент, организация, заведующая, округ, организация, услуга, поставщик, продукт, родитель, меню, должный, школа, образование, родители, контракт, информация, блюдо, Конкорд, требование, письмо, санпин, ДОУ, образовательный, решение, руководитель, пикет, работа, дошкольный, договор, торги, сотрудник, обогащенный, комплексный, сырье, работник, Калина, окружной, комбинат, закон, штат, возраст, привозить, учреждения, документы.

Остальные

девочка, садик, аллергены, индивидуальный, дома, ребенок,

дочка, аллергия, воспитатель, детки, кормить, каша, еда, пить, мамочка, группа, меню, напиток,

шок, сын, неделя, вредный, отказываться, голодный, кушать,

съедать, киви, собрание, манный, ГМО, муж, путаница, «Растишки»,

ДС, утро, пастила, организм, больничный, сахар, пятно,

пельмени, «Темка», «Агуша», собрание, масло, знакомый,

домой, котлета, мандарин, груша, дом, яблоко, химия, печь,

высыпать

22

Ключевые слова темы «Питание в детсадах», связанные с политической сферой

Частота

Log-

Likelihood лемма

98 82,037 выборы

98 82,037 депутат

127 78,548 президент

122 73,715 правительство

61 73,714 собянину

162 59,656 прокуратура

129 58,820 власть

63 52,154 протест

Частота

Log-

Likelihood лемма

49 50,991 политический

77 49,631 объединяться

40 48,337 чинуша

186 41,571 бороться

74 41,326 гражданин

66 41,713 мэр

32 38,670 кпрф

30 36,253 партия

41 36,531 путина

23

Строим таймлайны или зачем структурировать данные

24

Строим таймлайны или зачем структурировать данные -2

25

Строим таймлайны или зачем структурировать данные -3

26

Выводы по таймлайнам и частотному анализу

● 24 активистки высказывались активнее, чем остальные участницы темы (697 человек), активность высказываний в течение 2012 года упала у всех, но у остальных — сильнее (таймлайн «Объем текста, опубликованного по дням»).

● Активистки заметно чаще используют словарь, связанный со взаимодействием с административными структурами и разработкой документов и предложений со стороны родителей в органы власти.

● Язык остальных участниц — больше связан с уходом за детьми и здоровьем (названия продуктов, блюд, производителей детского питания), чаще присутствуют слова «детского словаря», а также связанные с локальным уровнем проблемы — семьей, детским садом.

● Различия в активности использования политического словаря незначительны. Слова из политической сферы используются довольно редко (динамика видна, например, на таймлайнах по словам «партия», «политика», «протест», «государство», «депутат»).

27

Интерпретация таймлайнов

● тематика обсуждений менялась в течение года● митинги, пикеты обсуждались в моменты их проведения● темы торгов на поставку продуктов питания и перевода

поваров в штат компаний-поставщиков продуктов появились в середине лета и оставались востребованными всю осень (слова: договор, документы, дошкольный, работник, сотрудник, решение, родитель, руководитель, сырье, учреждение, штат)

● некоторые слова однозначно преобладают у «остальных» в течение всего года (таймлайны «девочка», «детки», «дома», «дочка», «кушать», «мамочка», «садик», «шок» и т. д.), некоторые дают разные показатели в разные периоды

28

Текст как лексический векторЧтобы надежно сравнивать и отличать тексты друг от друга, их нужно превратить в числа — в лексические векторы.

Простейшая модель - «мешок слов», bag-of-words. Тогда текст — это точка в пространстве размерности n, где n = объём словаря, а каждое измерение — частота слова в документе.

29

Автоматическая классификация текстов: гиперплоскости и машины опорных векторов

30

Как это делать?

● Weka, http://www.cs.waikato.ac.nz/ml/weka/● Orange, http://orange.biolab.si ● ...другие пакеты для машинного обучения и data mining'а● В Weka:

– Раскладываем тексты по папкам, соответствующим классам

– Создаем .arff-файл при помощи TextDirectoryLoader– При помощи StringToWordVector превращаем тексты в

наборы численных признаков– Применяем нужный классификатор или

кластеризатор (или все по очереди) :-)

31

Результаты классификации (Weka, SVM-классификатор)

● Тексты из «протестной» темы про детское питание отделяются от случайной выборки из других тем форума очень надёжно (почти линейная разделимость).Точность: 0,98Полнота: 0,81 kappa: 0,8535

● Достаточно Top-500 слов

● Внутри этой темы тексты «активисток» отличаются от остальных уже не так резко.Из 24 «активисток» 7 по лексическим признакам относятся к «остальным».Точность: 0,7Полнота: 0,7kappa: 0,6983

● Приходится использовать не менее 5000 слов

32

Результаты классификации — 2 Ключевые признаки (лексемы)

● Для отделения темы «питание» от прочих:

– масло

– меню

– митинг

– напиток

– пикет

– питание

– повар

– подарок

– продукт

● Для отделения «активисток» от остальных:– сегодня

– отвар

– дискуссия

– поражать

– витаминизированный

– профсоюз

– возить

– рддо

– проголосовать

– прибавляться

33

Сравнение текстов темы «Питание в детсадах» и других тем на форуме

● Преобладает тема непосредственно питания (меню, питание, продукт, масло, блюдо, напиток, хлеб, меланж и т.д.),

● Затем — организационные вопросы питания (повар, поставщик, организация, подпись, контакт, письмо, департамент, услуга, «Конкорд»).

● На третьем месте — протестная активность (пикет, митинг, листовка), на четвертом — освещение в СМИ (журналист, сми, пресса).

● Власть — только пятом месте.

34

Автоматическая кластеризация текстов

● «Классификация без заранее заданных классов»

● Какие группы можно выделить среди участников «протестной» темы чисто лингвостатистическими методами (EM и т.п.)?

35

Результаты кластеризации материала

● Выделенные экспертом «активистки» (24 человека) на кластеры практически не делятся.

● Если кластеризовать всех участников темы, то надежно выделяется кластер 1 из 105 человек, в который входят все «активистки» и ≈80 «остальных», и кластер 2, где

исключительно «остальные». Оценка эксперта

■- активистки

Автоматическая кластеризация

36

Выводы● Политическая лексика слабо представлена в теме

«Питание в детсадах», несмотря на то, что участники движения претендуют на перераспределение властных полномочий (на принятие решений в сфере питания)

● Лексика активисток отличается от остальных участниц темы преобладанием словоформ, связанных с организацией питания в дошкольных учреждениях. Им свойственна установка на решение проблемы в целом. Остальные сосредоточены на проблемах своих детей

● Активистки в течение 2012 года оставались на начальном этапе трансформации «обывательского» фрейма

● Нуждаются в проверке гипотезы: – трансформация фреймов произошла, но не проявилась в лексике на

форуме,

– активистки пришли на форум с «готовым» активистским фреймом.

37

Компьютерная лингвистика и социология: сбор данных и интерпретация

Андрей Кутузов (НИУ ВШЭ — Москва)Ольга Мирясова (Институт социологии РАН)

Спасибо за внимание!

Вопросы[email protected]@gmail.com