Практикум по анализу данных в социологии в программе SPSS
Наталья Сергеевна Воронина
Учебное пособие «Практикум по анализу данных в социологии в программе SPSS» Н. С. Ворониной, старшего научного сотрудника ИС ФНИСЦ РАН, представляет собой тщательно разработанное руководство по освоению анализа данных. Каждая из двенадцати глав посвящена определенному аспекту анализа данных, от базовых навыков до регрессионного и дискриминантного анализа, начинается с краткого введения, за которым следует пошаговая демонстрация соответствующих методов и процедур. Подробные объяснения в сочетании с практическими примерами позволяют читателям понять основные концепции и эффективно применять их в своих исследованиях.
Наталья Сергеевна Воронина
Практикум по анализу данных в социологии в программе SPSS
Посвящаю своей маме
Ворониной Елене Владимировне
Федеральное государственное бюджетное образовательное учреждение высшего образования «Государственный Академический Университет Гуманитарных Наук»
Рецензенты:
Григорьев Дмитрий Сергеевич – кандидат психологических наук,
научный сотрудник НИУ ВШЭ;
Кученкова Анна Владимировна – кандидат социологических наук,
старший научный сотрудник Института социологии ФНИСЦ РАН,
доцент РГГУ и ГАУГН;
Стрельникова Анна Владимировна – кандидат социологических наук,
доцент НИУ ВШЭ,
старший научный сотрудник Института социологии ФНИСЦ РАН,
доцент ГАУГН
© Воронина Н. С., 2024
© Рачко Г. Н., иллюстрации. 2024
Введение
В данном пособии читатель найдет краткий и простой в использовании курс по применению социологами статистических методов для анализа данных.
Акцент в учебном пособии сделан на практическом использовании навыка анализа данных и интерпретации полученных результатов. При описании назначения методов мы пытались сделать материал максимально понятным. Изучив приведенные примеры гайдов по выполнению статистических операций в SPSS и примеры интерпретации данных для конкретных социологических задач, читатель сможет применять полученные знания к своим исследованиям.
Очень часто в рабочем процессе автор данного учебного пособия сталкивался со студентами и коллегами, «убежденными качественниками», которые считали, что для анализа данных необходимо обладать неординарными математическими способностями и им никогда не овладеть таким навыком. Мы написали практическое руководство так, чтобы человек, даже без специальной математической подготовки, понял, что анализ данных можно освоить и успешно применять в исследовательской практике.
Книга адресована студентам бакалавриата и магистратуры, исследователям и специалистам, а также может быть полезна для преподавателей дисциплин по анализу данных, SPSS, так как содержит большое количество практических заданий и тестов.
Учебное пособие состоит из 12 глав. Каждая из глав о методах анализа данных включает в себя разделы:
1) для чего нужен метод,
2) требования и ограничения / условия применения метода,
3) как выполнить анализ в SPSS, а также интерпретацию полученных результатов.
Каждая из глав содержит вопросы для самопроверки, практические задания, список рекомендуемой литературы по теме и список примеров работ, где можно посмотреть, как другие авторы проводили аналогичный анализ.
Глава 1 посвящена объяснению того, как практически применять навыки анализа данных в научных работах, отчетах, дипломах, где предполагается применение количественной методологии. Для того чтобы показать место анализа данных в структуре научной работы, автор приводит описание каждого из пунктов структуры. На примерах показано, как приступить к анализу литературы, как написать введение, что должно быть описано в актуальности, как найти аргументы в пользу актуальности изучаемой темы, что позволяет выявить проблему исследования, как сформулировать цель и задачи исследования, как нащупать гипотезы исследования, описать данные и методы исследования и, наконец, интерпретировать результаты, привести основные выводы и обсудить полученные результаты. Также глава содержит описание наиболее распространенных ошибок при составлении анкеты для социологического исследования. После прочтения этой главы читатель поймет, что анализ данных не может существовать без проработки всех пунктов, описанной структуры и должен обязательно служить решением поставленной научной проблемы.
Главы 2-12 посвящены технологическим аспектам применения SPSS для анализа данных в социологических исследованиях.
Глава 2 знакомит читателя с программой SPSS, позволяет овладеть навыком ввода и загрузки данных. Автор показывает на конкретных примерах, как определять уровень измерения шкал в социологических исследованиях и правильно их применять в соответствии с той или иной задачей. Компьютерная программа производит анализ данных по тем данным, которые мы вводим, соответственно, задача исследователя в том, чтобы все виды анализа осуществлялись для тех шкал, для которых каждый из них предназначается. Автор показывает, как вводить данные по вопросам с множественными ответами, а также как вводить данные по «табличным вопросам». Большое количество практических примеров позволяет понять данную тему и не сомневаться в выборе шкал, что очень важно для исследователя.
Глава 3. Прежде чем выполнять расчеты, часто необходимо подготовить данные. Поэтому эта глава посвящена преобразованию данных и отбору по условиям. Глава включает разделы о взвешивании данных, создании фильтров (когда необходимо анализировать лишь часть выборки), описывает процедуру расщепления файла, функцию объединения данных, перекодировку в те же и другие переменные, освещает процедуру ранжирования наблюдений, вычисления новой переменной с примером расчета социологического индекса и описывает процедуру проверки индекса на надежность.
Глава 4 посвящена одномерному анализу данных, без которого не обходится ни одно количественное исследование. Данный вид анализа, в частности, позволяет получить представление о распределении частоты ответов респондентов на интересующий исследователя вопрос. В этой главе рассматривается выполнение частотного анализа, описательных статистик, расчет мер центральной тенденции, разброса, а также анализ множественных ответов. Читатель знакомится с выполнением расчета средних значений. Методы сравнения средних значений рассматриваются в главах 5 и 6.
Глава 5 посвящена сравнению средних значений для параметрических данных. Глава включает в себя рассмотрение одновыборочного T-критерия, T-критерия для независимых выборок, Т-критерия для парных выборок, а также однофакторный дисперсионный анализ (ANOVA).
Глава 6 рассматривает процедуры сравнения средних значений, но для непараметрических данных. Глава включает в себя рассмотрение критерия Манна – Уитни, критерия Краскела – Уоллиса, критерия Вилкоксона, критерия Фридмана.
Глава 7 описывает методику двумерного анализа данных. Из главы читатель узнает, как анализировать таблицы сопряженности, а также как правильно применять коэффициенты связи для разных шкал. Для определения связи между номинальными данными в главе подробно рассматривается критерий Хи-квадрат, для количественных шкал – коэффициент корреляции Пирсона, для порядковых – коэффициенты корреляции Спирмена и Кендалла. А также глава содержит раздел о частных корреляциях.
Глава 8 рассматривает регрессионный анализ, который позволяет выявить связь между одной зависимой и одной или несколькими независимыми переменными. В отличие от коэффициентов корреляции регрессионный анализ позволяет выявить влияние независимых переменных на зависимую переменную.
В главе рассматриваются разные виды регрессионного анализа в зависимости от уровня измерения шкалы: простая и множественная регрессия (когда и независимые переменные, и зависимая переменная измерены в количественной шкале); линейная регрессия с фиктивными переменными для случаев, когда игрек количественный, а в качестве иксов есть необходимость ввести номинальные переменные; линейная регрессия с эффектами взаимодействия, когда исследователь предполагает, что характер связи переменных может быть неоднороден в зависимости от подгрупп; бинарная логистическая регрессия для ситуации, когда игрек может принимать только два значения, а иксы могут быть измерены по любой шкале; мультиномиальная регрессия – частный случай бинарной логистической регрессии, – когда игрек принимает три значения и более, а иксы измерены по любой шкале; порядковая регрессия, когда зависимая переменная (игрек) измерена в порядковой шкале, а иксы могут быть любыми.
Глава 9 посвящена обсуждению факторного анализа (ФА) и метода главных компонент (МГК). Приводится обсуждение различий метода ФА и МГК. Факторный анализ претендует на выявление некоторых латентных переменных, а метод главных компонент позволяет сократить размерность пространства. Таким образом, он может быть обоснованием создания индекса.
Глава 10 описывает методику проведения кластерного анализа, представляющего метод многомерной классификации данных, позволяющего находить группы похожих объектов в пространстве данных по заданным параметрам классификации. В главе также рассматривается метод классификации к-средних.
Глава 11 рассматривает метод деревьев решений (CHAID), который также относится к методам многомерной классификации. С помощью данного метода можно ответить на вопрос, какие из независимых переменных наиболее сильно связаны с зависимой переменной. В социологии данный метод часто применяется для построения социально-демографического портрета какой-либо из социальных групп. Метод очень нагляден, удобен в интерпретации и в использовании, поскольку позволяет осуществить применение любого вида шкал, а также он устойчив к выбросам, позволяет улавливать не только линейные, но и нелинейные связи.
Глава 12 описывает дискриминантный анализ. Данный метод многомерной классификации предполагает предсказание попадания объектов в определенный класс. Задача метода – узнать, отличаются ли друг от друга классы по заданным параметрам.
Перед прочтением данного учебного пособия рекомендуем повторить[1 - Например, по литературе: Пашкевич А. В. Теория вероятности и математическая статистика для социологов и менеджеров: Учебник для вузов / Под. ред. А. А. Макарова. Новое издание. – М.: МЦНМО, 2020. С 352.] базовые для социолога понятия, которые будут встречаться в тексте, такие как выборка, генеральная совокупность, статистическая гипотеза, доверительный интервал, ошибка первого и второго рода, нулевая и альтернативная гипотезы, статистическая значимость, нормальное распределение, мода, медиана, среднее значение и другие.
Необходимо отметить, что при анализе данных в большинстве случаев мы имеем дело с выборками, а не с генеральной совокупностью. Практически никогда у нас нет в доступе генеральной совокупности. Поэтому за страницами данной книги останутся темы качества выборки, ее репрезентативности, правильного сбора данных, так как это темы для отдельного обсуждения.
Для исследовательских задач редко бывает необходимо получать результаты по конкретной нерепрезентативной выборке, обычно важно переносить результаты выборки на генеральную совокупность. Поэтому в учебном пособии большое внимание уделяется способам переноса данных с исследуемой выборки на генеральную совокупность, для этого осуществляется проверка статистических гипотез. Большинство методов анализа, которые мы будем обсуждать, предполагают генерализацию выводов (то есть статистическую проверку того, что вывод, полученный на выборке, которую мы используем, характерен и для генеральной совокупности).
Автор книги – Наталья Сергеевна Воронина – кандидат социологических наук, старший научный сотрудник Института социологии ФНИСЦ РАН, доцент Государственного университета гуманитарных наук (где преподает дисциплину «Практикум по анализу данных в социологии» с 2017 года), автор более 50 научных публикаций по социологии, участник многочисленных научных грантов РНФ, РФФИ. Наталья Сергеевна Воронина окончила школу с золотой медалью, с 2005 по 2010 год обучалась в ГАУГН (получен диплом с отличием, специальность «социолог, преподаватель социологии»), затем продолжила освоение количественных методов в социологии с помощью ряда курсов повышения квалификации (2017 год – «Количественный анализ социальных данных на основе SPSS и R» НИУ ВШЭ, 2017 год – «Методы многомерной классификации» НИУ ВШЭ, 2019 год – «Математические методы в психологии» СПбГУ, 2019 год – «Эксперт IBM SPSS Statistics» МГТУ имени Баумана).
Автор хотел бы поблагодарить своих преподавателей количественных методов Г. Г. Татарову, Ю. Н. Толстову, А. В. Стрельникову, А. Ю. Кропачева, Ю. Б. Епихину, М. Ф. Черныша, которые оказали неоценимую поддержку автору на этапе приобретения исследовательских навыков, призывали аккуратно относиться к анализу данных, познакомили с количественными методами и привили любовь к аналитической деятельности. Автор благодарит рецензентов Д. С. Григорьева, А. В. Стрельникову и А. В. Кученкову, а также Практикум по анализу данных в социологии в программе SPSS А. В. Жаворонкова за ценные комментарии и научную редактуру, которые были учтены при доработке текста. Благодарю А. В. Андреенкову за возможность анализировать российские данные Европейского Социального Исслледования, Ю. А. Зубок за небезразличное отношение к проблемам молодых ученых, коллег из ИСФНИСЦ РАН, которые всегда помогали советом и вдохновляли личным примером. Благодарю Д. Колодинского за качественную верстку данного учебного пособия. А также благодарю всю свою семью за поддержку.
Автор отдельно хотел бы поблагодарить преподавателя курсов повышения квалификации в НИУ ВШЭ Воронину Наталью Дмитриевну, чьи лекции были полезными для освоения навыка анализа данных. Знания, полученные на этих курсах, были использованы автором в собственной преподавательской деятельности и при составлении данного учебного пособия.
Автор благодарит талантливую молодую художницу Галину Рачко, придумавшую и создавшую иллюстрации к этой книге, с помощью которых мир анализа данных, мы надеемся, станет еще увлекательнее.