Оценить:
 Рейтинг: 0

Основы регрессионного моделирования для психологов

Год написания книги
2019
<< 1 2 3 4 >>
На страницу:
2 из 4
Настройки чтения
Размер шрифта
Высота строк
Поля

В реальности связь между двумя переменными носила не функциональный характер, который отражен квадратичной функцией (параболой), а стохастический, выраженный графиком, по форме напоминающим параболу. И только в результате аппроксимации регрессией реальных данных была получена параболическая функциональная зависимость, показывающая, как изменяется в среднем (выделяем специально) качество деятельности (зависимая переменная) при изменении на одну единицу мотивации (независимой переменной).

Аппроксимация регрессией – приближенное аналитическое (формульное) выражение регрессии по ряду пар значений.

Обращаем внимание на две существенные детали.

Первая деталь не связана с методологическими аспектами науки психологии, а характерна для регрессионного анализа в любой научной дисциплине (технике, экономике, социологии и т. д.). Она заключается в том, что, усредняя значения зависимой переменной в результате проведения регрессии, мы потеряли какую-то часть информации, которая отражена в стохастической связи, но приобрели что-то очень важное – возможность численно моделировать зависимую переменную по значениям независимой переменной.

Вторая деталь, как следствие первой, связана с методологией психологии. В психологии существует несколько направлений, которые опираются на идею абсолютной уникальности каждого человека, и, следовательно, усреднения, получаемые в результате регрессионного анализа, вообще бессмысленны. В частности, на уровне усредненных значений зависимой переменной по всей выборке мы можем наблюдать рост усредненных значений зависимой переменной при повышении значений независимой переменной, а на уровне отдельного испытуемого значения зависимой переменной могут не только не изменяться, но даже уменьшаться.

1.2. Регрессионные модели и математические модели

Термин «регрессия» был предложен Ф. Гальтоном в конце XIX в. Он обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост, и назвал этот феномен «регрессия к посредственности». Сначала этот термин использовался исключительно в биологическом смысле. После работ К. Пирсона его стали использовать и в статистике. Регрессионный анализ – метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и одной или нескольких независимых переменных (объясняющей переменной). Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных.

Регрессионная модель f(w, x) – это семейство математических функций, задающее отображение f: W ? X ? Y,

где: w ? W – пространство параметров;

x ? X – пространство независимых переменных;

Y – пространство зависимых переменных.

С точки зрения возможности формализации закономерностей, в том числе и в психологии, необходимо различать математические модели и регрессионные модели.

Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой – объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создается параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели – нахождение ее параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика – основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов[4 - Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН, 2008.].

Регрессионное моделирование – активно развивающийся класс методов. Они находятся на стыке анализа данных и моделирования явлений. Корень регрессионного моделирования – нахождение уравнения регрессии.

Уравнение регрессии – математическая функция, которая выражает связь между усредненными значениями одной зависимой переменной и одной или несколькими независимыми переменными.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто малоинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели.

Нахождение параметров регрессионной модели называется обучением модели.

Недостатки регрессионного анализа по сравнению с математическим моделированием:

– модели, имеющие слишком малую сложность, могут оказаться неточными;

– модели, имеющие избыточную сложность, могут оказаться переобученными.

Примерами регрессионных моделей являются: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи (например, однослойный персептрон Розенблатта), радиальные базисные функции и т. д.

Примерами математических моделей являются: математические модели на основе теории игр, модель «хищник – жертва», модель маятника и т. д.

1.3. Зависимая и независимая переменные и регрессионный анализ

Студенты-психологи при формулировке эмпирических гипотез научного исследования достаточно часто выдвигают предположение об одностороннем влиянии одной переменной на другую. В самой гипотезе это проявляется в выражениях типа: «переменная х является причиной переменной у», или «переменная х определяет переменную у», или «переменная х является основанием для переменной у».

Но в проверке такого рода гипотез допускают две методологические ошибки. Во-первых, забывают о том, что проверка такого рода гипотез возможна только через эксперимент.. В научных исследованиях изучить влияние одной переменной на другую, определить наличие каузальной связи и попытаться найти ее количественное выражение можно только с помощью одного метода – эксперимента. Изучение методологии, границ применимости и технологии проведения эксперимента в психологии составляет задачу другой дисциплины – экспериментальной психологии. Мы только заметим, что сегодня в психологии, в отличие от конца XIX – начала XX в. (тогда в психологии господствовал эксперимент), проводится достаточно мало экспериментальных исследований, и те, как правило, имеют статус квазиэксперимента. В реальности же в эмпирических исследованиях (особенно в студенческих научных исследованиях) имеют место одномоментные тестовые срезы двух или нескольких переменных с последующей статистической обработкой.

Во-вторых, степень влияния одной переменной на другую связывают с проведением корреляционного анализа и последующей интерпретацией коэффициента корреляции. Следует всегда помнить, что корреляция показывает взаимосвязь, но не влияние.

Можно ли в такой ситуации однозначно определить каузальную (генетическую) связь на основе статистической обработки данных? Ответ – категорическое нет. Но меры влияния одной переменной на другую статистическими методами определить можно. И, сравнив между собой эти меры, можно с определенными оговорками определиться, какую переменную лучше использовать в качестве объясняющей (независимой), а какую – в качестве объясняемой (зависимой).

Мы предлагаем три варианта решения данной задачи. Заметим, что в основе первых двух лежит один и тот же статистический механизм, который определяется отношением вариативности зависимой переменной, отраженной в дисперсии, обусловленной воздействием независимой переменной (фактора), к общей вариативности зависимой переменной, также отраженной в дисперсии. Третий метод, который предложен Чамберсом и который он назвал «метод корреспондирующей регрессии», также связан с оценкой дисперсии, но в отличие от двух первых еще предполагает и применение корреляции.

Первый вариант решения этой задачи, который мы представляем в данном пособии, осуществляется посредством сравнения отношений условной и безусловной дисперсии переменных через расчет коэффициента детерминации (?

). Коэффициент детерминации (иногда его называют корреляционным отношением[5 - Математическая статистика / В. М. Иванова [и др.]. 2-е изд., перераб. и доп. М.: Высшая школа, 1981.]) позволяет определить долю дисперсии, обусловленную воздействием одной из переменных на другую в общей дисперсии переменной, и наоборот, и тем самым определить меру влияния одной переменной на другую.

И если переменные х и у неравноправны (одна больше влияет на другую), то это может быть основанием для того, чтобы одну из них рассматривать как объясняющую (независимую) переменную, а другую – как объясняемую (зависимую) переменную.

Решение вышеназванной задачи на статистическом уровне связано с так называемыми условными средними, образованными вариативностью одной переменной при воздействии другой переменной.

Условное среднее – среднее арифметическое нескольких наблюдаемых значений одной переменной при одном и том же значении другой переменной.

Заметим, что в психологии, если мы в эмпирических результатах не имеем условных средних в зависимой переменной, это является не следствием реального положения вещей, а следствием действия двух причин.

Причина первая связана с тем, что объем выборки слишком маленький, и для появления условных средних необходимо просто увеличить объем выборки.

Причина вторая связана с размерностью шкалы, которую мы использовали в измерении каких-либо психологических переменных (при замере переменных по интервальной шкале). Например, если переменная будет измерена по 5-балльной шкале, то вероятность появления условных средних будет значительно выше, чем в ситуации, когда переменная измерена по 30-балльной шкале.

Практическими примерами разной размерности могут служить две общеизвестные методики изучения личности – Кеттелла и MMPI.

Формула для расчета коэффициента детерминации (?

):

где: SS

– сумма квадратов отклонений y от общего среднего по y (определяет общую вариативность признака под влиянием всей совокупности факторов, обусловливающих эту вариативность);

SS

– сумма квадратов отклонений y от среднего для y по каждому значению признака x (определяет вариативность результативного признака, обусловленную влиянием неучтенных факторов, которая не зависит от признака-фактора).

Из формулы следует, что чем меньше влияние на дисперсию результативного признака неучтенных факторов, тем выше дисперсия, обусловленная действием самой независимой переменной и, соответственно, тем выше значение ?

.

Покажем на примере решение этой задачи.

Пример 1.1. В студенческой группе было проведено исследование уровня агрессивности (тест-опросник Басса–Дарки) и уровня субъективного ощущения студентами своего одиночества (тест-опросник Д. Рассела, Л. Пепло, М. Фергюсона), в результате которого были получены данные, отраженные в табл. 1.1 (x – агрессивность, y – чувство одиночества).

Таблица 1.1

Данные исследования

Если немного поразмыслить по поводу ответа на вопрос, что же, (агрессивность или одиночество) больше влияет друг на друга, то логика может быть такова. Может ли агрессивность быть объяснением чувства одиночества? Пожалуй, да. Может ли чувство одиночества быть объяснением агрессивности? Пожалуй, тоже да.
<< 1 2 3 4 >>
На страницу:
2 из 4