Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - читать онлайн бесплатно, автор Юрий Александрович Васильев, ЛитПортал
bannerbanner
Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие
Добавить В библиотеку
Оценить:

Рейтинг: 4

Поделиться
Купить и скачать

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Год написания книги: 2025
На страницу:
4 из 5
Настройки чтения
Размер шрифта
Высота строк
Поля

ftData <– anorexia [anorexia$Treat==«FT», ] $Prewt # Вес пациентов в группе

# с назначенной семейной терапией

#=======================================================

#Задаем значения интересующих нас квантилей

propQ <– c (0.05, 0.95)

propDec <– c (0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0)

propQvar <– c (0.25, 0.5, 0.75, 1.0)

#=======================================================

contQuan <– quantile (contData, propQ, type = 4)

print (contQuan)

cbtQuan <– quantile (cbtData, propQ, type = 4)

print (cbtQuan)

ftQuan <– quantile (ftData, propQ, type = 4)

print (ftQuan)

2.1.6. Вычисление медианы

Выборочное среднее значение при большом объеме данных, распределенных в соответствии с нормальным законом, стремится к моде53 или наиболее вероятному значению в данной выборке. Такая оценка значений не всегда бывает адекватной, особенно в случае наличия аномалий (значений существенно меньших или существенно больших, чем большинство значений из выборочной совокупности). Для более адекватного описания всей совокупности при наличии выбросов или данных, распределенных отлично от нормального закона распределения, лучше использовать медианную оценку, или медиану – это значение, которое разделяет ранжированную по возрастанию выборку пополам (50% квантиль).

Предположим, имеется упорядоченный по возрастанию ряд чисел 1, 4, 6, 9, 11. Центр этого ряда составляет число 6, это и будет медианой данного ряда. В случае, если ряд имеет четное число значений, то медианой будет являться среднее арифметическое значение между двумя центральными значениями. Например, имеется ряд чисел, упорядоченных по возрастанию: 1, 4, 6, 9, 11, 12 – двумя центральными значениями будут являться 6 и 9, их среднее арифметическое значение равно 7,5 – оно и будет являться медианой.


Пример вычисления медианы

Рассмотрим вычисление медианы на наборе данных anorexia из пакета MASS. Рассчитаем медиану веса пациентов до прохождения лечения в контрольной группе, группе пациентов с предписанной когнитивно-поведенческой терапией и в группе с семейной терапией.


Листинг 9


library (MASS) # Подключаем пакет, содержащий набор данных anorexia

#Вычисляем медиану в контрольной группе пациентов

median (anorexia [anorexia$Treat==«Cont», ] $Prewt)

#=======================================================

# Результат вычисления

#=======================================================

[1] 80.65

#Вычисляем медиану в группе с когнитивно-поведенческой терапией

median (anorexia [anorexia$Treat==«CBT», ] $Prewt)

#=======================================================

#Результат вычисления

#=======================================================

[1] 82.6

#Вычисляем медиану в группе с семейной терапией

median (anorexia [anorexia$Treat==«FT», ] $Prewt)

#=======================================================

#Результат вычисления

#=======================================================

[1] 83.3


Результаты вычислений показывают, что медианная оценка веса пациентов с подтвержденным диагнозом «анорексия» во всех трех группах примерно равна выборочному среднему значению (см. пример в п. 2.1.1), что согласуется с одним из свойств нормального закона распределения количественной величины – медиана, среднее и мода приблизительно равны между собой.

Все значения проведенного базового статистического анализа обобщаются в виде таблицы значений. В таблице 5 представлен пример сводной таблицы базового статистического анализа, проведенного для пациентов с подтвержденным диагнозом anorexia.



Хорошей иллюстрацией для обобщения базового статистического анализа является так называемый ящик с усами – диаграмма размаха, на которой в графическом виде представлен базовый статистический анализ результатов, рассчитанный на основе межквартильного интервала (рисунок 11).


Рисунок 11 – Диаграмма размаха «ящик с усами» веса пациентов: а – до прохождения лечения; б – после прохождения лечения


Центральная (жирная линия) ящика означает медиану, нижняя граница ящика (прямоугольника) означает первый квартиль распределения значений, верхняя граница ящика (прямоугольника) – третий квартиль распределения исследуемой величины (в данном случае веса пациентов), «усы ящика» вычисляются по уравнениям (12, 13):



где Udown – значение нижней границы «усов ящика»; – Q1 первый квартиль; IQR – межквартильный интервал.



где Uup – значение верхней границы усов ящика; Q3 – третий квартиль; IQR – межквартильный интервал.

Точки, выходящие за пределы длины «усов», могут считаться аномальными (значения, сильно отличающиеся в большую или меньшую сторону от основной совокупности значений).

По результатам проведенного базового анализа выдвигается статистическая гипотеза, которая в результате применения различных статистических тестов и/или критериев принимается или отклоняется.

Контрольные вопросы и задачи

1. Напишите уравнение для вычисления выборочного среднего значения.

2. Запишите уравнение для вычисления выборочного среднего квадратического отклонения.

3. Опишите способ поиска медианы в числовом векторе, расположенном в случайном порядке.

4. Используя набор данных Indometh и Theoph из пакета MASS, вычислите медиану, среднее квадратическое отклонение и выборочное среднее значение концентраций индометацина и теофиллина в плазме крови пациентов.

3. ПОНЯТИЕ О СТАТИСТИЧЕСКОЙ ГИПОТЕЗЕ

Статистическая гипотеза – выдвинутое предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным, содержащимся в исследуемой выборке54.

Пусть в эксперименте доступна наблюдению случайная величина X, распределение которой P полностью или частично неизвестно. Тогда любое утверждение относительно P называется статистической гипотезой. Выше были представлены примеры базового статистического анализа веса пациентов с подтвержденным диагнозом anorexia, т.е. вес пациентов, участвовавших в эксперименте, представляет собой случайную величину Х. В главе 1 было дано понятие о Гауссовом (нормальном) типе распределения данных. Предположение о том, что вес пациентов распределен по закону, близкому к нормальному (близко к рисунку 1), будет являться статистической гипотезой.

Гипотезы различают по виду предположений, содержащихся в них:

· Статистическая гипотеза, однозначно определяющая распределение P, то есть H: {P = P0}, где P0 – какой-то конкретный закон (например, вес пациентов во всех группах подчинен одному нормальному закону распределения), называется простой. H – гипотеза, принято различать нулевую гипотезу H0 (вес пациентов с подтвержденным диагнозом «анорексия» распределен нормальным образом) и альтернативную гипотезу H1 (вес пациентов с подтвержденным диагнозом «анорексия» распределен отличным от нормального закона распределения).

· Статистическая гипотеза, утверждающая принадлежность распределения P к некоторому семейству распределений, то есть вида H: {P ∈ 𝒫0}, где 𝒫 – семейство распределений, называется сложной55.

На практике обычно требуется проверить какую-то конкретную и, как правило, простую гипотезу H0. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H1, называемая конкурирующей, или альтернативной (вес пациента принадлежит нормальному закону распределения – нулевая гипотеза, вес пациента не принадлежит нормальному закону распределения – альтернативная гипотеза). В таблице 6 представлены формулировки трех простых нулевых и альтернативных гипотез, которые будут встречаться в тексте пособия при решении трех основных задач:

1. Задача принадлежности данных к нормальному закону распределения.

2. Задача сравнения данных, выделенных по какому-либо признаку в различные группы.

3. Задача выявления статистической зависимости между переменными.



Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами (посредством различных критериев), поэтому гипотезу называют статистической. Для проверки используют критерии, позволяющие принять ее или опровергнуть выдвинутую гипотезу:

· Формулировка основной гипотезы H0 и конкурирующей гипотезы H1 (для примера см. таблицу 5).

· Задание уровня значимости α56, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.

· Расчет статистики j критерия такой, что57:

– ее величина зависит от исходной выборки X = (X1…Xn): φ = φ (X1…Xn);

– по ее значению можно делать выводы об истинности гипотезы H0;

– статистика φ, как функция случайной величины X, также является случайной величиной и подчиняется определенному закону распределения.

· Построение критической области. Из области значений φ выделяется подмножество C таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство P (φC) = α. Это множество C и называется критической областью, α – ошибка первого рода.

· Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику φ и по попаданию (или непопаданию) в критическую область C выносится решение об отвержении (или принятии) выдвинутой гипотезы H0.

В качестве примера рассмотрим нулевую гипотезу о принадлежности распределения данных нормальному закону. На рисунке 12 представлена гистограмма распределения случайной величины – вес пациента с подтвержденным диагнозом «анорексия» (вес пациента является исходной выборкой X, а предполагаемый закон распределения – φ).


Рисунок 12 – Распределение веса пациентов с подтвержденным диагнозом «анорексия». Вертикальная зеленая линия соответствует 95% распределения случайной величины. Красным цветом закрашена критическая область α = 5%


Соответственно, если P (φC)> 0,05, то расхождения считаются статистически незначимыми, а если P (φ ∈ C) ≤ 0,05, то расхождения статистически значимы, и необходимо отвергнуть нулевую гипотезу и принять альтернативную.

В большинстве случаев статистические критерии основаны на случайной выборке (X1, X2, …, Xn) фиксированного объема n ≥ 1 для распределения P. В последовательном анализе выборка формируется в ходе самого эксперимента, и потому ее размер является случайной величиной58.

4. ФОРМУЛИРОВКА НУЛЕВОЙ ГИПОТЕЗЫ

Одним из подходов предварительной формулировки нулевой гипотезы является построение гистограмм распределения случайной величины. На рисунке 13 представлена гистограмма распределения абстрактной случайной величины X.


Рисунок 13 – Гистограмма распределения абстрактной случайной величины X


По виду диаграммы можно сделать предположение о близости типа распределения случайной величины к нормальному закону. Однако не стоит забывать о том, что данное предположение будет являться нулевой гипотезой, которая требует дальнейшей проверки59.

Требование проверки нулевой гипотезы связано с особенностью построения гистограммы распределения случайной величины, а именно с выбором ширины интервалов, в которых подсчитывается число попаданий случайных значений. На рисунке 14 представлены изменения гистограммы случайной величины X (рисунок 13).


Рисунок 14 – Изменение вида гистограммы распределения случайной величины X в зависимости от выбора ширины интервалов, в которых подсчитывается количество случайных величин, попавших в данный интервал: а – зауженный интервал; б – интервал увеличенной ширины; в – интервал средней ширины; г – широкий интервал


В результате предварительного анализа гистограммы, представленной на рисунке 14а, можно выдвинуть нулевую гипотезу о принадлежности распределения случайной величины X близко к дискретному типу распределения.

Результатом визуального анализа гистограммы, представленной на рисунке 14б, может служить постановка нулевой гипотезы о мультимодальности распределения случайной величины Х (в этом случае необходимо проверить сложную статистическую гипотезу; рассмотрение анализа сложных статистических гипотез выходит за рамки данного пособия).

Анализ гистограммы, представленной на рисунке 14в, может стать основой для формулирования нулевой гипотезы о принадлежности распределения случайной величины к нормальному закону распределения.

Таким образом, гистограмма является точкой начала отсчета для формулировки нескольких нулевых гипотез, которые должны быть проверены различными статистическими критериями.

4.1. Расчет оптимального интервала на гистограмме

Расчет оптимального количества интервалов и диапазона значений, попадающих в интервал гистограммы распределения, является важной составляющей базовой статистики и может служить основой для выделения групп равномерно распределенных данных и выработки классификации на их основе. В настоящем пособии рассматривается несколько простых подходов расчета оптимального количества интервалов и диапазона изменения значений. Первый подход основан на эвристической формуле Стерджесса (14)60:



где N – объем анализируемой выборки (количество значений); n – количество интервалов разбиения данных.

В работе61, описывающей применение статистического анализа при контроле качества продукции, применяют уравнение Брукса—Каррузера (15):



Наиболее простым методом оценки количества интервалов является (16)62:



При больших объемах данных рекомендуется использовать уравнение (17)63:



После расчета количества интервалов разбиения гистограммы распределения проводят вычисления ширины интервала по уравнению (18):



где max (X) – максимальное значение исследуемой переменной X; min (X) – минимальное значение исследуемой переменной X; n – количество интервалов на гистограмме.

Соответственно, с использованием уравнения (18) вычисляются первый и последующие интервалы по уравнению (19):



где Xi+1 – правая граница i-го интервала, не превышающая max (X); Xi – левая граница i-го интервала, начало отсчета которой равно min (X).

Высота столбца диаграммы определяется по уравнению (20):



где N – общее количество исследований; Ni – количество исследований в i-м интервале; Hi – высота интервала.

Более точная (и она же более сложная) оценка размера интервала может быть получена при оценках статистической мощности64, данный подход не рассматривается в настоящем пособии.

4.2. Построение гистограмм распределения на языке R

В языке программирования R существует несколько способов построения гистограмм распределения случайной величины:

– с применением функции hist (), входящей в пакет graphics;

– посредством функции geom_histogram (), входящей в состав пакета ggplot2;

– с помощью столбчатой диаграммы с предварительным расчетом частот и интервалов распределения величин. Построение столбчатых диаграмм можно произвести с помощью:

– функции barplot (), входящей в пакет graphics;

– функции geom_bar (), входящей в пакет ggplot2.

В примерах данной главы приведены все перечисленные способы построения гистограммы распределений.


Примеры построения гистограмм распределений на языке R

Для построения диаграмм распределения использовались данные по выживаемости заболевших вирусом иммунодефицита, собранных в Австралии после 1 июля 1991 года. Все данные содержатся в пакете MASS, наборе данных Aids2.


Листинг 10


#Построение гистограммы распределения с помощью функции hist () пакета graphics

library («MASS») #Подключаем пакет MASS, содержащий набор данных Aids2

N <– length (Aids2$Age) #Вычисляем количество пациентов в наборе данных

dBreak <-5*log10 (N) #Определяем количество интервалов для гистограммы

dBreak <– round (dBreak) #Округляем значение до целых чисел

dX <– (max (Aids2$Age) -min (Aids2$Age)) / dBreak #Рассчитываем шаг

step <– seq (min (Aids2$Age),max (Aids2$Age), dX) # Вектор интервалов

hist (x = Aids2$age, break = step, xlab= «Возраст выявления, полных лет»,

ylab = «Количество, чел», main = «Выживаемость, заболевших СПИДом»,

col = «blue») #Строим гистограмму распределения возрастов пациентов с

# с выявленным вирусом иммунодефицита

# x – вектор значений исследуемых распределений, полученный из Data Frame

Продолжение листинга 10


#;

# break – количество участков на гистограмме;

# xlab – подпись оси ОХ;

# ylab – подпись оси OY;

# main – название гистограммы;

# col – задание цвета гистограммы распределения.


Результат выполнения данной команды представлен на рисунке 15.


Рисунок 15 – Результат применения функции

hist () из пакета grahics


Функция hist () хороша для применения при необходимости быстро построить гистограмму и посмотреть на распределение данных, однако более гибким инструментом для построения и дальнейшей публикации гистограмм является функция geom_histogram (), входящая в пакет ggplot2.


Листинг 11


# Построение гистограммы распределения с помощью функции

# geom_histogram () пакета ggplot2

library («MASS») # Подключаем пакет MASS, содержащий набор данных Aids2

library («ggplot2») # Подключаем пакет ggplot2, содержащий функцию # geom_histogram ()

p <– ggplot () #Создаем объект p, содержащий65 слои графика

p <– p + geom_histogram (mapping = aes (x= Aids2$age), fill= «blue», binwith=30)

p <– p+labs (x = «Возраст выявления, полных лет»,

y= «Количество, чел»,

title = «Выживаемость, заболевших СПИДом»)

print (p)


Результат выполнения кода листинга 11 представлен на рисунке 16.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Примечания

1

Более глубокого понимания критериев и тестов можно добиться, ознакомившись с оригинальными публикациями, которые можно найти с помощью поисковой системы https://scholar.google.com.

2

Построение математической модели является обязательным, если конечной целью исследования выступает предсказание каких-либо свойств, описание явлений и процессов (феноменологические модели).

3

Даже если исследователь обладает широким кругозором и высоким уровнем образования в области возникшего вопроса, предварительное проведение литературного обзора необходимо для понимания актуальности вопроса, в частности: какие части возникшего вопроса уже детально исследованы другими авторами, а какие остались без внимания и почему.

4

Для поиска соответствующей литературы рекомендуется использовать специализированные поисковые платформы, такие как Google Scholar (https://scholar.google.com), электронные библиотеки e-library (https://www.elibrary.ru) или PubMed (https://pubmed.ncbi.nlm.nih.gov). Также следует использовать каталоги Российской государственной библиотеки (https://www.rsl.ru) и Государственной публичной научно-технической библиотеки России (https://www.gpntb.ru).

5

В исследовательской практике очень редко рождаются уникальные вопросы – те, с которыми никто ранее не сталкивался. Часто вопрос, возникающий у исследователя, уже был кем-то изучен или изучен не до конца.

6

Хорошим методическим руководством по решению математических (да и в целом исследовательских задач) является книга «Как решать задачу: понимание постановки задачи, составление и осуществление плана, анализ решения». См.: Пойа Д. Как решать задачу: понимание постановки задачи, составление и осуществление плана, анализ решения / пер. с англ. В. Г. Звонаревой и Д. Н. Белла; под ред. и с предисл. Ю. М. Гайдука. 4-е изд. М.: URSS, 2009. 206 с.

На страницу:
4 из 5