Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - читать онлайн бесплатно, автор Юрий Александрович Васильев, ЛитПортал
bannerbanner
Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие
Добавить В библиотеку
Оценить:

Рейтинг: 4

Поделиться
Купить и скачать

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Год написания книги: 2025
На страницу:
1 из 5
Настройки чтения
Размер шрифта
Высота строк
Поля

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях

Учебное пособие

Авторы: Васильев Юрий Александрович, Владзимирский Антон Вячеславович, Никитин Никита Юрьевич, Будыкина Анна Владимировна, Памова Анастасия Петровна, Бобровская Татьяна Михайловна, Арзамасов Кирилл Михайлович


Редактор Анжелика Ивановна Овчарова

Верстка Екатерина Дмитриевна Бугаенко

Дизайнер обложки Екатерина Дмитриевна Бугаенко


© Юрий Александрович Васильев, 2025

© Антон Вячеславович Владзимирский, 2025

© Никита Юрьевич Никитин, 2025

© Анна Владимировна Будыкина, 2025

© Анастасия Петровна Памова, 2025

© Татьяна Михайловна Бобровская, 2025

© Кирилл Михайлович Арзамасов, 2025

© Екатерина Дмитриевна Бугаенко, дизайн обложки, 2025


ISBN 978-5-0068-6196-1

Создано в интеллектуальной издательской системе Ridero

Рекомендовано Координационным советом по области образования «Здравоохранение и медицинские науки» в качестве учебного пособия для использования в образовательных учреждениях, реализующих основные профессиональные программы высшего образования по программам специалитета 30.05.03 «Медицинская кибернетика» (протокол №091 от 19.06.2025, рег. номер 3200 ЭКУ от 19.06.2025).


Учебное пособие подготовлено авторским коллективом в рамках выполнения НИОКР «Разработка платформы повышения качества ИИ-сервисов для медицинской диагностики» (№ЕГИСУ: 123031400006—0) в соответствии с приказом Департамента здравоохранения города Москвы от 17.12.2024 №1184 «Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счет средств бюджета города Москвы, государственным бюджетным (автономным) учреждениям, подведомственным Департаменту здравоохранения города Москвы, на 2025 год и плановый период 2026 и 2027 годов».

РЕЦЕНЗЕНТЫ

Галиновский Андрей Леонидович – д-р техн. наук, д-р пед. наук, заведующий кафедрой СМ-12 «МГТУ им. Н. Э. Баумана»

Носовский Андрей Максимович – д-р биол. наук, ведущий научный сотрудник ФГБУН «ГНЦ РФ – ИМБП РАН»

НОРМАТИВНЫЕ ССЫЛКИ

В настоящем документе использованы ссылки на следующие нормативные документы (стандарты):

– ГОСТ Р ИСО 5479—2002. Статистические методы. Проверка отклонения распределения вероятности от нормального распределения.

– Рекомендации по стандартизации Р 50.1.033—2001. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 1. Критерий Хи-квадрат.

– Рекомендации по стандартизации Р 50.1.037—2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 2. Непараметрические критерии.

ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ


КАК РАБОТАТЬ С УЧЕБНЫМ ПОСОБИЕМ

Учебное пособие предназначено для слушателей курса «Методология планирования и проведения научных исследований. Биостатистика» по научной специальности 3.1.25. Лучевая диагностика и не является самоучителем (в широком смысле данного понятия) по программированию и статистическому анализу данных на языке R, а представляет дополнение к очному курсу по предмету.

Слушателям, которые впервые сталкиваются со статистическим анализом данных и языком программирования R и решили самостоятельно освоить предмет (программирование на языке R и статистический анализ данных) с помощью представленного пособия, авторы рекомендуют следующий порядок изучения материала:

1. Детально изучить приложение Б пособия и освоить основной синтаксис языка R. Если приведенного материала покажется недостаточно, то можно обратиться к работе Н. Мэтлоффа [3].

2. Далее последовательно ознакомиться с материалом, изложенным в пособии. К каждому статистическому критерию или тесту приведены детальные примеры его применения с кодом, написанным на языке R.

3. Если освоение материала проходит самостоятельно, без возможности прямого или удаленного контакта с консультантом, и представленный в пособии материал кажется непонятным, то обучаемому рекомендуется ознакомиться с источниками [1], [2], [4] списка литературы1.

Для слушателей курса «Методология планирования и проведения научных исследований. Биостатистика» по научной специальности 3.1.25. Лучевая диагностика, проходящих обучение под руководством преподавателя, учебное пособие является дополнительным источником, позволяющим лучше усвоить материал лекций и практических занятий. В этом случае порядок работы с данным пособием соответствует порядку чтения лекций и проведения семинарских занятий. Слушателям рекомендуется провести самостоятельное статистическое исследование в соответствии с алгоритмом, представленным на рисунке 2 раздела «Введение», на основе открытых наборов данных. Интернет-ресурсы с открытыми наборами данных указаны в параграфе 2.8.

При использовании электронной версии пособия у читателя возникнет желание не вводить код вручную, а копировать программный код из текста и вставлять его в файл скрипта. Настоятельно не рекомендуется это делать по двум основным причинам:

1. При самостоятельном наборе программного кода команды алгоритм работы с данными лучше запоминается.

2. При прямом переносе и немедленном исполнении возникают ошибки, связанные с различиями стандартных шрифтов, принятых при наборе текста в пособии, и шрифтами, применяемыми в интегрированной среде разработки. Наиболее частая ошибка связана с кавычками, знаком «минус» (при переносе может быть воспринят как знак дефиса), применяемыми для экранирования строковых констант или значений.

ВВЕДЕНИЕ

Научная методология проведения исследований включает в себя:

1) постановку вопроса;

2) обзор и анализ литературы;

3) формулировку цели исследования;

4) формулировку задач исследования;

5) формулировку предварительной гипотезы;

6) планирование эксперимента (или сбора данных);

7) проведение эксперимента (сбор и структурирование данных);

8) анализ полученных результатов эксперимента (данных);

9) проверку гипотезы на основе полученных данных;

10) построение математической модели2;

11) проверку математической модели на результатах других экспериментов (на других данных).

В практике научных исследований «возникновение вопросов» по тематике деятельности исследователя является частым явлением3, что обусловлено многими причинами, например, обычным исследовательским любопытством или клинической (или технической) необходимостью. Возникающие вопросы, как правило, не имеют законченной формы и не представляют собой сформулированную цель исследования, декомпозированную на задачи. Для того чтобы возникший у исследователя вопрос приобрел законченную форму в виде сформулированной цели исследования, необходимо проведение предварительного литературного обзора по тематике вопроса. В рамках литературного обзора исследователю необходимо ответить на несколько вопросов:

1. Существуют ли литературные источники по интересующему исследователя вопросу (исторические источники, научные и научно-популярные публикации, учебная, учебно-методическая литература, ГОСТы, ОСТы, СНиПы, СанПиНы и т. д.)45?

2. Насколько широко интересующий вопрос представлен в научной литературе (сколько публикаций на данную тему удалось найти, как давно найденные источники были опубликованы, степень и уровень достоверности найденных источников)?

3. Как данный вопрос представлен в научной литературе – как нерешенный или как частично решенный, или считается полностью решенным?

4. Какие методики и подходы применяются для решения исследуемого вопроса (экспериментальные или/и теоретические)?

На основании проведенного анализа литературных источников исследователь может сформулировать цель исследования и провести ее декомпозицию (если это необходимо) на задачи, которые требуется решить6, чтобы достигнуть поставленной цели. После постановки цели и задачи исследования и проведения предварительного анализа литературы формулируется предварительная гипотеза (предположение, выдвигаемое исследователем о наличии или отсутствии эффекта или явления).

При частичном подтверждении или опровержении выдвинутой гипотезы результатами проведенного эксперимента или на основании поступивших данных исследователь возвращается к пункту 4, уточняет или выдвигает новую гипотезу и повторяет все нижестоящие пункты.

Финальным этапом выполнения работ является построение математической модели, или статистического описания результатов проведенного исследования. В самом простом случае в качестве математической модели могут выступать вычисленные на основании количественных данных основные параметры выборочного распределения вероятностей, выборочные средние значения, средневзвешенные значения, среднее квадратическое отклонение, квантили и т. д. В целом модель включает величины вычисленных статистических параметров, составляющие основу описательной статистики.

Полученная математическая модель должна быть подвергнута проверке на других данных, имеющих ту же природу и подобные условия получения, что и данные, использованные для построения исходной модели. Математическая модель может носить феноменологический7 характер и не обладать предсказательной способностью в случае изменений в условиях проведения эксперимента или получения данных.

Каждый из этапов проведения исследований имеет высокую степень важности для получения достоверного конечного результата. Наиболее ресурсоемкими частями являются этапы 6—9, ошибки на этих стадиях приводят к большим финансовым потерям и дискредитации исследования как такового. За период развития науки было разработано достаточно большое количество методов, позволяющих эффективно выполнять этапы 6—9 цикла научных исследований. Однако при наличии большого объема данных, факторов, влияющих на исследуемый процесс или свойство, и анизотропии исследуемых свойств в пространстве и/или во времени применение детерминированных методов анализа становится крайне затруднительной и ресурсоемкой процедурой. В подобных случаях используют методы статистического анализа и/или моделирования.

В данном учебном пособии рассматриваются основные статистические методы, рекомендованные к использованию национальными стандартами по метрологии, рекомендациями по проведению статистического анализа результатов эксперимента и в публикациях ряда авторов.

В настоящее время для проведения статистического анализа данных разработано и применяется большое количество программного обеспечения. Наиболее известными специализированными программными продуктами являются:

1. Statistica©8.

2. SPSS Statistics©9.

3. Minitab©10.

4. Salstat11.

5. JASP12.

6. Jamovi13.

7. Язык программирования R14 с интегрированной средой разработки (IDE – integrated development environment) RStudio©15.

8. Язык программирования Python c интегрированной средой разработки Spyder16.

Обзор всего существующего на сегодняшний день программного обеспечения, позволяющего проводить статистический анализ данных, потребует отдельной книги. Стоит отметить только основные особенности, которые необходимо учитывать при выборе того или иного инструмента:

1. Стоимость коммерческого программного обеспечения. Она, как правило, очень высока, а набор функций, доступных пользователю, ограничен финансовыми возможностями организации.

2. Возможность установки и использования на различных операционных системах таких, как Microsoft Windows, OS Linux, macOS и др.

3. Наличие открытого исходного кода программного обеспечения (ПО). Такое ПО обладает большей гибкостью в части возможности добавления собственных функций и проверки правильности реализации сторонних.

4. Наличие специализированного языка программирования, адаптированного для решения конкретных задач. Это ускоряет решение сложных вычислительных задач, снижает требования к аппаратным ресурсам и повышает гибкость программного обеспечения при решении специфичных задач.

5. Доступность программного обеспечения для исследователей с малым объемом финансирования.

6. Также важно учитывать наличие широкой поддержки данного инструмента статистической обработки академическим сообществом (наличие научно обоснованных и верифицированных алгоритмов, применяемых для проведения статистических тестов и анализа данных).

Из всего вышеизложенного следует, что во многих случаях наиболее подходящим в широкой практике для проведения статистических исследований является ПО с открытым исходным кодом и/или специализированные языки программирования.

Одним из таких является язык программирования R с интегрированной средой разработки RStudio©, разработанный и поддерживаемый компанией Posit Software, PBC и распространяющийся по открытой лицензии GNU GPL 317. Данная среда разработки не требует специализированных навыков при установке на большинство программно-аппаратных комплексов общего назначения; инструкцию по установке текущей версии RStudio можно найти на сайте проекта18.

Интерфейс RStudio представлен на рисунке 1.


Рисунок 1 – Интегрированная среда разработки RStudio с подключенным компилятором языка программирования R. 1 – интерактивная консоль ввода команд языка R; 2 – поле ввода скриптов на языке R; 3 – область отображения переменных и истории ввода команд в среде RStudio; 4 – область построения графиков, отображения справки (Help) и др.


Детальный обзор интегрированной среды разработки RStudio выходит за рамки настоящего пособия и должен рассматриваться на практических занятиях по статистическому анализу данных на языке программирования R19.

Практическая часть применения статистических методов анализа данных построена на открытых источниках данных, присутствующих в пакете MASS20 языка R, и на открытом наборе данных, содержащем исследования метрик диагностической точности 100 врачей21. Перечень основных наборов данных, содержащихся в пакете MASS:

1. Aids222 – набор данных, содержащий обезличенную информацию о пациентах, у которых диагностирован СПИД в Австралии до 1 июля 1991 г.

2. Cushings23 – набор данных, содержащий наблюдаемые показатели экскреции с мочой двух стероидных метаболитов у пациентов с подтвержденным диагнозом синдрома Кушинга (гипертензивное заболевание, связанное с избыточной секрецией кортизола надпочечниками).

3. GAGurine24 – набор данных, содержащий значения концентрации гликозаминогликанов (GAG) в моче у детей в возрасте от 0 до 17 лет.

4. Melanoma25 – набор данных, содержащий обезличенные данные 205 пациентов в Дании с подтвержденным диагнозом злокачественной меланомы.

5. Pima.te26 – набор данных, содержащий информацию о популяции женщин в возрасте не менее 21 года, принадлежащих к индейскому племени пима и проживающих в окрестностях Феникса (штат Аризона), которые были обследованы на наличие диабета в соответствии с критериями Всемирной организации здравоохранения. Сбор данных осуществлялся Национальным институтом диабета и болезней органов пищеварения и почек США. Содержит 532 полные записи после исключения (в основном отсутствующих) данных об инсулине в сыворотке крови. Обучающий набор Pima.tr содержит случайно выбранный набор данных 200 испытуемых, а Pima.te – оставшихся 332 испытуемых. Pima.tr2 содержит Pima.tr плюс 100 испытуемых с отсутствующими значениями объясняющих переменных.

6. anorexia27 – набор данных, содержащий обезличенную информацию об изменении веса молодых женщин, страдающих анорексией.

7. bacteria28 – набор данных, содержащий тесты на наличие бактерии H. influenzae у детей со средним отитом на северной территории Австралии.

8. biopsy29 – набор данных о раке молочной железы, полученный из госпиталей Висконсинского университета в Мэдисоне от доктора Уильяма Х. Вольберга. Он оценивал биопсии опухолей молочной железы 699 пациенток до 15 июля 1992 г. Каждый из девяти признаков оценивался по шкале от 1 до 10, известен также исход заболевания; имеются 699 строк и 11 столбцов.

9. birtwt30 – набор данных, содержащий факторы риска, связанные с низкой массой тела младенца при рождении. Данные были собраны в Медицинском центре Baystate, Спрингфилд, штат Массачусетс, в течение 1986 года.

10. epil31 – набор данных о количестве двухнедельных приступов у 59 эпилептиков. Количество приступов регистрировалось в течение базового периода в 8 недель, после чего пациенты были рандомизированы в группу лечения или контрольную группу. Затем подсчеты проводились в течение четырех последовательных двухнедельных периодов. Возраст пациента является единственной ковариатой.

11. gehan32 – набор данных, содержащий исследования 42 больных лейкемией. Часть из них получала лечение препаратом 6-меркаптопурин, остальные – контрольная группа. Испытание было организовано в виде подобранных пар, обе из которых были выведены из исследования при выходе из ремиссии.

12. muscle33 – набор данных, содержащий результаты исследования по влиянию концентрации хлорида кальция на сокращение мышц сердца крыс.

13. Indometh34 – набор данных, содержащий фармакокинетику индометацина.

14. Theoph35 – набор данных, содержащий фармакокинетику теофиллина.

15. lh36 – набор данных, содержащий временной ряд изменения концентрации лютеинизирующего гормона в образцах крови.

16. women37 – набор данных, содержащий средний рост и вес женщин в Америке в возрасте от 30 до 39 лет.

Весь процесс статистического анализа данных можно представить в виде алгоритма, изображенного на рисунках 2.1 и 2.2.


Рисунок 2.1 – Алгоритм проведения статистического анализа смешанных данных



Рисунок 2.2 – Алгоритм проведения статистического анализа количественных данных



Каждый из представленных в алгоритме тестов или методов рассматривается в данном пособии. Стоит отметить, что перечень перечисленных методов не является исчерпывающим, и читатель может самостоятельно расширять и дополнять их.

Кроме того, в пособии рассматриваются особенности проведения корреляционного анализа, обозначены нюансы интерпретации результатов корреляционного анализа медико-биологических данных. Одной из особенностей анализа данных, содержащих результаты исследований пациентов, дифференцированных по разным группам, является сравнение мер центральной тенденции (средних, медиан) величин проявления эффекта в группе. Этому вопросу посвящена отдельная глава. Рассматриваются разные критерии сравнения групп по количественным переменным. Также описываются два базовых метода построения предсказательных и классифицирующих моделей и приводятся способы их оценки, настройки и сравнения результатов.

Авторы учебного пособия выражают благодарность М. Р. Коденко и Р. В. Решетникову за ценные советы, данные при подготовке рукописи.

1. ТИПЫ ДАННЫХ

При проведении статистического анализа аналитик сталкивается с тремя основными типами данных:

1) количественными;

2) качественными;

3) смешанными (сочетающими количественные и качественные характеристики).

Количественные данные38 – численные данные, имеющие шкалу измерения. Они могут быть разделены на дискретные и непрерывные.

Дискретные количественные данные – это числовые данные, полученные путем подсчета какой-либо величины.

Примером таких данных являются: вес пациента, измеряющийся в килограммах; рост пациента, измеряемый в сантиметрах; количество пациентов; концентрация различных веществ в крови или моче пациента и т. д. (результаты антропометрических, лабораторных и функциональных исследований пациентов).

Непрерывные количественные данные – изменение какой-либо количественной величины, измеренной за определенный период времени.

Примерами непрерывных количественных данных являются электроэнцефалограмма головного мозга, электрокардиограмма сердечной мышцы и др. В таблице 1 представлен пример дискретных количественных данных.



Качественные данные – это данные, описывающие признак предмета исследования естественным языком. Они могут быть номинальными и порядковыми.

Номинальные данные – это подгруппа качественных данных, используемая для именования переменных, не имеющих числового значения.

Примером качественного номинального признака предмета исследования являются пол пациента, наличие или отсутствие вредных привычек, занятие пациентом физической культурой и т. д.

Порядковые данные – это подгруппа качественных данных, имеющих порядок или масштаб. Часто качественные порядковые данные могут быть представлены числами, которым соответствует качественное описание. Примером порядковых качественных данных могут являться порядковый номер пациента, порядковый номер ответа на вопрос и т. д.

Наиболее распространенный пример качественных порядковых данных – ответ на вопрос по пяти-, десяти- и т. д. балльной шкале. Пример пятибалльной шкалы уверенности в каком-либо вопросе, применяющейся при проведении опросов:

1. Да.

2. Скорее да.

3. Затрудняюсь ответить.

4. Скорее нет.

5. Нет.

Каждому из пяти представленных ответов может соответствовать число от 1 до 5 в случае применения порядковой шкалы или от 0 до 1 в случае вероятностной шкалы. Выбор шкалы соответствия ограничивается только фантазией исследователя, и единственное требование, которое возникает при планировании сбора качественных данных – единообразие используемых шкал.

В языке программирования R качественное описание объекта, содержащееся в наборе данных, представляется как тип данных «фактор»39, а значения, принимаемые переменной, имеющей тип «фактор», называются уровнями фактора. В таблице 2 представлен пример факторных данных.



В данном случае идентификатор представлен численно буквенным кодом, идентифицирующим пациента в некоторой базе данных, а пол пациента обозначен буквами «М» (мужской) и «Ж» (женский).

В практике анализа и проведения эксперимента редко встречаются наборы данных, содержащие только количественные или только качественные данные. Чаще всего наборы данных имеют смешанный характер. В таблице 3 представлен пример смешанного набора данных.



Фактически набор данных представляет собой совокупность переменных (название каждого столбца), каждая из которых описывает качественную или количественную характеристику исследуемого объекта или явления. Соответственно, переменные, содержащие только качественные значения, называются факторами. Создание наборов медицинских данных детально рассматривается в курсе «Создание наборов данных»40.

Для каждого типа переменных или их совокупности существует свой набор статистических тестов, позволяющих проводить детальный анализ наличия или отсутствия различий между всевозможными уровнями факторов, наличие связи или отсутствие связей между данными, принадлежащими к разным уровням фактора, которые будут рассмотрены далее. Алгоритм анализа, представленный на рисунке 2, является верным для количественных и смешанных наборов данных. Методы анализа качественных данных не рассматриваются в настоящем учебном пособии.

Ниже представлены примеры наборов данных, содержащих смешанные данные, но с превалирующим количеством качественных переменных и с превалирующим числом количественных данных.

1.1. Пример количественных и качественных данных

В практике анализа наборы данных, содержащие только качественные переменные, возникают при сборе методом опроса или анкетирования (даже в этом случае результаты опроса или анкетирования, скорее всего, будут содержать возраст пациента и время (календарную дату) проведения опроса). То же самое относится и к наборам данных, содержащим только количественные переменные: как правило, присутствует порядковый номер образца, и/или идентификатор пациента и/или гендерный признак пациента. Рассмотрим на примерах некоторые наборы данных, содержащиеся в пакетах языка R, в частности в пакете MASS. Знак «#» применяется для экранирования (компилятор языка не будет воспринимать текст, находящийся после данного знака, как текст программы) комментариев в тексте программы.

На страницу:
1 из 5