Однофакторный дисперсионный анализ в Excel
Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:
- 1 – определенную действием каждого из изучаемых значений;
- 2 – продиктованную взаимосвязью между исследуемыми значениями;
- 3 – случайную, продиктованную всеми неучтенными обстоятельствами.
В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» — «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа.
Работа начинается с оформления таблицы. Правила:
- В каждом столбце должны быть значения одного исследуемого фактора.
- Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.
Рассмотрим дисперсионный анализ в Excel на примере.
Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).
Внесем данные в таблицу Excel:
- Открываем диалоговое окно нашего аналитического инструмента. В раскрывшемся списке выбираем «Однофакторный дисперсионный анализ» и нажимаем ОК.
- В поле «Входной интервал» ввести ссылку на диапазон ячеек, содержащихся во всех столбцах таблицы.
- «Группирование» назначить по столбцам.
- «Параметры вывода» — новый рабочий лист. Если нужно указать выходной диапазон на имеющемся листе, то переключатель ставим в положение «Выходной интервал» и ссылаемся на левую верхнюю ячейку диапазона для выводимых данных. Размеры определятся автоматически.
- Результаты анализа выводятся на отдельный лист (в нашем примере).
Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.
Условия применения дисперсионного анализа ANOVA
Перед тем как приступить к применению дисперсионного анализа, который предназначен для минимизации риска неправильной оценки ошибки 1 рода в случае множественных сравнений необходимо убедиться в соблюдении ряда условий:
- Количественный непрерывный тип данных, дискретные данные менее желательны.
- Независимые между собой выборки.
- Нормальное распределение признака в статистических совокупностях, из которых извлечены выборки.
- Равенство (гомогенность) дисперсий изучаемого признака в статистических совокупностях из которых извлечены выборки, проверяется с помощью критерия Levene.
- Независимые наблюдения в каждой из выборок.
Ваш психолог. Работа психолога в школе.
Самое популярное
- Психологическая характеристика ученика (образец)
- Картотека методик диагностики для разных возрастных периодов (2)
- Самооценка подростка
- Годовой план работы школьного психолога
- Аналитический отчет о работе психолога (образец)
Математические методы обработки психологических данных — Однофакторный анализ (ОФА) |
Лекции и практикум по психологии — Разное по психологии | |||||||||||||||||||
29. ОДНОФАКТОРНЫЙ АНАЛИЗ (ОФА)При исследовании зависимости одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, причем этот фактор имеет только конечное число значений (уравнений). Такие задачи называются задачами однофакторного анализа и могут встречаться на практике. Результаты измерений (отклик) х11 (1 строка и 1 столбец) х21 (2 строка и 1 столбец) 1 класс 1 2 класс 2 к
n1 + n2 + … + nк = n (общее количество наблюдений (людей)). Стратегия анализа. 30. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ОДА)Наиболее часто при проведении ОФА рассматривают и анализируют дисперсию, поэтому совокупность таких методов носит название – ОДА.
При проведении ОДА для получения расчетных формул предполагалось, что исходные данные подчиняются линейной аддитивной (сложение) модели следующего вида: Вычисление дисперсииДисперсия – это показатель вариации, который представляет собой средний квадрат отклонений от математического ожидания. Таким образом, он выражает разброс чисел относительно среднего значения. Вычисление дисперсии может проводиться как по генеральной совокупности, так и по выборочной. Способ 1: расчет по генеральной совокупностиДля расчета данного показателя в Excel по генеральной совокупности применяется функция ДИСП.Г. Синтаксис этого выражения имеет следующий вид: Всего может быть применено от 1 до 255 аргументов. В качестве аргументов могут выступать, как числовые значения, так и ссылки на ячейки, в которых они содержатся. Посмотрим, как вычислить это значение для диапазона с числовыми данными.
Запускается Мастер функций. В категории «Статистические» или «Полный алфавитный перечень» выполняем поиск аргумента с наименованием «ДИСП.Г». После того, как нашли, выделяем его и щелкаем по кнопке «OK». Выполняется запуск окна аргументов функции ДИСП.Г. Устанавливаем курсор в поле «Число1». Выделяем на листе диапазон ячеек, в котором содержится числовой ряд. Если таких диапазонов несколько, то можно также использовать для занесения их координат в окно аргументов поля «Число2», «Число3» и т.д. После того, как все данные внесены, жмем на кнопку «OK». Способ 2: расчет по выборкеВ отличие от вычисления значения по генеральной совокупности, в расчете по выборке в знаменателе указывается не общее количество чисел, а на одно меньше. Это делается в целях коррекции погрешности. Эксель учитывает данный нюанс в специальной функции, которая предназначена для данного вида вычисления – ДИСП.В. Её синтаксис представлен следующей формулой: Количество аргументов, как и в предыдущей функции, тоже может колебаться от 1 до 255.
В категории «Полный алфавитный перечень» или «Статистические» ищем наименование «ДИСП.В». После того, как формула найдена, выделяем её и делаем клик по кнопке «OK». Производится запуск окна аргументов функции. Далее поступаем полностью аналогичным образом, как и при использовании предыдущего оператора: устанавливаем курсор в поле аргумента «Число1» и выделяем область, содержащую числовой ряд, на листе. Затем щелкаем по кнопке «OK». Как видим, программа Эксель способна в значительной мере облегчить расчет дисперсии. Эта статистическая величина может быть рассчитана приложением, как по генеральной совокупности, так и по выборке. При этом все действия пользователя фактически сводятся только к указанию диапазона обрабатываемых чисел, а основную работу Excel делает сам. Безусловно, это сэкономит значительное количество времени пользователей. Помимо этой статьи, на сайте еще 12312 инструкций. Отблагодарите автора, поделитесь статьей в социальных сетях. БиоСтатистика — 08. Тема 5. Краткое введение в дисперсионный анализТема 5. Краткое введение в дисперсионный анализ Тема 5. Краткое введение в дисперсионный анализ5.1. Что такое дисперсионный анализ?Дисперсионный анализ разработан в 20-х годах XX века английским математиком и генетиком Рональдом Фишером. По данным опроса среди ученых, где выяснялось, кто сильнее всего повлиял на биологию XX века, первенство получил именно сэр Фишер (за свои заслуги он был награжден рыцарским званием — одним из высших отличий в Великобритании); в этом отношении Фишер сравним с Чарльзом Дарвином, оказавшим наибольшее влияние на биологию XIX века. Дисперсионный анализ (Analis of variance) является сейчас отдельной отраслью статистики. Он основан на открытом Фишером факте, что меру изменчивости изучаемой величины можно разложить на части, соответствующие влияющим на эту величину факторам и случайным отклонениям. Чтобы понять суть дисперсионного анализа, мы выполним однотипные расчеты дважды: «вручную» (с калькулятором) и с помощью программы Statistica. Для упрощения нашей задачи мы будем работать не с результатами действительного описания разнообразия зеленых лягушек, а с вымышленным примером, который касается сравнения женщин и мужчин у людей. Рассмотрим разнообразие роста 12 взрослых человек: 7 женщин и 5 мужчин. Таблица 5.1.1. Пример для однофакторного дисперсионного анализа: данные о поле и росте 12 людейSex Growth Sex Growth Sex Growth 1 5 9 2 6 10 3 7 11 4 8 12 Проведем однофакторный дисперсионный анализ: сравним, статистически значимо или нет отличаются ли мужчины и женщины в охарактеризованной группе по росту. 5.2. Тест на нормальность распределенияДальнейшие рассуждения основываются на том, что распределение в рассматриваемой выборке нормальное или близкое к нормальному. Если распределение далеко от нормального, дисперсия (варианса) не является адекватной мерой его его изменчивости. Впрочем, дисперсионный анализ относительно устойчив к отклонениям распределения от нормальности. Тест этих данных на нормальность можно провести двумя разными способами. Первый: Statistics / Basic Statistics/Tables / Descriptive statistics / Вкладка Normality. Во вкладке Normality можно выбрать используемые тесты нормальности распределения. При нажатии на кнопку Frequency tables появится частотная таблица, а кнопки Histograms — гистограмма. На таблице и гистограмме будут приведены результаты различных тестов. Второй способ связан с использованием соответствующих возможнойтсей при построении гистограмм. В диалоге построения гистограмм (Grafs / Histograms. ) следует выбрать вкладку Advanced. В ее нижней части есть блок Statistics. Отметим на ней Shapiro-Wilk t est и Kolmogorov-Smirnov test, как это показано на рисунке. Рис. 5.2.1. Статистические тесты на нормальность распределения в диалоге построения гистограммКак видно по гистограмме, распределение роста в нашей выборке отличается от нормального (в середине — «провал»). Рис. 5.2.2. Гистограмма, построенная с параметрами, указанными на предыдущем рисункеТретья строка в заголовке графика указывает параметры нормального распределения, к которому оказалось ближе всего наблюдаемое распределение. Генеральное среднее составляет 173, генеральное стандартное отклонение — 10,4. Внизу во врезке на графике указаны результаты тестов на нормальность. D — это критерий Колмогорова-Смирнова, а SW-W — Шапиро-Вилка. Как видно, для всех использованных тестов отличия распределения по росту от нормального распределения оказались статистически незначимыми (p во всех случаях больше, чем 0,05). Итак, формально говоря, тесты на соответствие распределения нормальному не «запретили» нам использовать параметрический метод, основанный на предположении о нормальном распределении. Как уже сказано, дисперсионный анализ относительно устойчив к отклонениям от нормальности, поэтому мы им все-таки воспользуемся. 5.3. Однофакторный дисперсионный анализ: вычисления «вручную»Для характеристики изменчивости роста людей в приведенном примере вычислим сумму квадратов отклонений (в английском обозначается как SS, Sum of Squares или SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ; SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172; SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192. Полученная величина (1192) — мера изменчивости всей совокупности данных. Однако они состоят из двух групп, для каждой из которых можно выделить свою среднюю. В приведенных данных средний рост женщин — 168 см, а мужчин — 180 см. Вычислим сумму квадратов отклонений для женщин: SSf = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ; SSf = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212. Также вычислим сумму квадратов отклонений для мужчин: SSm = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ; SSm = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560. От чего зависит исследуемая величина в соответствии с логикой дисперсионного анализа? Две вычисленные величины, SSf и SSm, характеризуют внутригрупповую вариансу, которую в дисперсионном анализе принято называть «ошибкой». Происхождение этого названия связано со следующей логикой. От чего зависит рост человека в рассматриваемом примере? Прежде всего, от среднего роста людей вообще, вне зависимости от их пола. Во вторую очередь — от пола. Если люди одного пола (мужского) выше, чем другого (женского), это можно представить в виде сложения с «общечеловеческой» средней какой-то величины, эффекта пола. Наконец, люди одного пола отличаются по росту в силу индивидуальных отличий. В рамках модели, описывающей рост как сумму общечеловеческой средней и поправки на пол, индивидуальные отличия необъяснимы, и их можно рассматривать как «ошибку». Итак, в соответствии с логикой дисперсионного анализа, исследуемая величина определяется следующим образом: Межгрупповая сумма квадратов Итак, SSошибки = SSf + SSm = 212 + 560 = 772. Этой величиной мы описали внутригрупповую изменчивость (при выделении групп по полу). Но есть и вторая часть изменчивости — межгрупповая, которую мы назовем SSэффекта (поскольку речь идет об эффекте разделения совокупности рассматриваемых объектов на женщин и мужчин). Среднее каждой группы отличается от общей средней. Вычисляя вклад этого отличия в общую меру изменчивости, мы должны умножить отличие групповой и общей средней на число объектов в каждой группе. SSэффекта = Здесь проявился открытый Фишером принцип постоянства суммы квадратов: SS = SSэффекта + SSошибки, т.е. для данного примера, 1192 = 440 + 722. Сравнивая в нашем примере межгрупповую и внутригрупповую суммы квадратов, мы можем увидеть, что первая связана с варьированием двух групп, а вторая — 12 величин в 2 группах. Количество степеней свободы (df) для какого-то параметра может быть определено как разность количества объектов в группе и количества зависимостей (уравнений), которое связывает эти величины. В нашем примере dfэффекта = 2–1 = 1 , а dfошибки = 12–2 = 10 . Мы можем разделить суммы квадратов на число их степеней свободы, получив средние квадраты (MS, Means of Squares). Сделав это, мы можем установить, что MS — ни что иное, как вариансы («дисперсии», результат деления суммы квадратов на число степеней свободы). После этого открытия мы можем понять структуру таблицы дисперсионного анализа. Для нашего примера она будет иметь следующий вид. Для Excel 2010, 2013Рассмотрим анализ данных в Excel: как включить и чем будет отличаться процедура активации для других версий. В большинстве вариантов программы процедура выполняется одинаково. Поэтому последовательность действий, изложенная в разделе, подходит для большинства версий, в том числе для выпусков 2013 и 2016 годов. Включение блока инструментовРассматриваемый пакет относится к категории надстроек, то есть сложных аналитических дополнений. Соответственно, для включения пакета переходим в меню надстроек. Эта процедура выполняется следующим образом:
АктивацияРассмотрим, как активировать аналитические функции, предоставляемые надстройкой пакета:
Запуск функций группы «Анализ данных»Аналитический пакет оперирует большим набором инструментов, оптимизирующих решение статистических задач. Некоторые из числа:
Чтобы применить ту или иную опцию, действуют по нижеприведенному алгоритму:
Функции, входящие в пакет, рассчитаны на использование чисел только с одного листа Эксель. Если нужные статистические значения помещены на нескольких листах, потребуется предварительно создать сводную таблицу, скопировав туда требуемые параметры. Прочие инструментыПомимо дополнительных надстроек, Excel имеет в своем арсенале несколько функций, которые также можно отнести к инструментам анализа данных. Таковыми являются сортировка и фильтр, о которых уже говорилось в предыдущих статьях, проверка данных, функция консолидации, анализ «что-если», а также удаление дубликатов. Все эти инструменты можно найти во вкладке Данные Как видите, Microsoft Office Excel имеет большое количество функций для анализа и отбора информации. При помощи надстроек можно расширить функционал программы более серьезными инструментами, которые позволяют решать специфические и сложные задачи. Все подпрограммы содержат в себе элементы статистического анализа. Такие дополнительные функции отлично подойдут для банковских организаций, финансовых компаний и статистических органов. Жми «Нравится» и получай только лучшие посты в Facebook ↓ Adblock detector |