Многофакторный дисперсионный анализ
Однофакторный дисперсионный анализ
Назначение сервиса . С помощью данного онлайн-калькулятора можно:
- провести однофакторный дисперсионный анализ;
- ответить на вопрос — совпадают или нет средние значения экспериментов;
- при выбранном уровне значимости подтвердить или опровергнуть нулевую гипотезу H о равенстве групповых средних;
- Решение онлайн
- Видеоинструкция
Пример . Изделие железнодорожного транспорта с целью испытания на надежность эксплуатируется q раз, i=1. q на p уровнях времени работы Tj , j=1. p. В каждом испытании подсчитываются числа отказов nij. На уровне значимости α = 0,05 исследовать влияние времени работы изделия на число появления отказов методом однофакторного дисперсионного анализа при q=4 , p=4 . Результаты испытаний nij представлены в таблицах.
Решение.
Процедура однофакторного дисперсионного анализа. Находим групповые средние:
Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.
Проверим нулевую гипотезу H: равенство средних значений х .
Находим fнабл
Для уровня значимости α=0.05, чисел степеней свободы 3 и 12 находим fкр из таблицы распределения Фишера-Снедекора.
fкр(0.05; 3; 12) = 3.49
В связи с тем, что fнабл > fкр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем.
Пример №2 . Студентов 1-го курса опрашивали с целью выявления занятий, которым они посвящают свое свободное время. Проверьте, различаются ли распределение вербальных и невербальных предпочтений студентов.
Находим групповые средние:
Пример №2 . В школе 5 шестых классов. Психологу ставится задача, определить, одинаковый ли средний уровень ситуативной тревожности в классах. Для этого были приведены в таблице. Проверить уровень значимости α=0.05 предположение, что средняя ситуативная тревожность в классах не различается.
Пример №3 . Для изучения величины X произведено 4 испытания на каждом из пяти уровней фактора F. Результаты испытаний приведены в таблице. Выяснить, существенно ли влияние фактора F на величину X. Принять α = 0.05. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями.
Пример №4 . Предположим, что в педагогическом эксперименте участвовали три группы студентов по 10 человек в каждой. В группах применили различные методы обучения: в первой – традиционный (F1), во второй – основанный на компьютерных технологиях (F2), в третьей – метод, широко использующий задания для самостоятельной работы (F3). Знания оценивались по десятибалльной системе.
Требуется обработать полученные данные об экзаменах и сделать заключение о том, значимо ли влияние метода преподавания, приняв за уровень значимости α=0.05.
Результаты экзаменов заданы таблицей, Fj – уровень фактора xij – оценка i-го учащегося обучающегося по методике Fj.
Дисперсионный анализ: соединение теории и практики
Дисперсионный анализ: основные понятия
Для чего применяется дисперсионный анализ? Цель дисперсионного анализа — исследование наличия или отсутствия существенного влияния какого-либо качественного или количественного фактора на изменения исследуемого результативного признака. Для этого фактор, предположительно имеющий или не имеющий существенного влияния, разделяют на классы градации (говоря иначе, группы) и выясняют, одинаково ли влияние фактора путём исследования значимости между средними в наборах данных, соответствующих градациям фактора. Примеры: исследуется зависимость прибыли предприятия от типа используемого сырья (тогда классы градации — типы сырья), зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия (тогда классы градации — характеристики величины подразделения: большой, средний, малый).
Минимальное число классов градации (групп) — два. Классы градации могут быть качественными либо количественными.
Почему дисперсионный анализ называется дисперсионным? При дисперсионном анализе исследуется отношение двух дисперсий. Дисперсия, как мы знаем — характеристика рассеивания данных вокруг среднего значения. Первая — дисперсия, объяснённая влиянием фактора, которая характеризует рассеивание значений между градациями фактора (группами) вокруг средней всех данных. Вторая — необъяснённая дисперсия, которая характеризует рассеивание данных внутри градаций (групп) вокруг средних значений самих групп. Первую дисперсию можно назвать межгрупповой, а вторую — внутригрупповой. Отношение этих дисперсий называется фактическим отношением Фишера и сравнивается с критическим значением отношения Фишера. Если фактическое отношение Фишера больше критического, то средние классов градации отличаются друг от друга и исследуемый фактор существенно влияет на изменение данных. Если меньше, то средние классов градации не отличаются друг от друга и фактор не имеет существенного влияния.
Как формулируются, принимаются и отвергаются гипотезы при дисперсионном анализе? При дисперсионном анализе определяют удельный вес суммарного воздействия одного или нескольких факторов. Существенность влияния фактора определяется путём проверки гипотез:
- H 0 : μ 1 = μ 2 = . = μ a , где a — число классов градации — все классы градации имеют одно значение средних,
- H 1 : не все μ i равны — не все классы градации имеют одно значение средних.
Если влияние фактора не существенно, то несущественна и разница между классами градации этого фактора и в ходе дисперсионного анализа нулевая гипотеза H 0 не отвергается. Если влияние фактора существенно, то нулевая гипотеза H 0 отвергается: не все классы градации имеют одно и то же среднее значение, то есть среди возможных разниц между классами градации одна или несколько являются существенными.
Ещё некоторые понятия дисперсионного анализа. Статистическим комплексом в дисперсионном анализе называется таблица эмпирических данных. Если во всех классах градаций одинаковое число вариантов, то статистический комплекс называется однородным (гомогенным), если число вариантов разное — разнородным (гетерогенным).
В зависимости от числа оцениваемых факторов различают однофакторный, двухфакторый и многофакторный дисперсионный анализ.
Однофакторный дисперсионный анализ: суть метода, формулы, примеры
Суть метода, формулы
Однофакторный дисперсионный анализ основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:
SS — общая сумма квадратов отклонений,
SS a — объяснённая влиянием фактора a сумма квадратов отклонений,
SS e — необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки.
Если через n i обозначить число вариантов в каждом классе градации (группе) и a — общее число градаций фактора (групп), то — общее число наблюдений и можно получить следующие формулы:
общее число квадратов отклонений: ,
объяснённая влиянием фактора a сумма квадратов отклонений: ,
необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки: ,
— общее среднее наблюдений,
— среднее наблюдений в каждой градации фактора (группе).
где — дисперсия градации фактора (группы).
Чтобы провести однофакторный дисперсионный анализ данных статистического комплекса, нужно найти фактическое отношение Фишера — отношение дисперсии, объяснённой влиянием фактора (межрупповой), и необъяснённой дисперсии (внутригрупповой):
и сравнить его с критическим значением Фишера .
Дисперсии рассчитываются следующим образом:
— объяснённая дисперсия,
— необъяснённая дисперсия,
v a = a − 1 — число степеней свободы объяснённой дисперсии,
v e = n − a — число степеней свободы необъяснённой дисперсии,
v = n − 1 — общее число степеней свободы.
Критическое значение отношения Фишера с определёнными значениями уровня значимости и степеней свободы можно найти в статистических таблицах или рассчитать с помощью функции MS Excel F.ОБР (рисунок ниже, для его увеличения щёлкнуть по нему левой кнопкой мыши).
Функция требует ввести следующие данные:
Вероятность — уровень значимости α ,
Степени_свободы1 — число степеней свободы объяснённой дисперсии v a ,
Степени_свободы2 — число степеней свободы необъяснённой дисперсии v e .
Если фактическое значение отношения Фишера больше критического (), то нулевая гипотеза отклоняется с уровнем значимости α . Это означает, что фактор существенно влияет на изменение данных и данные зависимы от фактора с вероятностью P = 1 − α .
Если фактическое значение отношения Фишера меньше критического (), то нулевая гипотеза не может быть отклонена с уровнем значимости α . Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α .
Однофакторный дисперсионный анализ: примеры
Пример 1. Требуется выяснить, влияет ли тип используемого сырья на прибыль предприятия. В шести классах градации (группах) фактора (1-й тип, 2-й тип и т.д.) собраны данные о прибыли от производства 1000 единиц продукции в миллионах рублей в течении 4 лет.
Двухфакторный дисперсионный анализ
Разведочный анализ данных
Перед выполнением любого статистического анализа полезно «рассмотреть» данные на графике (подробнее об использованном пакете ggplot2 см. здесь):
Также стоит ознакомиться со сводными описательными статистиками (например, используя возможности пакета doBy ):
Средние значения прироста веса в исследованных группах заметно варьируют (видно, например, что прирост веса у животных, которых содержали на корме с низким содержанием белка животного происхождения, оказался существенно ниже, чем в группе » High — Beef «). Задача двухфакторного дисперсионного анализа — выяснить, связаны ли наблюдаемые различия в приросте веса с изучаемыми факторами, либо эти различия случайны и не имеют никакого отношения к содержанию белка в корме и его происхождению.
Полезным приемом, позволяющим лучше понять анализируемые эффекты, является также построение «графика дизайна эксперимента» (англ. design plot). На таком графике отображаются средние значения переменной-отклика в соответствии с каждым уровнем изучаемых факторов:
Из полученного графика видно, что наибольшая разница в средних приростах веса крыс связана с уровнем содержания белка в корме, тогда как эффект источника происхождения белка выражен в меньшей степени.
Рассматриваемый эксперимент мы можем отнести к т.н. полнофакторному эксперименту (англ. full factorial experiment), поскольку в нем реализуются все возможные сочетания имеющихся уровней факторов. Значительное преимущество такого дизайна эксперимента заключается в том, что он позволяет выяснить наличие взаимодействия между изучаемыми факторами. В рамках дисперсионного анализа, под «взаимодействием» (англ. interaction) понимают такую ситуацию, когда переменная-отклик ведет себя по разному при разных сочетаниях изучаемых факторов. Понять эту концепцию поможет «график взаимодействий» (interaction plot), который в R можно построить при помощи базовой функции interaction.plot() :
Из приведенного рисунка видно, что при высоком содержании белка в корме, прирост веса крыс в среднем также высок, но при условии, что этот белок имеет животное происхождение. Если же содержание белка низкое, то ситуация меняется на противоположную — прирост оказывается несколько выше (хотя и не намного) в группе крыс, получавших корм растительного происхождения.
Выполнение дисперсионного анализа при помощи функции aov()
Помимо того, что рассматриваемый эксперимент является полнофакторным, во всех четырех группах имеется также одинаковое число крыс (по 10 в каждой), т.е. мы имеем дело со сбалансированным набором данных. Как было показано ранее, для анализа сбалансированных наборов данных мы можем применить классический способ разложения общей дисперсии в данных на отдельные составляющие, реализованный в функции aov() :
Подробное объяснение того, как интерпретировать полученную таблицу дисперсионного анализа, было приведено ранее. В целом, можно сделать вывод об отсутствии статистически значимой связи между приростом веса крыс и источником белка в корме (P = 0.3269), тогда как влияние уровня содержания белка в корме оказалось значимым (Р = 0.0211). Взаимодействие между источником происхождения белка и уровнем его содержания в корме незначимо (P = 0.0545), что, в принципе, согласуется с результатом анализа приведенного выше графика взаимодействий.
Обратите внимание на то, как в формуле, поданной на функцию aov() , было задано взаимодействие между двумя факторами: сначала были приведены два главных фактора, разделенные знаком » + «, а затем к ним добавлено выражение » source:type «. Это стандартный синтаксис для такого рода анализа в R. Однако приведенную формулу можно было бы также сократить до weightgain
source*type — результат оказался бы идентичным. Подробнее о синтаксисе формул в R можно узнать, например, здесь (англ. яз.).
Выполнение дисперсионного анализа при помощи функции lm()
При анализе несбалансированных наборов данных, способ выполнения дисперсионного анализа, реализованный в функции aov() , будет давать смещенные оценки Р-значений (подробнее см. справочный файл по этой функции — ?aov ). В таких случаях следует использовать функцию lm() . Преимущество этой функции заключается еще и в том, что она позволяет лучше понять, где именно лежат различия между сравниваемыми группами (подробнее об оценке эффектов при расчете общих линейных моделей см. здесь и здесь).
Применим функцию lm() в отношении данных по приросту веса у крыс:
В соответствии с рассмотренными ранее принципами, полученные параметры модели мы интерпретируем следующим образом. В первой строке таблицы c параметрами модели ( Intercept ) представлена информация, относящаяся к среднему значению прироста веса в группе крыс, которым давали корм с высоким содержанием белка ( High ) животного происхождения ( Beef ) (для простоты обозначим эту базовую группу как » High — Beef «). Видим, что средний прирост веса в этой группе составил 100 г, и что этот прирост значимо отличается от 0 (стандартная ошибка = 4.729 г, значение t-критерия Стьюдента = 21.148, P-значение 2-3). К счастью, однако, в большинстве случаев взаимодействия высокого порядка оказываются незначимыми, что дает нам возможность исключить их из модели. Выбор оптимальных моделей — это отдельная большая тема, к которой я обязательно вернусь в будущем.
Двухфакторный дисперсионный анализ
Разведочный анализ данных
Перед выполнением любого статистического анализа полезно «рассмотреть» данные на графике (подробнее об использованном пакете ggplot2 см. здесь):
Также стоит ознакомиться со сводными описательными статистиками (например, используя возможности пакета doBy ):
Средние значения прироста веса в исследованных группах заметно варьируют (видно, например, что прирост веса у животных, которых содержали на корме с низким содержанием белка животного происхождения, оказался существенно ниже, чем в группе » High — Beef «). Задача двухфакторного дисперсионного анализа — выяснить, связаны ли наблюдаемые различия в приросте веса с изучаемыми факторами, либо эти различия случайны и не имеют никакого отношения к содержанию белка в корме и его происхождению.
Полезным приемом, позволяющим лучше понять анализируемые эффекты, является также построение «графика дизайна эксперимента» (англ. design plot). На таком графике отображаются средние значения переменной-отклика в соответствии с каждым уровнем изучаемых факторов:
Из полученного графика видно, что наибольшая разница в средних приростах веса крыс связана с уровнем содержания белка в корме, тогда как эффект источника происхождения белка выражен в меньшей степени.
Рассматриваемый эксперимент мы можем отнести к т.н. полнофакторному эксперименту (англ. full factorial experiment), поскольку в нем реализуются все возможные сочетания имеющихся уровней факторов. Значительное преимущество такого дизайна эксперимента заключается в том, что он позволяет выяснить наличие взаимодействия между изучаемыми факторами. В рамках дисперсионного анализа, под «взаимодействием» (англ. interaction) понимают такую ситуацию, когда переменная-отклик ведет себя по разному при разных сочетаниях изучаемых факторов. Понять эту концепцию поможет «график взаимодействий» (interaction plot), который в R можно построить при помощи базовой функции interaction.plot() :
Из приведенного рисунка видно, что при высоком содержании белка в корме, прирост веса крыс в среднем также высок, но при условии, что этот белок имеет животное происхождение. Если же содержание белка низкое, то ситуация меняется на противоположную — прирост оказывается несколько выше (хотя и не намного) в группе крыс, получавших корм растительного происхождения.
Выполнение дисперсионного анализа при помощи функции aov()
Помимо того, что рассматриваемый эксперимент является полнофакторным, во всех четырех группах имеется также одинаковое число крыс (по 10 в каждой), т.е. мы имеем дело со сбалансированным набором данных. Как было показано ранее, для анализа сбалансированных наборов данных мы можем применить классический способ разложения общей дисперсии в данных на отдельные составляющие, реализованный в функции aov() :
Подробное объяснение того, как интерпретировать полученную таблицу дисперсионного анализа, было приведено ранее. В целом, можно сделать вывод об отсутствии статистически значимой связи между приростом веса крыс и источником белка в корме (P = 0.3269), тогда как влияние уровня содержания белка в корме оказалось значимым (Р = 0.0211). Взаимодействие между источником происхождения белка и уровнем его содержания в корме незначимо (P = 0.0545), что, в принципе, согласуется с результатом анализа приведенного выше графика взаимодействий.
Обратите внимание на то, как в формуле, поданной на функцию aov() , было задано взаимодействие между двумя факторами: сначала были приведены два главных фактора, разделенные знаком » + «, а затем к ним добавлено выражение » source:type «. Это стандартный синтаксис для такого рода анализа в R. Однако приведенную формулу можно было бы также сократить до weightgain
source*type — результат оказался бы идентичным. Подробнее о синтаксисе формул в R можно узнать, например, здесь (англ. яз.).
Выполнение дисперсионного анализа при помощи функции lm()
При анализе несбалансированных наборов данных, способ выполнения дисперсионного анализа, реализованный в функции aov() , будет давать смещенные оценки Р-значений (подробнее см. справочный файл по этой функции — ?aov ). В таких случаях следует использовать функцию lm() . Преимущество этой функции заключается еще и в том, что она позволяет лучше понять, где именно лежат различия между сравниваемыми группами (подробнее об оценке эффектов при расчете общих линейных моделей см. здесь и здесь).
Применим функцию lm() в отношении данных по приросту веса у крыс:
В соответствии с рассмотренными ранее принципами, полученные параметры модели мы интерпретируем следующим образом. В первой строке таблицы c параметрами модели ( Intercept ) представлена информация, относящаяся к среднему значению прироста веса в группе крыс, которым давали корм с высоким содержанием белка ( High ) животного происхождения ( Beef ) (для простоты обозначим эту базовую группу как » High — Beef «). Видим, что средний прирост веса в этой группе составил 100 г, и что этот прирост значимо отличается от 0 (стандартная ошибка = 4.729 г, значение t-критерия Стьюдента = 21.148, P-значение 2-3). К счастью, однако, в большинстве случаев взаимодействия высокого порядка оказываются незначимыми, что дает нам возможность исключить их из модели. Выбор оптимальных моделей — это отдельная большая тема, к которой я обязательно вернусь в будущем.
Многофакторный анализ: виды, примеры, методы проведения анализа, назначение и результаты
Дисперсионный многофакторный анализ представляет собой совокупность различных статистических методов, которые предназначены для проверки гипотез и связи между исследуемыми факторами и определенными признаками, не имеющими количественного описания. Также подобная методика позволяет определить степень взаимодействия факторов и их влияние на определенные процессы. Все эти определения звучат довольно запутанно, поэтому давайте разберемся в них более подробно в нашей статье.
Критерии и виды дисперсионного анализа
Метод дисперсионного многофакторного анализа чаще всего используется для поиска связи между непрерывной количественной переменной и номинальными качественными признаками. По сути, данная методика представляет собой тестирование различных гипотез о равенстве различных арифметических выборок. Таким образом, ее можно рассматривать и в качестве критерия для сравнения нескольких выборок. Однако результаты будут идентичными, если для сравнения используется лишь два элемента. Исследование t-критерия показывает, что подобная методика позволяет изучить проблему гипотез более детально, чем любой другой известный способ.
Также нельзя не отметить тот факт, что некоторые виды дисперсионного анализа базируются на определенном законе: сумма квадратов межгрупповых отклонений и сумма квадратов внутригрупповых отклонений абсолютно равны. В качестве исследования используется критерий Фишера, использующийся для детального анализа внутригрупповых дисперсий. Хотя для этого необходимы предпосылки нормальности распределения, а также гомоскедастичности выборок – равенство дисперсий. Что касается видом дисперсионного анализа, то различают следующие:
- многомерный или многофакторный анализ;
- однофакторный или одномерный анализ.
Не трудно догадаться, что второй рассматривает зависимость одного признака и исследуемой величины, а первый – базируется на анализе сразу нескольких признаков. Кроме того, многофакторная дисперсия не позволяет выявлять более прочную связь между несколькими элементами, поскольку исследуется зависимость сразу нескольких величин (хотя проводить метод намного проще).
Факторы
Задумались о методах проведения многофакторного корреляционного анализа? Тогда вам следует знать, что для детального изучения следует изучить те факторы, которые контролируют обстоятельства эксперимента и влияют на конечный результат. Также под факторами могут подразумеваться способы и уровни обработки значений, характеризующие конкретное проявление определенного условия. В этом случае цифры подаются в порядковой или номинальной системе измерений. Если же возникает проблема, связанная с группировкой данных, приходится прибегать к использованию одинаковых числовых значений, что немного изменяет конечный результат.
Также следует понимать, что количество наблюдений и групп не может быть чрезмерно большим, ведь это приводит к избытку данных и невозможности закончить расчет. В то же время способ группировки зависит не только от объема, но и от характера варьирования определенных значений. Размеры и количество интервалов в анализе могут определяться по принципу равных частот, а также одинаковых промежутков между ними. В итоге все полученные исследования будут указаны в статистике многофакторного анализа, которая должна базироваться на различных примерах. К этому мы еще вернемся в следующих разделах.
Назначение дисперсионного анализа
Итак, иногда могут возникать ситуации, когда необходимо сравнить между собой две или более различных выборок. В этом случае логичнее всего будет применить многофакторный корреляционно-регрессионный анализ, базирующийся на изучении гипотезы и связи различных факторов в степени регрессии. Также название методики указывает на тот факт, что в процессе исследования используются различные составляющие дисперсии.
В чем суть исследования? Для начала два или более показателей разбивают на отдельные части, каждая из которых соответствует действию определенного фактора. После этого проводится ряд исследовательских процедур на поиск взаимосвязи различных выборок и связей между ними. Чтобы более детально разобраться в столь сложной, но интересной методике, рекомендуем изучить несколько примеров многофакторного корреляционного анализа, приведенных в следующих разделах нашей статьи.
Пример первый
В производственном цеху есть несколько автоматических станков, каждый из которых предназначен для изготовления определенной детали. Размер производимого элемента представляет собой случайную величину, которая зависит не только от настроек самого станка, но и случайных отклонений, которые неминуемо будут возникать в результате производства деталей. Но как рабочему определить правильность работы станка, если он изначально производит детали с браком? Правильно, необходимо приобрести такую же деталь на рынке и сравнить ее размеры с тем, что получается во время производства. После этого можно регулировать оборудование таким образом, чтобы оно выпускало детали нужных размеров. И совсем не важно, что имеется производственный брак, ведь он также учитывается при расчетах.
В то же время если на станках будут определенные показатели, позволяющие определить интенсивность регулировки (осей X и Y, глубины и так далее), то показатели на всех станках будут совершенно разными. Если измерения оказались абсолютно одинаковыми, то производственный брак можно не учитывать вовсе. Однако такое происходит крайне редко, особенно если погрешности измеряются в миллиметрах. Но если выпущенная деталь обладает теми же размерами, что и стандарт, приобретенный на рынке, значит ни о каком браке не может быть и речи, поскольку при производстве «идеала» также использовался станок, дающий определенные погрешности, которые наверняка также учитывались рабочими.
Пример второй
Для изготовления определенного прибора, работающего на электричестве, необходимо использовать несколько типов различной изоляционной бумаги: электротехническую, конденсаторную и так далее. Кроме того, аппарат может быть пропитан смолой, лаком, эпоксидным составам и прочими химическими элементами, продлевающими срок эксплуатации. Ну а различные утечки под вакуумным цилиндром при повышенном давлении легко устраняются с помощью метода нагревания или выкачивания воздуха. Однако если мастер до этого использовал лишь по одному элементу из каждого списка, в процессе производства по новой технологии могут возникнуть различные трудности. Причем, практически наверняка, подобная ситуация будет вызвана из-за одного элемента. Однако рассчитать, какой именно фактор влияет на плохую работоспособность прибора, будет практически нереально. Именно поэтому рекомендуется использовать не многофакторный метод анализа, а однофакторный, чтобы быстрее разобраться с причиной неисправности.
Конечно же, при использовании различных инструментов и приборов, которые отслеживают влияние того или иного фактора на конечный результат, исследование упрощается в разы, однако обзавестись подобными агрегатами начинающему инженеру будет не по карману. Именно поэтому рекомендуется применять однофакторный дисперсионный анализ, позволяющий выявить причину неполадок за считаные минуты. Для этого будет достаточно поставить перед собой одну из наиболее вероятных гипотез, после чего начать доказывать ее путем экспериментов и анализа показателей работоспособности прибора. Довольно скоро мастеру удастся найти причину неполадок и устранить ее, заменив одну из выборок альтернативным вариантом.
Пример третий
Еще один пример многофакторного анализа. Предположим, что троллейбусное депо может обслуживать несколько маршрутов в течение суток. На этих самых маршрутах работают троллейбусы совершенно разных марок, а оплату за проезд собирают 50 разных контролеров. Однако руководство депо интересуется тем, каким образом можно сравнить между собой несколько различных показателей, влияющих на общую выручку: марка троллейбуса, эффективность маршрута и умение работника. Чтобы увидеть экономическую целесообразность, необходимо детально проанализировать влияние каждого из этих факторов на конечный результат. К примеру, некоторые контролеры могут плохо справляться со своими обязанностями, поэтому придется нанять более ответственных сотрудников. Большинство пассажиров не любят ездить на старых троллейбусах, поэтому целесообразнее всего использовать новую марку. Однако если оба этих фактора идут наряду с тем, что большая часть маршрутов являются высоко востребованными, то стоит ли вообще что-то менять?
Задача исследователя заключается в том, чтобы с помощью одного аналитического метода получить как можно больше полезной информации по поводу влияния каждого из факторов на конечный результат. Для этого необходимо выдвигать как минимум 3 различных гипотезы, которые придется доказывать различными способами. Дисперсионный анализ позволяет решить подобные задачи в максимально короткий срок и получить максимум полезной информации, особенно если используется многофазный метод. Однако не забывайте о том, что однофакторный анализ дает куда больше уверенности по поводу влияния того или иного фактора, поскольку он исследует выборку более детально. К примеру, если депо направит все силы на анализ работы кондукторов, то можно будет выявить много недобросовестных рабочих на всех маршрутах.
Однофакторный анализ
Однофакторный анализ – это совокупность методов исследования, направленных на анализ определенного фактора на конечный результат в конкретном случае. Также довольно часто подобная методика используется для сравнения наибольшего влияния между двумя факторами. Если проводить аналогию все с тем же депо, то следует сперва проанализировать по отдельности влияние различных маршрутов и марок троллейбусов на прибыльность, после чего сравнить полученные результаты между собой и определить, в каком направлении будет лучше всего развивать станцию.
Кроме того, не стоит забывать о таком понятии, как нулевая гипотеза – то есть гипотеза, которая не может быть отброшенной и на нее в любом случае влияют все факторы из перечисленных в той или иной степени. Даже если мы будем сравнивать между собой лишь маршруты и марки троллейбусов, от влияния профессионализма кондукторов все равно никуда не деться. Поэтому даже если данный фактор не поддается анализу, о влиянии нулевой гипотезы забывать не стоит. К примеру, если вы решили исследовать зависимость прибыли от маршрута, пускайте в рейс одного и того же кондуктора, чтобы показания оказались максимально точными.
Двухфакторный анализ
Чаще всего данную методику также называют методом сравнения и используют для того, чтобы выявить зависимость двух факторов друг от друга. На практике придется использовать различные таблицы с точными показателями, чтобы не запутаться в собственных расчетах и влияниях на них факторов. К примеру, можно пустить по двум одинаковым маршрутам два совершенно разных троллейбуса в одно и то же время, пренебрегая фактором нулевой гипотезы (выбрать двух ответственных кондукторов). В этом случае сравнение двух ситуаций будет максимально качественным, поскольку эксперимент проходит в одно и то же время.
Многофакторный анализ с повторными опытами
Данный метод применяется на практике гораздо чаще других, особенно если речь идет о группе начинающих исследователей. Повторный опыт позволяет не только убедиться во влиянии того или иного фактора на конечный результат, но и найти ошибки, которые были допущены в ходе исследования. К примеру, большинство неопытных аналитиков забывают о наличии одной или сразу нескольких нулевых гипотез, что приводит к получению неточных результатов в ходе исследования. Продолжая пример с депо, можно проанализировать влияние тех или иных факторов в разный сезон года, поскольку количество пассажиров зимой сильно отличается от летнего. Кроме того, повторный опыт может натолкнуть исследователя на новые идеи и выдвижение новых гипотез.
Видеоролик и заключение
Надеемся, наша статья помогла вам разобраться в том, на чем основан метод многофакторного корреляционного анализа. Если у вас до сих пор остались какие-то вопросы по данной теме, то рекомендуем к просмотру небольшой видеоролик. В нем во всех подробностях рассказывается о методах дисперсионного исследования на определенном примере.
Как видите, многофакторный анализ – это довольно сложный, но очень интересный процесс, который позволяет выявить зависимость определенных факторов на конечный результат. Данная методика может применяться абсолютно во всех сферах жизни и эффективно использоваться для ведения бизнеса. Также модель многофакторного анализа можно использовать для достижения прорывных задач с помощью простых методов.