Познакомившись с понятиями факторной нагрузки и области совместных изменений, можно пойти дальше, снова привлекая для изложения аппарат матриц, элементами которых на этот раз будут коэффициенты корреляции.
Матрица коэффициентов корреляции, полученных, как правило, экспериментальным путем, называется матрицей корреляции, или корреляционной матрицей.
Элементы этой матрицы являются коэффициентами корреляции между всеми переменными данной совокупности.
Если мы имеем, например, набор, состоящий из тестов, то число коэффициентов корреляции, полученных экспериментальным путем, составит
Эти коэффициенты заполняют половину матрицы, находящуюся по одну сторону ее главной диагонали. По другую сторону находятся, очевидно, те же коэффициенты, так как и т. д. Поэтому корреляционная матрица симметрична.
Схема 3.2. Полная матрица корреляции
На диагонали этой матрицы находятся единицы, поскольку корреляция каждой переменной с самой собой равна +1.
Матрица корреляции, у которой элементы главной диагонали равны 1, называется «полной матрицей» корреляции (схема 3.2) и обозначается
Необходимо отметить, что, помещая на главной диагонали единицы, или корреляции каждой переменной с самой собой, мы учитываем полную дисперсию каждой переменной, представленной в матрице. Тем самым принимается во внимание влияние не только общих, но и специфичных факторов.
Наоборот, если на главной диагонали корреляционной матрицы находятся элементы соответствующие общностям и относящиеся лишь к общей дисперсии переменных, то учитывается влияние только общих факторов, элиминируется влияние специфичных факторов и ошибок, т. е. отбрасываются специфичность и дисперсия ошибок.
Матрица корреляции, в которой элементы главной диагонали соответствуют общностям, называется редуцированной и обозначается R (схема 3.3).
Схема 3.3. Редуцированная матрица корреляции
Выше уже говорилось о факторной нагрузке, или наполнении данной переменной конкретным фактором. При этом подчеркивалось, что факторная нагрузка имеет вид коэффициента корреляции между данной переменной и данным фактором.
Матрица, столбцы которой состоят из нагрузок данного фактора применительно ко всем переменным данной совокупности, а строки - из факторных нагрузок данной переменной, называется матрицей факторов, или факторной матрицей. Здесь также можно говорить о полной и редуцированной факторной матрице. Элементы полной факторной матрицы соответствуют полной единичной дисперсии каждой переменной из данной совокупности. Если нагрузки на общие факторы обозначить через с, а нагрузки специфичных факторов - через и, то полную факторную матрицу можно представить в следующем виде:
Схема 3.4. Полная факторная матрица для четырех переменных
Показанная здесь факторная матрица состоит из двух частей Первая часть содержит элементы, относящиеся к четырем переменным и трем общим факторам, причем предполагается, что все они относятся ко всем переменным. Это не есть необходимое условие, так как некоторые элементы первой части матрицы могут быть равными нулю, а это значит, что некоторые факторы относятся не ко всем переменным. Элементы первой части матрицы - это нагрузки общих факторов (например, элемент показывает нагрузку второго общего фактора при первой переменной).
Во второй части матрицы мы видим 4 нагрузки характерных факторов, по одной в каждой строке, что соответствует их характерности. Каждый из этих факторов относится лишь к одной переменной. Все другие элементы этой части матрицы равны нулю. Характерные факторы можно, очевидно, разбить на специфичные и обусловленные ошибками.
Столбец факторной матрицы характеризует фактор и его влияние на все переменные. Строка характеризует переменную и, ее наполненность различными факторами, иначе говоря, факторную структуру переменной.
При анализе только первой части матрицы мы имеем дело с факторной матрицей, показывающей общую дисперсию каждой переменной. Эта часть матрицы называется редуцированной и обозначается F. Эта матрица не учитывает нагрузки характерных факторов и не принимает во внимание специфичной дисперсии. Напомним, что в соответствии со сказанным выше об общих дисперсиях и факторных нагрузках, представляющих собой квадратные корни из общих дисперсий, сумма квадратов элементов каждой строки редуцированной факторной матрицы F равна общности данной переменной
Соответственно сумма квадратов всех элементов строки полной матрицы факторов равна , или полной дисперсии данной переменной.
Так как в факторном анализе основное внимание уделяется общим факторам, то мы в дальнейшем будем использовать главным образом редуцированную корреляционную и редуцированную факторную матрицу.
Основные положения
Факторный анализ – это один из новых разделов многомерного статистического анализа. Первоначально этот метод разрабатывался для объяснения корреляции между исходными параметрами. Результатом корреляционного анализа является матрица коэффициентов корреляции. При малом числе признаков (переменных) можно провести визуальный анализ этой матрицы. С ростом числа признаков (10 и более) визуальный анализ не даст положительных результатов. Оказывается, что все многообразие корреляционных связей можно объяснить действием нескольких обобщенных факторов, которые являются функциями исследуемых параметров, при этом сами факторы могут быть неизвестны, но их можно выразить через исследуемые признаки. Основоположником факторного анализа является американский ученый Л.Терстоун.
Современные статистики под факторным анализом понимают совокупность методов, которые на основе реально существующей связи между признаками позволяет выявить латентные (скрытые) обобщающие характеристики организационной структуры и механизмы развития изучаемых явлений и процессов.
Пример: предположим, что n автомобилей оценивается по 2 признакам:
x 1 – стоимость автомобиля,
x 2 – длительность рабочего ресурса мотора.
При условии коррелированности x 1 и x 2 в системе координат появляется направленное и достаточно плотное скопление точек, формально отображаемое новыми осями и(Рис.5).
Рис.6
Характерная особенность F 1 и F 2 заключается в том, что они проходят через плотные скопления точек и в свою очередь коррелируют с x 1 x 2 .Максимальное
число новых осей будет равно числу элементарных признаков. Дальнейшие разработки факторного анализа показали, что этот метод может быть с успехом применены в задачах группировки и классификации объектов.
Представление информации в факторном анализе.
Для проведения факторного анализа информация должна быть представлена в виде матрицы размером m x n:
Строки матрицы соответствуют объектам наблюдений (i=), а столбцы – признакам (j=).
Признаки, характеризующие объект имеют разную размерность. Для того, чтобы их привести к одной размерности и обеспечить сопоставимость признаков матрицу исходных данных обычно нормируют, вводя единый масштаб. Самым распространенным способом нормировки является стандартизация. От переменных переходят к переменным
Среднее значение j признака,
Среднеквадратическое отклонение.
Такое преобразование называется стандартизацией.
Основная модель факторного анализа
Основная модель факторного анализа имеет вид:
z j – j -й признак (величина случайная);
F 1 , F 2 , …, F p – общие факторы (величины случайные, нормально распределенные);
u j – характерный фактор;
j1 , j2 , …, jp – факторы нагрузки, характеризующие существенность влияния каждого фактора (параметры модели, подлежащие определению);
Общие факторы имеют существенное значение для анализа всех признаков. Характерные факторы показывают, что он относится только к данному -му признаку, это специфика признака, которая не может быть выражена через факторы. Факторные нагрузки j1 , j2 , …, jp характеризуют величину влияния того или иного общего фактора в вариации данного признака. Основная задача факторного анализа – определить факторные нагрузки. Дисперсию S j 2 каждого признака, можно разделить на 2 составляющие:
первая часть обуславливает действие общих факторов – общность h j 2 ;
вторая часть обуславливает действие характерного фактора –характерность - d j 2 .
Все переменные представлены в стандартизованном виде, поэтому дисперсия - гопризнака S j 2 = 1.
Если общие и характерные факторы не коррелируют между собой, то дисперсию j-го признака можно представить в виде:
где - доля дисперсии признака, приходящаяся на k -ый фактор.
Полный вклад какого-либо фактора в суммарную дисперсию равен:
Вклад всех общих факторов в суммарную дисперсию:
Результаты факторного анализа удобно представить в виде таблицы.
Факторные нагрузки |
Общности |
|
a 11 a 21 … a p1 a 12 a 22 … a p2 … … … … a 1m a 2m … a pm | ||
факторов |
V 1 V 2 … V p |
А - матрица факторных нагрузок. Ее можно получить различными способами, в настоящее время наиболее распространение получил метод главных компонент или главных факторов.
Вычислительная процедура метода главных факторов.
Решение задачи с помощью главных компонент сводится к поэтапному преобразованию матрицы исходных данных X :
Х - матрица исходных данных;
Z – матрица стандартизированных значений признаков,
R – матрица парных корреляций:
Диагональная матрица собственных (характеристических) чисел,
j находят решением характеристического уравнения
Е –единичная матрица,
j – показатель дисперсии каждой главной компоненты ,
при условии стандартизации исходных данных , тогда=m
U – матрица собственных векторов, которые находят из уравнения:
Реально это означает решение m систем линейных уравнений для каждого
Т.е. каждому собственному числу соответствует система уравнений.
Затем находят V - матрицу нормированных собственных векторов.
Матрицу факторного отображения А вычисляют по формуле:
Затем находим значения главных компонент по одной из эквивалентных формул:
Совокупность из четырех промышленных предприятий оценена по трем характерным признакам:
среднегодовая выработка на одного работника х 1 ;
уровень рентабельности х 2 ;
Уровень фондоотдачи х 3.
Результат представлен в стандартизированной матрице Z :
По матрице Z получена матрица парных корреляций R :
Найдем определитель матрицы парных корреляций(например методом Фаддеева):
Построим характеристическое уравнение:
Решая это уравнение найдем:
Таким образом исходные элементарные признаки х 1 , х 2 , х 3 могут быть обобщены значениями трех главных компонент, причем:
F 1 объясняет примерно всей вариации,
F 2 - , аF 3 -
Все три главные компоненты объясняют вариации полностью на 100%.
Решая эту систему находим:
Аналогично строятся системы для 2 и 3 . Для 2 решение системы:
Матрица собственных векторов U принимает вид:
Каждый элемент матрицы разделим на сумму квадратов элементов j-го
столбца, получим нормированную матрицу V .
Отметим, что должно выполнятся равенство =E .
Матрицу факторного отображения получим из матричного соотношения
=
По смыслу каждый элемент матрицы А представляет частные коэффициенты матрицы корреляции между исходным признаком x j и главными компонентами F r . Поэтому все элементы .
Из равенства следует условиеr - число компонент .
Полный вклад каждого фактора в суммарную дисперсию признаков равен:
Модель факторного анализа примет вид:
Найдем значения главных компонент (матрицу F ) по формуле
Центр распределения значений главных компонент находится в точке (0,0,0).
Далее аналитические выводы по результатам расчетов следуют уже после принятия решения о числе значащих признаков и главных компоненти определения названий главным компонентам. Задачи распознавания главных компонент, определения для них названий решают субъективно на основе весовых коэффициентовиз матрицы отображенияА .
Рассмотрим вопрос формулировки названий главных компонент.
Обозначим w 1 – множество незначимых весовых коэффициентов, в которое включаются близкие к нулю элементы,,
w 2 - множество значимых весовых коэффициентов,
w 3 – подмножество значимых весовых коэффициентов, не участвующих в формировании названия главной компоненты.
w 2 - w 3 – подмножество весовых коэффициентов, участвующих в формировании названия.
Вычисляем коэффициент информативности для каждого главного фактора
Набор объяснимых признаков считаем удовлетворительным, если значения коэффициентов информативности лежат в пределах 0,75-0,95.
a 11 =0,776 a 12 =-0,130 a 13 =0,308
a 12 =0,904 a 22 =-0,210 a 23 =-0,420
а 31 =0,616 а 32 =0,902 а 33 =0,236
Для j=1 w 1 = ,w 2 ={a 11 ,a 21 ,a 31 },
.
Для j=2 w 1 ={ a 12 , a 22 }, w 2 ={ а 32 },
Для j=3 w 1 ={ а 33 }, w 2 ={a 13 ,a 33 },
Значениями признаков x 1 , x 2 , x 3 определяется состав главной компоненты на 100%. при этом наибольший вклад признакаx 2 , смысл которого-рентабельность. корректным для названия признака F 1 будет эффективность производства .
F 2 определяется компонентой x 3 (фондоотдача), назовем ее эффективность использования основных производственных средств .
F 3 определяется компонентами x 1 ,x 2 –в анализе может не рассматриваться т.к. она объясняет всего 10% общей вариации.
Литература.
Попов А.А.
Excel: Практическое руководство, ДЕСС КОМ.-М.-2000.
Дьяконов В.П., Абраменкова И.В. Mathcad7 в математике, физике и в Internet. Изд-во « Номидж», М.-1998, раздел 2.13. Выполнение регрессии.
Л.А. Сошникова, В.Н. Томашевич и др. Многомерный статистический анализ в экономике под ред. В.Н. Томашевича.- М. –Наука, 1980.
Колемаев В.А., О.В. Староверов, В.Б. Турундаевский Теория вероятностей и математическая статистика. –М. – Высшая школа- 1991.
К Иберла. Факторный анализ.-М. Статистика.-1980.
Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых известны |
Пусть генеральные совокупности X и Y распределены нормально, причем их дисперсии известны (например из предшествующего опыта или найдены теоретически). По независимым выборкам объемов n и m, извлеченным из этих совокупностей, найдены выборочные средние x в и y в. Требуется по выборочным средним при заданном уровне значимости проверить нулевую гипотезу, состоящую в том, что генеральные средние (математические ожидания) рассматриваемых совокупностей равны между собой, т. е. Н 0: М(X) = М(Y). Учитывая, что выборочные средние являются несмещенными оценками генеральных средних, т. е. М(x в) = М(X) и М(y в) = М(Y), нулевую гипотезу можно записать так: Н 0: М(x в) = М(y в). Таким образом, требуется проверить, что математические ожидания выборочных средних равны между собой. Такая задача ставится, потому что, как правило, выборочные средние являются различными. Возникает вопрос: значимо или незначимо различаются выборочные средние? Если окажется, что нулевая гипотеза справедлива, т. е. генеральные средние одинаковы, то различие выборочных средних незначимо и объясняется случайными причинами и, в частности, случайным отбором объектов выборки. Если нулевая гипотеза будет отвергнута, т. е. генеральные средние неодинаковы, то различие выборочных средних значимо и не может быть объяснено случайными причинами. А объясняется тем, что сами генеральные средние (математические ожидания) различны. В качестве проверки нулевой гипотезы примем случайную величину. Критерий Z – нормированная нормальная случайная величина. Действительно, величина Z распределена нормально, так как является линейной комбинацией нормально распределенных величин X и Y; сами эти величины распределены нормально как выборочные средние, найденные по выборкам, извлеченным из генеральных совокупностей; Z – нормированная величина, потому что М(Z) = 0, при справедливости нулевой гипотезы D(Z) = 1, поскольку выборки независимы. Критическая область строится в зависимости от вида конкурирующей гипотезы. Первый случай . Нулевая гипотеза Н 0:М(X)=М(Y). Конкурирующая гипотеза Н 1: М(X) ¹М(Y). В этом случае строят двустороннюю критическую область исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости . Наибольшая мощность критерия (вероятность попадания критерия в критическую область при справедливости конкурирующей гипотезы) достигается тогда, когда «левая» и «правая» критические точки выбраны так, что вероятность попадания критерия в каждый интервал критической области равна: P(Z < zлев.кр)=a¤2, P(Z > zправ.кр)=a¤2. (1) Поскольку Z – нормированная нормальная величина, а распределение такой величины симметрично относительно нуля, критические точки симметричны относительно нуля. Таким образом, если обозначить правую границу двусторонней критической области через zкр, то левая граница -zкр. Итак, достаточно найти правую границу, чтобы найти саму двустороннюю критическую область Z < -zкр, Z > zкр и область принятия нулевой гипотезы (-zкр, zкр). Покажем, как найти zкр – правую границу двусторонней критической области, используя функцию Лапласа Ф(Z). Известно, что функция Лапласа определяет вероятность попадания нормированной нормальной случайной величины, например Z, в интервале (0;z): Р(0
< Z Так
как распределение Z симметрично
относительно нуля, то вероятность
попадания Z в интервал (0; ¥) равна 1/2.
Следовательно, если разбить этот
интервал точкой zкр на интервал (0, zкр)
и (zкр, ¥), то по теореме сложения Р(0<
Z < zкр)+Р(Z > zкр)=1/2. В
силу (1) и (2) получим Ф(zкр)+a/2=1/2.
Следовательно,
Ф(zкр) =(1-a)/2. Отсюда
заключаем: для того чтобы найти правую
границу двусторонней критической
области (zкр), достаточно найти значение
аргумента функции Лапласа, которому
соответствует значение функции, равное
(1-a)/2. Тогда
двусторонняя критическая область
определяется неравенствами Z < –
zкр, Z > zкр, или равносильным неравенством
½Z½ > zкр, а область принятия нулевой
гипотезы неравенством – zкр < Z <
zкр или равносильным неравенством çZ
ç< zкр. Обозначим
значение критерия, вычисленное по
данным наблюдений, через zнабл и
сформулируем правило проверки нулевой
гипотезы. Правило.
1.
Вычислить наблюдаемое значение
критерия 2.
По таблице функции Лапласа найти
критическую точку по равенству
Ф(zкр)=(1-a)/2. 3.
Если ç zнабл ç < zкр – нет оснований
отвергнуть нулевую гипотезу. Если
ç zнабл ç> zкр – нулевую гипотезу
отвергают. Второй
случай
.
Нулевая гипотеза Н0: M(X)=M(Y). Конкурирующая
гипотеза Н1: M(X)>M(Y). На
практике такой случай имеет место,
если профессиональные соображения
позволяют предположить, что генеральная
средняя одной совокупности больше
генеральной средней другой. Например,
если введено усовершенствование
технологического процесса, то
естественно допустить, что оно приведет
к увеличению выпуска продукции. В
этом случае строят правостороннюю
критическую область исходя из
требования, чтобы вероятность попадания
критерия в эту область, в предположении
справедливости нулевой гипотезы, была
равна принятому уровню значимости: P(Z>
zкр)=a.
(3) Покажем,
как найти критическую точку при помощи
функции Лапласа. Воспользуемся
соотношением P(0 В
силу (2) и (3) имеем Ф(zкр)+a=1/2.
Следовательно,
Ф(zкр)=(1-2a)/2. Отсюда
заключаем, для того чтобы найти границу
правосторонней критической области
(zкр), достаточно найти значение функции
Лапласа, равное (1-2a)/2. Тогда правосторонняя
критическая область определяется
неравенством Z > zкр, а область принятия
нулевой гипотезы – неравенством Z <
zкр. Правило.
1.
Вычислить наблюдаемое значение
критерия zнабл. 2.
По таблице функции Лапласа найти
критическую точку из равенства
Ф(zкр)=(1-2a)/2. 3.
Если Z набл <
z кр –
нет оснований отвергнуть нулевую
гипотезу. Если Z набл >
z кр –
нулевую гипотезу отвергаем. Третий
случай.
Нулевая
гипотеза Н0: M(X)=M(Y). Конкурирующая
гипотеза Н1: M(X) В
этом случае строят левостороннюю
критическую область исходя из
требования, вероятность попадания
критерия в эту область, в пред- положении
справедливости нулевой гипотезы, была
равна принятому уровню значимости
P(Z < z’кр)=a, т.е. z’кр= – zкр. Таким
образом, для того чтобы найти точку
z’кр, достаточно сначала найти
“вспомогательную точку” zкр а затем
взять найденное значение со знаком
минус. Тогда левосторонняя критическая
область определяется неравенством Z
< -zкр, а область принятия нулевой
гипотезы – неравенством Z > -zкр. Правило.
1.
Вычислить Zнабл. 2.
По таблице функции Лапласа найти
“вспомогательную точку” zкр по
равенству Ф(zкр)=(1-2a)/2, а затем положить
z’кр = -zкр. 3.
Если Zнабл > -zкр, – нет оснований
отвергать нулевую гипотезу. Если
Zнабл < -zкр, – нулевую гипотезу
отвергают. |
В общем случае для объяснения корреляционной матрицы потребуется не один, а несколько факторов. Каждый фактор характеризуется столбцом, каждая переменная - строкойматрицы . Фактор называется генеральным, если все его нагрузки значительно отличаются от нуля и он имеет нагрузки от всех переменных. Генеральный фактор имеет нагрузки от всех переменных и схематически такой фактор изображен на рис.1. столбцом .Фактор называется общим , если хотя бы две его нагрузки значительно отличаются от нуля. Столбцы , на рис. 1. представляют такие общие факторы. Они имеют нагрузки от более чем двух переменных. Если у фактора только одна нагрузка, значительно отличающаяся от нуля, то он называется характерным фактором (см. столбцы на рис. 1. ) Каждый такой фактор представляет только одну переменную. Решающее значение в факторном анализе имеют общие факторы. Если общие факторы установлены, то характерные факторы получаются автоматически. Число высоких нагрузок переменной на общие факторы называется сложностью . Например, переменная на рис.1. имеет сложность 2, а переменная - три.
Рис. 1. Схематическое изображение факторного отображения. Крестик означает высокую факторную нагрузку.
Итак, построим модель
, (4)
где - ненаблюдаемые факторы m < k ,
Наблюдаемые переменные (исходные признаки),
Факторные нагрузки,
Случайная ошибка связанная только с с нулевым средним и дисперсией :
И - некорpелированы,
Некоррелированные случайные величины с нулевым средним и единичной дисперсией .
(5)
Здесь - i -ая общность представляющая собой часть дисперсии , обусловленная факторами, - часть дисперсии , обусловленная ошибкой. В матричной записи факторная модель примет вид:
(6)
где - матрица нагрузок, - вектор факторов, - вектор ошибок.
Корреляции между переменными, выраженные факторами, можно вывести следующим образом:
где - диагональная матрица порядка , содержащая дисперсии ошибок[i]. Основное условие: - диагональная, - неотрицательно определенная матрица. Дополнительным условием единственности решения является диагональность матрицы .
Имеется множество методов решения факторного уравнения. Наиболее ранним методом факторного анализа является метод главных факторов , в котором методика анализа главных компонент используется применительно к редуцированной корреляционной матрице с общностями на главной диагонали. Для оценки общностей обычно пользуются коэффициентом множественной корреляции между соответствующей переменной и совокупностью остальных переменных.
Факторный анализ проводится исходя из характеристического уравнения, как и в анализе главных компонент:
(8)
Решая которое, получают собственные числа λ i и матрицу нормированных (характеристических) векторов V, и затем находят матрицу факторного отображения:
Для получения оценок общностей и факторных нагрузок используется эмпирический итеративный алгоритм, который сходится к истинным оценкам параметров. Сущность алгоритма сводится к следующему: первоначальные оценки факторных нагрузок определяются с помощью метода главных факторов. На основании корреляционной матрицы R формально определяются оценки главных компонент и общих факторов:
(9)
где - соответствующее собственное значение матрицы R;
Исходные данные (вектор-столбцы);
Коэффициенты при общих факторах;
Главные компоненты (вектор-столбцы).
Оценками факторных нагрузок служат величины
Оценки общностей получаются как
На следующей итерации модифицируется матрица R - вместо элементов главной диагонали подставляются оценки общностей, полученные на предыдущей итерации; на основании модифицированной матрицы R с помощью вычислительной схемы компонентного анализа повторяется расчет главных компонент (которые не являются таковыми с точки зрения компонентного анализа), ищутся оценки главных факторов, факторных нагрузок, общностей, специфичностей. Факторный анализ можно считать законченным, когда на двух соседних итерациях оценки общностей меняются слабо.
Примечание. Преобразования матрицы R могут нарушать положительную определенность матрицы R + и, как следствие, некоторые собственные значения R + могут быть отрицательными.
Национальный исследовательский ядерный университет «МИФИ»Дисперсионный анализ факторов
Факторная матрица
Переменная Фактор А Фактор Б
Как видно из матрицы, факторные нагрузки (или веса) А и Б для различных потребительских требований значительно отличаются. Факторная нагрузка А для требования Т 1 соответствует тесноте связи, характеризующейся коэффициентом корреляции, равным 0,83, т.е. хорошая (тесная) зависимость. Факторная нагрузка Б для того же требования дает r k = 0,3, что соответствует слабой тесноте связи. Как и предполагалось, фактор Б очень хорошо коррелируется с потребительскими требованиями Т 2 , Т 4 и Т 6 .
Учитывая, что факторные нагрузки как А, так и Б влияют на не относящиеся в их группу потребительские требования с теснотой связи не более 0,4 (т.е. слабо), можно считать, что представленная выше матрица интеркорреляций определяется двумя независимыми факторами, которые в свою очередь определяют шесть потребительских требований (за исключением Т 7).
Переменную Т 7 можно было выделить в самостоятельный фактор, так как ни с одним потребительским требованием она не имеет значимой корреляционной нагрузки (более 0,4). Но, на наш взгляд, этого не следует делать, так как фактор «дверь не должна ржаветь» не имеет непосредственного отношения к потребительским требованиям по конструкции двери.
Таким образом, при утверждении технического задания на проектирование конструкции дверей автомобиля именно названия полученных факторов будут вписаны как потребительские требования, по которым необходимо найти конструктивное решение в виде инженерных характеристик.
Укажем на одно принципиально важное свойство коэффициента корреляции между переменными: возведенный в квадрат, он показывает, какая часть дисперсии (разброса) признака является общей для двух переменных, насколько сильно эти переменные перекрываются. Так, например, если две переменные Т 1 и Т 3 с корреляцией 0,8 перекрываются со степенью 0,64 (0,8 2), то это означает, что 64% дисперсий той и другой переменной являются общими, т.е. совпадают. Можно также сказать, что общность этих переменных равна 64%.
Напомним, что факторные нагрузки в факторной матрице являются тоже коэффициентами корреляции, но между факторами и переменными (потребительскими требованиями).
Переменная Фактор А Фактор Б
Поэтому возведенная в квадрат факторная нагрузка (дисперсия) характеризует степень общности (или перекрытия) данной переменной и данного фактора. Определим степень перекрытия (дисперсию D) обоих факторов с переменной (потребительским требованием) Т 1 . Для этого необходимо вычислить сумму квадратов весов факторов с первой переменной, т.е. 0,83 х 0,83 + 0,3 х 0,3 = 0,70. Таким образом, общность переменной Т 1 с обоими факторами составляет 70%. Это достаточно значимое перекрытие.
В то же время низкая общность может свидетельствовать о том, что переменная измеряет или отражает нечто, качественно отличающеёся от других переменных, включенных в анализ. Это подразумевает, что данная переменная не совмещается с факторами по одной из причин: либо она измеряет другое понятие (как, например, переменная Т 7), либо имеет большую ошибку измерения, либо существуют искажающие дисперсию признаки.
Следует отметить, что значимость каждого фактора также определяется величиной дисперсии между переменными и факторной нагрузкой (весом). Для того чтобы вычислить собственное значение фактора, нужно найти в каждом столбце факторной матрицы сумму квадратов факторной нагрузки для каждой переменной. Таким образом, например, дисперсия фактора А (D А) составит 2,42 (0,83 х 0,83 + 0,3 х 0,3 + 0,83 х 0,83 + 0,4 х 0,4 + 0,8 х 0,8 + 0,35 х 0,35). Расчет значимости фактора Б показал, что D Б = 2,64, т.е. значимость фактора Б выше, чем фактора А.
Если собственное значение фактора разделить на число переменных (в нашем примере их семь), то полученная величина покажет, какую долю дисперсии (или объем информации) γ в исходной корреляционной матрице составит этот фактор. Для фактора А γ ~ 0,34 (34%), а для фактора Б - γ = 0,38 (38%). Просуммировав результаты, получим 72%. Таким образом, два фактора, будучи объединены, заполняют только 72% дисперсии показателей исходной матрицы. Это означает, что в результате факторизации часть информации в исходной матрице была принесена в жертву построения двухфакторной модели. В результате упущено 28% информации, которая могла бы восстановиться, если бы была принята шестифакторная модель.
Где же допущена ошибка, учитывая, что все рассмотренные переменные, имеющие отношение к требованиям по конструкции двери, учтены? Наиболее вероятно, что значения коэффициентов корреляции переменных, относящихся к одному фактору, несколько занижены. С учетом проведенного анализа можно было бы вернуться к формированию иных значений коэффициентов корреляции в матрице интеркорреляций (см. табл. 2.2).
На практике часто сталкиваются с такой ситуацией, при которой число независимых факторов достаточно велико, чтобы их все учесть в решении проблемы или с технической или экономической точки зрения. Существует ряд способов по ограничению числа факторов. Наиболее известный из них - анализ Парето. При этом отбираются те факторы (по мере уменьшения значимости), которые попадают в 80-85%-ную границу их суммарной значимости.
Факторный анализ можно использовать при реализации метода структурирования функции качества (QFD), широко применяемого за рубежом при формировании технического задания на новое изделие.