Коэффициент корреляции степень зависимости. Значимость коэффициента корреляции. Вычисление коэффициента корреляции вручную

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. Для этого используются методы корреляции.

  1. Виды проявления количественных связей между признаками
    • функциональная связь
    • корреляционная связь
  2. Определения функциональной и корреляционной связи

    Функциональная связь - такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для физико-математических процессов.

    Корреляционная связь - такая связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов.

  3. Практическое значение установления корреляционной связи . Выявление причинно-следственной между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.)

    Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др.

  4. Величина, характеризующая направление и силу связи между признаками . Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1
  5. Способы представления корреляционной связи
    • график (диаграмма рассеяния)
    • коэффициент корреляции
  6. Направление корреляционной связи
    • прямая
    • oбратная
  7. Сила корреляционной связи
    • сильная: ±0,7 до ±1
    • средняя: ±0,3 до ±0,699
    • слабая: 0 до ±0,299
  8. Методы определения коэффициента корреляции и формулы
    • метод квадратов (метод Пирсона)
    • ранговый метод (метод Спирмена)
  9. Методические требования к использованию коэффициента корреляции
    • измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту)
    • расчет может производиться с использованием абсолютных или производных величин
    • для вычисления коэффициента корреляции используются не сгруппированные вариационные ряды (это требование применяется только при вычислении коэффициента корреляции по методу квадратов)
    • число наблюдений не менее 30
  10. Рекомендации по применению метода ранговой корреляции (метод Спирмена)
    • когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных
    • когда признаки представлены не только количественными, но и атрибутивными значениями
    • когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года и др.)
  11. Рекомендации к применению метода квадратов (метод Пирсона)
    • когда требуется точное установление силы связи между признаками
    • когда признаки имеют только количественное выражение
  12. Методика и порядок вычисления коэффициента корреляции

    1) Метод квадратов

    2) Ранговый метод

  13. Схема оценки корреляционной связи по коэффициенту корреляции
  14. Вычисление ошибки коэффициента корреляции
  15. Оценка достоверности коэффициента корреляции,полученного методом ранговой корреляции и методом квадратов

    Способ 1
    Достоверность определяется по формуле:

    Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.

    Способ 2
    Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.

на применение метода квадратов

Задание: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод.

Таблица 1

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

Решение .
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды
(в градусах)
Количество кальция в воде
(в мг/л)
d х d у d х х d у d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х =Σ х / n М у =Σ у / n Σ d х x d у =7078 Σ d х 2 =982 Σ d y 2 =51056
М х =120/6=20 М y =852/6=142
  1. Определить средние величины M x ряду вариант "х" и М у в ряду вариант "у" по формулам:
    М х = Σх/n (графа 1) и
    М у = Σу/n (графа 2)
  2. Найти отклонение (d х и d у) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
    d х = х - М х (графа 3) и d y = у - М у (графа4).
  3. Найти произведение отклонений d x х d y и суммировать их: Σ d х х d у (графа 5)
  4. Каждое отклонение d x и d у возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ d x 2 = 982 (графа 6) и Σ d y 2 = 51056 (графа 7).
  5. Определить произведение Σ d x 2 х Σ d y 2 и из этого произведения извлечь квадратный корень
  6. Полученные величины Σ (d x x d y) и √(Σd x 2 x Σd y 2) подставляем в формулу расчета коэффициента корреляции:
  7. Определить достоверность коэффициента корреляции:
    1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:

    Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.

    2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см. приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше табличного (r табл = + 0,917 при р = 99%).

    Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная : r ху = + 0,99, р > 99,9%).

    на применение рангового метода

    Задание: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

    Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.

    Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.

    Таблица 2

    Стаж работы в годах Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
    X Y d(х-у) d 2
    До 1 года 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 и более 6 5 1 +4 16
    Σ d 2 = 38,5

    Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)

    Число степеней свободы - 2 Уровень вероятности р (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
    2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
    5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.
Целью корреляционного анализа является выявление оценки силы связи между случайными величинами (признаками), которые характеризует некоторый реальный процесс.
Задачи корреляционного анализа :
а) Измерение степени связности (тесноты, силы, строгости, интенсивности) двух и более явлений.
б) Отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связности между явлениями. Существенные в данном аспекте факторы используют далее в регрессионном анализе.
в) Обнаружение неизвестных причинных связей.

Формы проявления взаимосвязей весьма разнообразны. В качестве самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи .
Корреляционная связь проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятностных значений независимой переменной. Связь называется корреляционной , если каждому значению факторного признака соответствует вполне определенное неслучайное значение результативного признака.
Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показываются сочетания X и Y. По расположению точек можно судить о наличии связи.
Показатели тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора.
Более совершенным показателем степени тесноты корреляционной связи является линейный коэффициент корреляции . При расчете этого показателя учитываются не только отклонения индивидуальных значений признака от средней, но и сама величина этих отклонений.

Ключевыми вопросами данной темы являются уравнения регрессионной связи между результативным признаком и объясняющей переменной, метод наименьших квадратов для оценки параметров регрессионной модели, анализ качества полученного уравнения регрессии, построение доверительных интервалов прогноза значений результативного признака по уравнению регрессии.

Пример 2


Система нормальных уравнений.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для наших данных система уравнений имеет вид
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем b = -3.46, a = 1379.33
Уравнение регрессии:
y = -3.46 x + 1379.33

2. Расчет параметров уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


1.1. Коэффициент корреляции
Ковариация .

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и обратная.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = -3.46 x + 1379.33

Коэффициент b = -3.46 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -3.46.
Коэффициент a = 1379.33 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:


Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к уменьшению среднего значения Y на 0.74 среднеквадратичного отклонения S y .
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Дисперсионный анализ.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
где
∑(y i - y cp) 2 - общая сумма квадратов отклонений;
∑(y(x) - y cp) 2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y - y(x)) 2 - остаточная сумма квадратов отклонений.
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции r xy .
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции :

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции r xy .
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = -0.74 2 = 0.5413
т.е. в 54.13 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 45.87 % изменения Y объясняются факторами, не учтенными в модели.

Список литературы

  1. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001, с. 34..89.
  2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. – 2-е изд., испр. – М.: Дело, 1998, с. 17..42.
  3. Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001, с. 5..48.

При корреляционной связи одной и той же величине одного признака соответствуют разные величины другого. Например: между ростом и весом имеется корреляционная связь, между заболеваемостью злокачественными новообразованиямии возрастом и т.д.

Существует 2 метода вычисления коэффициента корреляции: метод квадратов(Пирсона), метод рангов (Спирмена).

Наиболее точным является метод квадратов (Пирсона), при котором коэффициент корреляции определяется по формуле: , где

r ху ― коэффициент корреляции между статистическим рядом X и Y.

d х ― отклонение каждого из чисел статистического ряда X от своей средней арифметической.

d у ― отклонение каждого из чисел статистического ряда Y от своей средней арифметической.

В зависимости от силы связи и ее направления коэффициент корреляции может находиться в пределах от 0 до 1 (-1). Коэффициент корреляции, равный 0, говорит о полном отсутствии связи. Чем ближе уровень коэффициента корреляции к 1 или (-1), тем соответственно больше, теснее измеряемая им прямая или обратная связь. При коэффициенте корреляции равном 1 или (-1) связь полная, функциональная.

Схема оценки силы корреляционной связи по коэффициенту корреляции

Сила связи

Величина коэффициента корреляции при наличии

прямой связи (+)

обратной связи (-)

Связь отсутствует

Связь малая (слабая)

от 0 до +0,29

от 0 до –0,29

Связь средняя (умеренная)

от +0,3 до +0,69

от –0,3 до –0,69

Связь большая (сильная)

от +0,7 до +0,99

от –0,7 до –0,99

Связь полная

(функциональная)

Для вычисления коэффициента корреляции по методу квадратов составляется таблица из 7 колонок. Разберем процесс вычисления на примере:

ОПРЕДЕЛИТЬ СИЛУ И ХАРАКТЕР СВЯЗИ МЕЖДУ

Пора-

ность

зобом

(V y )

d x = V x M x

d y = V y M y

d x d y

d x 2

d y 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Определяем среднее содержание йода в воде (в мг/л).

мг/л

2.Определяем среднюю пораженность зобом в %.

3. Определяем отклонение каждого V x от М x , т.е. d x .

201–138=63; 178–138=40 и т.д.

4. Аналогично определяем отклонение каждого V у от M у, т.е. d у.

0,2–3,8=-3,6; 0,6–38=-3,2 и т.д.

5. Определяем произведения отклонений. Полученное произведение суммируем и получаем.

6. d х возводим в квадрат и результаты суммируем, получаем.

7. Аналогично возводим в квадрат d у, результаты суммируем, получим

8. Наконец, все полученные суммы подставляем в формулу:

Для решения вопроса о достоверности коэффициента корреляции определяют его среднюю ошибку по формуле:

(Если число наблюдений менее 30, тогда в знаменателе n–1).

В нашем примере

Величина коэффициента корреляции считается достоверной, если не менее чем в 3 раза превышает свою среднюю ошибку.

В нашем примере

Таким образом, коэффициент корреляции не достоверен, что вызывает необходимость увеличения числа наблюдений.

Коэффициент корреляции можно определить несколько менее точным, но намного более легким способом ― методом рангов (Спирмена).

Метод Спирмена: P=1-(6∑d 2 /n-(n 2 -1))

составить два ряда из парных сопоставляемых признаков, обозначив первый и второй ряд соответственно х и у. При этом представить первый ряд признака в убывающем или возрастающем порядке, а числовые значения второго ряда расположить напротив тех значений первого ряда, которым они соответствуют

величину признака в каждом из сравниваемых рядов заменить порядковым номером (рангом). Рангами, или номерами, обозначают места показателей (значения) первого и второго рядов. При этом числовым значениям второго признака ранги должны присваиваться в том же порядке, какой был принят при раздаче их величинам первого признака. При одинаковых величинах признака в ряду ранги следует определять как среднее число из суммы порядковых номеров этих величин

определить разность рангов между х и у (d): d = х - у

возвести полученную разность рангов в квадрат (d 2)

получить сумму квадратов разности (Σ d 2) и подставить полученные значения в формулу:

Пример: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.

Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.

Таблица 2

Стаж работы в годах

Число травм

Порядковые номера (ранги)

Разность рангов

Квадрат разности рангов

d(х-у)

d 2

Каждый из рядов парных признаков обозначить через "х" и через "у" (графы 1-2).

Величину каждого из признаков заменить ранговым (порядковым) номером. Порядок раздачи рангов в ряду "x" следующий: минимальному значению признака (стаж до 1 года) присвоен порядковый номер "1", последующим вариантам этого же ряда признака соответственно в порядке увеличения 2-й, 3-й, 4-й и 5-й порядковые номера - ранги (см. графу 3). Аналогичный порядок соблюдается при раздаче рангов второму признаку "у" (графа 4). В тех случаях, когда встречаются несколько одинаковых по величине вариант (например, в задаче-эталоне это 12 и 12 травм на 100 работающих при стаже 3-4 года и 5-6 лет, порядковый номер обозначить средним числом из суммы их порядковых номеров. Эти данные о числе травм (12 травм) при ранжировании должны занимать 2 и 3 места, таким образом среднее число из них равно (2 + 3)/2 = 2,5. Таким образом, числу травм "12" и "12" (признаку) следует раздать ранговые номера одинаковые - "2,5" (графа 4).

Определить разность рангов d = (х - у) - (графа 5)

Разность рангов возвести в квадрат (d 2) и получить сумму квадратов разности рангов Σ d 2 (графа 6).

Произвести расчет коэффициента ранговой корреляции по формуле:

где n - число сопоставляемых пар вариант в ряду "x" и в ряду "у"

"

Транскрипт

1 Иткина А.Я. Коэффициенты корреляции и специфика их применения Основное назначение корреляционного анализа выявление связи между двумя или более изучаемыми переменными. Чаще всего анализируется совместное согласованное изменение двух исследуемых показателей, являющихся случайными величинами. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой. По форме корреляционная связь может быть линейной или нелинейной. По направлению положительной или отрицательной. По силе тесной, слабой или отсутствовать. Корреляционный анализ возможен как на основе графического представления исходных данных, так и с помощью вычисления коэффициента корреляции и проверки его статистической значимости. Обычно одно исследование дополняет другое. В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r-пирсона, r-спирмена и τ-кендалла. В зависимости от решаемой задачи и от вида исходных данных стоит отдавать предпочтение одному из этих коэффициентов. Общим для них является то, что все упомянутые коэффициенты применяются для изучения взаимосвязи двух переменных, измеренных на одной и той же выборке. Они меняются в интервале от -1 до +1 и их знак показывает направление связи. Попробуем теперь разобраться в их различиях. Коэффициент корреляции Пирсона (Karl Pearson, английский математик, статистик, биолог и философ) применим, если обе переменные измерены в метрической (интервальной или абсолютной) шкале. Ограничением при использовании коэффициента корреляции Пирсона является отличие распределения хотя бы одной из переменных от нормального. Особенно сильно r- Пирсона реагирует на наличие выбросов. Для представленного на Рис. 1 облака точек r-пирсона равен,98, если учитывать только синие точки и,27, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Поскольку коэффициент r-пирсона есть мера 1

2 Коэффициенты корреляции и специфика их применения линейной связи, он неприменим для анализа нелинейных связей. Равенство r-пирсона означает, что линейная связь между переменными отсутствует r xy Рис. 1. Облако точек 1. Значение выборочного (x x)(y y) (x x) (y y) 2 2 r-пирсона может быть вычислено по формуле:. Равенство r-пирсона 1 говорит о функциональной линейной зависимости между изучаемыми переменными. Важным свойством r- Пирсона является нечувствительность к линейным преобразованиям переменных. значит Пусть kx b, тогда r y n n n n (kx b) kx b k x n b k x b, а n n n (kx b (k x b))(y y) (k(x x))(y y) (kx b (k x b)) (y y) (k (x x)) (y y) k (x x)(y y) k (x x)(y y) k r k (x x) (y y) k (x x) (y y) k положительном k коэффициенты корреляции совпадут, а при отрицательном ry xy, т.е. при r. xy Значимость r-пирсона, т.е. отличие его от, можно проверить с помощью статистики Стьюдента t r n r 2

3 Иткина А.Я. Гипотеза H:, rxy альтернативная H: 1 rxy. Соответственно, если t t n нулевая гипотеза отвергается в пользу альтернативной. Смысл (крит 2 ; 2) тестирования нулевой гипотезы, при условии репрезентативности имеющихся выборок, заключается в проверке предположения о случайности корреляционной связи между переменными, т.е. о независимости случайных величин (если связь линейна). Теория и практика Сложение 1 баррелей нефти и 1 км трубопроводов бессмысленно, но технически возможно (1+1=2). Вычисление коэффициента корреляции Пирсона для порядковых переменных, для переменных, имеющих произвольное распределение и даже для номинативных переменных технически возможно и даже имеет некоторый смысл. Итак, рассчитанный по формуле коэффициент корреляции является выборочной оценкой теоретической корреляции двух случайных величин r xy cov(xy ;) D(x) D(y). Для случайной величины, имеющей двумерное нормальное распределение, выборочный коэффициент корреляции при условии, что теоретический равен, имеет распределение Стьюдента с (n 2) степенями свободы. Именно на этом факте основана проверка гипотезы о равенстве коэффициента корреляции. Расчет коэффициента корреляции Пирсона в случаях нарушения условий его использования это попытка установить факт наличия или отсутствия связи между величинами. К сожалению в этих случаях распределение r-пирсона не известно. Поэтому выводы на основе такого анализа не надежны. Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной по какому-либо признаку совокупности имеющихся данных. Например для выборки 3, 9, 26, -4, 11, 5, ранжированной по возрастанию рангами будут числа от 1 до 7: 3, 5, 7, 1, 6, 2, 4. Трудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. Набор одинаковых наблюдений называют связкой, а количество наблюдений в одной связке ее размером. Связанным или средним рангом называется число, равное среднему арифметическому тех рангов, которые были бы у 3

4 Коэффициенты корреляции и специфика их применения чисел в связке, если бы они различались. Например для выборки 6, 15, 12, 6, 1, 15, 9, 15 соответствующие ранги будут 1 1 2, 7, 5, 1 1 2, 4, 7, 3, 7. Коэффициент корреляции Спирмена (Charles Edward Spearman, английский психолог, статистик) применим, если обе переменные измерены в количественной (метрической или порядковой) шкале. Отсутствие ограничений на вид распределения исходных данных (переменных) вызвано тем, что это ранговый коэффициент корреляции. Спирмена n 6 (k t) 1 r 1 3 n n 2 Коэффициент корреляции Спирмена проигрывает r-пирсона только в меньшей чувствительности к связи в случаях несущественного отклонения распределения переменных от нормального. Идея r-спирмена в том, что обе переменные ранжируются (обозначим ранги k и t). И вычисляются разности между рангами для одного и того же наблюдения. Если для всех наблюдений разности близки к, значит рост одной переменной почти всегда сопровождается увеличением другой. По формуле видно, что в этом случае r-спирмена будет близок к 1. Для ручного подсчета удобна формула r-, которую можно использовать при отсутствии связанных рангов или небольшом (<1% наблюдений) их количестве. Ту же самую величину r-спирмена, более того без ограничения на связанные ранги, можно получить применив формулу r-пирсона к ранжированным переменным. Значимость коэффициента корреляции Спирмена проверяется по тем же формулам, что и значимость r-пирсона для n 3. Для выборок небольшого размера лучше пользоваться таблицами критических значений. Коэффициент корреляции Кендалла (Maurce George Kendall, английский статистик) применим, если обе переменные измерены в количественной 4

5 Иткина А.Я. (метрической или порядковой) шкале. Он также как и коэффициент корреляции Спирмена является ранговым. Основная идея, заложенная в τ-кендалла, заключается в изучении направления связи между переменными путем попарных сравнений между собой наблюдений. Ситуацию, при которой изменение Х для двух наблюдений сонаправлено с изменением Y для тех же наблюдений, назовем совпадением. А разнонаправленное изменение назовем инверсией. Например, если ранги по Х - 2, 1, 3, 4, а по Y - 3, 1, 2, 4, то изменение рангов при переходе от 1-го наблюдения ко второму сонаправлено (уменьшение), а при переходе от 1-го к третьему разнонаправлено (по Х рост, а по Y падение). Таких попарных сравнений нужно выполнить N(N 1), что весьма 2 трудоемко. Поэтому для ручного ета τ-кендалла принято упорядочивать наблюдения по одной из переменных, например по Х. τ-кендалла это разность относительных частот совпадений и инверсий для всех наблюдений: P Q, в преобразованном виде N(N 1) / 2 4Q 4P 1 1, N (N 1) N (N 1) где P число совпадений, Q число инверсий, P Q N (N 1) / 2. В Таблица 1 приведен пример подсчета числа совпадений и инверсий. Столбцы с 6 по 9 приведены для лучшего понимания того, что направление сортировки не влияет на величину τ- Кендалла. Сравниваем каждый ранг в столбце 3 со значениями, расположенными ниже его. Поскольку столбец 2 упорядочен по возрастанию, совпадениями будут все случаи, когда наблюдение с меньшим рангом выше по столбцу, чем наблюдение с большим рангом. При заполнении столбца 8 совпадением окажется значение ранга большее (столбец 7), чем у наблюдения ниже по столбцу. Например ранг 4 больше, чем 2, 3 и 1, т.е. всего 3 совпадения. 5

6 Коэффициенты корреляции и специфика их применения Таблица 1. Наблюдения Ранги Совпадения Инверсии Ранги Совпадения Инверсии Х Y P Q Х Y P Q (6 1) / 2 15 Σ = 11 Σ = 4 Σ = 11 Σ = 4 Это означает, что совпадения встречаются почти на 47 процентов чаще, чем инверсии. Другими словами вероятность совпадения, а инверсии Значимость коэффициент корреляции Кендалла проверяется по таблице стандартного нормального распределения, для чего рассчитывается статистика PQ 1 N (N 1) (2N 5) /18 и ее величина сравнивается с табличным значением. Либо находится величина вероятности, соответствующая, и она сравнивается с уровнем значимости. При этом надо помнить, что нулевой гипотезе об отсутствии корреляционной связи соответствует двусторонняя альтернатива о ее наличии. Для представленного выше примера (6 1) (2 6 5) / ,13, табл (,25) 1,96, т.е. на уровне значимости 3 17 /18 28,3 α=,5 не обнаружено корреляционной связи между переменными Х и Y. Или через вероятность p () 2, поскольку альтернатива двусторонняя).,129*2 =,258 >,5, получаем тот же вывод (умножаем на 6

7 Иткина А.Я. Основная идея ранговых коэффициентов корреляции заключается в том, что возможное количество перестановок n чисел-рангов равно n! и любая перестановка равновероятна. Поэтому вероятность случайного совпадения рангов у двух выборок ничтожно мала. При верности H распределение коэффициентов r-спирмена и τ- Кендалла симметрично и концентрируется около нуля. Для небольших выборок имеются таблицы критических значений статистик Спирмена и Кендалла, а при увеличении n их распределение приближается к стандартному нормальному. Если же H неверна, то последовательность рангов k каким-то образом "влияет" на последовательность t. Например, если ранги полностью совпадают, то это означает, что рост одной переменной однозначно связан с ростом другой переменной. Именно поэтому особенностью ранговых коэффициентов является выявление не только линейной связи между переменными, но и любого вида монотонной связи. Для представленного на Рис. 2 облака точек r-спирмена/τ-кендалла равны 1, если учитывать только синие точки и,75/,76, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Возвращаясь к Рис. 1, мы видим, что выброс привел к уменьшению r-пирсона на,98-,27=,71; r-спирмена на,99-,53=,46; τ-кендалла на,95-,64=,31. Т.е. плюсом ранговых коэффициентов корреляции является их меньшая чувствительность к выбросам, чем у r-пирсона Рис. 2. Облако точек 2. Поскольку коэффициенты r-спирмена и τ-кендалла показывают меру монотонной связи, они неприменимы для анализа связей, меняющих свое направление. Равенство r-спирмена или τ-кендалла означает, что монотонная связь между переменными отсутствует. 7

8 Коэффициенты корреляции и специфика их применения Пример 1. Эксперты оценивали риски освоения площади N месторождения М. Риски упорядочены в порядке убывания (от 1 максимального до 8 минимального). Согласованы ли оценки экспертов? Риски Оценки эксперта 1 Оценки эксперта 2 P (совпадения) Таблица 2. Q (инверсии) Геологический Технологический Технический Кредитный Спекулятивный Политический 6 7 Падение спроса 7 7 Природный форс-мажор 8 7 Σ = 2 Σ = Расчет совпадений и инверсий приведен в Таблица 2, вычислим поправочные коэффициенты: K x 3 (31) 3 (31) 3 (3 1) N(N 1) 3; Ky 6; 28; Тогда коэффициент корреляции Кендалла Коэффициент корреляции Спирмена для экспертных оценок равен,923, τ- Кендалла,853. Несмотря на отсутствие инверсий, коэффициенты корреляции меньше 1, поскольку наличие связок уменьшает изменчивость данных и соответственно возможности оценки корреляционной связи. Выше был приведен ет для проверки значимости τ-кендалла, однако статистика только асимптотически имеет нормальное распределение (n 3), а для маленькой выборки (n = 8) корректнее пользоваться таблицей критических точек. H: корреляционная связь отсутствует. При альтернативе: корреляция положительна, критические значения r-спирмена,643; τ-кендалла,571. Т.е. на уровне 5% оба коэффициента положительные. При альтернативе: корреляция 8

9 Иткина А.Я. ненулевая, критические значения r-спирмена,738; τ-кендалла,643. Т.е. на уровне 5% оба коэффициента ненулевые. Проверка гипотез о различии корреляций 1 Рассмотрим два примера, в которых будет проверена гипотеза H о равенстве коэффициентов корреляции в генеральных совокупностях. Пример 2. Изучался вопрос о влиянии антикоррозийного покрытия S на частоту аварий на трубопроводах. В течение полугода на 5 линейных участках трубопровода без покрытия и на 36 участках с покрытием фиксировалось количество аварий и толщина стенки трубы в месте аварии. Корреляция Пирсона для первой выборки составила r1,59, для второй r2,42. Можно ли предположить, что связь между толщиной стенки и количеством аварий исчезает при использовании антикоррозийного покрытия? В данном примере два анализируемых коэффициента корреляции рассчитаны по независимым выборкам. Процедура проверки H для независимых выборок состоит из следующих шагов. 1. Z-преобразование Фишера исходных коэффициентов корреляции (функция ФИШЕР() в Excel): и r ln 2 1 r, для заданных в примере коэффициентов 1 1,59 1 ln,68 2 1,59 1 1,42 ln,42 2. Расчет статистики критерия по формуле:,68, N 3 N ,1. 3. Сравнение с крит. По таблице стандартных нормальных вероятностей находим крит 1,96 для уровня значимости 5% и получаем крит. 1 Методы и идеи этой части заимствованы из учебного пособия: Наследов А.Д. Математические методы психологического исследования. СПб.: Речь, 212. С

10 Коэффициенты корреляции и специфика их применения 4. Вывод: коэффициенты корреляции статистически не отличимы, а следовательно антикоррозийное покрытие не повлияло на связь аварий с толщиной стенки трубы. Пример 3. В Германии изучалась связь между количеством солнечных часов в неделю (x), выработкой электричества с фотоэлементов (y), а также выработкой электричества с ветрогенераторных установок (). Исследование проводилось в светлое время суток. Важно было понять часто ли совпадает увеличение и падение электрогенерации из нескольких ВИЭ, а также изучить степень предсказуемости ветрогенерации, поскольку метеостанции лучше предсказывают солнечные дни, нежели силу ветра. Была собрана информация за 39 недель и вычислены коэффициенты парной корреляции r,71; r,4; r,29. xy x y Процедура проверки гипотезы о совпадении корреляционной связи между зависимыми выборками, какими в данном случае являются количество солнечных часов и электрогенерация из двух разных источников в эти же часы состоит из ета Z-критерия и вывода на основе сравнения с крит. Использование алгоритма тестирования таких гипотез для независимых выборок может привести к ошибкам за счет меньшей мощности такой проверки. Формула для (r r) N xy x (1 rxy) (1 rx) 2 ry (2 ry rxy rx)(1 rxy rx ry). Для имеющихся данных получилось равным 2,13, что больше, чем 1,96. Соответственно мы делаем вывод о том, что на уровне значимости 5% крит гипотезу следует отвергнуть. При этом, если выбрать уровень значимости равный 1%, основания для отвержения гипотезы отсутствовали бы. вывода К сожалению в случае, когда исходные данные не позволяют сделать уверенного оказывается неустойчивым к небольшому изменению исходных данных. При проверке отказалось, что увеличение уменьшению r x всего на четыре сотые приводит к до 1,9. Т.е. только при заметном отклонении от крит можно сделать уверенный вывод о совпадении/несовпадении коэффициентов корреляции в генеральной совокупности данных. 1

11 Иткина А.Я. Частный коэффициент корреляций Поскольку коэффициент корреляции отражает лишь математически наличие/отсутствие связи между переменными, возникает вопрос об истинной и ложной корреляции. Т.е. действительно ли связь между переменными носит осмысленный характер или она вызвана лишь влиянием выбросов или третьей переменной. В первом случае ошибочных выводов по коэффициенту корреляции можно избежать, рассмотрев облако точек для переменных. Второй случай более сложный, поскольку требует догадаться, что могло вызвать ложную корреляцию. Чтобы проиллюстрировать данную проблему рассмотрим данные по связи энергопотребления на душу населения, квт*час на чел./год (х) в нескольких странах с размером территории этих стран, кв. км (у). По выборке из 44 стран был рассчитан коэффициент корреляции Пирсона, который оказался равен,79. На Рис. 3 видно, что облако распадается на отдельные части, что вызывает сомнения в правильности применения коэффициента корреляции. Внимательно изучив список стран, вошедших в выборку, было сделано предположение о необходимости разделить их по ВВП на душу населения, $ США () Рис. 3. Облако точек: по оси х площадь стран; по у энергопотребление. Частный коэффициент корреляции показывает, какова была бы связь между двумя переменными, при условии, что влияние другой (других) переменных исключается. Частные коэффициенты могут быть разных порядков. Порядок коэффициента определяется числом факторов, влияние которых исключается. Здесь мы 11

12 Коэффициенты корреляции и специфика их применения рассматриваем только частный коэффициент корреляции первого порядка. После введения дополнительной переменной получены rx,93 и ry,76. r xy/ rxy rx ry,79,93,76, (1 rx)(1 ry) (1,93)(1,76) Проверим статистическую значимость частного коэффициента корреляции. Число степеней свободы уменьшилось до n 3. t rxy / n3,39. 1r 1, xy/ Поскольку t t (,25;41) 2,2 гипотезу об отсутствии корреляционной крит связи между электропотреблением и площадью территории страны на уровне значимости 5% необходимо отвергнуть. Однако эта связь не столь существенна, как казалось вначале. 12

13 Иткина А.Я. ПРИЛОЖЕНИЕ 1 Таблица критических значений рангового коэффициента корреляции Спирмена 2 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 2 С сайта Йоркского университета (Великобритания) 13

14 Коэффициенты корреляции и специфика их применения ПРИЛОЖЕНИЕ 2 Таблица критических значений рангового коэффициента корреляции Кендалла 3 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 3 С сайта Йоркского университета (Великобритания) 14


ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 2 1. Предположение, проверяемое при помощи научных методов а) научная гипотеза; б) статистическая гипотеза; в) гипотеза исследования; г) задача исследования. 2. Проверяемое

Куда мне отсюда идти? А куда ты хочешь попасть? А мне все равно, только бы попасть куда-нибудь. Тогда все равно куда идти. Куда-нибудь ты обязательно попадешь. Льюис Кэрролл Выбор статистического критерия

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Линейная корреляция Как показано выше, облако точек можно описать двумя линиями регрессии регрессией X на Y и Y на X. Чем меньше угол между этими прямыми, тем сильнее зависимость

3 Методы статистической обработки данных 3. Анализ таблиц сопряженности. Для исследования взаимосвязи пары качественных признаков между собой применяется анализ таблиц сопряженности. Таблица сопряженности

Лекция 0.3. Коэффициент корреляции В эконометрическом исследовании вопрос о наличии или отсутствии зависимости между анализируемыми переменными решается с помощью методов корреляционного анализа. Только

7. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Линейная регрессия Метод наименьших квадратов () Линейная корреляция () () 1 Практическое занятие 7 КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Для решения практических

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ

Эконометрическое моделирование Лабораторная работа Корреляционный анализ Оглавление Понятие корреляционного и регрессионного анализа... 3 Парный корреляционный анализ. Коэффициент корреляции... 4 Задание

Корреляция Материал из Википедии свободной энциклопедии Корреля ция статистическая взаимосвязь двух или нескольких случайных величин (либо величин которые можно с некоторой допустимой степенью точности

Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «МАТИ» Российский государственный технологический университет им. К.Э. Циолковского

Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург,

Лекция Корреляционный анализ. Описательные статистики. Коэффициент корреляции определяется: xy Корреляционный анализ M mx Y m Коэффициент показывает меру линейной зависимости между x и y, где x и y среднеквадратичные

УДК...0 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИЗМЕРЕНИЙ РЕЖИМНЫХ ПАРАМЕТРОВ В ЗАДАЧЕ УПРАВЛЕНИЯ ЭЛЕКТРИЧЕСКОЙ СИСТЕМЫ Павлюков В.С., Павлюков С.В. Южно-Уральский государственный университет, г. Челябинск, Россия Основные

СТАТИСТИЧЕСКИЙ ВЫВОД 1. Введение в проблему статистического вывода 2. Статистические гипотезы 3. Статистический критерий 4. Статистическая значимость 5. Классификация статистических критериев 6. Содержательная

Методические указания Корреляция Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида М (Y/ x)=f(x). Регрессией X на Y

Лекция 6. Методы измерения тесноты парной корреляционной связи Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены признаки,

Лекция 7. Непараметрические критерии независимости. Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31 Cодержание

Методические указания для выполнения лабораторной работы Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы. Методические указания Регрессией Y на X или условным математическим

Проверка статистических гипотез 1 Основные понятия. Нулевая гипотеза (H 0) утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо

Лекция 8. Непараметрические критерии однородности и независимости Буре В.М., Грауэр Л.В. ШАД Санкт-Петербург, 2013 Буре В.М., Грауэр Л.В. (ШАД) Непараметрические критерии... Санкт-Петербург, 2013 1 / 39

7 Корреляционный и регрессионный анализ. Корреляционный анализ статистических данных.. Регрессионный анализ статистических данных. Статистические связи между переменными можно изучать методами дисперсионного,

Лекция 7 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ЦЕЛЬ ЛЕКЦИИ: определить понятие статистических гипотез и правила их проверки; провести проверку гипотез о равенстве средних значений и дисперсий нормально распределенной

Поволжский государственный технологический университет Кафедра РТиМБС Методические указания к выполнению лабораторной работы 4 по дисциплине «Автоматизация обработки экспериментальных данных» Анализ сходства

МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ЗЕМЛЕУСТРОЙСТВЕ Карпиченко Александр Александрович доцент кафедры почвоведения и земельных информационных систем Литература elib.bsu.by Математические методы в землеустройстве [Электронный

11 Тесты по математической статистике Тест 1 P 1 Для любого x имеет место соотношение F x правую часть Заполните Дана выборка (3,1,3,1,4, 5) Составьте вариационный ряд 3 Что оценивают x и выборочная

Лекция 7 ЭКОНОМЕТРИКА 7 Анализ качества эмпирического уравнения множественной линейной регрессии Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа Построенное

МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)

Проверка статистической гипотезы о математическом ожидании нормального распределения при известной дисперсии. Пусть имеется нормально распределенная случайная величина N, определенная на множестве объектов

3.4. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ВЫБОРОЧНЫХ ЗНАЧЕНИЙ ПРОГНОЗНЫХ МОДЕЛЕЙ До сих пор мы рассматривали способы построения прогнозных моделей стационарных процессов, не учитывая одной весьма важной особенности.

Теория вероятностей и медицинская статистика АНАЛИЗ ЗАВИСИМОСТЕЙ Лекция 7 Кафедра медицинской информатики РУДН Содержание лекции 1. Шкалы измерений 2. Обзор статистических методов анализа 3. Корреляционный

Иткина А.Я. Эконометрика на практике Введение. Исследование в любой области знания предполагает получение результатов обычно в виде чисел. Однако просто собрать данные недостаточно. Даже объективно и корректно

Лекция 10. Методы измерения тесноты парной корреляционной связи. Часть 1 Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

Содержание задачи: Исследовать влияние денежных доходов населения на оборот розничной торговли - Денежные доходы населения (в среднем на душу населения в месяц), руб. y - Оборот розничной торговли, млрд.

Лекция 5 ЭКОНОМЕТРИКА 5 Проверка качества уравнения регрессии Предпосылки метода наименьших квадратов Рассмотрим модель парной линейной регрессии X 5 Пусть на основе выборки из n наблюдений оценивается

МВДубатовская Теория вероятностей и математическая статистика Лекция 4 Регрессионный анализ Функциональная статистическая и корреляционная зависимости Во многих прикладных (в том числе экономических) задачах

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ПСИХОЛОГИИ И СОЦИАЛЬНОЙ РАБОТЫ Факультет прикладной психологии Очно-заочная форма обучения САМОСТОЯТЕЛЬНАЯ РАБОТА По дисциплине: «МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»

Медицинская статистика Специальность «Лечебное дело» Проверка статистических гипотез Критерии согласия Определение статистической гипотезы Статистическая гипотеза - предположение о виде распределения или

Проверка статистических гипотез 1. Статистические гипотезы; 2. Критерии проверки гипотез; 3. Проверка параметрических гипотез; 4. Критерий Пирсона Завершить показ Статистические гипотезы. Статистические

Информационные технологии в физической культуре и спорте Процессы преобразования информации связаны с информационными технологиями. Технология в переводе с греческого - искусство, умение, а это не что

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ

Домашнее задание. Обработка результатов наблюдений двухмерного случайного вектора.1. Содержание и порядок выполнения работы Дана парная выборка (x i ; y i) объема 50 из двумерного нормально распределенного

Тема 4. Анализ матрицы корреляции и его место в регрессионном анализе 4.1. Коэффициент корреляции Коэффициент парной корреляции (Пирсона) показывает меру линейной связи между переменными он принимает значения

Корреляционный и регрессионный анализ. План. 1. Понятие корреляции. Функциональная и корреляционная зависимость. Графики рассеяния. 2. Коэффициент корреляции и его свойства. Коэффициент детерминации. 3.

65 4 ДИСПЕРСИОННЫЙ АНАЛИЗ Дисперсионный анализ разработан для сельскохозяйственных и биологических исследований Р.А. Фишером на основе открытого им закона распределения отношения средних квадратов (дисперсий)

Лукьянова Е.А. Медицинская статистика Специальность «Лечебное дело» 3 Проверка статистических гипотез Критерии согласия Критерий Стьюдента для связанных выборок Критерий Стьюдента для несвязанных выборок

ИЗУЧЕНИЕ СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ РАДИОАКТИВНОГО РАСПАДА Лабораторная работа 8 Цель работы: 1. Подтверждение случайного, статистического характера процессов радиоактивного распада ядер.. Ознакомление

55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:

РЕГРЕССИОННЫЙ АНАЛИЗ Пусть у нас есть серии значений двух параметров. Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами.

МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Серьезной проблемой при построении моделей множественной регрессии на основе метода наименьших квадратов (МНК) является мультиколлинеарность Мультиколлинеарность

Федеральное агентство воздушного транспорта Федеральное государственное образовательное учреждение высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ

Задача.Имеются следующие данные: Вариант 8 Номер семьи 3 4 5 6 7 8 9 0 Число совместно проживающих членов семьи, 3 3 4 4 4 5 6 7 7 чел. Годовое потребление электроэнергии, тыс. кв.- час 5 8 0 4 6 9 3 8.

Практическая работа Обработка и анализ результатов коллективных решений Цель работы определить коллективную оценку объектов (факторов и пр с точки зрения их воздействия на некоторую цель или показатель

Квантили Выборочная квантиль x p порядка p (0 < p < 1) определяется как элемент вариационного ряда выборки x (1), x () с номером [p]+1, где [a] целая часть числа а В статистической практике используется

ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 1 1. Множество объектов, в отношении которого формулируется исследовательская гипотеза а) случайная выборка; б) генеральная совокупность; в) зависимая выборка; г) независимая

3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3 Основные понятия статистической проверки гипотезы Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений В экономике, технике, естествознании,

Лекция 11. Методы измерения тесноты парной корреляционной связи. Часть Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРОМЫШЛЕННЫХ

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.