Меню

Что такое мощность статистического критерия



9.Что такое статистическая мощность исследования и от чего она зависит?

Нужно ли исследователю учитывать её при планировании исследования, и

если да, то как это сделать?

Статистическая мощность анализа (1-β): вероятность того, что мы на выборке примем гипотезу H1, если на самом деле она верна (= шанс обнаружить эффект, если он на самом деле есть).

• Размер эффекта, пример: Корреляция между приёмом аспирина и снижением риска сердечного приступа: r = 0.034, r2 = 0.0012. Но это значит, что 34 человека из 1000 могут предотвратить приступ, принимая аспирин.

Статистическая мощность зависит от…

– объёма выборки: чем он больше, тем она выше;

– размера эффекта: чем он сильнее, тем она выше;

– от используемого статистического критерия: для разных статистических критериев, проверяющих одну и ту же гипотезу, она будет разной.

• Является критерием для определения объёма выборки с учётом размера ожидаемого эффекта.

• Важно! Только высокая мощность (0,95 и выше) даёт нам возможность делать достоверный вывод о том, что искомый эффект отсутствует (верна H0).

• При недостаточной статистической мощности подобный вывод является необоснованным (правильный вывод: мы не обнаружили эффект, но не можем сказать, есть он или нет).

Анализ статистической мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.

В спец.программах, например во вражеской Statistika есть специальный модуль — Анализ мощности. Тут доступны графические и аналитические процедуры, позволяющие оценить мощность и объем выборки различных процедур статистического анализа.

Назовем исходную гипотезу «нулевая гипотеза» — H0 . Соберем данные. Используя статистическую теорию, видим, что гипотеза H0, вероятно, неверна и должна быть отвергнута.

Отвергая H0, вы обосновываете то, во что действительно верите. Эта ситуация, типичная во многих областях приложения, называется критерий отвержения-принятия — «Reject-Support testing,» (RS testing); отвергая нулевую гипотезу, вы подтверждаете теорию.

Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:

HO H1
H0 Правильное принятие Ошибка II рода
H1 Ошибка I рода Правильное отвержение

Заметим, что имеются ошибки двух типов, показанные в этой таблице. Авторы многих учебников обычно придерживаются такой точки зрения, что Ошибка I рода должна принимать значение .05 или ниже, тогда как Ошибка II рода должна быть столь малой, насколько это возможно при фиксированном уровне ошибки 1 рода. «Статистическая мощность», которая равна 1 — , соответственно, должна быть максимально высокой. ( у Жени в презентации – 0,95)

Например, в двухгрупповом эксперименте, включающем сравнение средних в двух группах — экспериментальной и контрольной, исследователь верит, что лекарство приносит эффект и ищет подтверждение своим предположениям с помощью критерия, который значимо отвергает нулевую гипотезу, состоящую в том, что эффекта нет (средние равны).

В таком исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.

Читайте также:  Какая нужна мощность для обогрева 1 кубического метра

В некоторых случаях просто невозможно иметь дело с очень большими выборками — с такой ситуацией мы сталкиваемся, например, в социальных или психологических исследованиях. В таких задачах исследователи иногда тратят несколько дней на то, чтобы получить интервью одного человека. В результате в течение года можно обследовать 50 субъектов. Корреляционные критерии в таких случаях имеют очень низкую мощность (так как объем выборки слишком мал). В таких случаях лучше взять значение выше .05, тогда требуемая мощность может быть достигнута.

С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.

Оценка мощности. При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить разумные отклонения от нулевой гипотезы

Факторы, влияющие на мощность статистических тестов. (повторение мать учения): Важно какой именно статистический критерий применяется. Некоторые статистические тесты по своей природе имеют большую мощность, чем другие. Важен объем выборки (количество наблюдений, на основании которых делается вывод). Вообще говоря, чем больше объем данных, тем больше мощность. Однако увеличение числа наблюдений связано с финансовыми и временными затратами. Следовательно, важно сделать объем выборки «разумно большим». Величина экспериментальных эффектов. Уровень ошибки в экспериментальных измерениях. Ошибка измерения интерпретируется как «шум», который может скрыть «сигнал» в реальных экспериментах. Следовательно, все действия, улучшающие точность и надежность измерения, могут увеличить статистическую мощность.

Источник

Что такое мощность статистического критерия

Мощность статистических критериев

Мощность статистического критерия представляет собой вероятность отвержения нулевой гипотезы, когда она фактически неверна. Иными словами, мощность говорит нам о том, насколько вероятно в данном исследовании получить статистически значимый результат, если искомая закономерность действительно имеет место в генеральной совокупности. Из этого определения следует, что любой исследователь кровно заинтересован в высоком значении мощности используемого статистического критерия.

Мощность критерия является функцией трех вещей: 1) степени, в которой проявляет себя искомая закономерность («величина эффекта»), 2) избранного исследователем уровня статистической значимости (альфа, вероятность ошибочного отбрасывания нулевой гипотезы), 3) объема выборки из генеральной совокупности.

Каждую из этих четырех величин можно выразить через три оставшиеся. Джейкоб Коэн, энтузиаст анализа мощности в психологических исследованиях, в своей монографии [1] приводит огромное количество таблиц, с помощью которых можно определять мощность и необходимый объем выборки, не прибегая к трудоемким вычислениям. По мнению Коэна, трудности, которые возникают у исследователей при анализе мощности, частично объясняются тем, что в психологии в целом отсутствует четкое представление о степени выраженности исследуемых феноменов. Поэтому еще одним немаловажным достоинством его работы является разработка показателей величины эффекта и операционализация понятий «слабый», «средний» и «выраженный» эффект для наиболее распространенных статистических критериев.

К настоящему времени разработано большое количество статистических программ, предназначенных для анализа мощности. Данное сообщение посвящено пакету pwr, которым можно воспользоваться в рамках среды R.

Читайте также:  Определить мощность необходимую для подъема груза весом

Рассмотрим для примера работу с функцией pwr.r.test, предназначенной для анализа мощности коэффициента корреляции Пирсона, одного из наиболее распространенных в психологии показателей величины эффекта. Дж. Коэн предложил для коэффициента корреляции такие операциональные определения величины эффекта: 0.1 — слабая корреляция, 0.3 — средняя корреляция, 0.5 — значительная корреляция (замечу, что его классификация существенно отличается от того, что можно встретить в пособиях по анализу данных. Так, в [2] величина корреляции до 0.5 включительно рассматривается как слабая).

Аргументами этой функции являются:
n — объем выборки;
r — значение коэффициента корреляции;
sig.level — уровень статистической значимости;
power — мощность критерия;
alternative — строка, указывающая на тип альтернативной гипотезы: «two.sided» (ненаправленная), «greater», «less» (направленные).

При вызове функции только один из аргументов n, r, sig.level или power должен быть опущен, чтобы его можно было вычислить на основании оставшихся. Исключение составляет лишь аргумент sig.level, имеющий значение по умолчанию 0.05, поэтому ему передают значение NULL, если функция должна вычислить уровень значимости.

Рассмотрим такую задачу. Пускай предполагаемая исследователем сила связи в генеральной совокупности описывается как средняя, при этом он хочет обеспечить вероятность обнаружения этой зависимости на уровне 0.8, уровень статистической значимости установлен им в 0.05 и альтернативная гипотеза является ненаправленной:

Таким образом, чтобы с высокой вероятностью обнаруживать среднюю по величине связь, нужно иметь не менее 85 испытуемых. Если повысить уровень статистической значимости до 0.01, то объем выборки возрастет до 125 человек. Если связь между переменными предполагается слабой (самый распространенный в психологии вариант вследствие невысокой валидности измерения и комплексного характера взаимосвязей), то понадобится 1163 испытуемых. Используя рассмотренные вычисления на этапе планирования исследования, ученый может составить четкое представление о том, какой объем выборки ему может понадобиться, чтобы обнаруживать искомую закономерность с заданной величиной эффекта. Важно подчеркнуть, что необходимость представлять себе величину эффекта перед началом исследования существенно меняет акценты по сравнению с обычной практикой.

Рассматриваемая функция помогает отвечать и на другие вопросы. Например: если я располагаю выборкой в 30 человек и собираюсь обнаружить связь средней силы при установленном уровне значимости в 0.01, то какой будет мощность критерия? Оказывается, она в этом случае составит всего 0.156, т.е. существует крайне незначительная вероятность обнаружения данной закономерности.

Еще один пример. Какого рода эффекты я смогу обнаруживать с вероятностью 0.8, на уровне статистической значимости 0.01, если объем выборки составляет 100 человек? Ответ — 0.334, т.е. среднюю по величине зависимость.

Помимо функции pwr.r.test, в пакете pwr имеется богатый набор инструментов для работы с наиболее распространенными статистическими критериями:

pwr.p.test: критерий для одной доли
pwr.2p.test, pwr.2p2n.test: критерий значимости различия двух долей
pwr.t.test, pwr.t2n.test: критерий Стььюдента
pwr.anova.test: однофакторный дисперсионный анализ для сбалансированных планов
pwr.chisq.test: критерий хи-квадрат
pwr.f2.test: регрессионный анализ
Ряд функций предназначен для вычисления величины эффекта: ES.h (доли), ES.w1 (критерий согласия), ES.w2 (меры связи). Функция cohen.ES дает возможность вывести величину эффекта для заданного критерия и уровня.

1. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum
2. Бююль А., Цефель П. SPSS: искусство обработки информации, изд-во DiaSoft, 2005 Метки: pwr, величина эффекта, мощность

Источник

МОЩНОСТЬ СТАТИСТИЧЕСКОГО КРИТЕРИЯ

— вероятность, с к-рой статистический критерий, предназначенный для проверки простой гипотезы против сложной альтернативы , отклоняет , когда в действительности верна гипотеза . В случае, когда гипотеза , конкурирующая с проверяемой гипотезой , является сложной (при этом сама гипотеза может быть как простой, так и сложной, что символически записывают следующим образом: , М. с. к., предназначенного для проверки H о против H1 , определяется как сужение функции мощности этого статистич. критерия на множество . Кроме этого определения широко распространено следующее: М. с. к., предназначенного для проверки гипотезы против сложной альтернативы

Читайте также:  Москвич 403 мощность двигателя

гдеb(q)- функция мощности этого статистич. критерия (см. Мощности критерия функция).

Лит.:[1] Леман Э. Л., Проверка статистических гипотез, пер. с англ., 2 изд., М., 1979; [2] Гаек Я., Шидак 3., Теория ранговых критериев, пер. с англ., М., 1971; [3] Ван-дер-Варден В. Л., Математическая статистика, пер. с нем., М., 1960; [4] Крамер Г., Математические методы статистики, пер. с англ., 2 изд., М., 1975.

М. С. Никулин.

Математическая энциклопедия. — М.: Советская энциклопедия . И. М. Виноградов . 1977—1985 .

Смотреть что такое «МОЩНОСТЬ СТАТИСТИЧЕСКОГО КРИТЕРИЯ» в других словарях:

МОЩНОСТЬ СТАТИСТИЧЕСКОГО КРИТЕРИЯ — вероятность того, что принятая нулевая гипотеза верна ( также: Статистическая проверка гипотез) … Социология: Энциклопедия

Проверка гипотезы (hypothesis testing) — Исследовательские гипотезы это предсказания в отношении результатов исслед., основанные на выводах из теории или ранее полученных данных. В идеале, гипотезы должны быть настолько определенными и конкретными, чтобы указывать на специфические… … Психологическая энциклопедия

Непараметрические статистические критерии (nonparametric statistical tests) — По сравнению со стандартными параметрическими процедурами, Непараметрические статистические методы основываются на более слабых допущениях в отношении анализируемых данных. Преимущества и издержки непараметрической статистики Существует… … Психологическая энциклопедия

СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ — отсутствие статистической связи. Гипотеза о С.Н. двух или более переменных принимается в качестве нулевой гипотезы , если наличие связи не удалось подтвердить. При принятии гипотезы о статистической независимости, следует контролировать мощность… … Социология: Энциклопедия

ГОСТ Р 50779.10-2000: Статистические методы. Вероятность и основы статистики. Термины и определения — Терминология ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения оригинал документа: 2.3. (генеральная) совокупность Множество всех рассматриваемых единиц. Примечание Для случайной величины… … Словарь-справочник терминов нормативно-технической документации

Статистическая значимость — В статистике величину называют статистически значимой, если мала вероятность её случайного возникновения или еще более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль гипотезы. Разница называется… … Википедия

Функция мощности — статистического критерия определяется как вероятность отвергнуть нулевую гипотезу при заданном распределении наблюдений . Функция мощности является функцией от распределения наблюдаемых случайных величин. В случае, если соответствует нулевой… … Википедия

Корреляция — (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора

система — 4.48 система (system): Комбинация взаимодействующих элементов, организованных для достижения одной или нескольких поставленных целей. Примечание 1 Система может рассматриваться как продукт или предоставляемые им услуги. Примечание 2 На практике… … Словарь-справочник терминов нормативно-технической документации

U-критерий Манна — U критерий Манна Уитни (англ. Mann Whitney U test) статистический критерий, используемый для оценки различий между двумя независимыми выборками по уровню какого либо признака, измеренного количественно. Позволяет выявлять… … Википедия

Источник