Пермский филиал Муниципального института Высшая школа экономики, г
Учебные материалы


Пермский филиал Государственного университета Высшая школа экономики, г



Карта сайта sundownerprime.com

ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ДЛЯ ПАРАМЕТРОВ ПОЛОЖЕНИЯ


И МАСШТАБА РАСПРЕДЕЛЕНИЙ


М.В. Радионова
Пермский филиал Государственного университета
Высшая школа экономики, г. Пермь

Аннотация.

Для построения доверительных интервалов для неизвестных параметров существует много различных методов. Одним из них является точный метод, основанный на центральных функциях истинного закона распределения. В работе рассмотрены основные понятия построения доверительных интервалов минимальной длины, указан алгебраический метод нахождения центральных функций, являющихся основой построения доверительных интервалов фиксированного размера для параметров масштаба и положения, доставляющих максимум доверительной вероятности, а также связанный с ним метод нахождения доверительных границ. Показано, что построение доверительных интервалов заданного размера, максимизирующих доверительную вероятность, сводится к проблеме нахождения экстремума определенного функционала при некотором ограничении. Приведено много иллюстрационных примеров построения доверительных интервалов параметров положения и масштаба фиксированного размера.

Основы доверительного оценивания и построения наилучших доверительных интервалов


Пусть - независимая повторная выборка из некоторой совокупности с параметрами
Доверительный интервал для некоторого параметра функции распределения есть, нестрого говоря [3], интервал в параметрическом пространстве, определяемый какой-либо парой статистик наблюденной выборки накрывающий «истинную» параметрическую точку с вероятностью не меньшей заданного значения . Величину называют доверительной вероятностью.
В тех случаях, когда существует возможность нахождения функции от результатов наблюдения , закон распределения которой не зависит от оцениваемого параметра, наиболее распространенным подходом в построении доверительных интервалов является точный метод.
Например, статистика имеет распределение Стьюдента с степенями свободы [4]. Поэтому, двусторонний доверительный интервал для параметра нормальной совокупности имеет вид:

где - односторонний квантиль распределения Стьюдента с степенью свободы, - выборочное среднее и выборочная дисперсия, соответственно.
Для построения интервальной оценки параметра воспользуемся тем фактом, что статистика имеет распределение Хи-квадрат с степенями свободы [1]. Доверительный интервал для параметра (среднеквадратичного отклонения) имеет вид:

где - квантиль распределения хи-квадрат.
Одной из наиболее широко изучаемых проблем в статистической теории является проблема построения хороших доверительных множеств для параметра , причем как скалярного, так и векторного [3].
При классическом подходе, когда имеет распределение , часто применяется подход, заключающийся в минимизации вероятности накрытия ошибочных значений параметра, если вероятность накрытия истинного значения параметра достаточно велика. Другими словами, желательно найти семейство множеств минимизирующих при ограничении для любого . В литературе такие множества часто называют равномерно наиболее точными доверительными множествами. Но такие доверительные множества часто не существуют даже в классе инвариантных доверительных множеств. Вместо этого часто рассматривается проблема нахождения множества наименьшего размера при ограничении вида для любого .
Такие доверительные интервалы рассматривал Пратт [18,19]. Пратт показал, что минимизация средней длины доверительного интервала связана с минимизацией вероятности накрытия значений параметра, отличных от истинных. Он показал, что в случае двухсторонних доверительных равномерно наиболее точных несмещенных (р.н.т.н.) доверительных интервалов ожидаемая длина интервалов также минимальна. В случае односторонных доверительных интервалов аналогичного заключения сделать нельзя. Этот феномен был проиллюстрирован в работах Пратта [18] и Маданского [16].
Размер доверительного множества измеряется посредством , где - неотрицательная мера, определенная на параметрическом пространстве. В задачах с непрерывным параметром в качестве обычно принимают меру Лебега, а в случае дискретного параметра в качестве может быть взята считающая мера. Такой подход в доверительном оценивании можно встретить в работах Хотеллинга (1939), Брауна (1986), Кохена и Стравдермана (1973), Хванга и Казеллы (1982), Неймана (1986) и Вийсмана (1979), Вайна (1984) и Леманна (1986).
Пусть случайная величина со значениями на отрезке вещественной прямой, плотность распределения которой принадлежит семейству , которое будем называть семейством сдвигов независимо от того один или оба параметра ( – положения, – масштаба) неизвестны. Так как , где имеет плотность распределения , то известный параметр можно просто опускать, полагая, что включает множитель , если он известен, а при известном принять в качестве наблюдаемой величины. С учетом этого, можно охватить все три случая единой записью, используя для обозначения пары символ , а для преобразования – . В каждом из трех случаев множество всех преобразований образует группу, символами будем обозначать тождественное преобразование (единицу группы) и преобразование обратное к . Будем предполагать, что для семейств, зависящих только от параметра масштаба и для двух других случаев. При этом общая плотность семейства запишется в виде , где равно .
Рассматривается следующий точный метод построения доверительных множеств: выбирается эквивариантная статистика , а затем ищется множество такое, что , где - доверительная вероятность. Поскольку эквивариантна, вероятность в левой части не зависит от параметра, а ограничение на параметр под знаком этой вероятности определяет доверительное множество. Приведем необходимые далее определения [8,10].
Определение 1. Статистика называется центральной статистикой (или функцией), если она является функцией выборки и ее закон распределения не зависит от параметра .
Определение 2. Статистика является эквивариантной, если она является функцией выборки и удовлетворяет условию для всех и всех .
Определение 3. Интервал назовем оптимальным доверительным интервалом размера , если существуют эквивариантная статистика и непрерывная вещественная функция такие, что и вероятность
(1)
максимальна при любом . Ясно, что для параметра положения это будут интервалы фиксированной длины , а для параметра масштаба – интервалы с фиксированным отношением концов, равным .
Доверительный интервал предпочтительнее интервала , если при всех

Пусть - -алгебра инвариантных подмножеств и - инвариантная мера на , то , тогда в силу формулы усреднения относительно , общий вид которой получен в работе [12] , вероятность запишется в виде


где - индикаторная функция отрезка и и тогда
Поскольку делитель является постоянной функцией, то оптимальная функция при известном удовлетворяет соотношению
(2)
при указанном ранее ограничении на размер. Так как и подынтегральная функция в левой части соотношения непрерывна по , то пара , определяющая оптимальный доверительный интервал, должна быть решением функционального уравнения
(3)
Таким образом проблема построения доверительных интервалов заданного размера, максимизирующих доверительную вероятность, сведена к нахождению экстремума определенного функционала при некотором ограничении.

Центральные функции и их плотность распределения


Для построения интервалов оптимальной длины в смысле определения 3 введем следующие понятия.
Определение 4. Пусть существует нетривиальная достаточная статистика для параметра на основе повторной выборки из совокупности . Если достаточная статистика для и

то будем называть главным фактором критерия факторизации.
Будем предполагать, что преобразованию соответствует следующее преобразование достаточной статистики
(3)
где –вектор, а –матрица, согласованных с размерностей.
Далее введем обозначение и будем предполагать, что содержит открытое подмножество мерного евклидова пространства для любого , это предположение эквивалентно тому, что с ненулевой вероятностью множество значений достаточной статистики содержит подмножество размерности при любом .
Согласно [13], систему множеств будем называть однородной, если для любого и произвольного фиксированного элемента найдется такой элемент , что уравнение
(4)
имеет решение. Ясно, что необходимым условием однородности является следующее неравенство , так как при фиксированном значения функция от в правой части уравнения лежат на некоторой поверхности, размерность которой не больше числа параметров, в то время как размерность достаточной статистики может равняться .
Это решение будем обозначать через . В статье [14] приведен следующий результат:
Теорема. (Сапожников П.Н.) Если распределение достаточной статистики на основе повторной выборки из совокупности сдвигов абсолютно непрерывно относительно меры Лебега на и система множеств однородна, то плотность распределения этой достаточной статистики определяется формулой
(5)
где константа находится из условия нормировки.
Для экспонентных семейств сдвигов
(6)
и достаточной статистики множества одинаковы для всех , поэтому формула (5) дает следующее выражение для плотности распределения статистики
(7)
Далее, в работе [13] показано, что нормирующая функция экспонентного семейства сдвигов определяется однозначно с точностью до постоянного множителя уравнением

где вектор структурных коэффициентов при известном легко определяется: . При неизвестном вектор находится из уравнений: , где произвольные элементы . Решение этого уравнения при заданном определяется с точностью до некоторых постоянных, которые будем называть параметрами формы.
Лемма 1. При условиях, наложенных выше на , статистика
(8)
является центральной функцией.
Доказательство этого утверждения следует из эквивариантности статистики . Напомним, что статистика называется эквивариантной, если для любого . Решением уравнения

является

С другой стороны, рассматриваемое уравнение можно записать в виде

так что или , и тогда лемма доказана, или , где подмножество элементов из , для которых , то есть являются нулевым вектором и единичной матрицей в соответственно. Нетрудно проверить, что является подгруппой группы . Но из условия следует, что т.е. эквивариантна.

Построение оптимального доверительного интервала постоянной длины


А теперь рассмотрим теорему [9], которая показывает, что для семейств зависящих от параметра положения оптимальный доверительный интервал постоянной длины существует только для 3-ех типов семейств: гипернормального [19], нормального и специфического произведение гипернормальных (назовем его распределением Клебанова - Рухина).
Теорема 1. Если и плотность распределения положительна и непрерывно дифференцируема при всех , то оптимальный доверительный интервал длины для параметра положения существует при любом только тогда, когда плотность имеет один из следующих трех видов:

где параметры указанных плотностей известны.
Доказательство: Полное доказательство этой теоремы рассмотрено в статье [9], здесь же приведено только краткое изложение доказательства.
Пусть - вероятностная плотность, удовлетворяющая условиям теоремы, тогда:

при всех .
Введем обозначения: . Тогда имеем если только . Отсюда выводим:
где функция такова, что . Из существования [8] доказывается монотонность по функции , для любого . Полагая , видим, что
где -некоторая монотонная, вообще говоря, зависящая от . Если и - две такие функции, отвечающие различным значениям , то и, значит, отсюда следует, что . Но из этого соотношения выводим: , так как
Вспоминая определение функции , приходим к уравнению которое нам удобно записать в виде
Решим это уравнение в случае, когда - дважды непрерывно дифференцируемые функции.
Для этого дифференцируем это уравнение по два раза. Получим
Дифференцируя теперь уравнение дважды по переменной , найдем
Отсюда выводим
Положим теперь
Тогда уравнение примет вид
Это уравнение есть линейное дифференциальное уравнение с постоянными коэффициентами. Если характеристическое уравнение

имеет различные корни , то Если же , то Ясно, что . Дифференцируя его по переменной и полагая , находим Отсюда и выводим
или при
В случае кратных корней
причем для следует положить
Нетрудно видеть, что эти решения имеют вероятностный смысл лишь в случае, когда корни уравнения вещественны. Действительно, в случае комплексно сопряженных корней
что не может быть вероятностной плотностью, так как Лебегова мера множества бесконечна. При этом решение также не имеет вероятностного смысла.
Авторское доказательство теоремы 1 является достаточно сложным. Ниже будет показано, что когда семейство сдвигов допускает нетривиальную достаточную статистику те же результаты могут быть получены более простым методом.
В случае параметра положения из условия оптимальности (3) следует, что, если при любом существует оптимальный доверительный интервал длины , то существует нетривиальная достаточная статистика для параметра положения, размерность которой не более двух [9,6]. При этом исходное семейство, ввиду выполнения условия регулярности Дынкина-Брауна [2], является экспоненциальным, те есть
Если , то, не нарушая общности, можно считать, что при ранг достаточной статистики равен [9]. Далее, для всех регулярных семейств со скалярным параметром сдвига, допускающих оптимальные доверительные интервалы для этого параметра, существует эквивалентная достаточная статистика , обладающая следующими свойствами:
1) найдутся такие функции , что ,
2) для любой пары внутренних точек из области значений уравнение имеет единственное решение , 3) инвариантна, т. е. для всех .
Для семейств со скалярной достаточной статистикой можно просто принять , так как . Для двух семейств с минимальной достаточной статистикой ранга два

поскольку теперь главный фактор критерия факторизации может быть представлен в виде Будем называть минимальной эквивариантной компонентой достаточной статистики. Статистику , если она невырождена, обычно называют дополнительной. Согласно [14], аналог свойства 1) имеет место в весьма общей ситуации, так как , где - матрица представления группы в базисе .
Теорема 2. Центральная функция оптимального доверительного интервала в смысле определения 3 имеет вид , где - минимальная эквивариантная компонента достаточной статистики, а функция является единственным решением уравнения . Пусть — плотность распределения случайной величины , тогда функция может быть найдена по формуле . Центр оптимального доверительного интервала не зависит от выбора минимальной эквивариантной компоненты и внутренней точки ее области значений.
Доказательство. Поскольку рассматриваемые семейства экспонентны, условие (3) записывается более конструктивно
(9)
поэтому имеет место хотя бы одна из возможностей: 1) компоненты функции линейно независимы с константой и тогда все коэффициенты уравнения равны нулю, 2) между указанными функциями существует линейная зависимость , следствием которой является обращение в нуль подходящих линейных комбинаций компонент вектора . Первый вариант исключается ввиду того, что из линейной независимости компонент функции с константой следует для всех . Действительно, из условия линейной независимости вытекает уравнение , где положено , которое с помощью свойств коэффициентов экспонентного семейства сдвигов [13] преобразуется к виду при всех . Так как при некотором и , то и, следовательно, . Поскольку вектор производных от равен нулю, так как , то сам этот вектор не зависит от . Пусть теперь компоненты функции линейно зависимы с константой. Если ранг семейства равен единице, то первая часть теоремы доказана, так как является решением уравнения Оставшееся уравнение
(10)
эквивалентноe уравнению , в котором обозначает главный фактор критерия факторизации, служит для нахождения функции . Осталось рассмотреть еще вариант с двумерной достаточной статистикой. Анализ возможностей на основе работы [2] показывает, что направляющими функциями экспонентного семейства, порожденного аддитивными сдвигами, могут быть только функции , а . Тогда не меняется при изменении , и . Поэтому линейная связь между статистиками имеет вид: Благодаря этому выписывается в явном виде и является единственным решением уравнения , коэффициенты которого , находятся из свойства эквивариантности . Одновременно уравнение (9) преобразуется к виду . Доказательство оставшейся части теоремы опирается на два вспомогательных утверждения. Пусть — главный фактор критерия факторизации для какой-либо достаточной статистики . Обозначим через множество тех значений минимальной эквивариантной компоненты, для которых в случае или в двумерном случае. Легко видеть, что не зависит от значений и статистики .
Лемма 2. В принятых обозначениях при плотность распределения достаточной статистики относительно меры Лебега в имеет вид
(11)
где - неотрицательная функция.
Если , то ее плотность распределения относительно меры Лебега в определяется формулой

где — нормирующая постоянная. Обе формулы допускают обобщение на семейства, порожденные сдвигами группы Ли, одно из них можно найти в работе [12]. Из этой последней формулы следует, что для семейств со скалярной достаточной статистикой уравнение эквиалентно подобному уравнению для , из которого следует уравнение (10). Для двумерной достаточной статистики уравнение эквивалентно аналогичному уравнению для в силу формулы (11), из которого следует уравнение , с другой стороны, интегрируя начальное уравнение по переменной , получим
Независимость центров оптимальных доверительных интервалов от выбора достаточной статистики и точки или следует из приведенной ниже леммы 3. Отразим в обозначениях функций и их зависимость от вида статистики и внутренней точки пространства значений. Для этого решение уравнения будем обозначать , а решение уравнения – через .
Лемма 3. Для любой эквивариантной статистики с однородной областью значений .
Всякие две эквивариантные статистики с однородными пространствами значений эквивалентны. При этом, если , то
Случай, когда , т.е. когда оптимальный доверительный интервал имеет вид исследовался и ранее. В частности, в работе [17] показано, что для параметра положения имеет вид
(12)
Эта оценка называется оценкой Питмена для параметра положения. В работе [17] рассмотрены доверительные интервалы и для параметра масштаба, причем показано, что оптимальный доверительный интервал имеет либо несобственная функция распределения, либо функция Гамма - распределения, при этом
(13)
Результат же данной работы является естественным обобщением этих случаев и приводит к характеризации более широкого класса семейств.


edu 2018 год. Все права принадлежат их авторам! Главная