On estimating the coverage interval of a standard two-sided power distribution from sample data
- Authors: Stepanov A.V.1
-
Affiliations:
- D. I. Mendeleev Institute for Metrology
- Issue: Vol 71, No 2 (2025): Modern Methods of Theory of Boundary Value Problems. Pontryagin Readings — XXXV
- Pages: 341-352
- Section: Articles
- URL: https://journals.rudn.ru/CMFD/article/view/45308
- DOI: https://doi.org/10.22363/2413-3639-2025-71-2-341-352
- EDN: https://elibrary.ru/NPAGPU
- ID: 45308
Cite item
Full Text
Abstract
We consider the problem of estimating coverage intervals (both one-sided and two-sided) of the standard two-sided power distribution (STSP-distribution) based on sample data. We check the quality of the obtained estimates using the Monte Carlo method. We study the properties of the maximum likelihood estimates of the parameters of the original distribution and estimate the influence of their bias on the quality of estimating coverage intervals. We also give examples demonstrating that the obtained estimates can be used for continuous distributions that can be approximated by a family of STSP-distributions.
Full Text
1. Введение Оценивание интервалов охвата непрерывно распределенных случайных величин является важной прикладной задачей при статистической обработке данных (под интервалом охвата для уровня вероятности P0 будем понимать такой интервал, который содержит значение случайной величины с данной вероятностью). В частности, при обработке результатов измерений предполагается, что интервал охвата будет содержать заданную долю значений, которые могут быть обоснованно приписаны измеряемой величине [10-12]. При этом в нормативных документах и методиках зачастую делается предположение о нормальности закона распределения данных, теория использования которого хорошо проработана, что приводит к приписыванию симметричного интервала охвата вида [x - Ku, x + Ku] измеренному значению x, где u = u(x) - оценка его суммарной неопределенности, а K - соответствующий нормальному закону коэффициент охвата (для P0 = 0,95 значение K ≈ 1,96 обычно округляют до двух). На практике, тем не менее, иногда возникают ситуации, когда данный симметричный интервал используется некритично, без должного обоснования, по тем или иным причинам (отсутствие адекватных альтернативных image © А. В. Степанов, 2025 image This work is licensed under a Creative Commons Attribution 4.0 International License https://creativecommons.org/licenses/by-nc/4.0/legalcode 341 342 А. В. СТЕПАНОВ моделей или относительная сложность вычисления интервалов охвата для них; малый объем экспериментальных данных, не позволяющий делать уверенные выводы о законе распределения и т. д.). Очевидно, данный интервал не всегда является подходящим: например, если исходное распределение существенно асимметрично, или измерения проводятся вблизи естественной границы множества возможных значений измеряемой величины (например, содержание высокочистого вещества в смеси) [4, 5], и указанный интервал охвата выходит за эту границу, переставая обеспечивать заданный уровень вероятности P0. В данной работе вопрос об оценивании интервалов охвата по выборочным данным рассматривается для семейства распределений, которое, с одной стороны, допускает достаточно простое их выражение (а также несложную процедуру оценивания параметров), а с другой стороны, является достаточно широким для того, чтобы в случае необходимости быть использованным для аппроксимации других распределений. А именно, рассмотрим стандартное двустороннее степенное распределение (standard two-sided power distribution, STSP) [7, 8], плотность которого определена на отрезке [0, 1] и имеет вид: ⎧ ⎪⎨ p f (x)= x p-1 image θ , 0 <x θ, (1.1) ⎪⎩ p 1 - x p-1 image 1 - θ , θ x< 1; здесь p > 0, 0 θ 1 - параметры распределения (случай p = 1 отвечает равномерному распределению, p = 2 - треугольному). Далее распределения вида (1.1) будем также обозначать STSP (θ, p). Важным преимуществом данного распределения является простота проводимых математических выкладок1 и, как следствие, простота выражений для интервалов охвата. Генерация случайных значений для данного распределения также может быть легко реализована, что делает его удобным для статистического моделирования методом Монте-Карло. Всилу специфики решаемой задачи наложим далее дополнительное ограничение на параметр p рассматриваемого семейства: будем считать p 1, так как при p < 1 соответствующие распределения двухмодальны (имеют U-образную форму), и вопрос о том, что в таком случае считать интервалом охвата, становится дискуссионным. Также, не умаляя общности, для определенности предположим, что θ 0,5. 2. Интервалы охвата Выражения для функции распределения и обратной к ней в случае (1.1) имеют крайне простой вид [8]: ⎧ ⎪⎨ θ F (x) = x p image θ , 0 y θ, 1 - x p-1 image ⎪⎩ 1 - (1 - θ) 1 - θ , θ < y 1; image ( /p θp-1y, 0 y θ, F -1(y) = 1 - /p (1 - θ)p-1(1 - y), θ < y 1. (2.1) Получим выражения для интервалов охвата STSP-распределения. Напомним, что интервалом охвата для заданного уровня вероятности P0 называют такой интервал (в данном случае, отрезок, так как распределение имеет ограниченный носитель) [c1, c2] ⊂ [0, 1], что F (x2) - F (x1)= P0. Здесь и далее будет рассматриваться значение P0 = 0,95 (95%), при этом, очевидно, проведенные построения допускают обобщение на случай других общеупотребительных значений P0 (0,9; 0,99). В качестве одностороннего интервала охвата рассмотрим правосторонний интервал I = [c1, 1] (напомним, считаем θ> 0,5), где c1 = F -1(1 - P0). image 1 при достаточно широком разнообразии: в работе [8] проведено сравнение STSP-распределения с бета-распределением с использованием диаграммы моментов. ОБ ОЦЕНИВАНИИ ИНТЕРВАЛА ОХВАТА STSP-РАСПРЕДЕЛЕНИЯ ПО ВЫБОРОЧНЫМ ДАННЫМ 343 Таб. 1. Пример: кратчайшие двусторонние интервалы охвата, двусторонние интервалы охвата Tab. 1. Example: shortest two-sided coverage intervals, two-sided coverage intervals θ 0,75 0,90 p 1,5 3 5 1,5 3 5 Is [0, 102, 0, 966] [0, 276, 0, 908] [0, 412, 0, 863] [0, 122, 0, 986] [0, 332, 0, 963] [0, 494, 0, 945] I [0, 078, 0, 946] [0, 241, 0, 884] [0, 380, 0, 842] [0, 083, 0, 960] [0, 273, 0, 937] [0, 440, 0, 924] δL · 100% 99,5% 98,3% 97,5% 98,5% 95,1% 93,0% Для двустороннего интервала, в простейшем случае, предположим, что слева и справа отбра- 1 сываются подынтервалы одинакового веса, равного image 2 (1 - P0): 1 F (c1) = 1 - F (c2) = 2 (1 - P0), c1 = F - 1 1 - P0 2 , c2 = F - 1 1+P0 2 . (2.2) Далее, при отсутствии уточнений, под двусторонним интервалом охвата будем подразумевать интервал охвата именно такого вида. Таким образом, используя формулу (2.1), можем сформулировать следующее утверждение. Утверждение 2.1. Для распределения вида (1.1) односторонний (правосторонний) интервал охвата задается формулой а двусторонний имеет вид image I = [/p θp-1(1 - P0), 1], (2.3) imageimage p 1 1 I = [c1, c2], c1 = p θp-1(1 - P0), c2 =1 - (1 - θ)p-1(1 - P0). (2.4) 2 2 Замечание 2.1. В случае, когда θ = 0,5, STSP-распределение является симметричным относительно точки 0,5, и дополнительно можем вычислить коэффициент охвата для заданного уровня вероятности: KP0 = 1 - c2 - c1 = /p 2σ image 1 - P0 image 1 (p + 1)(p + 2), 2 image здесь σ = /2(p + 1)(p + 2) - среднеквадратическое отклонение (далее будем использовать аббревиатуру СКО). Замечание 2.2. Заметим также, что определение двустороннего интервала охвата, в общем случае, неоднозначно; таковым можно считать любой отрезок [c1, c2], для которого выполнены условия: c1 > 0, c2 < 1, F (c2) - F (c1) = P0. В то же время, можно выбрать из множества таких отрезков кратчайший (c2 - c1 → min). Выражая c2 через c1, получим следующие формулы для границ c1,2: image ( c p 1 image c1 p 1 c1 = arg min c 1 - c - p (1 - θ)p-1 image § P0 - θ θ 1 , c2 =1 - p (1 - θ)p-1 image § P0 - θ θ . В таб. 1 приведено сравнение двусторонних интервалов охвата I с кратчайшими двусторонними Is, для некоторых значений параметров θ, p; последняя строчка содержит отношение длин δL = |Is|/|I|, выраженное в процентах. Для рассмотренных примеров, как можно заметить, данная величина не слишком заметно отличается от единицы, поэтому далее для упрощения выкладок везде будем рассматривать интервал охвата, отвечающий условиям (2.2) (хотя, безусловно, существуют задачи, где требуется нахождение именно кратчайшего интервала охвата). 344 А. В. СТЕПАНОВ 3. Оценивание интервалов охвата по выборочным данным При оценивании интервалов охвата по выборочным данным можно выделить две подзадачи. Первая, более простая, - оценить интервал охвата, считая, что закон распределения выборки представляет собой STSP (θ, p) с неизвестными (подлежащими оценке) значениями параметров θ, p. Тогда, получив их оценки θˆ, pˆ, можно вычислить соответствующие оценки cˆ1,2 границ интервала охвата по формулам, приведенным выше. В более сложном случае вид закона распределения исходных экспериментальных данных считаем неизвестным. Предполагается только, что их распределение непрерывно, то есть описывается плотностью f0(x) (соответствующую функцию распределения обозначим F0(x)), и что область определения f0 совпадает с отрезком [0, 1] (или, обобщая, что величина F (1) - F (0) настолько близка к единице, что вероятность получения значений, выходящих за границы данного отрезка, исчезающе мала, с точки зрения конкретного приложения). Также предполагается, что неизвестное распределение может быть с приемлемой точностью (например, в терминах близости функций распределения или расстояния полной вариации) аппроксимировано распределением из семейства (1.1), что дает основания предполагать, что оценка интервала охвата [cˆ1, cˆ2], полученная для аппроксимирующего распределения, также обеспечит приемлемую величину Pˆ = F0(cˆ2) - F0(cˆ1) вероятности охвата для исходного (аппроксимируемого) распределения. С практической точки зрения, как правило, приемлемым можно считать значение Pˆ, которое не отличается от заданного уровня P0 значимо (более, чем на единицы процентов) в меньшую сторону. Отличие Pˆ в б´ольшую сторону, как правило, не является критичным, например, в задаче оценивания неопределенности измерения требуется оценка сверху, то есть вариант, когда полученный доверительный интервал фактически содержит, например, 98% значений случайной (измеряемой) величины при заявленном уровне вероятности 95%, предпочтительнее, чем когда он содержит 92% ее значений. Повторно заметим, что выбор STSP-распределения в качестве аппроксимирующего здесь может быть обусловлен именно простотой вычисления границ интервала охвата, которые допускают явное аналитическое выражение, в том числе, для асимметричного STSP-распределения, в отличие, например, от случая бета-распределения. Вопрос об использовании семейства симметричных TSP-распределений для аппроксимации непрерывных распределений рассматривался в работе [2]. Далее с помощью метода Монте-Карло будет исследован вопрос о применимости метода аппроксимации интервала охвата для различных классов модельных распределений (как самого STSP, так и некоторых других). При переходе к выборочным данным как для задачи оценивания, так и для задачи аппроксимации интервалов охвата становится очевидной зависимость точности полученных оценок от длины выборки. Кроме того, существенное влияние оказывает смещение оценок θˆ, pˆ, (будет рассмотрено ниже). В случае задачи аппроксимации интервала охвата неизвестного распределения первостепенную важность, очевидно, будет иметь сама возможность аппроксимации исходного распределения STSP-семейством с приемлемой точностью. Очевидно, существуют случаи, когда это невозможно, тогда следует перейти к подбору аппроксимирующего семейства, отличного от (1.1), более подходящего для решения конкретной практической задачи. Рассмотрим иллюстративный пример (пока оперируя функциями распределения, а не выборками). Допустим, исходное распределение - нормальное, с математическим ожиданием, равным θ = 0,5, и среднеквадратическим отклонением σ = 0,1: f0 ∼ N (0,5, 0,1). Заметим, что, с вычислительной точки зрения, данное распределение практически неотличимо от усеченного нормального распределения, имеющего отрезок [0, 1] областью определения, поэтому можем считать, что f0 ∼ N[0, 1](0,5, 0,1). В этом случае распределение STSP (0,5, 5,18) дает приемлемую, с точки зрения близости функций распределения, аппроксимацию f0 (соответствующие функции распределения изображены на рис. 1), и оценка интервала охвата имеет вид: [cˆ1, cˆ2]= [0, 280, 0, 720]. Проверка показывает, что для исходного нормального распределения N (0,5, 0,1) Pˆ ≈ 0,972, что является приемлемым значением. Аналогично, для f0 ∼ N (0,5, 0,15) получим pˆ = 3,20, [cˆ1, cˆ2] = [0, 196, 0, 804], Pˆ ≈ 0,957. Таким образом, семейство STSP является подходящим выбором для оценивания интервала охвата нормального распределения (усеченного нормального распределения), и можно ожидать, что, при рассмотрении выборки достаточной длины оценки интервалов охвата, полученные по выборочным данным, будут удовлетворительными. ОБ ОЦЕНИВАНИИ ИНТЕРВАЛА ОХВАТА STSP-РАСПРЕДЕЛЕНИЯ ПО ВЫБОРОЧНЫМ ДАННЫМ 345 image imageimageimage image Рис. 1. Функции распределения F0, F (f0 ∼ N (0,5, 0,1), f ∼ STSP (0,5, 5,18)). Fig. 1. Distribution functions F0, F (f0 ∼ N (0,5, 0,1), f ∼ STSP (0,5, 5,18)). Заметим также, что в данной статье не рассматривался вопрос о проверке критериев согласия при подборе аппроксимирующего распределения, тем не менее, при решении практических задач следует обратить на него внимание, убедившись, что выбор аппроксимирующего распределения не противоречит исходным экспериментальным данным слишком явно. 1. Оценивание параметров STSP-распределения. Моделирование. Наиболее естественным представляется оценивание параметров STSP распределения с использованием оценок максимального правдоподобия. Допустим, что имеется выборка из распределения (1.1) длины n: n n i=1 {xi}i=1 . Обозначим x(i) соответствующий вариационный ряд. Тогда оценки максимального правдоподобия, согласно [7, 8], имеют вид: n n i-1 x(j) n n 1 - x(j) θˆ = x(i0 ), image image pˆ = - log M (i ) , i0 = arg max M (i), M (i) = x 1 x . 0 i j=1 (i) j=i+1 - (i) Моделирование методом Монте-Карло показывает, что оценки θˆ, pˆ являются смещенными (здесь и далее число итераций, использовавшихся для получения оценок, составляло 2 · 106). Математическое ожидание оценки θˆ смещено влево (в сторону нуля) тем сильнее, чем ближе исходный параметр θ к единице; математическое ожидание оценки pˆ смещено в сторону б´ольших значений (вверх). Полученные в ходе моделирования распределения оценок асимметричны (распределение θ при этом имеет многомодальный вид). В качестве примера ниже приведена таб. 2, содержащая смещения (в том числе, в относительном виде) и СКО оценок параметров для θ = 0,75 и n = 20, 50. Заметим, что относительное смещение δpˆ заметно выше, чем δθˆ, и самые заметные смещения наблюдаются вблизи p = 1. СКО σ(θˆ) убывает с ростом параметра p модельного распределения, а отношение СКО σ(pˆ) к Epˆ меняется незначительно. Смещения оценок ожидаемо уменьшаются с ростом длины выборки n. Заметим также, что при p = 1 модельным случаем является равномерное распределение (f (x) ≡ 1,x ∈ [0, 1]), поэтому исходный параметр θ для него может принимать любое допустимое значение, и рассматривать смещение оценки θˆ здесь не имеет смысла). 346 А. В. СТЕПАНОВ Таб. 2. Пример: свойства оценок θˆ, pˆ, θ = 0,75 Tab. 2. Example: properties of estimates θˆ, pˆ, θ = 0,75 n p Eθˆ δθˆ σ(θˆ) Epˆ δpˆ σ(pˆ) 20 1,0 0,500 0,420 1,315 31,50% 0,275 1,5 0,695 -7,40% 0,239 1,737 15,80% 0,393 2,0 0,735 -2,00% 0,131 2,246 12,30% 0,527 2,5 0,742 -1,00% 0,086 2,775 11,00% 0,658 3,0 0,745 -0,70% 0,063 3,311 10,40% 0,789 4,0 0,747 -0,40% 0,041 4,390 9,70% 1,047 5,0 0,748 -0,30% 0,031 5,472 9,40% 1,308 50 1,0 0,500 0,428 1,167 16,70% 0,141 1,5 0,731 -2,60% 0,161 1,589 5,90% 0,223 2,0 0,745 -0,70% 0,078 2,090 4,50% 0,300 2,5 0,747 -0,40% 0,050 2,601 4,00% 0,376 3,0 0,748 -0,30% 0,037 3,114 3,80% 0,451 3,5 0,748 -0,20% 0,029 3,629 3,70% 0,526 5,0 0,749 -0,10% 0,018 5,175 3,50% 0,751 Таб. 3. δθˆ, δpˆ, % n 20 50 θ 0,75 0,90 0,95 0,75 0,90 0,95 p δθˆ δpˆ δθˆ δpˆ δθˆ δpˆ δθˆ δpˆ δθˆ δpˆ δθˆ δpˆ 1,0 31,5 31,5 31,5 16,7 16,7 16,7 1,5 -7,4 15,8 -10,0 15,3 -10,6 14,9 -2,6 5,9 -3,9 5,9 -4,4 5,8 2,0 -2,0 12,3 -3,2 12,6 -3,7 12,5 -0,7 4,5 -1,1 4,6 -1,3 4,7 2,5 -1,0 11,0 -1,6 11,4 -2,0 11,6 -0,4 4,0 -0,6 4,2 -0,7 4,3 3,0 -0,7 10,4 -1,0 10,8 -1,3 11,1 -0,3 3,8 -0,4 3,9 -0,4 4,0 3,5 -0,5 10,0 -0,7 10,4 -0,9 10,8 -0,2 3,7 -0,3 3,8 -0,3 3,9 4,0 -0,4 9,7 -0,6 10,1 -0,7 10,5 -0,2 3,6 -0,2 3,7 -0,2 3,8 4,5 -0,3 9,5 -0,5 9,9 -0,6 10,3 -0,1 3,5 -0,2 3,6 -0,2 3,7 5,0 -0,3 9,4 -0,4 9,8 -0,5 10,2 -0,1 3,5 -0,2 3,6 -0,2 3,7 Таблица 3 содержит более детальный список относительных смещений оценок (в процентах). При оценивании параметров, в случае необходимости, ее можно использовать как источник поправок. Заметим, что величина δpˆ относительно слабо зависит от значения параметра θ исходного модельного распределения. Таким образом, следует отметить, что при оценивании параметров распределения (1.1), при не слишком больших (порядка нескольких десятков) длинах выборки, интервал значений p = 1 ... 1,5, особенно левый его конец (близкие к равномерному «пологие» распределения), является «проблемным». При увеличении длины выборки острота проблемы спадает, однако на практике не всегда доступны длинные массивы экспериментальных данных. В качестве альтернативы методу максимального правдоподобия для оценивания параметров (1.1) рассматривался метод моментов, оценки параметров при этом получали путем решения ОБ ОЦЕНИВАНИИ ИНТЕРВАЛА ОХВАТА STSP-РАСПРЕДЕЛЕНИЯ ПО ВЫБОРОЧНЫМ ДАННЫМ 347 системы уравнений ⎧ 1 - θˆ - M1 image ⎨⎪ pˆ = M θ , 1 - ˆ ˆ2 ˆ ˆ θ pˆ ⎩ 2 ⎪ (1 - θ)(1 + θpˆ) +2 = M , pˆ +2 (pˆ + 1)(pˆ + 2) где M1,2 - начальные выборочные моменты (опустим вывод данных формул, он относительно громоздок, но тривиален). Тем не менее, моделирование показало, что данный метод дает сопоставимое смещение для оценок параметров, не имея явных преимуществ (эффективность полученных оценок при этом может быть несколько ниже). 2. Оценивание интервалов охвата. Моделирование. Перейдем теперь к оцениванию интервала охвата и проверке качества оценок c1,2. Предлагается получать оценки cˆ1,2, используя формулы (2.3), (2.4), подставляя в них оценки (максимального правдоподобия или метода моментов) параметров θˆ, pˆ. Для проверки качества оценок снова воспользуемся методом Монте-Карло. Получив для каждого модельного распределения (отвечающего паре параметров θ, p), свои оценки θˆ, pˆ =⇒ [cˆ1, cˆ2] =⇒ Pˆ, тем самым, получим экспериментальное распределение величины Pˆ. Полученные для этого распределения математическое ожидание EPˆ и десятый, двадцать пятый и пятидесятый процентили P10(Pˆ), P25(Pˆ), P50(Pˆ) можно рассматривать в совокупности для принятия решения о качестве оценивания интервала охвата. Ниже будут использованы как нескорректированные оценки параметра p, так и оценки, подвергшиеся простейшей коррекции. А именно, как уже было замечено ранее, δpˆ слабо зависит от θ, поэтому предложим простейшую коррекцию полученной оценки pˆ, путем введения корректирующего множителя Cp: pˆ → Cppˆ (оценку θˆ при этом не предлагается корректировать), считая: Cp = 0,87, если p 2; иначе 0,91; для n = 20; Cp = 0,90, если 1 p 1,5; 0,94, если 1,5 <p 2; иначе 0,96; для n = 50 (значения p > 5 при этом не рассматривались). Результаты оценивания статистик распределения Pˆ приведены в таб. 4 (в качестве примера снова выбрали θ = 0,75); рассмотрены односторонний (О) и двусторонний (Д) типы интервалов охвата. Во втором столбце отмечено, проводилась ли коррекция оценки pˆ. Следует отметить, что даже такая тривиальная (грубая) коррекция pˆ дает возможность получить гораздо более качественные (в терминах Pˆ) оценки интервалов охвата, особенно это заметно для относительно коротких выборок (n = 20). Результаты для n = 50 и без коррекции выглядят приемлемо (хотя и хуже, чем с ней); более того, как показывают эксперименты, при n порядка сотни и выше коррекция избыточна (за исключением, возможно, значений p, близких к 1). Для небольших же выборок рекомендуется ее проводить. Стоит еще раз подчеркнуть, что более тонкая коррекция оценок θˆ, pˆ (таб. 3) даст еще более заметное улучшение результатов (особенно вблизи p = 1). Заметим, что относительно невысокий уровень значения P10(Pˆ) при n = 20 обусловлен не только смещением оценок параметров, но и достаточно большим их разбросом, вследствие небольшой длины выборки. Во избежание загромождения текста излишними подробностями, здесь опущена информация о распределениях границ cˆ1,2; следует отметить только, что при отсутствии коррекции они смещены внутрь, к центру интервала охвата, что и приводит (в среднем) к некоторой его недооценке. 3. Аппроксимация интервала охвата. Таблица 5 содержит статистики распределения вероятностей Pˆ, полученные в ходе моделирования при аппроксимации непрерывных модельных распределений f0, не принадлежащих семейству (1.1): равномерных распределений, определенных на подмножествах отрезка [0, 1], усеченных нормальных распределений (в силу их малого СКО, их «усеченностью» можно, вообще говоря, пренебречь), бета-распределений. Рассматривался двусторонний интервал охвата. Оценки cˆ1,2, по аналогии с предыдущим пунктом, получались по формулам (2.3), (2.4), как если бы исходное (аппроксимируемое) распределение (и выборочные 348 А. В. СТЕПАНОВ Таб. 4. Пример: статистики распределения Pˆ (θ = 0,75) Tab. 4. Example: Distribution Pˆ statistics (θ = 0,75) тип/ type коррекция pˆ/ pˆ correction p n 20 50 EPˆ P10(Pˆ) P25(Pˆ) P50(Pˆ) EPˆ P10(Pˆ) P25(Pˆ) P50(Pˆ) О - 1,0 0,923 0,867 0,902 0,933 0,937 0,906 0,924 0,941 1,5 0,930 0,877 0,909 0,938 0,942 0,913 0,930 0,945 2,0 0,933 0,881 0,913 0,940 0,943 0,915 0,931 0,946 2,5 0,934 0,882 0,914 0,942 0,944 0,915 0,932 0,947 3,0 0,934 0,883 0,915 0,942 0,944 0,915 0,932 0,947 4,0 0,935 0,884 0,916 0,943 0,944 0,916 0,932 0,947 5,0 0,935 0,885 0,916 0,943 0,944 0,916 0,932 0,947 + 1,0 0,935 0,895 0,924 0,944 0,944 0,923 0,937 0,948 1,5 0,947 0,898 0,933 0,956 0,950 0,924 0,939 0,954 2,0 0,947 0,901 0,930 0,953 0,950 0,922 0,938 0,952 2,5 0,947 0,903 0,931 0,954 0,950 0,923 0,938 0,952 3,0 0,948 0,903 0,931 0,955 0,950 0,923 0,938 0,953 4,0 0,948 0,904 0,932 0,956 0,950 0,923 0,939 0,953 5,0 0,948 0,905 0,932 0,956 0,950 0,923 0,939 0,953 Д - 1,0 0,907 0,851 0,888 0,918 0,929 0,902 0,920 0,935 1,5 0,924 0,866 0,903 0,934 0,941 0,909 0,928 0,944 2,0 0,927 0,869 0,905 0,936 0,942 0,910 0,929 0,945 2,5 0,928 0,870 0,907 0,938 0,942 0,911 0,929 0,946 3,0 0,929 0,871 0,907 0,938 0,942 0,911 0,929 0,946 4,0 0,929 0,871 0,908 0,939 0,942 0,911 0,929 0,946 5,0 0,929 0,872 0,908 0,939 0,942 0,912 0,929 0,946 + 1,0 0,928 0,886 0,916 0,939 0,942 0,922 0,936 0,947 1,5 0,944 0,890 0,929 0,955 0,950 0,922 0,938 0,953 2,0 0,944 0,893 0,925 0,952 0,949 0,919 0,936 0,952 2,5 0,944 0,894 0,926 0,952 0,948 0,919 0,936 0,952 3,0 0,944 0,895 0,926 0,953 0,948 0,919 0,936 0,952 4,0 0,944 0,895 0,927 0,953 0,948 0,920 0,936 0,952 5,0 0,944 0,895 0,927 0,953 0,949 0,920 0,937 0,952 данные) принадлежало семейству STSP, в то время как величина Pˆ вычислялась с использованием истинного модельного распределения f0. Полученные результаты демонстрируют приемлемое качество аппроксимации (в случае бета-распределения следует отдать предпочтение более длинным выборкам). Таким образом, в некоторых случаях аппроксимация семейством STSP с последующей оценкой интервала охвата может быть оправдана для практических приложений. 4. Уточнение оценок путем подбора наилучшего приближения. В качестве еще одного способа уточнения оценок можно предложить метод подбора наилучшего закона распределения, описанного в работе [3]. Напомним, что выбор осуществляется путем поиска пары параметров θ, p из некоторого конечного множества S таких пар, доставляющей минимум функционалу n d2 = i=1 F -1 θ,p i - 1/2 n 2 - x(i) . Подгонку предлагается осуществлять путем последовательных ОБ ОЦЕНИВАНИИ ИНТЕРВАЛА ОХВАТА STSP-РАСПРЕДЕЛЕНИЯ ПО ВЫБОРОЧНЫМ ДАННЫМ 349 Таб. 5. Пример: статистики распределения Pˆ Tab. 5. Example: Distribution Pˆ statistics f0 n EPˆ P10(Pˆ) P25(Pˆ) P50(Pˆ) U ([0, 5, 1]) 20 0,942 0,871 0,934 0,961 50 0,964 0,924 0,963 0,974 U ([0, 7, 1]) 20 0,944 0,895 0,930 0,957 50 0,968 0,948 0,963 0,974 N[0, 1](0,5, 0,15) 20 0,952 0,908 0,937 0,960 50 0,956 0,930 0,945 0,959 N[0, 1](0,5, 0,10) 20 0,961 0,921 0,949 0,970 50 0,965 0,942 0,956 0,968 N[0, 1](0,6, 0,10) 20 0,953 0,908 0,938 0,961 50 0,957 0,932 0,947 0,960 Beta(1,5, 1,1) 20 0,934 0,884 0,918 0,945 50 0,945 0,914 0,934 0,950 Beta(5,2) 20 0,934 0,869 0,908 0,943 50 0,945 0,904 0,926 0,948 Beta(20,2) 20 0,938 0,877 0,917 0,950 50 0,966 0,939 0,958 0,973 итераций. А именно, получив на первом шаге оценки θˆ, pˆ (методом максимального правдоподобия или методом моментов) и опираясь на сведения об ожидаемых средних смещениях данных оценок (таб. 3 или ее аналоги), исследователь формирует сетку S. Например, ожидая δpˆ ≈ 10%, для параметра p он может рассмотреть массив значений p = 0,90 pˆ, 0,91 pˆ, ... , pˆ. Аналогично строится массив значений θ (хотя здесь обычно ожидается заметно меньшее смещение). Рассмотрев в качестве S декартово произведение указанных массивов и минимизируя значение d2, получим новую пару θˆ, pˆ. После этого делается еще один-два шага для уточнения оценки, с последовательным измельчением сетки. Указанный подход позволяет существенно снизить смещение и разброс оценок θˆ, pˆ (в проводившихся экспериментах величина δpˆ уменьшалась в разы, а СКО σ(pˆ) - на 10 и более процентов) и улучшить статистические показатели вероятности Pˆ. Реализация данного метода является относительно несложной (хотя, конечно, все же несколько сложнее, чем использование предварительно вычисленных поправок). Заметим, что метод подбора распределения также может быть независимо использован для оценивания параметров STSP-распределения [1]. 4. Заключение Проведенные построения позволяют утверждать, что предложенные процедуры оценивания и аппроксимации интервалов охвата по выборочным данным дают достаточно хорошие результаты, сохраняя при этом вычислительную простоту. Полученные результаты могут быть рекомендованы для специалистов, занимающихся обработкой экспериментальных данных и представлением результатов измерений. Относительно невысокое качество оценок для равномерного распределения (и близких к нему) вполне ожидаемо и интуитивно понятно: странно было бы ожидать эффективного оценивания моды распределения θ (и интервала охвата) по относительно коротким выборкам там, где эта мода практически незаметна, а значения распределены почти равномерно; в таком случае проще считать распределение равномерным, и пользоваться соответствующим тривиальным выражением для интервала охвата. С другой стороны, при рассмотрении выборок небольшого размера следует помнить, что оценки параметров используемого STSP-распределения являются смещенными, и 350 А. В. СТЕПАНОВ для улучшения оценок, производных от них, желательно проводить некоторую коррекцию. При оценивании интервалов охвата произвольных непрерывных распределений, в рамках конкретных практических задач, также стоит изучить вопрос их аппроксимируемости STSP-распределением. Очевидно, задача допускает различные обобщения. Например, выбор в качестве области определения отрезка [0, 1] достаточно условен (отталкиваясь от условий конкретной задачи, можно использовать TSP-распределение, заданное на ином интервале [9]). В некоторых задачах точные границы рассматриваемого диапазона могут быть неизвестны, то есть их тоже придется оценивать, что усложнит рассматриваемую задачу. Можно также использовать иные семейства распределений в качестве отправной точки, при условии, что они достаточно широки, например, обобщенное TSP-распределение [6] или бета-распределение.About the authors
A. V. Stepanov
D. I. Mendeleev Institute for Metrology
Author for correspondence.
Email: stepanov17@yandex.ru
St. Petersburg, Russia
References
- Степанов А. В., Чуновкина А. Г. Об одном методе подбора закона распределения из семейства TSP и его свойствах// В сб.: «Материалы международной Воронежской зимней математической школы». - Воронеж: ВГУ, 2024. - С. 244-246.
- Степанов А. В., Чуновкина А. Г. Об аппроксимации законов распределений семейством TSP при решении метрологических задач// В сб.: «Материалы международной Воронежской зимней математической школы». - Воронеж: ВГУ, 2025. - С. 317-318.
- Тырсин А. Н. Метод подбора наилучшего закона распределения непрерывной случайной величины на основе обратного отображения// Вестн. ЮУрГУ. Сер. Мат. Мех. Физ. - 2017. - 9, № 1. - С. 31-38.
- Эллисон С. Л. Р., Вильямс А. (ред.) Количественное описание неопределенности в аналитических измерениях. Руководство ЕВРАХИМ/СИТАК CG 4. - Екатеринбург: УНИИМ, 2018. - URL: https://www.eurachem.org/images/stories/Guides/pdf/QUAM2012_P1_RU.pdf.
- Cowen S., Ellison S. Reporting measurement uncertainty and coverage intervals near natural limits// Analyst. - 2006. - 131, № 6. - C. 710-717.
- Herrerias-Velasco J., Herrerias-Pleguezuelo R., Van Dorp J. R. The generalized two-sided power distribution// J. Appl. Stat. - 2009. - 36. - С. 573-587.
- Kotz S., Van Dorp J. R. The standard two-sided power distribution and its properties// Am. Stat. - 2002. - 56, № 2. - С. 90-99.
- Kotz S., Van Dorp J. R. Beyond beta: other continuous families of distributions with bounded support and applications. - World Sci. Publ., 2004.
- Stepanov A., Chunovkina A. On choosing two-sided power distribution for measurement data// В сб.: «Advanced Mathematical and Computational Tools in Metrology and Testing XIII». - World Sci. Publ., 2025. - C. 268-277.
- Stoudt S., Pintar A., Possolo A. Coverage intervals// J. Res. Natl. Inst. Standards Technol. - 2021. - 126 - doi: 10.6028/jres.126.004.
- Evaluation of measurement data - Guide to the expression of uncertainty in measurement// Bureau International des Poids et Mesures (BIPM). - 2008. - Режим доступа: https://www.bipm.org/ documents/20126/2071204/JCGM_100_2008_E.pdf (дата обращения: 27.06.2025).
- Evaluation of measurement data - Supplement 1 to the «Guide to the expression of uncertainty in measurement» - Propagation of distributions using a Monte Carlo method// Bureau International des Poids et Mesures (BIPM). - 2008. - Режим доступа: https://www.bipm.org/documents/20126/2071204/JCGM_101_2008_E.pdf/325dcaad-c15a-407c-1105 -8b7f322d651c (дата обращения: 27.06.2025).
Supplementary files




