Тестирование на ясновидение (или производительность модели), где предсказания являются интервалами

Я хочу разработать тест, который определит, является ли человек ясновидящим (или работает ли модель черного ящика). Предположим, что ясновидящий верит, что он может оценить рост человека (или любую другую статистику, такую как доход, распределение которого мы знаем) по его имени (или ментальной модели, включающей множество неизвестных нам факторов).

Мы случайным образом выберем $n$ людей из популяции с высотами $h_$, $i \in \<1,2. n\>$. Ясновидящий дает$ n $ интервалов высоты (в cms) в качестве догадок, например $I_<1>= (162, 180), I_<2>= (152, 154). Я… = (134,155).$ Ясновидящий считается правильным, если рост человека $h_ \in I_$. Мы знаем, каково распределение высоты для популяции, и можем рассчитать вероятность падения высоты случайно выбранного человека в интервале. Чтобы установить, является ли индивид ясновидящим, нам нужно решить, какой отрезок мы выбираем для скорости попадания (количество раз, когда ясновидящий, о котором идет речь, является правильным). Как вычислить такое ограничение и как разработать тест, чтобы выяснить, насколько компетентен ясновидящий, о котором идет речь? Или вычислительные ошибки-единственный способ обойти это?

1 Ответ 1

Не используйте частоту попаданий в качестве меры качества для интервальных прогнозов. (Или если вы это сделаете, не удивляйтесь, если ваш выигрышный алгоритм предсказывает интервал $(0,300)$ для всех экземпляров и получает процент попадания 100%.)

Ваша мера качества должна сбалансировать охват и длину интервалов прогнозирования: да, мы хотим высокий охват, но мы также хотим короткие интервалы.

Существует мера качества, которая делает именно это и обладает привлекательными свойствами: интервальная оценка. Пусть $\ell$ и $u$ будут нижним и верхним концами интервала предсказания. Оценка дается по формуле

Здесь $1$ — это функция индикатора, а $\alpha$ — это покрытие, к которому стремится ваш алгоритм. (Вам нужно будет заранее определить это, основываясь на том, что вы планируете делать с интервалом прогнозирования. Нет смысла стремиться к охвату $\alpha=100\%$, потому что результирующие интервалы будут слишком широки, чтобы быть полезными для чего-либо.)

Затем вы можете усреднить оценку интервала по многим прогнозам. Чем ниже средний балл, тем лучше. См.Gneiting & Raftery (2007, JASA)] для обсуждения и указателей на дальнейшую литературу. Масштабированная версия этой оценки использовалась, например, при оценке интервалов предсказаний в недавнем соревновании по прогнозированию M4.

Теперь о том, является ли ваш алгоритм ясновидящим или ваш черный ящик «работает». что ж, вам нужно будет выяснить, достаточно ли он «ясновидящий». Ясновидящий должен быть в состоянии точно предсказать все высоты, не так ли? Таким образом, все $u=\ell=h$, и счет должен быть равен нулю. Это звучит как довольно высокая (или низкая) планка для очистки. Таким образом, вопрос действительно заключается в том, достаточно ли хорош ваш алгоритм или лучше, чем какой — то конкурирующий алгоритм или просто эталон-например, вы, безусловно, должны проверить, работает ли ваш алгоритм лучше, чем просто брать эмпирические интервалы по всем вашим обучающим данным, что было бы самым простым наивным эталоном. Это может быть полезно, как только вы достигнете этой стадии.

https://stats.stackexchange.com/questions/465799/testing-for-clairvoyance-or-performance-of-a-model-where-the-predictions-are-i