Я хочу разработать тест, который определит, является ли человек ясновидящим (или работает ли модель черного ящика). Предположим, что ясновидящий верит, что он может оценить рост человека (или любую другую статистику, такую как доход, распределение которого мы знаем) по его имени (или ментальной модели, включающей множество неизвестных нам факторов).
Мы случайным образом выберем $n$ людей из популяции с высотами $h_$, $i \in \<1,2. n\>$. Ясновидящий дает$ n $ интервалов высоты (в cms) в качестве догадок, например $I_<1>= (162, 180), I_<2>= (152, 154). Я…
1 Ответ 1
Не используйте частоту попаданий в качестве меры качества для интервальных прогнозов. (Или если вы это сделаете, не удивляйтесь, если ваш выигрышный алгоритм предсказывает интервал $(0,300)$ для всех экземпляров и получает процент попадания 100%.)
Ваша мера качества должна сбалансировать охват и длину интервалов прогнозирования: да, мы хотим высокий охват, но мы также хотим короткие интервалы.
Существует мера качества, которая делает именно это и обладает привлекательными свойствами: интервальная оценка. Пусть $\ell$ и $u$ будут нижним и верхним концами интервала предсказания. Оценка дается по формуле
Здесь $1$ — это функция индикатора, а $\alpha$ — это покрытие, к которому стремится ваш алгоритм. (Вам нужно будет заранее определить это, основываясь на том, что вы планируете делать с интервалом прогнозирования. Нет смысла стремиться к охвату $\alpha=100\%$, потому что результирующие интервалы будут слишком широки, чтобы быть полезными для чего-либо.)
Затем вы можете усреднить оценку интервала по многим прогнозам. Чем ниже средний балл, тем лучше. См.Gneiting & Raftery (2007, JASA)] для обсуждения и указателей на дальнейшую литературу. Масштабированная версия этой оценки использовалась, например, при оценке интервалов предсказаний в недавнем соревновании по прогнозированию M4.
Теперь о том, является ли ваш алгоритм ясновидящим или ваш черный ящик «работает». что ж, вам нужно будет выяснить, достаточно ли он «ясновидящий». Ясновидящий должен быть в состоянии точно предсказать все высоты, не так ли? Таким образом, все $u=\ell=h$, и счет должен быть равен нулю. Это звучит как довольно высокая (или низкая) планка для очистки. Таким образом, вопрос действительно заключается в том, достаточно ли хорош ваш алгоритм или лучше, чем какой — то конкурирующий алгоритм или просто эталон-например, вы, безусловно, должны проверить, работает ли ваш алгоритм лучше, чем просто брать эмпирические интервалы по всем вашим обучающим данным, что было бы самым простым наивным эталоном. Это может быть полезно, как только вы достигнете этой стадии.
https://stats.stackexchange.com/questions/465799/testing-for-clairvoyance-or-performance-of-a-model-where-the-predictions-are-i