sonyps4.ru

Оценка качества модели самое главное. Оценка качества регрессионной модели

Оценка качества показывает, насколько теоретические вычисления по построенной модели отклоняются от экспериментальных данных. Наличие связи двух переменных называется корреляцией .

Если оценка качества применяется до исследования, то она решает задачу: есть ли связь между входом X и выходом Y и оценивает силу этой связи.

1. Линейный коэффициент корреляции

Линейный коэффициент корреляции указывает, есть ли между двумя рядами X и Y линейная зависимость и какой силы. Вычисляется по следующей формуле:

m x , m y , m xy — математическое ожидание x , y , xy :

Дисперсия σ x 2 и σ y 2 показывает, насколько разбросаны точки от средней величины:

Линейный коэффициент корреляции может иметь знак плюс или минус. Положительная его величина свидетельствует о прямой связи между X и Y . Чем ближе KR к +1 , тем связь более тесная. Отрицательная величина его свидетельствует об обратной связи; в этом случае границей является –1 . Близость KR к нулю свидетельствует о слабой связи между X и Y (см. рис. 9.1 ).

Рис. 9.2.

Нелинейный коэффициент корреляции вычисляется по следующей формуле:

bug09.05. Проверить все эти формулы!!!

bug09.06. откуда берется "средняя величина"?

P — разброс между реальными точками и средней величиной: bug09.07. средним значением?

D — разброс между гипотетической кривой и реальными точками:

??

R — разброс между гипотезой и средней величиной:

??

3. Коэффициент корреляции двух динамических рядов

X и Y представляются в виде рядов z i и u i для того, чтобы исключить постоянную составляющую: z i = x i – m x
u i = y i – m y

При r –> 1 имеет место тесная корреляция. При r –> 0 процессы взаимно ортогональны, корреляции нет, процессы не связаны друг с другом.

bug09.09 Более ясные рисунки

4. Корреляция внутри динамического ряда

Исследуется сила связи между прошлым и настоящим одного процесса. Для этого сигнал сравнивают с самим собой, сдвинутым во времени, и вычисляют коэффициент корреляции двух динамических рядов (см. п. 3).

bug09.12. Неясный рисунок

5. Поиск периодичности ряда

Есть ли периодичность в динамическом ряду, можно выяснить, проделав прямое преобразование Фурье и рассмотрев спектр исследуемого сигнала. Об этом рассказывается в лекции 07 «Модель динамической системы в виде Фурье представления (модель сигнала)»

6. Зависимость динамики ряда Z от двух динамических факторов X и Y

Рис. 9.5. bug09.13. Неясные рисунки (их не надо)

Коэффициент множественной корреляции R :

7. Связь двух признаков

где K — это коэффициент ассоциаций, позволяет выяснить, имеется ли какая-либо связь между двумя признаками. Если данный коэффициент близок к единице, то в этом случае можно говорить о существовании такой связи.

Пример. Попытаемся с помощью данной формулы выяснить, есть ли связь между ростом и весом человека? Пусть в нашем распоряжении имеются данные о весе и росте 500 человек:

По формуле: K = (304 · 67 – 17 · 112)/(304 · 67 + 17 · 112) = 0.83. Так как величина 0.83 близка к 1, то можно говорить о существовании определенной связи между весом и ростом.

Оценка качества модели является завершающим этапом ее разработки и пре­следует две цели:

1) проверить соответствие модели ее предназначению (целям исследования);

2) оценить достоверность и статистические характеристики результатов, полу­чаемых при проведении модельных экспериментов.

При аналитическом моделировании достоверность результатов определяется двумя основными факторами:

1) корректным выбором математического аппарата, используемого для описа­ния исследуемой системы;

2) методической ошибкой, присущей данному математическому методу.

При имитационном моделировании на достоверность результатов влияет целый ряд дополнительных факторов, основными из которых являются:

Моделирование случайных факторов, основанное на использовании датчиков СЧ, которые могут вносить «искажения» в поведение модели;

Наличие нестационарного режима работы модели;

Использование нескольких разнотипных математических методов в рамках одной модели;

Зависимость результатов моделирования от плана эксперимента;

Необходимость синхронизации работы отдельных компонентов модели;

Наличие модели рабочей нагрузки, качество которой зависит, в свою очередь, от тех же факторов.

Пригодность имитационной модели для решения задач исследования характе­ризуется тем, в какой степени она обладает так называемыми целевыми свойства­ми. Основными из них являются:

Адекватность;

Устойчивость;

Чувствительность.

Оценка адекватности модели. В общем случае под адекватностью понимают степень соответствия модели тому реальному явлению или объекту, для описания которого она строится. Адекватность модели определяется степенью ее соответствия не столько реально­му объекту, сколько целям исследования.

Один из способов обоснования адекватности разработанной модели - использование методов математической статистики. Суть этих методов заключается в проверке выдвинутой гипотезы (в данном случае - об адекватности модели) на основе некоторых статистических критериев.

Процедура оценки основана на сравнении измерений на реальной системе и результатов экспериментов на модели и может проводиться различными способа­ми. Наиболее распространенные из них:

По средним значениям откликов модели и системы;

По дисперсиям отклонений откликов модели от среднего значения откликов системы;

По максимальному значению относительных отклонений откликов модели от откликов системы.

Оценка устойчивости модели. Устойчивость модели - это ее способность сохранять адекватность при иссле­довании эффективности системы на всем возможном диапазоне рабочей нагрузки, а также при внесении изменений в конфигурацию системы. Разработчик вынужден прибегать к методам «для данного случая», частичным тестам и здравому смыслу. Часто бывает по­лезна апостериорная проверка. Она состоит в сравнении результатов моделирования и результатов измерений на системе после внесения в нее изменений. Если результаты моделирования приемлемы, уверенность в устойчивости модели возрастает.

Чем ближе структура модели структуре системы и чем выше степень детализации, тем устойчивее модель. Устойчивость результатов моделирования может быть также оценена методами математической статистики .

Оценка чувствительности модели. Достаточно часто возникает задача оценивания чувствительности модели к изменению пара­метров рабочей нагрузки и внутренних параметров самой системы.

Такую оценку проводят по каждому параметру в отдельности. Основана она на том, что обычно диапазон возможных изменений параметра известен. Одна из наиболее простых и распространенных процедур оценивания состоит в следующем.

1) вычисляется величина относительного среднего приращения параметра :

2) проводится пара модельных экспериментов при значениях , и средних фиксированных значениях остальных параметров. Определяются значения отклика модели и ;

3) вычисляются ее относительное приращение наблюдаемой переменной :

В результате для -го параметра модели имеют пару значений , характеризующую чувствительность модели по этому параметру.

Аналогично формируются пары для остальных параметров модели, которые образуют множество .

Данные, полученные при оценке чувствительности модели, могут быть ис­пользованы, в частности, при планировании экспериментов: большее внима­ние должно уделяться тем параметрам, по которым модель является более чув­ствительной.

Калибровка модели. Если в результате проведенной оценки качества модели оказалось, что ее целевые свойства не удовлетворяют разработчика, необходимо выполнить ее калибровку, т. е. коррекцию с целью приведения в соответствие предъявляемым требованиям.

Как правило, процесс калибровки носит итеративный характер и состоит из трех основных этапов :

1) глобальные изменения модели (например, введение новых процессов, изме­нение типов событий и т. д.);

2) локальные изменения (в частности, изменение некоторых законов распреде­ления моделируемых случайных величин);

3) изменение специальных параметров, называемых калибровочными.

Целесообразно объединить оценку целевых свойств имитационной модели и ее калибров­ку в единый процесс.

Процедура калибровки состоит из трех шагов, каждый из которых является ите­ративным (рис. 1.11).

Шаг 1. Сравнение выходных распределений.

Цель - оценка адекватности ИМ. Критерии сравнения могут быть различны. В частности, может использоваться величина разности между средними значениями откликов модели и системы. Устранение различий на этом шаге основано на внесении глобальных изменений.

Шаг 2. Балансировка модели.

Основная задача - оценка устойчивости и чувствительности модели. По его резуль­татам, как правило, производятся локальные изменения (но возможны и глобальные).

Шаг 3. Оптимизация модели.

Цель этого этапа - обеспечение требуемой точности результатов. Здесь возмож­ны три основных направления работ: дополнительная проверка качества датчиков случайных чисел; снижение влияния переходного режима; применение специальных методов понижения дисперсии.

Решения, принимаемые исследователем по результатам имитационного моделирования, могут быть конструктивными только при выполнении двух основных условий:

· полученные результаты обладают требуемой точностью и достоверностью;

· исследователь способен правильно интерпретировать полученные результаты и знает, каким образом они могут быть использованы.

Возможность выполнения первого условия закладывается, в основном, еще на этапе разработки модели. Достоверность результатов моделирования предполагает, что модель, с помощью которой они получены, не только является «правильной», но отвечает и некоторым дополнительным требованиям, предъявляемым к имитационным моделям (они рассматриваются ниже).

Способность исследователя правильно интерпретировать полученные результаты и принимать на их основе важные решения существенно зависит от степени соответствия формы представления результатов целям моделирования.

Оценка качества модели является завершающим этапом ее разработки и преследует две цели:

1) проверить соответствие модели ее предназначению (целям исследования);

2) оценить достоверность и статистические характеристики результатов, получаемых при проведении модельных экспериментов.

При аналитическом моделировании достоверность результатов определяется двумя основными факторами:

· корректным выбором математического аппарата, используемого для описания исследуемой системы;

· методической ошибкой, присущей данному математическому методу.

При имитационном моделировании на достоверность результатов влияет целый ряд дополнительных факторов, основными из которых являются:

· моделирование случайных факторов, основанное на использовании датчиков случайных чисел, которые могут вносить «искажения» в поведение модели;

· наличие нестационарного режима работы модели;

· использование нескольких разнотипных математических методов в рамках одной модели;

· необходимость синхронизации работы отдельных компонентов модели.

Пригодность имитационной модели для решения задач исследования характеризуется тем, в какой степени она обладает так называемыми целевыми свойствами. Основными из них являются:

· адекватность;

· устойчивость;

· чувствительность.

Оценка адекватности модели. В общем случае под адекватностью понимают степень соответствия модели тому реальному явлению или объекту, для описания которого она строится.

Процедура оценки адекватности основана на сравнении измерений на реальной системе и результатов экспериментов на модели и может проводиться различными способами. Наиболее распространенные из них:

· по средним значениям откликов системы и модели;



· по дисперсиям отклонений откликов модели от среднего значения откликов системы;

· по максимальному значению относительных отклонений откликов модели от откликов системы.

Но нужно подчеркнуть, что статистические методы применимы только в том случае, если оценивается адекватность модели существующей системе. На проектируемой системе провести измерения, естественно, не представляется возможным. Единственный способ преодолеть это препятствие заключается в том, чтобы принять в качестве эталонного объекта концептуальную модель проектируемой системы. Тогда оценка адекватности программно реализованной модели заключается в проверке того, насколько корректно она отражает концептуальную модель.

Оценка устойчивости модели. Устойчивость модели – это ее способность сохранять адекватность при исследовании системы на всем возможном диапазоне входных параметров, а также при внесении изменений в конфигурацию системы.

Универсальной процедуры проверки устойчивости модели не существует. Разработчик вынужден прибегать к методам ”для данного случая», частичным тестам и здравому смыслу. Часто бывает полезна апостериорная проверка. Она состоит в сравнении результатов моделирования и внесении в нее изменений. Если результаты моделирования приемлемы, уверенность в устойчивости модели возрастает.

В общем случае можно утверждать, что чем ближе структура модели структуре системы и чем выше степень ее детализации, тем устойчивее модель.

Устойчивость результатов моделирования может быть также оценена методами математической статистики. Здесь уместно вспомнить основную задачу математической статистики. Она заключается в том, чтобы проверить гипотезу относительно свойств некоторого множества элементов, называемого генеральной совокупностью, оценивая свойства какого-либо подмножества генеральной совокупности (т.е. выборки). В генеральной совокупности исследователя обычно интересует некоторый признак, который обусловлен случайностью и может иметь качественный или количественный характер.

В данном случае именно устойчивость результатов моделирования можно рассматривать как признак, подлежащий оценке. Для проверки гипотезы об устойчивости результатов может быть использован критерий Уилкоксона. Он служит для проверки того, относятся ли две выборки к одной и той же генеральной совокупности (т.е. обладают ли они одним и тем же статистическим признаком).

При статистической оценке устойчивости модели соответствующая гипотеза может быть сформулирована следующим образом: при изменении входных параметров или структуры имитационной модели закон распределения результатов моделирования остается неизменным.

Оценка чувствительности имитационной модели. Очевидно, что устойчивость является положительным свойством модели. Однако, если изменение входных воздействий или параметров модели (в некотором заданном диапазоне) не отражается на значениях выходных параметров, то польза от такой модели невелика (ее можно назвать «бесчувственной»). В связи с этим возникает задача оценивания чувствительности модели к изменению входных параметров и внутренних параметров самой системы.

Такую оценку проводят по каждому параметру в отдельности. Основана она на том, что обычно диапазон возможных изменений параметра известен.

Калибровка модели. Если в результате проведенной оценки качества модели оказалось, сто ее целевые свойства не удовлетворяют разработчика, необходимо выполнить ее калибровку, т.е. коррекцию с целью приведения в соответствие предъявляемым требованиям.

Как правило, процесс калибровки носит итеративный характер и состоит из трех основных этапов:

1) глобальные изменения модели;

2) локальные изменения;

3) изменение специальных параметров, называемых калибровочными.

25.07.16 Ирина Аничина

34236 0

В данной статье мы поговорим о том, как понять, качественную ли модель мы построили. Ведь именно качественная модель даст нам качественные прогнозы.

Prognoz Platform обладает обширным списком моделей для построения и анализа. Каждая модель имеет свою специфику и применяется при различных предпосылках.

Объект «Модель» позволяет построить следующие регрессионные модели:

  • Линейная регрессия (оценка методом наименьших квадратов);
  • Линейная регрессия (оценка методом инструментальных переменных);
  • Модель бинарного выбора (оценка методом максимального правдоподобия);
  • Нелинейная регрессия (оценка нелинейным методом наименьших квадратов).

Начнём с модели линейной регрессии. Многое из сказанного будет распространяться и на другие виды.

Модель линейной регрессии (оценка МНК)

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b 0 , b 1 , …, b k – коэффициенты модели.

Итак, куда смотреть?

Коэффициенты модели

Для каждого коэффициента на панели «Идентифицированное уравнение» вычисляется ряд статистик: стандартная ошибка, t -статистика , вероятность значимости коэффициента . Последняя является наиболее универсальной и показывает, с какой вероятностью удаление из модели фактора, соответствующего данному коэффициенту, не окажется значимым.

Открываем панель и смотрим на последний столбец, ведь он – именно тот, кто сразу же скажет нам о значимости коэффициентов.

Факторов с большой вероятностью незначимости в модели быть не должно.

Как вы видите, при исключении последнего фактора коэффициенты модели практически не изменились.

Возможные проблемы: Что делать, если согласно вашей теоретической модели фактор с большой вероятностью незначимости обязательно должен быть? Существуют и другие способы определения значимости коэффициентов. Например, взгляните на матрицу корреляции факторов.

Матрица корреляции

Панель «Корреляция факторов» содержит матрицу корреляции между всеми переменными модели, а также строит облако наблюдений для выделенной пары значений.

Коэффициент корреляции показывает силу линейной зависимости между двумя переменными. Он изменяется от -1 до 1. Близость к -1 говорит об отрицательной линейной зависимости, близость к 1 – о положительной.

Облако наблюдений позволяет визуально определить, похожа ли зависимость одной переменной от другой на линейную.

Если среди факторов встречаются сильно коррелирующие между собой, исключите один из них. При желании вместо модели обычной линейной регрессии вы можете построить модель с инструментальными переменными, включив в список инструментальных исключённые из-за корреляции факторы.

Матрица корреляции не имеет смысла для модели нелинейной регрессии, поскольку она показывает только силу линейной зависимости.

Критерии качества

Помимо проверки каждого коэффициента модели важно знать, насколько она хороша в целом. Для этого вычисляют статистики, расположенные на панели «Статистические характеристики».

Коэффициент детерминации (R 2 ) – наиболее распространённая статистика для оценки качества модели. R 2 рассчитывается по следующей формуле:

где n – число наблюдений; y i — значения объясняемой переменной; — среднее значение объясняемой переменной; i модельные значения, построенные по оцененным параметрам.

R 2 принимает значение от 0 до 1 и показывает долю объяснённой дисперсии объясняемого ряда. Чем ближе R 2 к 1, тем лучше модель, тем меньше доля необъяснённого.

Возможные проблемы: Проблемы с использованием R 2 заключаются в том, что его значение не уменьшается при добавлении в уравнение факторов, сколь плохи бы они ни были. Он гарантированно будет равен 1, если мы добавим в модель столько факторов, сколько у нас наблюдений. Поэтому сравнивать модели с разным количеством факторов, используя R 2 , не имеет смысла.

Для более адекватной оценки модели используется скорректированный коэффициент детерминации (Adj R 2 ) . Как видно из названия, этот показатель представляет собой скорректированную версию R 2 , накладывая «штраф» за каждый добавленный фактор:

где k – число факторов, включенных в модель.

Коэффициент Adj R 2 также принимает значения от 0 до 1, но никогда не будет больше, чем значение R 2 .

Аналогом t -статистики коэффициента является статистика Фишера (F -статистика) . Однако если t -статистика проверяет гипотезу о незначимости одного коэффициента, то F -статистика проверяет гипотезу о том, что все факторы (кроме константы) являются незначимыми. Значение F -статистики также сравнивают с критическим, и для него мы также можем получить вероятность незначимости. Стоит понимать, что данный тест проверяет гипотезу о том, что все факторы одновременно являются незначимыми. Поэтому при наличии незначимых факторов модель в целом может быть значима.

Возможные проблемы: Большинство статистик строится для случая, когда модель включает в себя константу. Однако в Prognoz Platform мы имеем возможность убрать константу из списка оцениваемых коэффициентов. Стоит понимать, что такие манипуляции приводят к тому, что некоторые характеристики могут принимать недопустимые значения. Так, R 2 и Adj R 2 при отсутствии константы могут принимать отрицательные значения. В таком случае их уже не получится интерпретировать как долю, принимающую значение от 0 до 1.

Для моделей без константы в Prognoz Platform рассчитываются нецентрированные коэффициенты детерминации (R 2 и Adj R 2 ). Модифицированная формула приводит их значения к диапазону от 0 до 1 даже в модели без константы.

Посмотрим значения описанных критериев для приведённой выше модели:

Как мы видим, коэффициент детерминации достаточно велик, однако есть ещё значительная доля необъяснённой дисперсии. Статистика Фишера говорит о том, что выбранная нами совокупность факторов является значимой.

Сравнительные критерии

Кроме критериев, позволяющих говорить о качестве модели самой по себе, существует ряд характеристик, позволяющих сравнивать модели друг с другом (при условии, что мы объясняем один и тот же ряд на одном и том же периоде).

Большинство моделей регрессии сводятся к задаче минимизации суммы квадратов остатков (sum of squared residuals , SSR ) . Таким образом, сравнивая модели по этому показателю, можно определить, какая из моделей лучше объяснила исследуемый ряд. Такой модели будет соответствовать наименьшее значение суммы квадратов остатков.

Возможные проблемы: Стоит заметить, что с ростом числа факторов данный показатель так же, как и R 2 , будет стремиться к граничному значению (у SSR, очевидно, граничное значение 0).

Некоторые модели сводятся к максимизации логарифма функции максимального правдоподобия (LogL ) . Для модели линейной регрессии эти задачи приводят к одинаковому решению. На основе LogL строятся информационные критерии, часто используемые для решения задачи выбора как регрессионных моделей, так и моделей сглаживания:

  • информационный критерий Акаике (Akaike Information criterion , AIC )
  • критерий Шварца (Schwarz Criterion , SC )
  • критерий Ханнана-Куина (Hannan - Quinn Criterion , HQ )

Все критерии учитывают число наблюдений и число параметров модели и отличаются друг от друга видом «функции штрафа» за число параметров. Для информационных критериев действует правило: наилучшая модель имеет наименьшее значение критерия.

Сравним нашу модель с её первым вариантом (с «лишним» коэффициентом):

Как можно увидеть, данная модель хоть и дала меньшую сумму квадратов остатков, оказалась хуже по информационным критериям и по скорректированному коэффициенту детерминации.

Анализ остатков

Модель считается качественной, если остатки модели не коррелируют между собой. В противном случае имеет место постоянное однонаправленное воздействие на объясняемую переменную не учтённых в модели факторов. Это влияет на качество оценок модели, делая их неэффективными.

Для проверки остатков на автокорреляцию первого порядка (зависимость текущего значения от предыдущих) используется статистика Дарбина-Уотсона (DW ) . Её значение находится в промежутке от 0 до 4. В случае отсутствия автокорреляции DW близка к 2. Близость к 0 говорит о положительной автокорреляции, к 4 — об отрицательной.

Как оказалось, в нашей модели присутствует автокорреляция остатков. От автокорреляции можно избавиться, применив преобразование «Разность» к объясняемой переменной или воспользовавшись другим видом модели – моделью ARIMA или моделью ARMAX.

Возможные проблемы: Статистика Дарбина-Уотсона неприменима к моделям без константы, а также к моделям, которые в качестве факторов используют лагированные значения объясняемой переменной. В этих случаях статистика может показывать отсутствие автокорреляции при её наличии.

Модель линейной регрессии (метод инструментальных переменных)

Модель линейной регрессии с инструментальными переменными имеет вид:

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, x ̃ 1 , …, x ̃ k – смоделированные при помощи инструментальных переменных объясняющие ряды, z 1 , …, z l – инструментальные переменные, e , j – вектора ошибок моделей, b 0 , b 1 , …, b k – коэффициенты модели, c 0 j , c 1 j , …, c lj – коэффициенты моделей для объясняющих рядов.

Схема, по которой следует проверять качество модели, является схожей, только к критериям качества добавляется J -статистика – аналог F -статистики, учитывающий инструментальные переменные.

Модель бинарного выбора

Объясняемой переменной в модели бинарного выбора является величина, принимающая только два значения – 0 или 1.

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b 0 , b 1 , …, b k – коэффициенты модели, F – неубывающая функция, возвращающая значения от 0 до 1.

Коэффициенты модели вычисляются методом, максимизирующим значение функции максимального правдоподобия. Для данной модели актуальными будут такие критерии качества, как:

  • Коэффициент детерминации МакФаддена (McFadden R 2 ) – аналог обычного R 2 ;
  • LR -статистика и её вероятность — аналог F -статистики;
  • Сравнительные критерии: LogL , AIC , SC , HQ.

Нелинейная регрессия

Под моделью линейной регрессии будем понимать модель вида:

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b – вектор коэффициентов модели.

Коэффициенты модели вычисляются методом, минимизирующим значение суммы квадратов остатков. Для данной модели будут актуальны те же критерии, что и для линейной регрессии, кроме проверки матрицы корреляций. Отметим ещё, что F-статистика будет проверять, является ли значимой модель в целом по сравнению с моделью y = b 0 + e , даже если в исходной модели у функции f (x 1 , …, x k , b ) нет слагаемого, соответствующего константе.

Итоги

Подведём итоги и представим перечень проверяемых характеристик в виде таблицы:

Надеюсь, данная статья была полезной для читателей! В следующий раз мы поговорим о других видах моделей, а именно ARIMA, ARMAX.

Оценка качества моделей классификации представляет собой сложную задачу, потому что в большинстве реальных приложений цена ошибок неодинакова. Так например, отказ в кредите хорошему клиенту влечет за собой лишь организационные расходы на поиск нового клиента, тогда как предоставление кредита ненадежному партнеру может привести к большим убыткам. Из-за этой несимметрии денежных потоков при определении степени точности модели необходимо учитывать последствия того или иного прогноза. Качество прогнозирования банкротств определяется и тем, насколько точно выявляются банкроты, и тем, насколько точно классифицируются небанкроты. Необнаружение компании-банкрота называется ошибкой 1-го рода, а прогноз банкротства, которого на самом деле не последовало, - ошибкой 2-го рода.
Из-за несимметрии цены ошибки становится чрезвычайно трудно найти компромисс между ошибками 1-го и 2-го родов. Говоря иначе, трудно ответить на вопрос, которая из двух моделей лучше: та, которая правильно идентифицирует 90% банкротств и на одну правильную классификацию дает 10 ошибок 2-го рода, или та, которая идентифицирует 80% банкротств, но дает только 8 ошибок 2-го рода на одну классификацию.
Как можно видеть из рис. 9.1, точки Хи У, показывающие качество прогнозов, соответственно, для моделей х и у, не дают возможности однозначно сказать, какая модель лучше. Если снизить требования к точности прогнозирования банкротства, то может оказаться, что модель х, по-прежнему, будет давать большее число ошибок 2-го рода и, тем самым, будет уступать модели у в таких приложениях, где ошибки 2-го рода относительно дороги по отношению к ошибкам
1го рода.
Из сказанного следует, что качество модели прогнозирования банкротств можно оценить только при условии, что заранее заданы цена ошибок и вероятность банкротства/выживания. Если, например, нам известно, что цена одного не предсказанного вовремя банкротства равна цене пяти ложных тревог, и что потерпит банкротство один процент компаний, то мы можем оценить модели:
Цена ошибки модели х: 1% х {5 х (10%) + 10 х (1 - 10%)} = 0.095,
Цена ошибки модели у: 1% х {5 х (20%) + 8 х (1 - 20%)} = 0.074.
Модель х уступает модели у, которая пропускает 20% банкротов, но имеет более низкий показатель ошибок 2-го рода.
Если же одно пропущенное банкротство стоит 30 ложных тревог, то ошибки этих двух моделей будут такими:
Цена ошибки модели х: 1% х {30 х (10%) + 10 х (1 - 10%)} = 0.120,
Цена ошибки модели у\ 1% х {30 х (20%) + 8 х (1 - 10%)} = 0.132, и модель х оказывается лучше, чем у. Заметьте, что наибольший вклад в погрешность модели вносит большое количество ошибок
2го рода, и так получается потому, что они совершаются на жизне-способных компаниях, а таких- подавляющее большинство. Решить, достаточно ли существенно отличаются результаты обеих моделей, чтобы по ним можно было высказывать предпочтение, здесь довольно трудно, так как неизвестно, как модель х будет работать при каком-либо совсем другом соотношении между ценами ошибок. При сдаче экзаменов на аудитора экзаменующиеся распознают только 25% компаний-банкротов, но зато на каждый правильный прогноз приходится только 4 ложных тревоги (см. ).
При том, что МБА-модели способны распознавать гораздо большую долю компаний-банкротов, общий результат не обязательно будет лучше, чем практика аудиторов. Так, если цена одной ошибки 1-го рода в 5 раз больше, чем ошибки 2-го рода, то итоговая погрешность аудиторов будет равна
1% X {5 X (75%) + 4 X (1 - 75%)} = 0.0475, что меньше, чем у обеих гипотетических моделей х и у.
Эти примеры иллюстрируют следующую мысль: если соотношения цен ошибок различаются сильно, то настройка модели банкротств на конкретные пропорции, по-видимому, более важна, чем качество модели как таковое. Можно ввести обобщенное понятие информационной значимости модели, используя расстояние до так называемой эффективной информационной границы, т.е. кривой, огибающей результаты всех моделей. На рис. 9.1 модель х расположена ближе к этой границе, чем модель у, и поэтому ее следует считать более информационно эффективной.
Следующая проблема - это выработка стандарта для тестирования. Для оценки МБА-моделей в большинстве случаев берется небольшое количество образцов, и это увеличивает вероятность того, что модель будет слишком точно подогнана под тестовые данные. В выборках обычно содержится поровну компаний-банкротов и небанкротов, а сами данные, как правило, соответствуют периодам интенсивных банкротств. Это приводит к выводу о том, что надежными являются только результаты оценки модели на новых данных. Из табл. 9.1 видно, что даже на самых благоприятных тестах с новыми данными (когда все примеры берутся из одного периода времени и притом однородными в смысле отраслей и размера предприятия) качество получается хуже, чем на образцах, по которым определялись параметры модели. Поскольку на практике пользователи моделей классификации не смогут настраивать модель на другие априорные вероятности банкротства, размер фирмы или отрасль, реальное качество модели может оказаться еще хуже. Качество может также ухудшиться из-за того, что в выборках, используемых для тестирования МБА-моделей, бывает мало фирм, которые не обанкротились, но находятся в зоне риска. Если таких «с риском выживающих» фирм всего четыре-пять, то это искажает реальную долю рисковых компаний, и в результате частота ошибок 2-го рода оказывается недооцененной.



Загрузка...