независимой переменной
В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин
Асимптотические распределения оценок параметров. Из формулы (2) следует, что
Согласно ЦПТ оценка
Из формул (2) и (5) вытекает, что
Последнее слагаемое во втором соотношении при суммировании по
Формула (6) показывает, что оценка α* является асимптотически нормальной с математическим ожиданием α и дисперсией
Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т. е.
Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.
Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей главе) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0.
Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что
т. е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому
При этом, поскольку погрешности независимы в совокупности и M(ei)=0, то
Таким образом,
Итак, оценка x*(t) является несмещенной и асимптотически нормальной. Для ее практического использования необходимо уметь оценивать остаточную дисперсию M (ei2)=δ2.
Оценивание остаточной дисперсии . В точках
В соответствии с формулами (5) и (6)
Найдем математическое ожидание каждого из слагаемых:
Из сделанных ранее предположений вытекает, что при
имеем
следовательно, по закону больших чисел статистика SS/n является состоятельной оценкой остаточной дисперсии δ2.
Получением состоятельной оценкой остаточной дисперсии завершается последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:
где погрешность δ(t) имеет вид
Здесь
При
Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов
Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей. Распределения, встречающиеся в задачах менеджмента, как правило, не являются нормальными [1]. Платой за отказ от нормальности является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода бают близкие результаты. Например, в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и обнаружено это было с помощью непараметрического подхода.
Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования эконометрических методов анализа данных. Во—первых, должны быть четко сформулированы исходные предпосылки, т. е. полностью описана используемая вероятностно —статистическая модель. Во—вторых, не следует принимать предпосылки, которые редко выполняются на практике. В—третьих, алгоритмы расчетов должны быть корректны с точки зрения математико— статистической теории. В—четвертых, алгоритмы должны давать полезные для практики выводы.
Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше.
Пример оценивания по методу наименьших квадратов. Пусть даны
В соответствии с формулой (2)
Следовательно, прогностическая формула имеет вид
Следующий этап анализа данных – оценка точности приближения функции методом наименьших квадратов. Сначала рассматриваются т. н. восстановленные значения
Это те значения, которые полученная в результате расчетов прогностическая функция принимает в тех точках, в которых известны истинные значения зависимой переменной
Вполне естественно сравнить восстановленные и истинные значения. Это и сделано в шестом – восьмом столбцах табл. 1. Для простоты расчетов в шестом столбце представлены произведения α*t, седьмой отличается от шестого добавлением константы 9,03 и содержит восстановленные значения. Восьмой столбец – это разность третьего и седьмого.
Непосредственный анализ восьмого столбца табл.1 показывает, что содержащиеся в нем числа сравнительно невелики по величине по сравнению с третьим столбцом (на порядок меньше по величине). Кроме того, знаки «+» и «-» чередуются. Эти два признака свидетельствуют о правильности расчетов. При использовании метода наименьших квадратов знаки не всегда чередуются. Однако если сначала идут только плюсы, а потом только минусы (или наоборот, сначала только минусы, а потом только плюсы), то это верный показатель того, что в вычислениях допущена ошибка.
Верно следующее утверждение.
Теорема.