соответствует доверительный интервал в 2s, а доверительной вероятности в 99 % — доверительный интервал в 3s. Это известное правило трех сигм, согласно которому за пределы утроенного квадратического отклонения не выйдет ни один результат измерения, но на практике это слишком жесткое требование. Если мы не поленимся провести не менее полутора десятков отдельных измерений величины х, то с чистой совестью можем записать, что результат будет равен:
х = m ± 2s.
Регрессия и метод наименьших квадратов Все сказанное относилось к случаю, когда мы измеряем одну величину, имеющую некоторую случайную погрешность. Однако на практике нам часто требуется по экспериментальным данным получить оценку некоторой функции у(х) — фактически это задача построения кривой по результатам опытных данных, которую вам, несомненно, приходилось не раз решать, если вы обучались в техническом вузе.
Процесс проведения кривой через какие-либо точки (расчетные или экспериментальные) в общем случае называется аппроксимацией. Аппроксимацию следует отличать от интерполяции (когда по совокупности имеющихся значений функции и переменных рассчитывают значение функции в некоторой точке между ними) и экстраполяции (когда рассчитывают значения функции вне области, охваченной имеющимися значениями, в предположении, что там кривая ведет себя так же). Насчет последней операции следует отметить, что полиномы, полученные регрессионным способом (см. далее), за исключением разве что прямой линии, обычно для проведения экстраполяции не годятся — т. к. не несут в себе физического смысла и вне экспериментальной области могут очень сильно расходиться с реальной картиной.
Провести кривую, аппроксимирующую опытные данные, можно от руки на миллиметровке, но как решать такую задачу «правильно»? Причем, как и в предыдущем случае, желательно бы иметь возможность оценить погрешности измерений.
Принцип такого построения при наличии случайных ошибок измерения иллюстрирует рис. 13.7.
Рис. 13.7. Проведение аппроксимирующей прямой по экспериментальным данным
Разумно было бы проводить кривую (в данном случае — прямую) так, чтобы отклонения Δуi,- были бы минимальными в каждой точке. Однако просто минимизировать сумму отклонений не получится — они имеют разный знак, и минимум получился бы при очень больших отрицательных отклонениях. Можно минимизировать сумму абсолютных значений отклонений, однако это неудобно по ряду чисто математических причин, потому используют уже знакомую нам сумму квадратов отклонений, — только ранее это было отклонение от среднего арифметического одной величины х, а теперь это отклонение опытных данных от кривой у (х):
Такой метод называется методом наименьших квадратов.
Кстати, а какую именно кривую выбрать? Ведь кривые бывают разные: прямая, парабола, экспонента, синусоида… Опыт показывает, что на практике можно ограничиться полиномом, соответствующим разложению функции в ряд Тейлора (в математике доказывается, что любую другую непрерывную функцию всегда можно представить в виде такого ряда):
(5)
Это уравнение называется уравнением регрессии. Отметим, что здесь мы рассматриваем наипростейший случай — зависимость у от одного параметра x. В общем случае независимых переменных может быть несколько, но для наших целей простейшего случая достаточно. Еще отметим, что величины xi считаются неслучайными — если в каждой i-й точке проводится несколько измерений, то надо брать среднее. Случайными считаются только величины y.
Итак, в качестве исходных данных у нас имеется некий набор значений xi в количестве n штук. Надо провести кривую, соответствующую уравнению (5), так, чтобы сумма квадратов отклонений была минимальна: