Можно ли использовать бинарные переменные в множественной регрессии
Содержание статьи
Логистическая регрессия и ROC-анализ — математический аппарат
Математический аппарат и назначение бинарной логистической регрессии — популярного инструмента для решения задач регрессии и классификации. ROC-анализ тесно связан с бинарной логистической регрессией и применяется для оценки качества моделей: позволяет выбрать аналитику модель с наилучшей прогностической силой, проанализировать чувствительность и специфичность моделей, подобрать порог отсечения.
Введение
Логистическая регрессия — полезный классический инструмент для решения задачи регрессии и классификации. ROC-анализ — аппарат для анализа качества моделей. Оба алгоритма активно используются для построения моделей в медицине и проведения клинических исследований.
Логистическая регрессия получила распространение в скоринге для расчета рейтинга заемщиков и управления кредитными рисками. Поэтому, несмотря на свое «происхождение» из статистики, логистическую регрессию и ROC-анализ почти всегда можно увидеть в наборе Data Mining алгоритмов.
Логистическая регрессия
Логистическая регрессия — это разновидность множественной регрессии, общее назначение которой состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Бинарная логистическая регрессия применяется в случае, когда зависимая переменная является бинарной (т.е. может принимать только два значения). С помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).
Все регрессионные модели могут быть записаны в виде формулы:
y = F (x_1,, x_2, ,dots, , x_n)
В множественной линейной регрессии предполагается, что зависимая переменная является линейной функцией независимых переменных, т.е.:
y = a,+,b_1,x_1,+,b_2,x_2,+,dots,+,b_n,x_n
Можно ли ее использовать для задачи оценки вероятности исхода события? Да, можно, вычислив стандартные коэффициенты регрессии. Например, если рассматривается исход по займу, задается переменная y со значениями 1 и 0, где 1 означает, что соответствующий заемщик расплатился по кредиту, а 0, что имел место дефолт.
Однако здесь возникает проблема: множественная регрессия не «знает», что переменная отклика бинарна по своей природе. Это неизбежно приведет к модели с предсказываемыми значениями большими 1 и меньшими 0. Но такие значения вообще не допустимы для первоначальной задачи. Таким образом, множественная регрессия просто игнорирует ограничения на диапазон значений для y.
Для решения проблемы задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной, мы предсказываем непрерывную переменную со значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается применением следующего регрессионного уравнения (логит-преобразование):
P = frac{1}{1+,e^{-y}}
где P — вероятность того, что произойдет интересующее событие e — основание натуральных логарифмов 2,71…; y — стандартное уравнение регрессии.
Зависимость, связывающая вероятность события и величину y, показана на следующем графике (рис. 1):
Рис. 1 — Логистическая кривая
Поясним необходимость преобразования. Предположим, что мы рассуждаем о нашей зависимой переменной в терминах основной вероятности P, лежащей между 0 и 1. Тогда преобразуем эту вероятность P:
P’ = log_e Bigl(frac{P}{1-P}Bigr)
Это преобразование обычно называют логистическим или логит-преобразованием. Теоретически P’ может принимать любое значение. Поскольку логистическое преобразование решает проблему об ограничении на 0-1 границы для первоначальной зависимой переменной (вероятности), то эти преобразованные значения можно использовать в обычном линейном регрессионном уравнении. А именно, если произвести логистическое преобразование обеих частей описанного выше уравнения, мы получим стандартную модель линейной регрессии.
Существует несколько способов нахождения коэффициентов логистической регрессии. На практике часто используют метод максимального правдоподобия. Он применяется в статистике для получения оценок параметров генеральной совокупности по данным выборки. Основу метода составляет функция правдоподобия (likehood function), выражающая плотность вероятности (вероятность) совместного появления результатов выборки
L,(Y_1,,Y_2,,dots,,Y_k;,theta) = p,(Y_1;, theta)cdotdotscdotp,p,(Y_k;,theta)
Согласно методу максимального правдоподобия в качестве оценки неизвестного параметра принимается такое значение theta=theta(Y_1,…,Y_k), которое максимизирует функцию L.
Нахождение оценки упрощается, если максимизировать не саму функцию L, а натуральный логарифм ln(L), поскольку максимум обеих функций достигается при одном и том же значении theta:
L,*,(Y;,theta) = ln,(L,(Y;,theta),) rightarrow max
В случае бинарной независимой переменной, которую мы имеем в логистической регрессии, выкладки можно продолжить следующим образом. Обозначим через P_i вероятность появления единицы: P_i=Prob(Y_i=1). Эта вероятность будет зависеть от X_iW, где X_i — строка матрицы регрессоров, W — вектор коэффициентов регрессии:
P_i = F,(X_i W),, F(z) = frac{1}{1+,e^{-z}}
Логарифмическая функция правдоподобия равна:
L^* = sum_{i epsilon I_1}ln{P_i(W)} + sum_{i epsilon I_0}ln{(1-P_i(W))} = sum_{i=1}^{k} [Y_i ln {P_i (W)}+(1-Y_i)ln {(1 — P_i(W))}]
где I_0, I_1— множества наблюдений, для которых Y_i=0 и Y_i=1 соответственно.
Можно показать, что градиент g и гессиан H функции правдоподобия равны:
g = sum_i (Y_i,-,P_i),X_i
H=-sum_i P_i,(1,-,P_i),X_i^T,X_i,leq 0
Гессиан всюду отрицательно определенный, поэтому логарифмическая функция правдоподобия всюду вогнута. Для поиска максимума можно использовать метод Ньютона, который здесь будет всегда сходиться (выполнено условие сходимости метода):
W_{t+1},=,W_t,-,(H,(W_t))^{-1},g_t(W_t),=,W_t,-,Delta W_t
Логистическую регрессию можно представить в виде однослойной нейронной сети с сигмоидальной функцией активации, веса которой есть коэффициенты логистической регрессии, а вес поляризации — константа регрессионного уравнения (рис. 2).
Рис. 2 — Представление логистической регрессии в виде нейронной сети
Однослойная нейронная сеть может успешно решить лишь задачу линейной сепарации. Поэтому возможности по моделированию нелинейных зависимостей у логистической регрессии отсутствуют. Однако для оценки качества модели логистической регрессии существует эффективный инструмент ROC-анализа, что является несомненным ее преимуществом.
Для расчета коэффициентов логистической регрессии можно применять любые градиентные методы: метод сопряженных градиентов, методы переменной метрики и другие.
ROC-анализ
ROC-кривая (Receiver Operator Characteristic) — кривая, которая наиболее часто используется для представления результатов бинарной классификации в машинном обучении. Название пришло из систем обработки сигналов. Поскольку классов два, один из них называется классом с положительными исходами, второй — с отрицательными исходами. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.
В терминологии ROC-анализа первые называются истинно положительным, вторые — ложно отрицательным множеством. При этом предполагается, что у классификатора имеется некоторый параметр, варьируя который, мы будем получать то или иное разбиение на два класса. Этот параметр часто называют порогом, или точкой отсечения (cut-off value). В зависимости от него будут получаться различные величины ошибок I и II рода.
В логистической регрессии порог отсечения изменяется от 0 до 1 — это и есть расчетное значение уравнения регрессии. Будем называть его рейтингом.
Для понимания сути ошибок I и II рода рассмотрим четырехпольную таблицу сопряженности (confusion matrix), которая строится на основе результатов классификации моделью и фактической (объективной) принадлежностью примеров к классам.
- TP (True Positives) — верно классифицированные положительные примеры (так называемые истинно положительные случаи).
- TN (True Negatives) — верно классифицированные отрицательные примеры (истинно отрицательные случаи).
- FN (False Negatives) — положительные примеры, классифицированные как отрицательные (ошибка I рода). Это так называемый «ложный пропуск» — когда интересующее нас событие ошибочно не обнаруживается (ложно отрицательные примеры).
- FP (False Positives) — отрицательные примеры, классифицированные как положительные (ошибка II рода). Это ложное обнаружение, т.к. при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи).
Что является положительным событием, а что — отрицательным, зависит от конкретной задачи. Например, если мы прогнозируем вероятность наличия заболевания, то положительным исходом будет класс «Больной пациент», отрицательным — «Здоровый пациент». И наоборот, если мы хотим определить вероятность того, что человек здоров, то положительным исходом будет класс «Здоровый пациент», и так далее.
При анализе чаще оперируют не абсолютными показателями, а относительными — долями (rates), выраженными в процентах:
- Доля истинно положительных примеров (True Positives Rate): TPR = frac{TP}{TP,+,FN},cdot,100 ,%
- Доля ложно положительных примеров (False Positives Rate): FPR = frac{FP}{TN,+,FP},cdot,100 ,%
Введем еще два определения: чувствительность и специфичность модели. Ими определяется объективная ценность любого бинарного классификатора.
Чувствительность (Sensitivity) — это и есть доля истинно положительных случаев:
S_e = TPR = frac{TP}{TP,+,FN},cdot,100 ,%
Специфичность (Specificity) — доля истинно отрицательных случаев, которые были правильно идентифицированы моделью:
S_p = frac{TN}{TN,+,FP},cdot,100 ,%
Заметим, что FPR=100-Sp
Попытаемся разобраться в этих определениях.
Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры). Если рассуждать в терминах медицины — задачи диагностики заболевания, где модель классификации пациентов на больных и здоровых называется диагностическим тестом, то получится следующее:
- Чувствительный диагностический тест проявляется в гипердиагностике — максимальном предотвращении пропуска больных.
- Специфичный диагностический тест диагностирует только доподлинно больных. Это важно в случае, когда, например, лечение больного связано с серьезными побочными эффектами и гипердиагностика пациентов не желательна.
ROC-кривая получается следующим образом:
Для каждого значения порога отсечения, которое меняется от 0 до 1 с шагом d_x (например, 0,01) рассчитываются значения чувствительности Se и специфичности Sp. В качестве альтернативы порогом может являться каждое последующее значение примера в выборке.
Строится график зависимости: по оси Y откладывается чувствительность Se, по оси X — FPR=100-Sp — доля ложно положительных случаев.
Канонический алгоритм построения ROC-кривой
Входы: L — множество примеров f[i] — рейтинг, полученный моделью, или вероятность того, что i-й пример имеет положительный исход; min и max — минимальное и максимальное значения, возвращаемые f; d_x — шаг; P и N — количество положительных и отрицательных примеров соответственно.
- t=min
- повторять
- FP=TP=0
- для всех примеров i принадлежит L {
- если f[i]>=t тогда // этот пример находится за порогом
- если i положительный пример тогда
- { TP=TP+1 }
- иначе // это отрицательный пример
- { FP=FP+1 }
- }
- Se=TP/P*100
- point=FP/N // расчет (100 минус Sp)
- Добавить точку (point, Se) в ROC-кривую
- t=t+d_x
- пока (t>max)
В результате вырисовывается некоторая кривая (рис. 3).
Рис. 3 — ROC-кривая
График часто дополняют прямой y=x.
Заметим, что имеется более экономичный способ расчета точек ROC-кривой, чем тот, который приводился выше, т.к. его вычислительная сложность нелинейная и равна O(n^2): для каждого порога необходимо «пробегать» по записям и каждый раз рассчитывать TP и FP. Если же двигаться вниз по набору данных, отсортированному по убыванию выходного поля классификатора (рейтингу), то можно за один проход вычислить значения всех точек ROC-кривой, последовательно обновляя значения TP и FP.
Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100% или 1,0 (идеальная чувствительность), а доля ложно положительных примеров равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше предсказательная способность модели. Наоборот, чем меньше изгиб кривой и чем ближе она расположена к диагональной прямой, тем менее эффективна модель. Диагональная линия соответствует «бесполезному» классификатору, т.е. полной неразличимости двух классов.
При визуальной оценке ROC-кривых расположение их относительно друг друга указывает на их сравнительную эффективность. Кривая, расположенная выше и левее, свидетельствует о большей предсказательной способности модели. Так, на рис. 4 две ROC-кривые совмещены на одном графике. Видно, что модель «A» лучше.
Рис. 4 — Сравнение ROC-кривых
Визуальное сравнение кривых ROC не всегда позволяет выявить наиболее эффективную модель. Своеобразным методом сравнения ROC-кривых является оценка площади под кривыми. Теоретически она изменяется от 0 до 1,0, но, поскольку модель всегда характеризуются кривой, расположенной выше положительной диагонали, то обычно говорят об изменениях от 0,5 («бесполезный» классификатор) до 1,0 («идеальная» модель).
Эта оценка может быть получена непосредственно вычислением площади под многогранником, ограниченным справа и снизу осями координат и слева вверху — экспериментально полученными точками (рис. 5). Численный показатель площади под кривой называется AUC (Area Under Curve). Вычислить его можно, например, с помощью численного метода трапеций:
AUC = int f(x),dx = sum_i Bigl[ frac{X_{i+1},+,X_i}{2}Bigr],cdot ,(Y_{i+1},-, Y_i)
Рис. 5 — Площадь под ROC-кривой
С большими допущениями можно считать, что чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Однако следует знать, что:
- показатель AUC предназначен скорее для сравнительного анализа нескольких моделей;
- AUC не содержит никакой информации о чувствительности и специфичности модели.
В литературе иногда приводится следующая экспертная шкала для значений AUC, по которой можно судить о качестве модели:
Идеальная модель обладает 100% чувствительностью и специфичностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели. Компромисс находится с помощью порога отсечения, т.к. пороговое значение влияет на соотношение Se и Sp. Можно говорить о задаче нахождения оптимального порога отсечения (optimal cut-off value).
Порог отсечения нужен для того, чтобы применять модель на практике: относить новые примеры к одному из двух классов. Для определения оптимального порога нужно задать критерий его определения, т.к. в разных задачах присутствует своя оптимальная стратегия. Критериями выбора порога отсечения могут выступать:
- Требование минимальной величины чувствительности (специфичности) модели. Например, нужно обеспечить чувствительность теста не менее 80%. В этом случае оптимальным порогом будет максимальная специфичность (чувствительность), которая достигается при 80% (или значение, близкое к нему «справа» из-за дискретности ряда) чувствительности (специфичности).
- Требование максимальной суммарной чувствительности и специфичности модели, т.е. Cuttunderline{,,,}off_o = max_k (Se_k,+,Sp_k)
- Требование баланса между чувствительностью и специфичностью, т.е. когда Se approx Sp: Cuttunderline{,,,}off_o = min_k ,bigl |Se_k,-,Sp_k bigr |
Второе значение порога обычно предлагается пользователю по умолчанию. В третьем случае порог есть точка пересечения двух кривых, когда по оси X откладывается порог отсечения, а по оси Y — чувствительность или специфичность модели (рис. 6).
Рис. 6 — «Точка баланса» между чувствительностью и специфичностью
Существуют и другие подходы, когда ошибкам I и II рода назначается вес, который интерпретируется как цена ошибок. Но здесь встает проблема определения этих весов, что само по себе является сложной, а часто не разрешимой задачей.
Литература
- Цыплаков А. А. Некоторые эконометрические методы. Метод максимального правдоподобия в эконометрии. Учебное пособие.
- Fawcett T. ROC Graphs: Notes and Practical Considerations for Researchers // 2004 Kluwer Academic Publishers.
- Zweig M.H., Campbell G. ROC Plots: A Fundamental Evaluation Tool in Clinical Medicine // Clinical Chemistry, Vol. 39, No. 4, 1993.
- Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC Curves // Proc. Of 23 International Conference on Machine Learning, Pittsburgh, PA, 2006.
Другие материалы по теме:
Применение логистической регрессии в медицине и скоринге
Machine learning в Loginom на примере задачи c Kaggle
Источник
Тест по «Эконометрике» — Тест
Вопрос
Ответ
Верно
1 Что является предметом изучения эконометрики?
факторы, формирующие развитие экономических явлений и процессов
да
2 Для чего составляются эконометрические модели?
3для выявления качественного и количественного влияния разных факторов на объект
да
3 Эконометрика занимается изучением
качественного и количественного влияния разных факторов на экономические объекты
да
4 Для решения эконометрических задач необходимо
построение математической модели
предварительное решение нескольких задач математического анализа
наличие специализированных программных средств
построение графиков
да
5 Что такое математическая модель экономического объекта?
записанное в математической форме абстрактное отображение экономического объекта
да
6 Математическая модель экономического объекта предназначена для
экспериментального изучения поведения объекта в различных обстоятельствах
да
7 Что может быть выполнено с помощью эконометрической модели?
прогнозирование поведения изучаемого экономического объекта
да
8 Математической моделью в эконометрических задачах является
уравнение регрессии или система уравнений регрессии
да
9 В эконометрических задачах математическая модель
это уравнение регрессии или система уравнений регрессии
да
10 Что означает наличие прямой связи между переменными х и у?
3что при увеличении значений х увеличиваются и значения у
да
11 Что означает наличие обратной связи между переменными х и у?
что при уменьшении значений х значения у увеличиваются
да
12 В каком случае связь между двумя факторами является тесной?
3если их коэффициент корреляции по модулю больше или равен 0,7
да
13 Для определения тесноты линейной связи между двумя факторами необходимо
рассчитать коэффициент корреляции
да
14 Взаимозависимости экономических переменных часто описываются
линейным уравнением
да
15 Линейная связь между переменными означает, что
2график зависимости представляется прямой линией
да
16 Регрессионный анализ оценивает
формулу связи двух или нескольких переменных
да
17 Оценка вида связи между переменными возможна
с помощью регрессионного анализа
да
18 Функция, описывающая корреляционную зависимость между х и у, называется
регрессией у на х
да
19 Регрессия у на х — это
формула связи между переменными у и х
да
20 Какой метод позволяет определить оценки параметров регрессии?
метод наименьших квадратов
да
21 Метод наименьших квадратов позволяет
найти оценки параметров регрессии
да
22 Метод наименьших квадратов состоит
2в минимизации суммы квадратов отклонений реальных значений у от расчетных
да
23 Решение по МНК в пакете Excel можно получить при помощи
опций Анализ данных — Регрессия
да
24 Что такое МНК?
3метод наименьших квадратов
да
25 Для чего применяется МНК?
для оценки параметров регрессии
да
26 Для оценки формы связи между переменными служит
уравнение регрессии
да
27 В каком случае регрессия является парной?
4если в уравнение регрессии входит одна зависимая и одна независимая переменная
да
28 В каком случае регрессия является множественной?
3если в ур-е регрессии входит одна зависимая и множество независимых переменных
да
29 Какие виды регрессионных зависимостей существуют?
парная, множественная, линейная, нелинейная
да
30 Какого вида регрессионная зависимость между переменными не может существовать?
прямая, линейная, нелинейная
да
31 Что является математической моделью эконометрической задачи?
одно уравнение или система уравнений регрессии
да
32 Можно ли на основании решения Excel прогнозировать изменение Y в зависимости от изменения X?
2можно, только если построенная регрессионная модель является качественной
да
33 После записи уравнения регрессии необходимо
оценить качество полученного уравнения
да
34 Регрессионная модель считается качественной при обязательном выполнении следующих условий:
1связь в модели тесная, объясняющие переменные значимы, наблюдений достаточно
да
35 При решении эконометрических задач уравнение регрессии является
математической моделью зависимости переменных
да
36 Уравнение регрессии оценивает
форму зависимости исследуемых переменных
да
37 Для оценки формы связи между переменными служит
уравнение регрессии
да
38 Для чего составляется уравнение регрессии?
2для определения формы зависимости исследуемых переменных
да
39 Значения х и у для поиска уравнения регрессионной зависимости берутся
из статистических данных
да
40 Значения a и b для поиска уравнения регрессионной зависимости берутся
из расчетов по методу наименьших квадратов
да
41 Уравнение регрессии записывается на основании
1величин коэффициентов регрессии
да
42 Какие величины служат для записи уравнения регрессии?
коэффициенты регрессии
да
43 В уравнении регрессии зависимая переменная обычно обозначается как
у
да
44 В уравнении регрессии независимая переменная обычно обозначается как
х
да
45 В уравнении регрессии факторы обычно обозначаются как
х и у
да
46. В уравнении регрессии параметры обычно обозначаются как
а и b
да
47. В уравнение регрессии входят
зависимая переменная, независимые переменные и коэффициенты при них
да
48 В уравнении регрессионной зависимости может быть только
3одна зависимая и одна или несколько независимых переменных
да
49. Сколько объясняющих переменных может быть в уравнении регрессии?
произвольное количество (желательно, не более трети от числа наблюдений)
да
50 Сколько зависимых переменных может быть в уравнении регрессии?
только одна
да
51 В уравнении y = a + bx коэффициенты а и b — это:
параметры регрессии
да
52 В уравнении y = a + bx коэффициент а является
параметром регрессии
да
53 В уравнении y = a + bx коэффициент b является
параметром регрессии
да
54 В уравнении регрессии параметры регрессии обычно обозначаются как
а и b
да
55 В результатах решения задачи коэффициент регрессии а отображается как:
Y-пересечение
да
56 В уравнении y = a + bx величина коэффициента а отражает
значение у при нулевых значениях х
да
56. В уравнении y = a + bx величина коэффициента а отражает
значение у при единичном увеличении х
значимость или незначимость переменной у
значимость или незначимость коэффициента а
нет
57 В результатах регрессионного анализа Y-пересечение — это
коэффициент регрессии а
да
58. Чему будет равен Y в парной линейной регрессии, если Y-пересечение = 5, b = 7, х = 10?
75
да
59 Чему будет равен Y в парной линейной регрессии, если Y-пересечение = 2, b = 6, х = 4?
26
да
60 Чему будет равен Y в множественной линейной регрессии, если Y-пересечение = 2, b1 = 5, b2 = 2, х1 = 4, x2 = 1?
24
да
61 Чему будет равен Y в множественной линейной регрессии, если Y-пересечение = 10, b1 = 1, b2 = 2, х1 = 3, x2 = 4?
21
да
62 Чему будет равен Y в множественной линейной регрессии, если Y-пересечение = 6, b1 = 2, b2 = 5, х1 = 8, x2 = 4?
42
да
63 В уравнении регрессии у = a + bx коэффициент а показывает
прогнозируемую величину у при х = 0
да
64 В уравнении регрессии у = a + bx коэффициент а показывает
величину у при равенстве х нулю
да
65 Как в уравнении регрессии интерпретируется коэффициент перед переменной х?
показывает величину изменения у при единичном изменении х
да
66 В уравнении регрессии у = a + bx коэффициент b показывает
2величину изменения у при единичном изменении х
да
67 Вероятность выполнения нуль-гипотезы для коэффициента регрессии оценивается с помощью
Р-значения этого коэффициента регрессии
да
68 В уравнении y = a + bx незначимость коэффициента регрессии b означает, что
влияние переменной х на коэффициент b отсутствует
влияние переменной у на коэффициент b отсутствует
влияние коэффициента b на переменную х отсутствует
нет
69 В уравнении y = a + bx незначимость коэффициента регрессии а означает, что
3влияние коэффициента а на переменную у отсутствует
да
70 В уравнении y = a + bx незначимость Y-пересечения означает, что
в уравнении регрессии отсутствует константа
да
71 Что означает не значимость коэффициента регрессии?
что соответствующая ему независимая переменная не влияет на зависимую
да
72 Значимость коэффициентов регрессии определяется с помощью:
Р-значений
да
73 Что означает статистическая незначимость параметра (коэффициента) регрессии?
высокую вероятность равенства данного параметра нулю
да
74. Когда коэффициент регрессии считается значимым?
если его Р-значение меньше 5%
да
75 Какая величина «Р-значения» подтверждает влияние х на у?
Р-значение для него меньше 0,05
да
76 При одновременной незначимости нескольких объясняющих переменных модели нужно
4удалить их последовательно, начиная с той, чье Р-значение больше
да
77 Что следует делать, если коэффициент регрессии не значим?
удалять из модели переменную, которой он соответствует
да
78 Теснота связи в уравнении регрессии определяется с помощью
коэффициента корреляции
да
79 Какой показатель характеризует тесноту связи в уравнении регрессии?
коэффициент корреляции
да
80 С помощью какой величины определяется теснота связи в уравнении регрессии?
с помощью коэффициента корреляции
да
81 Что проверяется с помощью коэффициента корреляции?
теснота связи между факторами в уравнении регрессии
да
82 Коэффициент корреляции оценивает
тесноту связи в уравнении регрессии
да
83 Для констатации наличия тесной связи в регрессионной модели необходимо
чтобы модуль коэффициента корреляции был не меньше 0,7
да
84 Тесная связь между перменными модели констатируется в том случае, если
коэффициент корреляции по модулю не меньше 0,7
да
85 Коэффициент корреляции при решении в пакете Excel выдается как величина
«Множественный R»
да
86 В результатах решения задачи в Excel коэффициент корреляции отображается как:
Множественный R
да
87 Какие действия приводят к увеличению тесноты связи в регрессионной модели?
удаление выбросов, добавление ранее неучтенных факторов, видоизменение модели
да
88 Величина «Значимость F» показывает
1вероятность недостоверности коэффициента детерминации
да
89 Для чего служит величина «Значимость F»?
2для определения достоверности коэффициента детерминации
да
90 Нулевая гипотеза для коэфициента детерминации отвергается при
Значимости F, меньшей или равной 5%
да
91 Что означает незначимость коэффициента детерминации?
что рассчитанный коэффициент детерминации не достоверен
да
92 В каком случае коэффициент детерминации может быть не достоверен?
4в случае, если для анализа взято слишком мало наблюдений
да
93 Что необходимо сделать в случае незначимости коэффициента детерминации?
увеличить количество наблюдений в исследуемой выборке
да
94 Причиной недостоверности коэффициента детерминации может служить
недостаточное количество наблюдений
да
95 В каком случае коэффициент детерминации считается незначимым?
если величина «Значимость F» больше 0,05
да
96 В каком случае коэффициент детерминации признается не достоверным?
если Значимость F больше или равна 5%
да
97 Что показывает коэффициент детерминации?
объясненную регрессией долю дисперсии зависимой переменной у
да
98 Как рассчитывается коэффициент детерминации?
как доля объясненной регрессией дисперсии в общей дисперсии зависимой переменной
да
99 О чем свидетельствует близкое кзначение коэффициента детерминации?
о наличии тесной связи между изучаемыми показателями
да
100 Величина RSS показывает
3величину дисперсии зависимой переменной, объясненной регрессией
да
101. Величина ТSS показывает
общий разброс зависимой переменной вокруг ее среднего значения
да
102 Величина ЕSS показывает
4величину дисперсии зависимой переменной, не объясненной регрессией
да
103 Как рассчитывается коэффициент детерминации?
1RSS / TSS
да
104 Что такое остаток?
3разность между реальным и расчетным значением у
да
105 Какое количество остатков выводится при проведении регрессии?
2равное количеству наблюдений
да
106 Какое количество стандартных остатков выводится при проведении регрессии?
3равное количеству наблюдений
да
107 Что такое статистический выброс?
наблюдение, которое резко отклоняется от линии регрессии
да
108 Что такое статистический выброс?
нетипичное наблюдение, подлежащее удалению
да
109. Какое наблюдение считается статистическим выбросом?
наблюдение, не вошедшее в выборку, по которой производится регрессионный анализ
нет
110 Каким образом при решении регрессионной задачи в пакете Excel обнаруживаются статистические выбросы?
2по величинам стандартных остатков наблюдений
да
111 В каких случаях не обязательно удаление статистических выбросов?
2в случае сильной связи в регрессионной модели
да
112 В каких случаях необходимо удаление статистических выбросов?
в случае низкого значения коэффициента корреляции
да
113 Каковы последствия удаления статистических выбросов в регрессионном анализе?
увеличение тесноты связи в модели
да
114. Для проверки качества построенной регрессионной модели необходимо проанализировать:
коэффициент корреляции, Значимость F, Р-значения
да
115 Для чего в регрессионную модель вводятся бинарные переменные?
для учета качественных признаков
да
115. Для признания регрессионной модели качественной должны выполняться условия:
связь тесная, наблюдений достаточно, все объясняющие переменные значимы
да
116 Что такое бинарная переменная?
переменная, принимающая значения «0» или «1» при наличии или отсутствии признака
да
116. Зачем в регрессионном анализе используются бинарные переменные?
чтобы учесть в модели факторы, выражающиеся не количественными значениями
да
117 Фиктивная переменная — это
другое название бинарной переменной
да
118 Бинарная переменная является
равноправной переменной регрессионной модели
да
119 Уравнение регрессии, содержащее бинарные переменные, является
регрессионной моделью
да
120 Какие значения может принимать фиктивная переменная?
0 и
да
121 Можно ли использовать бинарные переменные в множественной регрессии?
да
да
122 Можно ли использовать бинарные переменные в парной регрессии?
да
да
123 Можно ли вводить в модель больше одной бинарной переменной?
нет
да
123. Можно ли вводить в модель больше одной бинарной переменной?
Нет
да, только при условии высокого коэффициента корреляции
нет
124 Может ли бинарная переменная быть независимой переменной регрессионной модели?
да, конечно
да
125 Может ли коэффициент при бинарной переменной быть отрицательным?
да
да
126 Что означает отрицательный коэффициент при бинарной переменной?
уменьшение зависимой переменной при наличии признака, описываемого бинарной
да
127 Что означает положительный коэффициент при бинарной переменной?
увеличение зависимой переменной при наличии признака, описываемого бинарной
да
128 Незначимость коэффициента при бинарной переменной означает
4отсутствие влияния данного качественного признака на зависимую переменную
да
129 Статистическая значимость бинарной переменной означает
подтвержденное влияние данного качественного признака на зависимую переменную
да
130 В ?