INPIXON

자신감 밴드

신뢰 구간 및 신뢰 밴드

기본 사항

때때로 SYSTAT에서 선형 모델에서 신뢰 구간을 구하는 방법을 묻는 질문을 받습니다. 실제로는 그리 어렵지 않으며, 여기서는 그 기술을 검토하겠습니다. 하지만 그 전에 선형 모델에 대한 신뢰 구간의 기본 개념을 살펴보겠습니다.

먼저, 변수 X에 대한 Y의 선형 회귀가 있다면, 주어진 X 값에 대해 Y의 값은 Y=aX+b+e로 주어지며, 여기서 e는 “잡음 항”입니다.

노이즈 항은 일반적으로 평균이 0이고 분산이 s^2인 정규 분포로 가정합니다. 실제 데이터 집합의 요령은 a와 b를 추정한 다음 s^2의 추정값을 사용하여 이러한 추정에 대한 추론을 수행하는 것입니다.

그러나 때때로 특정 X 값에서 Y의 평균에 대한 신뢰 구간을 구하고 싶을 때가 있습니다. 위의 방정식에 따르면 X에서 Y의 평균은 aX+b입니다.

그러나 실제 데이터 집합에서는 A와 B의 ‘실제’ 값을 알 수 없으며, 추정치만 알 수 있습니다. 따라서 Y의 실제 평균이 발생한다고 비교적 확신할 수 있는 간격을 찾는 것이 적절합니다.

이 간격을 계산하는 데는 매우 복잡한 공식이 있지만 여기서는 다루지 않겠습니다. 결국 컴퓨터는 계산을 쉽게 만들어야 합니다. 예를 들어, 변수 CARDIO 및 CANCER에 대해 48개의 유효한 사례가 있는 샘플 데이터 집합 USSTATES.SYD를 사용한다고 가정해 보겠습니다. 통계 > 회귀 > 선형 대화 상자를 사용하여 회귀 모델을 설정하거나 명령을 실행합니다:

REGRESS
미국 사용
회귀/모델 저장
모델 암=일반+심장 질환
견적

그러면 컴퓨터가 모델을 추정하여 상수와 심장 계수 모두에 대한 예상 값을 찾고 분산 분석 표를 인쇄합니다.

이 경우 모델의 잔여값, 모델에 대한 심장을 기반으로 한 암의 추정치(ESTIMATE라는 변수) 및 SEPRED라는 알 수 없는 값이 포함된 REGRESS.SYD 파일도 저장됩니다. 신뢰 구간을 계산하는 데 사용할 것은 SEPRED입니다.

SEPRED는 ‘예측값의 표준 오차’를 의미합니다. 파일에는 원본 데이터의 값도 포함됩니다. 저장 명령에 모델 옵션을 추가했기 때문에 저장됩니다.

암의 예측 값에 대한 95% 신뢰 구간의 상한과 하한을 계산하려면 데이터 > 변환 > 렛 대화 상자를 사용하거나 BASIC 모듈을 입력하고 명령을 실행합니다:
기본
사용 회귀
LET n=48
LET nvars=2
LET upper = estimate+TIF(.975,n-nvars)*sepred
LET lower = estimate-TIF(.975,n-nvars)*sepred
인쇄 상단 하단
RUN

그러면 각 사례에 대한 암의 예상 값에 대한 상한 및 하한 신뢰 한계가 인쇄됩니다. 위에서 TIF는 “역 t 분포”를 의미합니다.

위의 아이디어는 여러 가지 방법으로 일반화할 수 있습니다. 예를 들어, 두 변수에 대한 회귀 분석에서 Y의 평균에 대한 신뢰 구간을 구하려면 REGRESS의 MODEL 문에 해당 변수를 추가하고 BASIC 모듈에서 NVARS를 2에서 3으로 변경하기만 하면 됩니다. (참고: N-NVARS는 유효한 사례 수에서 모델의 변수 수를 뺀 값입니다. 위의 N과 NVARS를 모델에 맞는 사례 수와 변수로 설정합니다.

X의 새 값에서 Y의 평균에 대한 신뢰 구간

X 변수의 하나 이상의 새 값에서 Y의 평균에 대한 신뢰 구간을 찾고자 하는 경우가 있을 수 있습니다. 파일 끝에 새 X 값을 넣고 연결된 Y 값을 0으로 만듭니다. (Y 값이 실제로 무엇인지에 대해 걱정할 필요는 없습니다. 이 Y 값은 단지 자리 표시자일 뿐이며 계산에 입력되지 않습니다.)

다음으로 파일에 WT라는 새 변수를 추가합니다. 파일을 저장한 후 데이터 > 빈도 대화 상자를 사용하여 가중치 변수로 WT를 선택하거나 명령을 실행합니다:

주파수=WT

통계 > 회귀 > 선형 대화 상자 또는 명령 파일을 사용하여 회귀 모델을 다시 추정하고, 모델 옵션을 사용하여 결과를 데이터 파일에 저장하는 것을 잊지 마세요. 회귀를 계산할 때 가중치가 1인 포인트는 한 번, 가중치가 0인 포인트는 0번 사용되므로 FREQUENCY 명령은 이러한 맥락에서 매우 유용합니다.

따라서 Y 및 X 값이 알려진 경우에 대해 회귀가 계산되지만, ESTIMATE 값은 모든 경우에 대해 계산됩니다. 저장된 결과 파일을 사용하여 위의 계산을 사용하여 새로운 사례에 대한 알려진 값 X에서 미지의 Y의 추정 평균에 대한 신뢰 구간을 도출할 수 있습니다.

미묘함

이러한 유형의 신뢰 구간과 관련하여 주의해야 할 몇 가지 미묘한 점이 있습니다. 첫째, 이것은 회귀선의 신뢰 구간이나 구간이 아니라 특정 X 값에서 Y의 평균에 대한 구간입니다. 상한 및 하한 신뢰 구간을 플롯하면 회귀선 주위에 두 개의 곡선이 표시됩니다. USSTATES.SYD 파일을 사용하여 원래 예제로 돌아가서 신뢰 구간 값을 계산하고 플롯합니다:
시작
PLOT cancer*x(1)/SIZE=0 SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 ,
xmin=100 xmax=500 xlabel=’cardio’ color=blue
PLOT upper,lower*x(1)/SIZE=0 SMOOTH=SPLINE SHORT YMIN=100 YMAX=300,
xmin=100 xmax=500 ylabel=’ ‘ xlabel=’ ‘ color=red,
오버레이
END

(추정된 모델의 결과를 저장할 때 SYSTAT는 독립 변수 X(1)의 이름을 바꿉니다. . . X(n)으로 변경되므로 이 예제에서는 CARDIO의 이름이 X(1)로 변경됩니다).

이 선들이 전체 선에 대한 신뢰 구간을 형성한다고 생각하기 쉽습니다. 그렇지 않습니다. 문제는 신뢰 상한과 신뢰 하한이 한 번에 한 점씩 사용하여 계산된다는 것입니다. 전체 라인에 대한 신뢰 구간 또는 간격을 계산하려면 해당 라인에 대해 상수와 X 계수라는 두 가지 매개 변수가 계산되고 있다는 사실을 고려해야 합니다. 따라서 전체 라인의 상한 및 하한 신뢰 구간은 다음과 같이 주어집니다:
기본
LET n=48
LET nvars=2
LET 상위 대역 = 추정치+SQRT(2*FIF(.95,2,n-nvars))*sepred
LET lowerband = estimate+SQRT(2*FIF(.95,2,n-nvars))*sepred
인쇄 상단 밴드 하단 밴드
RUN

CANCER의 추정값에 대한 신뢰 구간과 회귀선의 신뢰 구간을 플롯하면 신뢰 구간보다 신뢰 구간이 더 넓다는 것을 알 수 있습니다:

시작
PLOT cancer*x(1) / SIZE=0 SMOOTH=LINEAR SHORT YMIN=100 YMAX=300 ,
xmin=100 xmax=500 xlabel=’cardio’ color=blue
PLOT upper,lower*x(1)/SIZE=0 SMOOTH=SPLINE SHORT YMIN=100,
YMAX=300 XMIN=100 XMAX=500 YLABEL=’ ‘,
xlabel=’ ‘ 색상=빨간색 오버레이
PLOT 상위밴드,하위밴드*x(1)/SIZE=0 SMOOTH=SPLINE SHORT,
YMIN=100 YMAX=300 XMIN=100 XMAX=500 YLABEL=’ ‘,
xlabel=’ ‘ 색상=녹색 오버레이
END

암(암으로 인한 10만 명당 사망자 수)과 심혈관 질환(심혈관 질환으로 인한 10만 명당 사망자 수)의 관계는 선형이기 때문에 암의 추정값에 대한 신뢰 구간과 회귀선의 신뢰 구간 간의 차이는 작지만, 이와 같이 잘 처리된 데이터에서도 그 차이는 분명합니다.

둘째, 모든 관측값의 95%가 신뢰 구간 내에 속해야 한다고 생각하는 경향이 있습니다. 이 또한 사실이 아닙니다. 이는 평균에 대한 신뢰 구간일 뿐입니다. 관측값에 대한 신뢰 구간을 찾으려면 아래에서 보는 것처럼 계산을 수정해야 합니다.

기본
LET n=48
LET nvars=2
LET s_square=177.065
LET 상위 밴드 = 추정치+TIF(.975,n-nvars)*SQR(sepred^2+s_square)
LET lowerband = estimate-TIF(.975,n-nvars)*SQR(sepred^2+s_square)
인쇄 상단 밴드 하단 밴드
RUN

여기서 S_SQUARE는 회귀의 평균 제곱 잔차값입니다. 이를 예측 구간이라고도 합니다. N 및 NVARS 값을 입력할 때 회귀 출력의 분산 분석 테이블에 있는 S_SQUARE 값도 입력합니다.

이제 이 계산의 결과를 보려면 다음 명령어를 실행합니다:

시작
PLOT 암*x(1)/SMOOTH=선형 단락 YMIN=100 YMAX=300 XMIN=100,
xmax=500 xlabel=’cardio’ color=blue
PLOT 상위밴드,하위밴드*x(1) / SIZE=0 SMOOTH=SPLINE SHORT,
YMIN=100 YMAX=300 XMIN=100 XMAX=500 YLABEL=’ ‘,
xlabel=’ ‘ 색상=녹색 오버레이
END

이렇게 하면 데이터 주위에 신뢰 구간 또는 예측 구간이 그려집니다.

Shopping Cart
Scroll to Top