< 문제 출처 >
이공학도를 위한 확률과 통계 3판 한글판
[ 문제 ]
석유 산업에서는 석유를 채취하기 위한 구멍을 뚫는데 사용되는 비용을 평가하는 것이 중요하다. DS 12.2.1 은 총 비용과 필리핀에 위치한 16 개 해안의 석유 유정의 깊이를 나타낸다.
1. 데이터를 입력하고 선형 회귀 모형 구하기
> raw_datas <- read.table("ds12.2.1-oil-well-drilling-costs.txt", header=T)
> lm1 <- lm(Cost~Depth, data=raw_datas)
> summary(lm1)
Call:
lm(formula = Cost ~ Depth, data = raw_datas)
Residuals:
Min 1Q Median 3Q Max
-1147.24 -604.64 -30.61 397.00 2132.17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.277e+03 7.655e+02 -2.975 0.01 *
Depth 1.003e+00 8.532e-02 11.760 1.21e-08 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 879.9 on 14 degrees of freedom
Multiple R-squared: 0.9081, Adjusted R-squared: 0.9015
F-statistic: 138.3 on 1 and 14 DF, p-value: 1.212e-08
선형 회귀 모델에서 각 모수는 다음과 같음을 알 수 있습니다.
B0 = -2277
B1 = 1.003
y = -2277 + 1.003x
standard error = 879.9
2. 이 모델을 통해 깊이가 1,000 피트 더 증가할 경우 비용은 얼마만큼 증가할지 예측하라.
1.003 * 1000 = 1003 만큼 비용이 증가함을 알 수 있습니다.
( 주어진 데이터에서 단위는 1000$ 이므로 실제로는 1003 * 1000 = 1003000 $ 임을 인지하자. )
3. 석유 유정의 깊이가 10,000 피트일 경우 필요한 비용은 얼마인가?
> predict(lm1, newdata=data.frame(Depth=10000))
1
7756.321
7756.321 만큼의 비용이 필요합니다.
4. 오차 분산의 추정치는 얼마인가?
> anova(lm1)
Analysis of Variance Table
Response: Cost
Df Sum Sq Mean Sq F value Pr(>F)
Depth 1 107065260 107065260 138.29 1.212e-08 ***
Residuals 14 10838960 774211
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
MSE = 774211 입니다.
5. 석유 유정의 깊이가 20,000 피트일 경우 필요한 비용은 얼마라고 말할 수 있는가?
> predict(lm1, newdata=data.frame(Depth=20000))
1
17789.71
17789.71 만큼의 비용이 필요합니다.
하지만 모델이 사용되면서 extrapolation 될 수 있기 때문에 정확하지는 않습니다.