[ADSP] 3과목 데이터 분석 문제 및 답안


01. 전형적인 데이터 분석은 요건정의 → 모델링 → 검증 및 테스트 → 적용 단계로 이루어지며, 여기서 요건은 비즈니스 이슈로부터 도출된다. 다음 중 요건을 정의하는 단계에서 수행해야 할 작업으로 가장 적절하지 않은 것은?

① 데이터 분석업무의 배경, 주요 이슈, 기대효과 등을 파악한다.

② 간단한 기초분석을 통해 분석수행 타당성을 확인한다.

③ 분석 기법, 수행 단계 및 절차(WBS) 등을 식별해 구성하고 분석방법론을 구축한다.

④ 다양한 원천으로부터 분석대상 데이터를 획득한다.

④ 데이터 획득은 모델링 단계의 주요 수행 작업

02. 의미있는 분석결과를 확보하려면 비즈니스 영향도와 효과를 산출할 수 있어야 한다. A회사에서는 캠페인 결과에 따라 구매자와 비구매자로 고객을 분류하는 모델을 구축해 사용하고 있다. 이 모델의 정확성을 높여 비용이나 만족도 등의 지표를 개선하고자 한다. 다음 중 비즈니스 영향도나 효과 산출에 가장 적절하지 않은 수행준거는 무엇인가?

① 투자 대비 효과를 정량화해서 TCO, ROI, NPV 등을 산출해야 한다.

② 모델링에서는 Detection Rate가 증가하거나 Lift가 개선되어 발생하는 정량적 효과를 제시한다.

③ 사업 특성에 따라 비용요소가 이미 영업이익율이나 공헌이익에 반영되었을 수 있으므로 중복적으로 비용요소를 차감하지 말아야 한다.

④ 시뮬레이션에서는 처리량, 대기시간 등을 통한 정량적 효과를 제시할 필요가 없다.

④ 시뮬레이션을 통해 처리량, 대기시간 등을 통한 정량적 효과를 제시할 필요가 있다.

03. 아래의 R 스크립트를 실행하여 얻게 되는 결과로 가장 적절한 것은?

> x <- c(1, 2, 3)
> y <- c(2, x, 3)
> x + y

① [1] 3 3 5 4 5

② [1] 3 3 5 5 5

③ [1] 3 3 5

④ 에러 : In x + y : 두 객체의 길이가 서로 배수관계에 있지 않습니다.

 

① 벡터의 연산에서 길이가 다르면 길이가 큰 쪽의 길이에 맞추고 짧은 쪽은 길이가 맞을 때까지 원소를 다시 사용한다. x<-c(1, 2, 3) ; y<-c(2, 1, 2, 3, 3); x+y = (1+2, 2+1, 3+2, 1+3, 2+3)

04. 다음 중 자료 탐색 시 산점도를 통해 관찰해야 하는 자료의 특징으로 가장 부적절한 것은?

① 선형(linear) 또는 비선형(nonlinear)관계 여부

② 이상점의 존재 여부

③ 자료의 층화 여부

④ 원인과 결과의 시간적 선후관계 여부

④ 탐색적 자료분석을 통해서 자료의 원인과 결과 여부를 알 수 있는 것은 아니다.

05. 표본조사나 실험을 하는 과정에서 추출된 원소나 관측 자료를 얻는 것을 측정이라고 하며, 측정방법에 따라 사용할 수 있는 통계기법이 달라진다. 다음 중 측정 수준과 사용 가능한 기술통계의 연결이 가장 부적절한 것은?

① 명목척도(nominal scale) - 중앙값

② 순서척도(ordinal scale) - 범위

③ 구간척도(interval scale) - 최빈값

④ 비율척도(ratio scale) - 표준편차

① 명목척도는 측정 대상이 어느 집단에 속하는지 분류할 때 사용하는 척도로써 성별, 출신지 등이 이에 해당하는 대표적인 변수 형태이다. 이들 척도는 중앙값을 사용하지 않는다.

06. 다음 중 다중 회귀분석에서 독립변수의 수가 지나치게 많을 경우의 부작용으로 가장 부적절한 것은?

① 설명력의 증가가 현저히 줄어든다.

② 추정치의 표준오차가 커진다.

③ 회귀식의 적합도나 타당도가 낮아진다.

④ 종속변수에 대한 독립변수의 상대적 영향력을 비교하기가 곤란하다.

④ 독립변수의 수와 변수에 대한 영향력 비교는 무관하다.

07. 다음 중 그룹별로 sum, mean 등의 요약성 작업이 불가능한 R 명령어는 무엇인가?

① data. table

② sqldf

③ aggregate

④ melt

④ 함수 melt()의 argument에는 요약을 할 수 있는 함수적용이 불가하다.

08. 다음 중 아래의 R 명령어에 대한 설명으로 가장 적절한 것은?

> ddply(d, "year", summarise, mean.count = mean(count))

① d라는 데이터프레임에 mean.count라는 변수별로 count라는 변수의 평균(mean)을 구해 year라는 변수명으로 구성된 데이터 프레임을 생성하라.

② d라는 array에 year라는 변수별로 count라는 변수의 평균(mean)을 구해 mean.count라는 변수명으로 구성된 array를 생성하라.

③ d라는 데이터프레임에 year라는 변수별로 count라는 변수의 평균(mean)을 구해 mean.count라는 변수명으로 구성된 데이터 프레임을 생성하라.

④ d라는 데이터프레임에 year라는 변수별로 count라는 변수에 단변량 분석 방법인 summary를 적용하여 mean.count라는 변수명으로 구성된 벡터를 생성하라.

09. 다음 중 melt()와 cast() 함수를 이용하여 데이터 구조를 쉽게 변경할 수 있는 R 패키지는 무엇인가?

① reshape

② plyr

③ data.table

④ klaR

① R의 reshape 패키지는 melt()와 case() 함수를 제공하며, 이를 통해 데이터 구조를 쉽게 변경할 수 있다.

10. 다음 중 의사결정나무(decision tree) 모형의 특징으로 가장 부적절한 것은?

① 비모수적 방법이다.

② 설명이 용이하다.

③ 잡음데이터에 민감하다.

④ 계산이 단순하고 빠르다.

③ 의사결정나무 알고리즘은 비정상적인 잡음데이터에 대해 민감하지 않다.

11. 다음 중 의사결정나무(decision tree) 모형 구축에서 노드의 불순도(impurity) 측도가 아닌 것은?

① 지니 계수(gini coefficient)

② 엔트로피 계수(entropy coefficient)

③ 감마 계수(gamma coefficient)

④ 분류 오류율(classification error rate)

③ 감마계수는 연관성 측도이다.

12. 지도학습(supervised learning) 분석방법은 주어진 독립변수를 바탕으로 종속변수를 예측하는 방법들을 말한다. 다음 중 지도학습에 해당하는 분석 방법이 아닌 것은?

① 의사결정나무

② 베이지안 분류

③ 신경망 분석

④ K-평균 군집

④ K-평균 군집분석은 비지도학습(unsupervised learning)에 해당한다.

13. 다음 중 군집분석에서 R 함수 kmeans에 대한 설명으로 가장 부적절한 것은?

① k개의 평균을 중심으로 군(cluster)을 이루는 명령어다.

② 관측치와 k개의 중심 간의 거리를 계산하여 군(cluster)을 이루는 명령어다.

③ 군(cluster)의 개수는 사용자가 미리 결정한다.

④ 군(cluster)의 계층적 구조를 보여준다.

④ 계층적 구조를 보여주는 분석은 hierarchical clustering 방법이며, kmeans는 nonhierarachical clustering 방법이다.

14. 데이터프레임 data 안에는 입시지망생 1,000명의 공인영어성적이 score 변수에 들어가 있고 성별 코드가 gender 변수에 들어있다(여성 0, 남성 1). 아래는 해당 데이터프레임의 일부이다. 성별 간 공인영어성적의 차이를 상자그림(box plot)으로 시각화하기 위한 R 스크립트를 쓰시오.

> data
score gender
1 800 0
2 750 1
3 630 1
4 970 0
5 500 0

boxplot(score ~ gender, data)

15. 변수 X(연속형)와 변수 Y(연속형) 사이의 연관성을 살펴보고자 할 때, 제3의 변수 Z(연속형)가 X와 Y에 연관되어 있다고 가정하자. 이런 경우에는 Z에 조건화하여 X 와 Y 간 상관계수를 선출할 필요가 있다. 이러한 상관계수를 무엇이라고 하는가?

편상관(partial correlation)

16. 여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시작하는 방법은?

다차원 척도법(Multidimensional Scaling)

17. 다음 중 아래와 같이 연관성 분석(association analysis)을 위하여 총 5개의 장바구니 거래가 있었다고 가정할 때, 연관규칙 A → B 의 신뢰도를 구하라.(단, 여기에서 A,B,C,D,E는 거래된 상품을 말한다.)

장바구니1 : A, B, C
장바구니2 : C, D, E
장바구니3 : B, C, D, E
장바구니4 : A, B, E
장바구니5 : A, D

① 2/3

② 3/5

③ 1/3

④ 2/5

① P(A|B)를 계산하면 (2/5)/(3/5)이다. 즉, 신뢰도는 상품 B를 구매한 사람들 중에서 상품 A를 동시에 구매한 사람의 비율을 나타내는 것이므로 상품 B를 구매한 장바구니 1, 3, 4 중에서 상품 A를 구매한 사람은 장바구니 1, 4 이므로 신뢰도는 2/3 이다.

18. 다음 중 데이터마이닝 기법을 이용할 때, 비교사 학습기법(unsupervised Learning)을 사용해야 하는 것은 무엇인가?

① 과거 소비자들의 인구통계학적, 금융데이터를 바탕으로 새로운 소비자들의 대출여부를 결정한다.

② 온라인 서점에서 기존 구매 고객들의 구매 패턴을 파악하여 책을 추천해준다.

③ 기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터를 기반으로 회사의 파산 여부를 예측한다.

④ 비슷한 성향을 가진 고객군을 파악하여 고객 타겟팅에 활용하고자 한다.

④ 데이터마이닝 기법은 목표변수가 존재하는지에 따라 교사학습법(Supervised Learning, 존재), 비교사학습법(Unsupervised Learning, 비존재)으로 나뉜다.

① 과거 소비자의 대출여부(0, 1)가 목표변수이므로 교사학습법에 해당

② 기존고객이 구매 패턴에 따라 A, B, C 그룹 등으로 분류가 되어 있기 때문에 고객 그룹이 목표변수가 되므로 교사학습법

③ 기존회사들의 파산여부(0, 1)가 목표변수이므로 교사학습법

④ 비슷한 성향을 가진 고객들의 유사도에 근거하여 고객군집을 만들어서 고객 타케팅에 활용하므로 목표변수가 존재하지 않는다. 따라서 비교사학습법을 사용해야 한다.

19. 다음 중 텍스트 마이닝(text mining)에 대한 설명으로 가장 부적절한 것은?

① Corpus란 텍스트 형태의 문서를 구조화하여 분석할 수 있는 형태로 만든 것이다.

② 형태소 분석 단계를 거치면 텍스트 마이닝을 위한 사전이 자동 생성된다.

③ 문서 분류, 유사문서 그룹핑 등에 적용할 수 있다.

④ 워드클라우드는 텍스트 문서 중 출현 단어의 횟수 기반으로 그려진다.

② 형태소분석 단계를 거친다고 해서 사전이 자동으로 생성되지는 않는다.

20. 텍스트 마이닝에서 문서로부터 용어-문서(term-document) 행렬을 만들고자 할 때 필요한 전처리 과정이 아닌 것은?

① 불용어(stopword) 처리

② 구두점(punctuation) 제거

③ 빈칸(space) 제거

④ 워드클라우드(word cloud) 작성

④ 워드클라우드는 용어-문서(term-document) 행렬을 이용하여 작성된다.

21. 소셜미디어에 나타난 다양한 소비자의 감성을 기업 경영에 활용하기 위해서는 감성분석(Sentimental Analysis)이라는 기술적인 방법을 사용하며 이는 흔히 Opinion Mining으로도 언급된다. 다음 중 감성분석의 특성이 아닌 것은?

① 문장에서 사용된 단어의 긍정과 부정의 빈도에 따라 문장이 긍정인지 부정인지 평가한다.

② 브랜드에 대한 평판 측정에서 긍정적인 추이가 증가하는지 여부를 판단하는데 사용한다.

③ 각 문장이 긍정인지 부정인지는 주체에 따라 다르게 해석할 수 있다.

④ 개별 문장의 분석에 오류가 나타나면 많은 문서를 가공하더라도 추이 파악에 어려움이 생기는 단점이 있는 분석 방법이다.

22. 다음 중 오피니언 마이닝(Opinion Mining)의 절차로 가장 적절하게 연결된 것은 무엇인가?

① 크롤링 - 필터링 - NLP

② 필터링 - 크롤링 - NLP

③ NLP - 필터링 - 크롤링

④ 크롤링 - NLP - 필터링

① 일반적으로 오피니언 마이닝은 SNS나 블로그에서 데이터를 수집하는 크롤링 → 수집된 데이터 중 유용한 문서만을 선택하는 필터링 → 자연어 처리를 수행하는 NLP → 긍/부정 감성어를 추출하는 감성분석 순으로 진행된다.

23. 다음 중 사회연결망 분석(social network analysis)에서 매개중심성(betweenness centrality) 측도에 대한 설명으로 가장 적절한 것은?

① 한 노드를 중심으로 얼마나 많은 edge가 연결되었는지를 나타낸다.

② 연결된 노드에 가중치를 두어 일정의 위세 정도를 나타내는 것이다.

③ 각 노드들 간의 거리를 근거로 중심성을 측정하는 방법이다.

④ 전체 관계만을 고려하였을 때, 중계자 역할의 정도를 나타내는 것이다.

④ ① degree ② eigenvalue centrality ③ closeness ④ betweeness

24. 최적화는 기대수익, 비용 등을 고려해 최대 수익 달성이 가능한 사업계획 선정 등 사업 현장과 밀접하게 연관되어 있다. 다음 중 최적화 방법으로 가장 많이 사용하는 것은 무엇인가?

① 담금질 기법(simulated annealing)

② 동적 계획법(dynamic programming)

③ 단순임의추출법(simple random sampling)

④ 선형계획법(linear programming)

선형계획법은 최적화기법 중에서 가장 많이 활용되는 기법으로서 특히 최적화를 시키기 위한 함수를 선형으로 표현하는 것을 선형계획법이라 한다.

25. 다음 중 통계적 모의실험에서 난수생성법으로 가장 부적절한 것은 무엇인가?

① 역변환법(inverse transform method)

② 합성법(composition method)

③ 채택-기각법(acceptance-rejection method)

④ 이분법(bisection method)

이분법은 방정식의 근을 찾는 방법 중 하나이다.

26. 다음 중 빅데이터 분석을 위한 프로세스를 가장 적절하게 나타낸 것은?

① 요건정의 → 모델링 → 검증 및 테스트 → 적용

② 수행방안 설계 → 모델링 → 비즈니스 영향도 평가 → 적용

③ 요건정의 → 모델링 → 모델링 성능평가 → 적용

④ 수행방안 설계 → 모델링 → 모델링 성능평가 → 적용

① 빅데이터 분석 프로세스는 "요건정의 → 모델링 → 검증 및 테스트 → 적용" 단계로 나눌 수 있다.

27. 데이터 처리 과정은 많은 시간과 노력, 인내가 필요하다. 언제나 시간과 자원은 제약이 따르기 마련이고 높은 품질을 요구한다. 이러한 상황에서 데이터 처리 과정을 위한 다음 방법들 중 가장 적절한 것은?

① 분석 방법에 맞게 잘 정리된 데이터 마트(data mart)를 생성

② 빠르게 원시모형(Prototype)을 만들어 모델에 적용

③ 기존 정보시스템의 정보를 최대한 활용

④ 데이터 전처리(pre-processing) 작업을 수행

② 모델링과 마찬가지로 데이터도 빠르게 원시모형을 만들어 모델링에 적용해보고, 좀 더 정교하게 만들어 확인하고 개선해야 한다.

28. 요건정의는 비즈니스 이슈로부터 도출된다. 통상적인 이슈는 수익증가나 비용증가, 상황의 변화, 처리 속도의 지연 등을 발생시키는 항목들로 전사적 측면에서 개선돼야 할 사항이다. 다음 중 요건정의에서 수행할 내용으로 가장 부적절한 것은?

① 분석요건의 정의는 문제를 해결했을 때 투자수익(ROI)으로 증명할 수 있어야 한다.

② 요건정의는 분석 요건을 구체적으로 도출, 선별, 결정하고 분석 과정을 설계하고 구체적인 내용을 실무 담당자와 협의하는 업무이다.

③ 요건정의 시에는 아무리 많은 시간을 할애하더라도 비즈니스 이슈 도출에 집중해야 한다.

④ 요건정의에서는 이슈리스트 작성, 핵심 이슈 정의, 해결방안 정의 등이 주요 수행 업무이다.

③ 요건을 정의하는 단계에서는 제시된 내용에 대한 사실을 확인하고 방향성을 설정하는데 필요한 수준이면 된다. 따라서 요건정의에 너무 많은 시간을 할당하면 전체 업무 진행에 차질이 따를 수 있다.

29. 다음 중 R에서 가능한 데이터 유형에 대한 설명으로 적절하지 않은 것은?

① data frame은 숫자형과 문자형의 변수를 함께 포함할 수 있다.

② matrix는 차원을 가진 벡터로 숫자형 원소와 문자형 원소를 함께 포함할 수 없다.

③ list의 각 요소는 서로 다른 모드의 객체를 포함할 수 있다.

④ list의 각 요소는 [[ ]]로 접근 가능하다.

① data frame은 숫자형과 문자형 벡터를 동시에 변수로 포함할 수 있다.

30. 데이터프레임 A는 아래와 같이 5개의 관측치와 2개의 변수(x, y)를 가지고 있다. x의 평균과 y의 평균을 구하기 위한 명령어로 적절하지 않은 것은?

> A
X Y
1 1 3
2 2 4
3 4 6
4 6 2
5 3 9

① apply(A,1,mean)

② sapply(A,mean)

③ lapply(A,mean)

④ colMeans(A)

① apply(A,1,mean) 은 각 행의 평균을 계산한다. 각 열의 평균을 계산하기 위해서는 apply(A, 2, mean)을 사용해야 한다.

41. 다음 중 가설검정에 관한 설명으로 가장 부적절한 것은?

① 가설은 항상 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)이 있다.

② 검정통계량 값을 구한 후 이 값이 나타날 가능성의 크기에 의해 귀무가설 채택 여부를 결정하고 이는 유의수준(significance level, α)을 기준으로 판단한다.

③ 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류를 제 1종 오류(type 1 error)라고 한다.

④ 일반적으로 가설검정에서는 제 2종 오류의 크기를 0.1, 0.05, 0.01 등으로 고정시킨 뒤 기각역을 설정한다.

가설검정에서는 제 1종 오류의 크기를 고정시킨 후 기각역을 설정한다.

42. 분포 패턴이 다양한 자료에서 같은 상관(correlation) 계수가 도출될 수 있다. 그 패턴을 확인하기 위한 분석으로 가장 적절한 것은?

① 상자그림(box plot)

② 산점도(scatter plot)

③ 빈도표(frequency table)

④ 히스토그램(histogram)

② 산점도는 두 개의 변량 사이의 동시 분포를 평면상에 그림으로 나타낸 것으로 이를 통해 두 변수 사이의 선형관계(직선관계)를 확인할 수 있다.

43. 유사성 순위 자료를 활용한 다차원척도법(MDS) 분석을 설명한 다음 보기 중 가장 부적절한 것은?

① stress 값이 작으면 해석의 의미가 없다.

② 차원이 많아지면 stress는 개선된다.

③ 차원의 해석은 주관적 통찰에 주로 의존한다.

④ 소비자의 인식을 그림으로 표현한다.

① 크루스칼(kruskal)의 스트레스값을 이용하여 결과의 신뢰성과 타당성, 즉 적합성을 집중할 수 있다. stress값은 응답자의 인식과 지각도 맵상 자극점들 간의 불일치 정도를 나타내는 것으로 일종의 오차의 크기를 나타내는 지수이다.

44. 아래 내용이 설명하고 있는 통계적 분석 방법으로 가장 적절한 것은?

변수들 간의 관계성을 규명할 수 있는 수학적 모형을 수집된 자료로부터 추정하는 통계적 방법
변수들 간의 관계성을 선형으로 가정
추정된 수학적 모형을 이용하여 통계적 추론이나 예측을 하게 됨
한 개의 독립변수를 고려한 경우와 두 개 이상의 독립변수를 고려한 경우의 분석이 가능

① 카이제곱 분석

② 회귀분석

③ 주성분분석(PCA)

④ 분산분석(ANOVA)

② 회귀분석은 독립변수가 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수 값을 예측하는 선형모형을 산출하는 방법이다.

45. 다음 시계열 자료의 정상성(stationarity)에 대한 설명 중 가장 부적절한 것은?

① 모든 시점 간에 자료는 독립이다.

② 모든 시점에 대해 일정한 평균을 가진다.

③ 모든 시점에 대해 일정한 분산을 가진다.

④ 시점 t와 s의 공분산은 시차(t-s)에만 의존하고 실제 어느 시점인지에는 의존하지 않는다.

① 시계열 자료는 현 시점의 자료가 과거의 자료에 의존하는 형태를 모형화 한다.

46. 다음 중 주성분 분석에서 주성분 수를 선택할 때 고려하지 않아도 되는 것은 무엇인가?

① 고유값의 누적비율

② 차원의 크기

③ 총 변이에 대한 공헌도

④ 개별 고유 값의 분해 가능 여부

④ 주성분 분석에서 주성분의 개수를 선택하는 방법은 다음과 같다.

전체 변이의 공헌도(percantage of total variance)

평균 고유값(average eigenvalues)

스크리 그래프(scree plot)

47. 모델 구축시 무작정 많은 변수를 사용하는 것이 더 나은 결과를 보장해 주지는 않는다. 데이터 분석 사전 단계에 대한 다음 설명 중 가장 부적절한 것은?

① 모델의 성능은 보통 독립변수가 추가될수록 향상된다. 그러나 현 데이터의 성능만을 고려하여 변수를 추가하면 미래 값을 예측하는데 부정적으로 사용될 수 있다.

② 데이터에는 측정이나 잘못된 입력으로 인해 이상치(outlier)가 포함될 수 있다. 이러한 이상치는 제거하고 분석하는 것이 바람직하다.

③ 결측치(missing data)의 숫자가 매우 적다면 이들을 제거하고 분석하는 것이 효율적이다.

④ 신뢰성 있는 결과를 얻기 위해 데이터의 표준화가 필요한 경우가 있다.

② 기존 데이터와 동떨어진 데이터를 이상치라고 하지만 이상치가 실제 오류인지에 대해서는 어떤 통계적 이론도 설명하지 못한다. 통계 기법은 이상치의 후보를 제공하고 최종 이상치의 판단은 실무자들이 하는 것이 바람직하다.

48. 이상치(outlier) 검색은 분석에서 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 이상치 판정 방법 중 가장 부적절한 것은?

① 통상 "평균으로부터 표준편차의 3배가 넘는 범위의 데이터"라는 기준으로 이상치를 정의한다.

② 데이터를 크기 순으로 나열한 다음 가장 크거나 가장 작은 수치들을 이상치로 판정한다.

③ 회귀분석을 이용하여 설명변수의 동일수준의 다른 데이터들과 거리상 떨어진 데이터를 이상치로 판정한다.

④ 관련 알고리즘으로는 ESD(Extreme Studentized Deviation), MADM 등이 있다.

군집분석을 이용하여 다른 데이터들과 거리상 떨어진 데이터를 이상치로 판정한다. 회귀분석에서는 설명변수의 동일수준의 다른 관측치에 비해 종속변수의 값이 상이한 점을 이상치로 판정한다.

49. 지도학습(supervised learning)은 종속변수 및 독립변수를 이용하여 종속변수 예측 모형을 제시하는 학습법을 말하며 비지도학습(unsupervised learning)은 독립변수간의 관계를 통해 의미있는 결과를 제시하는 학습법을 말한다. 다음 중 비지도학습법으로 해결해야 하는 과제로 가장 적절한 것은?

① 과거 소비자들의 금융상품 구매 이력을 바탕으로 새로운 소비자들의 대출여부를 결정한다.

② 비슷한 성향을 가진 고객군을 파악한다.

③ 기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터를 기반으로 회사의 파산여부를 예측한다.

④ 문제가 발생한 항공기를 대상으로 수리시간을 추정한다.

② 고객 성향 변수들을 이용하여 고객군을 세분화한다. 군집분석은 종속변수가 필요없는 대표적인 비지도학습법이다.

50. 데이터마이닝에서 분류 작업의 목적은 새로 나타난 대상의 특징을 살펴보고, 사전에 정의된 분류의 집합들에 할당하는 모형을 만들어내는 것이다. 다음 중 분류분석과 관련된 설명 중 가장 부적절한 것은?

① 분류분석은 군집분석과 달리 각 계급이 어떻게 정의되는지 미리 알아야 한다.

② 분류를 위해 사용되는 데이터마이닝 기법은 K-NN, 의사결정나무모형, 신경망모형 등이 있다.

③ 의사결정나무모형에서는 분할 후 생성된 노드들의 불순도 함수값의 감소가 가장 크게 일어나도록 분할이 진행된다.

④ 회귀나무모형은 분류를 위한 의사결정나무모형과 매우 다른 알고리즘을 사용한다.

④ 회귀나무모형은 의사결정나무모형 중에서 목표변수가 연속형일 때 사용하는 알고리즘이다.

51. 시뮬레이션에서 난수 발생시 동일한 난수가 발생되도록 초기화하는 R 함수는 무엇인가?

① set.seed()

② initialized()

③ start()

④ generate()

① R 의 set.seed() 함수는 난수가 항상 동일하게 발생되도록 초기화하는 함수이다.

52. 분석요건은 비즈니스 이슈로부터 도출되며 단순한 불편사항이나 불만사항을 요건으로 정의하면 비즈니스적 의미가 낮아진다. 따라서 다양한 이슈로부터 진정한 요건이 될 수 있는 항목을 선정하는 것이 매우 중요하다. 다음 중 분석요건 도출단계의 프로세스가 아닌 것은 무엇인가?

① 이슈 리스트 작성

② 핵심 이슈 정의

③ 모델링(알고리즘)

④ 해결 방안 정의

데이터 분석 요건 도출 단계는 다음과 같다. "이슈 리스트 작성→핵심 이슈 정의→이슈 그루핑→해결 방안 정의"

53. 분석요건의 조건은 문제를 해결했을 때 투자수익(ROI)를 증명할 수 있어야 한다. 이를 증명할 수 없는 사항이라면 기업의 입장에서는 아무리 분석으로써 흥미로운 주제일지라도 선택하여 추진하기 어렵다. 다음 중 요건정의단계에서 수행할 내용으로 가장 부적절한 것은?

① 상세한 분석보다는 문헌조사 및 이해와 간단한 기초분석을 수행할 수 있다.

② 이 단계에서는 전문가의 방향성 제시와 이해 관계자들 간의 합의가 중요하다.

③ 요건정의에서는 이슈리스트 작성, 핵심 이슈 정의, 해결방안 정의 등이 주요 수행 업무이다.

④ 개별 분석 요건에 대해 상세하게 기술하여야 한다.

④ 이 단계에서는 지나친 상세화보다는 기초분석자료와 정보를 기반으로 분석요건 항목을 누락없이 식별하는 것에 집중해야 한다.

54. 탐색적 자료분석(EDA)은 해당 비즈니스 이해와 분석요건에 대한 구체적인 팩트를 발견해 통찰을 얻기 위해 수행하는 업무를 말한다. 다음 중 탐색적 자료분석에서 수행되는 작업에 대한 설명으로 가장 부적절한 것은?

① 분석 목적과 요건, 데이터 특성을 기반으로 적합한 분석기법을 선정한다.

② 설계한 분석모형을 기준으로 높은 유의성을 보유한 변수들을 식별한다.

③ EDA를 통해 준비된 데이터의 가설 적합성과 충분성을 사전 검증한다.

④ 이 단계에서부터 데이터의 전문적인 시각화 구현까지 염두에 두어야 한다.

④ 이 단계에서의 시각화는 정보를 효율적인 방식으로 제시한다는데 의미가 있지 전문적인 시각화를 의미하지 않는다.

55. 모델의 성능을 평가하는 기준은 분석 기법별로 다양하다. 다음 지표들 중 모델 성능 평가와 관련이 없는 것은 무엇인가?

① 정확도

② 지지도(support)

③ 정밀도

④ 민감도

지지도는 연관성규칙에서 사용되는 척도로써 전체 거래항목 중 항목 A와 항목 B가 동시에 포함되는 거래의 비율

56. 모든 모델링에서는 반드시 검증과 테스트를 거친다. 검증은 분석용 데이터를 훈련용과 검증용으로 분리한 다음 이 데이터를 이용해 자체 검증하며, 운영상황에서 실제 테스트는 분석 결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동이다. 다음 중 검증 및 테스트와 관련이 없는 것은 무엇인가?

① 운영상황에서의 실제 테스트는 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 활동이므로 사전 시나리오 없이 실시한다.

② 최종 테스트 결과를 기반으로 분석 모형의 실제 운영환경 적용을 판단할 수 있다.

③ 구축한 유사 운영환경에서 분석모형을 테스트하기 위한 절차를 설계할 수 있다.

④ 운영상황에서 실제 테스트를 하여 분석과 운영간의 연계를 검증할 수 있다.

① 실제 운영상황에서 성능 테스트는 사전 시나리오를 따라 1주일 정도 실시할 것을 권장한다.

57. 데이터 분석을 위해서는 분석 방법에 맞게 데이터를 수집, 변형하는 과정이 필요하다. 이러한 데이터 처리와 관계된 다음 설명 중 가장 부적절한 것은?

① 정제는 표준화와 잘못된 데이터를 수정하는 작업이 포함된다.

② 데이터 처리과정은 많은 시간과 노력이 필요하다. 제일 좋은 방법은 빠르게 원시모형(prototype)을 만드는 것이다.

③ 데이터마트는 기업의 분석업무에 대한 운영적 측면에서 활용성이 낮다.

④ 원하는 데이터 형태로 가공하는 과정은 분석 결과의 품질과 성능에 크게 영향을 미친다.

③ 데이터마트는 조회를 이용한 분석들 OLAP, 리포팅 등에도 활용할 수 있어서 분석업무에 대한 운영적 측면에서 활용성이 높다.

58. 다음 중 표본을 추출하는 방법에 대한 설명으로 부적절한 것은?

① 단순랜덤추출법은 N개의 원소로 구성된 모집단에서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출하는 방법이다.

② 계통추출법은 층화추출법의 변형된 형태로 N개의 모집단의 원소들을 n개의 계통으로 나눈 후 각 계통에서 표본을 랜덤하게 추출하는 방법이다.

③ 집락추출법은 모집단이 몇 개의 집락으로 결합된 형태로 구성되어 있고 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다.

④ 층화추출법은 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다.

② 계통추출법은 단순랜덤추출법의 변형된 형태이다.

59. 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 자료를 얻는 것을 측정이라고 한다. 다음 중 측정방법에 대한 설명으로 부적절한 것은?

① 명목척도는 측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도이다.

② 순서척도는 측정 대상의 특성이 서열관계를 관측하는 척도이며 선택사항이 일정한 순서로 되어있다.

③ 구간척도는 측정 대상이 가지고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자나 문자로 표현된다.

④ 비율척도는 절대적 기준인 0값이 존재하고 모든 사칙연산이 가능하며 제일 많은 정보를 가지고 있는 척도이다.

③ 구간척도는 측정 대상이 가지고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없다. 온도, 지수 등이 구간척도에 해당된다.

60. 가설검정은 귀무가설이 옳다는 전제하에서 검정통계량 값을 구한 후 이 값이 나타날 가능성의 크기에 의해 귀무가설 채택여부를 결정한다. 다음 중 가설검정과 관련된 설명으로 가장 부적절한 것은?

① 이러한 가능성이 '크다' 또는 '작다'의 판단기준을 유의수준이라 한다.

② 기각역이란 귀무가설이 옳다는 전제하에 구한 검정통계량의 분포에서 확률이 유의수준 α인 부분을 말한다.

③ 귀무가설이 옳은데도 이를 기각하게 되는 오류를 제1종오류(Type 1 error)라고 하며, 귀무가설이 옳지 않은데도 이를 채택하게 되는 오류를 제2종오류(Type 2 error)라 한다.

④ 일반적으로 가설검정에서는 제2종오류의 크기를 0.01 등으로 고정시킨 뒤 제1종오류가 최소가 되도록 기각역을 설정한다.

④ 일반적으로 가설검정에서는 제1종오류의 크기를 0.01 등으로 고정시킨 뒤 제2종오류가 최소가 되도록 기각역을 설정한다.

61. 다음 중 다중회귀분석에서 설명변수들 간에 다중공선성(Multicollinearity)이 존재할 때 발생하는 문제점에 대한 해결 방안이 아닌 것은?

① 중요하지 않은 변수일 경우 해당 변수를 제거한다.

② 변수의 설명력을 유지하기 위해 변수 통합은 권장하지 않는다.

③ 능형회귀, 주성분회귀 등 편의추정법을 사용한다.

④ 자료 부족이 원인일 경우 자료를 보완한다.

② 원 변수의 선형 결합인 주성분분석 등을 통해 변수를 통합하기도 한다.

62. 상관분석은 데이터 안의 두 변수 간의 관계를 알아보기 위한 것이다. 다음 중 상관분석에 대한 설명으로 가장 부적절한 것은?

① 두 변수의 상관관계를 알아보기 위해 상관계수를 이용한다.

② 피어슨 상관계수는 등간척도 이상으로 측정되는 두 변수간의 상관관계를 측정하는데 사용된다.

③ 스피어만 상관계수는 서열척도인 두 변수간의 상관관계를 측정하는데 사용된다.

④ 상관분석은 두 변수간의 연관 정도를 나타낼 뿐만 아니라 인과관계를 설명해준다.

④ 상관분석은 두 변수간의 연관 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다.

63. 다음 중 통계분석 결과 p-값이 0.01이 나왔을 때, 이에 대한 설명으로 가장 적절한 것은?

① 이 결과가 우연히 나올 확률이 1/100이다.

② 이 결과가 틀릴 확률이 1%이다.

③ 귀무가설이 사실일 때 이러한 결과가 나올 확률이 1/100이다.

④ 대립가설이 사실일 때 귀무가설을 받아들일 확률이 1%이다.

p-값(p-value)은 귀무가설이 옳다는 전제하에서 현재의 표본으로부터 구한 통계치보다 절대값으로 비교하여 같거나 더 큰 값을 갖는 통계량 값을 또 다른 표본으로부터 얻을 수 있는 확률을 말한다.

64. 시계열분석의 주목적은 외부인자와 관련하여 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다. 다음 중 시계열 데이터에 대한 설명으로 가장 부적절한 것은?

① 추세란 한 시점에서 다음 시점으로의 전반적인 패턴변화를 말한다.

② 짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다.

③ 잡음은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.

④ 수준(level)은 시계열의 평균값을 말한다.

③ 잡음은 무작위적인 변동으로 보통 알 수 없는 이유로부터 발생한다.

65. 이상치(outlier) 검색은 분석에서 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 중 이상치에 대한 설명으로 가장 부적절한 것은?

① 통상 "평균으로부터 표준편차의 3배가 넘는 범위의 데이터"라는 기준으로 이상치를 정의한다.

② 군집분석을 이용하여 다른 데이터들과 거리상 떨어진 데이터를 이상치로 판정한다.

③ 회귀분석에서는 설명변수의 동일수준의 다른 관측치에 비해 종속변수의 값이 상이한 점을 이상치로 판정한다.

④ 데이터에는 측정이나 잘못된 입력으로 인해 이상치가 포함될 수 있다. 이러한 이상치는 반드시 제거하고 분석하는 것이 바람직하다.

④ 기존 데이터와 동떨어진 데이터를 이상치라고 하지만 이상치가 실제 오류인지에 대해서는 어떤 통계적 이론도 설명하지 못한다. 통계 기법은 이상치의 후보를 제공하고 최종 이상치의 판단은 실무자들이 하는 것이 바람직하다.

66. 다음 중 결측치에 대한 설명으로 가장 부적절한 것은?

① 결측값은 NaN으로 표기된다.

② 함수 is.na를 통해 결측값의 유무를 확인할 수 있다.

③ 벡터 x에서 결측값을 제외한 평균 계산을 위해 mean(x, na.rm=T)를 사용할 수 있다.

④ Amelia 2, Mice, mistools 등의 패키지를 사용해 결측값 처리를 할 수 있다.

① R에서 결측값은 NA로 표시된다. NaN은 수학적으로 불가한 수를 표시할 때 사용하며, NULL은 데이터 유형과 자료의 길이도 0인 비어 있는 값을 나타낸다.

67. 다음 중 분류를 위한 중요변수의 선택에 활용되는 R 패키지가 올바르게 짝지어진 것은 무엇인가?

① (reshape, klaR)

② (klaR, party)

③ (party, sqldf)

④ (class, plyr)

② R의 klaR은 분류와 시각화를 위한 패키지이며, party 역시 의사결정나무분석을 위한 패키지이다.

68. 분류 작업의 목적은 분류되지 않은 데이터에 적용되어 분류할 수 있도록 해주는 모형을 만드는 것이다. 새로 나타난 대상의 특징을 살펴보고, 사전에 정의된 분류의 집합들에 할당하는 과정들을 포함한다. 다음 중 분류 작업과 관련된 설명으로 가장 부적절한 것은?

① 분류 작업의 특징은 클래스들에 대한 사전에 명확한 정의가 존재하며 미리 분류된 예들로 구성된 훈련집합을 가진다는 것이다.

② 분류를 위해 사용되는 데이터마이닝 기법은 K-NN, 의사결정나무모형, 신경망모형 등이 있다.

③ 신용평가 대상자를 위험도에 따라 상중하로 분류하는 경우 등이 이에 해당한다.

④ 분류분석은 군집분석처럼 각 계급이 어떻게 정의되는지 미리 알 필요가 없다.

분류는 이산형의 결과를 다루며 추정은 연속형 값을 가지는 결과를 다룬다.

69. 다음 중 데이터마이닝을 통해 수행할 수 있는 작업에 대한 설명으로 가장 부적절한 것은?

① 분류는 연속형의 결과를 다루며 추정은 이산형 값을 가지는 결과를 다룬다.

② 예측은 분류 또는 추정과 동일하지만 미래의 행위를 분류하거나 미래의 값을 추정한다는 점에서 차이가 난다.

③ 연관성규칙 작업은 어떤 일이 함께 발생할지를 판단하는 것이다.

④ 군집화는 이질적인 사람들의 모집단으로부터 다수의 동질적인 하위집단 혹은 군집들로 세분화하는 작업이다.

① 분류는 이산형의 결과를 다루며 추정은 연속형 값을 가지는 결과를 다룬다.

70. 텍스트 데이터 등 비정형 데이터를 다루는 분석 기법인 비정형 데이터마이닝은 최근 10여년 사이에 급속히 발전하였다. 비정형 데이터마이닝 분석 방법 중 특정기간별 발생 문서량(예:온라인에서 언급된 횟수)의 추이를 분석하는 것을 무엇이라 하는가?

buzz 분석 또는 buzz량 분석

71. 회귀분석의 첫 단계는 산점도를 이용하여 두 변수의 대략적인 관계를 파악하는 것이다. 이 때 직선관계로 그 관계를 어느 정도 설명할 수 있을 것으로 판단되면 잔차(residual)의 선형성, 등분산성, 독립성, 정규성 등을 검토하게 된다. 이와 같은 잔차를 이용하여 가정을 검토하는 과정은 무엇인가?

잔차분석(analysis of residual)

72. 하나의 자료분석 시 여러가지 가능한 모형을 개발하게 되는데 이중에서 최적의 모형을 선택하기 위해 모형 평가를 실시하게 된다. 다음 중 모형 평가에 대한 설명으로 가장 부적절한 것은?

① 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고 있는지 비교분석하는 것이다.

② 모형 평가 시 예측력, 해석력, 효율성, 안정성 등의 측면에서 평가가 이루어진다.

③ 데이터의 양이 충분하지 않은 경우 모형을 평가하는 방법에는 Bootstrapping이 많이 쓰인다.

④ 과적합(overfitting)이란 매우 복잡한 모형을 사용하여 학습오차를 작게 한 경우 예측오차가 매우 커질 수 있는 현상을 말한다.

데이터의 양이 충분하지 않은 경우 모형을 평가하는 방법에는 CV(cross validation)가 많이 쓰인다.

73. 다음 중 의사결정나무에 대한 설명으로 가장 부적절한 것은?

① 분류함수를 의사결정 규칙으로 이뤄진 나무모양으로 그리는 방법이다.

② 여러 예측변수들에 근거해 목표변수의 범주를 몇 개의 등급으로 분류하는 데 활용할 수 있다.

③ 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수를 골라내는 데 활용할 수 있다.

④ 변수들 간의 인과관계를 규명하는데 사용할 수 있다.

④ 의사결정나무 방법으로 인과관계를 증명할 수는 없다.

74. 다음 중 의사결정나무(Decision Tree) 분석을 활용한 예가 아닌 것은 무엇인가?

① 고객을 신용도에 따라 우량 또는 불량으로 구분

② 다수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수를 탐색

③ 고객속성에 따라 고객을 여러 개의 배타적인 집단으로 구분

④ 웹사이트 회원들이 가장 잘 반응하는 이메일 마케팅 모델 구축

③ 의사결정나무 분석은 분류, 예측, 자원축소 및 변수선택, 교호작용효과의 파악 등을 위해 사용된다. 고객을 여러 개의 배타적인 집단으로 구분하는 것은 군집분석을 통해 이루어진다.

75. 다음 중 군집분석에 대한 설명으로 가장 부적절한 것은?

① 관측치의 특성에 따라 여러 개의 배타적인 집단으로 나누는 분석방법이다.

② linkage clustering은 계층적 군집분석 방법의 하나이다.

③ K-means clustering 방법은 알고리즘 수행과정에서 한 개체가 속해있던 군집에서 다른 군집으로 이동해 재배치가 가능하다.

④ K-means clustering의 결과로 군집화 dendrogram을 그려 결과를 확인 할 수 있다.

④ dendrogram은 계층적 군집화 방법에서 가능한 결과물이다.

76. 다음 중 회귀분석에서 변수선택에 대한 설명으로 가장 부적절한 것은?

① 전진선택법은 중요하다고 생각되는 설명변수를 차례로 모형에 추가한다.

② 후진제거법은 모든 설명변수를 포함한 모형에서 출발해 종속변수의 설명에 가장 적은 영향을 주는 변수부터 제거한다.

③ 모든 가능한 조합의 회귀분석은 한번 제거된 변수는 다시 모형에 추가될 수 없다.

④ 단계별 방법은 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수로 인해 기존 변수의 중요도가 약화되면 제거한다.

③ 후진제거법의 특징이다. 모든 가능한 조합의 회귀분석은 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC나 BIC의 기준으로 가장 적합한 회귀모형을 선택하는 방법이다.

77. 여러 개의 모형을 결합하여 개별 모형보다 좋은 예측성능을 얻는 분석기법으로, 대표적인 알고리즘에는 bagging, boosting, random forest 등이 있다. 이 분석기법은 무엇인가?

① 차원축소

② 고차원 회귀분석

③ 최적화

④ 앙상블

■ 차원축소 : 고차원의 자료를 변수들 간의 선형 또는 비선형 결합으로 생성된 기존 변수들보다 적은 수의 새로운 변수들로 근사시키는 기법

■ 고차원 회귀분석 : 독립변수의 개수가 관측치 개수에 비례해서 증가하거나 매우 많은 경우 종속변수에 영향을 미치는 적은 개수의 독립변수의 선형 결합으로 종속변수를 예측하는 기법

■ 최적화 : 주어진 제약조건 하에서 달성하고자 하는 목표를 이루기 위한 의사결정 문제를 모형화하고 이에 대한 해를 구하기 위한 기법

78. 다음 중 모형개발을 위한 데이터 준비작업의 순서가 올바르게 나열된 것은 무엇인가?

① 데이터 추출 → 데이터 정제 → 데이터 파생 → 데이터 분할

② 데이터 추출 → 데이터 정제 → 데이터 분할 → 데이터 파생

③ 데이터 추출 → 데이터 분할 → 데이터 정제 → 데이터 파생

④ 데이터 추출 → 데이터 분할 → 데이터 파생 → 데이터 정제

79. 다음 중 나머지 세 개의 명령과 다른 결과를 주는 명령은 무엇인가?

① seq(1, 10, 2)

② seq(b=2, f=1, t=10)

③ seq(from=1, to=10, length=5)

④ 1:5*2-1

③ 모두 시작이 1이고, 길이가 5인 벡터를 생성하는 명령들이다. 3번 명령만 5번째 값이 10이고 나머지는 모두 9이다.

80. 다음 중 아래와 같은 R 코드의 출력 결과로 맞는 것은 무엇인가?

> m <- matrix(1:6, nrow=3)
> m[m[,1] > 1 & m[,2] > 5,]

① [1] 2 3

② [1] 5 6

③ [1] 2 5

④ [1] 3 6

81. 다중공선성(multicollinearity)이란 독립변수들 간에 높은 선형관계가 존재하는 것을 말한다. 이러한 상관관계가 높은 변수들이 회귀분석에 포함되었을 때는 많은 문제점이 발생한다. 다음 중 이에 대한 설명으로 부적절한 것은?

① 중요하지 않은 변수일 경우, 해당 변수를 제거하는 방법을 사용한다.

② 분산팽창요인(variance inflation factor)을 구하여 이 값이 10을 넘는다면 다중공선성의 문제가 있는 것으로 판단한다.

③ 상관관계가 낮아지도록 변수 값을 조정한다.

④ 결정계수 값은 높으나 독립변수의 p-값이 커서 인자들이 유의하지 않을 경우 다중공선성을 의심해보아야 한다.

82. 다음은 어떤 슈퍼마켓에서 고객 5명의 장바구니별 구입품목이 다음과 같다고 하자. 연관규칙 {빵} → {우유}에 대한 지지도와 신뢰도를 구하시오.

장바구니 구입품목
1 {빵, 맥주, 우유}
2 {빵, 우유, 계란}
3 {맥주, 우유}
4 {빵, 맥주, 계란}
5 {빵, 맥주, 우유, 계란}

지지도=0.6 신뢰도=0.75

지지도 = (빵과 우유가 동시에 포함된 거래수) / 전체 거래수 = 3/5 =0.6

신뢰도 = (빵과 우유가 동시에 포함된 거래수) / 빵을 포함하는 거래수 = 3/4 =0.75

향상도 = (빵과 우유가 동시에 포함된 거래수) / [(빵을 포함하는 거래수) *

(우유를 포함하는 거래수)] = 3/(4*4) =0.1875

83. 연관분석을 수행하기 위해 빈발 아이템 집합과 연관규칙이라고 하는 두 가지 형태로 표현하는 연관성 분석을 수행하는 대표적인 1세대 알고리즘은 무엇인가?

어프라이어리(apriori) 알고리즘

최소지지도를 갖는 연관규칙을 찾는 대표적인 방법은 apriori 알고리즘이다. 최소지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목집합을 찾는 것이다.

84. 실제상황을 수학적으로 모델화 하고 그 모델을 컴퓨터에 프로그램으로 저장한 후에 일어날 수 있는 가능한 모든 상황을 입력함으로써 각각의 경우에 어떤 결과가 도출되는지 예측하는 것은 무엇인가?

시뮬레이션

85. 다음 중 R에서 산점도 행렬을 도식할 때 사용하는 함수로 올바른 것은?

① hist()

② pairs()

③ ggmap()

④ boxplot()

② hist() - 히스토그램 / ggmap() - 지도 기반 시각화 / boxplot() - 상자그림

86. 의사결정나무모형 구축 시 최적의 분할 변수를 선택할 때 사용하는 불순도 척도가 아닌 것은?

① 엔트로피(entropy)

② 지니계수(gini coefficient)

③ 분류오류율(classification error rate)

④ ROC(Receiver Operating Characteristic)

④ ROC는 분류모형평가를 위해 사용된다.

87. 다음 중 k-means 군집법의 특징이 아닌 것은?

① 한 개체가 속해있던 군집에서 다른 군집으로 이동해 재배치가 가능하지 않다.

② 초기값 선택이 최종 군집 선택에 영향을 미친다.

③ 초기 군집수를 결정하기 어렵다.

④ 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류한다.

① k-means는 군집방법과는 달리 한 개체가 속해있던 군집에서 다른 군집으로 이동해 재배치가 가능하다.

88. 다음 중 신경망분석에 대한 설명으로 부적절한 것은?

① 은닉층과 은닉마디의 적절한 개수를 결정하기 어렵다.

② 효과적인 결합함수와 활성함수를 선택해야 한다.

③ 독립변수 간 교호작용을 쉽게 파악할 수 있다.

④ 간혹 최적화에 도달하지 못할 수도 있다.

89. 다음 정형데이터 마이닝 기법 중 타깃변수가 없는 데이터에서 우리가 몰랐던 숨어있던 유용한 데이터구조를 찾고자 하는 자율학습기법에 속하는 것은?

① 인공지능(신경망) 분석

② 로지스틱스회귀분석

③ 의사결정나무 분석

④ 군집분석

90. 텍스트분석에서 주어진 문장에 얼마나 긍정적 또는 부정적인 단어가 많이 사용되었는지를 기반으로 하여, 긍정 또는 부정 문장으로 판정하고자 하는 분석은 무엇인가?

① web mining

② image mining

③ process mining

④ opinion mining

④ opinion mining은 흔히 감성분석이라고도 하며, 문자의 긍정, 부정 유무를 평가한다.

91. 텍스트마이닝에서 Term-Document Matrix를 만드는 과정의 전처리과정에서 수행하는 일이 아닌 것은?

① space 제거

② word cloud 생성

③ stopword 처리

④ stemming

② 읽어 들인 문서를 plain text 전환, space 제거, lowercase 변환, punctuation 제거, stopword 처리, stemming 등을 먼저 처리한 다음 term document matrix를 생성한다.

92. 다음 중 R에서 사용하는 객체의 이름으로 적당하지 않은 것은?

① .2ab

② abc

③ a. b

④ a2b

① "."다음에 숫자가 나오면 안된다.

93. 다음 중 데이터 시각화에 대한 설명으로 가장 부적절한 것은?

① 가장 낮은 수준의 분석이지만 잘 사용하면 매우 효과적일 수 있다.

② 공간적 차원과 관련된 속성을 시각화에 추가한 것이 공간분석이다.

③ 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 말한다.

④ 빅데이터의 시각화 측면에서는 모든 데이터를 살펴보는 제약이 따르기 때문에 시각화 방법론적 요소의 중요성이 줄어들고 있다.

④ 빅데이터의 시각화 측면에서는 모든 데이터를 살펴보는 것에 제약이 따르기 때문에 시각화의 기술적인 요소와 더불어 데이터를 요약하고, 한 눈에 살펴볼 수 있도록 돕는 시각화 방법론적 요소의 중요성이 커지고 있다.

94. 다음 중 R에 사용가능한 데이터 오브젝트에 관한 설명으로 가장 부적절한 것은?

① 벡터에서 모든 원소는 같은 모드를 갖고 있어야 한다.

② 데이터 프레임은 테이블로 된 데이터 구조로 행렬로 구현된다.

③ 리스트에서 원소들은 다른 모드여도 된다.

④ 행렬은 차원을 가진 벡터이다.

② 데이터 프레임은 리스트의 구조를 가진다.

95. 다음 중 구간척도에 해당하는 것은?

① 성별(남, 여)

② 선호도(아주 좋아한다, 좋아한다, 그저 그렇다, 싫어한다, 아주 싫어한다)

③ 온도

④ 무게

③ 측정대상이 가지고 있는 속성의 양을 측정하여 숫자로 표시되나 절대적인 원점이 없어 두 값 사이의 비율이 의미가 없는 것이 구간척도이다.

96. 다중회귀분석에서 통계적으로 유의한 독립변수들로 회귀모형이 결정되면, 여러 개의 독립변수 중 어느 변수가 종속변수에 더 큰 영향을 미치는지 파악할 필요가 있다. 다음 중 종속변수를 설명하는데 더 중요한 독립변수로 가장 적절한 것은?

① 종속변수와의 상관관계에서 상관계수가 가장 큰 변수

② 원 자료로 추정한 계수(coefficient)가 가장 큰 변수

③ 표준화 자료로 추정한 계수(coefficient)가 가장 큰 변수

④ p-값이 가장 작은 변수

③ 다중회귀분석에서 표준화 계수와 비표준화 계수의 차이는 분석을 위한 입력자료의 표준화 여부로 구분된다. 비표준화 계수는 측정 단위와 분포의 평균에 따라 달라지기 때문에 표준화 계수의 크기로 독립변수가 종속변수에 미치는 상대적 영향력을 살펴보아야 한다.

97. 다음 중 시계열 자료에 사용하는 모형이 아닌 것은?

① 주성분분석

② 자기회귀모형(AR)

③ 자기회귀누적이동평균모형(ARIMA)

④ 이동평균모형(MA)

주성분분석은 변수 간의 상관관계가 높은 변수들을 선형결합하여 변수를 축약하는 방법이다.

98. 다음 중 귀무가설이 잘못되었음에도 불구하고 이를 받아들이는 오류는 어디에 속하는가?

① 제1종 오류를 범하는 것이다.

② 제2종 오류를 범하는 것이다.

③ 제1종 오류와 제2종 오류를 모두 범하는 것이다.

④ 제1종 오류와 제2종 오류를 모두 범하는 것이 아니다.

② 제1종 오류는 귀무가설이 사실인데 이를 기각하는 오류이고, 제2종 오류는 귀무가설이 옳지 않은데 이를 채택하는 오류를 말한다.

99. 다음 중 상관(correlation)계수에 대한 설명으로 옳은 것을 2개 고르시오.

① 두 변수 간의 인과관계를 보여준다.

② 비선형적인 관계는 보여주지 못한다.

③ 절대값이 크면 밀접한 관계가 있는 것이다.

④ 공분산(covariance)에서 각 변수의 평균을 조정해 주는 것이다.

②, ③ 상관계수는 표준화된 공분산으로 두 변수간의 선형적인 관계 정도와 방향을 수학적인 수치로 정량화하여 표시하는 지수이다.

100. 다음 중 회귀분석의 가정이 아닌 것은?

① 종속변수가 정규분포를 이뤄야 한다.

② 독립변수와 종속변수 사이에 선형성이 존재해야 한다.

③ 독립변수의 모든 값에 대해 오차들의 분산이 일정하다.

④ 잔차들끼리 상관이 없어야 한다.

① 회귀분석의 정규성 가정은 종속변수가 정규분포를 이루는 것이 아니라 잔차항이 정규분포를 이루는 것을 나타낸다.

101. 다음 중 다중회귀분석에서 변수 선택방법에 대한 설명으로 가장 부적절한 것은?

① 모든 가능한 조합의 회귀분석은 가능한 독립변수의 조합에 대한 회귀모형을 분석해 가장 적합한 회귀모형을 선택한다.

② 전진선택법은 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다.

③ 후진선택법은 전진선택법과 언제나 동일한 결과를 주지는 않는다.

④ 전진선택법으로 변수를 추가할 때 기존의 변수들의 중요도는 영향을 받지 않는다.

④ 새로운 변수가 추가될 때 기존 변수의 중요도가 약해질 수 있으므로 그러한 변수를 제거하는 방법이 단계별 선택법이다.

102. 다음 R 명령의 결과를 쓰시오.

0/0

NaN (Not a Number 수학적으로 불가한 수를 표시할 때 사용한다)

103. 아래의 설명이 나타내는 척도는 무엇인가?

자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치하는 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 자료의 중심을 파악하는데 보다 합리적인 방법이다.

중위수 (중앙값, median)

104. 의사결정나무 중 연속형 타깃변수(= 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?

회귀나무(모형) (regression tree)

이산형 타깃변수를 예측하는 의사결정나무는 classification tree라 한다.

105. 데이터 마이닝의 절차 중 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로서 더이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에서 활용될 수 있는 상태를 무엇이라 하는가?

corpus (텍스트마이닝에서 더 이상의 추가적인 절차 없이 데이터마이닝 알고리즘 실험에서 활용될 수 있는 상태를 의미하며, 문서들의 집합이다.)

106. 다음 중 단계적 변수선택 방법이 아닌 것은?

① 모든 가능한 조합의 회귀분석

② 전진선택법

③ 후진제거법

④ 단계별방법

① 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC나 BIC의 기준으로 가장 적합한 회귀모형을 선택하는 방법이다.

107. 어느 특정값이 나타날 가능성이 확률적으로 주어지는 변수를 확률변수라고 한다. 이러한 확률변수는 0이 아닌 확률값을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분된다. 다음 중 확률변수에 대한 설명으로 가장 부적절한 것은?

① 이산형 확률변수란 이산점에서 0이 아닌 확률을 갖는 확률변수를 말한다.

② 연속형 확률변수란 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수를 말한다.

③ 각 이산점에서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.

④ 확률변수의 값에 따라 확률이 어떻게 흩어져 있는지를 합이 1인 실수로써 나타낸 것을 확률분포라고 한다.

④ 합이 1인 양수로 나타낸다.

108. 자료를 도표화하는 것은 모집단 분포의 개형을 파악하기 위한 기초적인 방법이다. 다음 중 자료의 도표화에 대한 설명으로 가장 부적절한 것은?

① 서로 다른 특성값에 대한 자료의 개수를 하나의 표로 나타낸 것을 도수분포표라 한다.

② 히스토그램은 도수분포표를 이용하여 표본자료의 분포를 나타낸 그래프이다.

③ 산점도를 이용하여 자료의 선형 또는 비선형 관계의 여부를 파악할 수 있다.

④ 자료의 도표화를 통해 원인과 결과의 시간적 선후 관계 여부를 알 수 있다.

④ 데이터 간에 상관관계가 있는지 시각적으로 확인하는 것이 목적이지 인과관계를 파악하고자 하는 것이 아님.

109. 고객이 여러 속성(나이, 성별, 직업, 과거 구매 행태 등)을 이용하여 해당 고객의 이탈 여부를 예측하기 위한 분석으로 가장 적절한 것은?

① 분류분석(classification)

② 군집분석(cluster analysis)

③ 연관분석(association analysis)

④ 주성분분석(principal component analysis)

① 관측치가 미리 정의된 어떤 그룹에 속하는지 예측하는 데는 분류분석을 활용한다.

110. N개의 원소로 구성된 모집단에서 n개(n ≤ N)의 추출단위로 구성된 모든 부분집합들이 표본으로 선택될 확률이 같도록 표본을 추출하는 방법을 단순랜덤추출법이라고 한다. 표본을 추출하는 방법에 대한 다음 설명 중 가장 부적절한 것은?

① 크기가 n인 모든 가능한 표본에 동등한 선출 기회를 준다.

② 모집단의 각 추출단위에 동등한 선출 기회를 주는 것이다.

③ 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표하는 표본을 추출하는 방법이다.

④ N개의 원소로 구성된 모집단에서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출하는 방법이다.

③ 3번은 계통추출법에 대한 설명이다.

111. 두 변수 사이의 관계 유무 또는 관계의 강도에 대한 통계적 분석 방법을 상관분석이라고 한다. 다음 중 상관분석에 대한 설명으로 가장 부적절한 것은?

① 두 변수의 상관관계를 알아보기 위해 상관계수를 이용한다.

② 상관계수의 값은 항상 -1과 +1 사이에 있으며 +1에 가까울수록 양의 상관관계를 나타낸다.

③ 상관계수의 값이 0에 가까운 것은 두 변수 사이에 아무 관계가 없는 것을 뜻한다.

④ 상관분석은 두 변수간의 연관 정도를 나타낼 뿐 인과관계를 설명해주는 것은 아니다.

③ 두 변수 사이에 직선의 관계가 약한 것을 시사하는 것이지 아무 관계가 없다는 것을 뜻하는 것은 아니다.

112. 이상치(Outlier)를 찾는 것은 데이터 분석에서 데이터 전처리를 어떻게 할지 결정할 때 사용할 수 있다. 다음 중 이상치에 대한 설명으로 가장 부적절한 것은?

① 통상 "평균으로부터 표준편차의 3배가 넘는 범위의 데이터" 라는 기준으로 이상치를 정의한다.

② 군집분석을 이용하여 다른 데이터들과 거리상 멀리 떨어진 데이터를 이상치로 판정한다.

③ 회귀분석에서는 설명변수의 동일수준의 다른 관측치에 비해 종속변수의 값이 상이한 점을 이상치로 판정한다.

④ 데이터에는 측정이나 잘못된 입력으로 인해 포함된 이상치는 제거하고 분석하는 것이 바람직하다.

④ 기존 데이터와 동떨어진 데이터를 이상치라고 하지만 이상치가 실제 오류인지에 대해서는 어떤 통계적 이론도 설명하지 못한다. 통계 기법은 이상치의 후보를 제공하고 최종 이상치의 판단은 실무자들이 하는 것이 바람직하다.

113. 두 가지 생산 방법의 효과를 비교하는 경우에는 한 가지 생산품에 동일인이 두 생산 방법을 모두 적용할 수는 없으므로 생산품을 두 그룹으로 나누어 그룹별로 생산 방법을 달리하여 비교하게 된다. 이와 같이 이표본(two sample)에 의해 비교할 때 요구되는 자료구조에 대한 설명으로 가장 부적절한 것은?

① 각 그룹에서의 관측값들은 각 모집단에서의 랜덤표본이다.

② 두 모집단의 평균을 비교하기 위해 비교 대상의 쌍들을 조사하고 각 쌍내의 차를 적용해야만 자료구조가 만족될 수 있다.

③ 서로 다른 그룹에서의 관측값들은 독립적으로 관측된 것이다.

④ 각 처리를 적용할 실험단위를 랜덤하게 하는 과정은 랜덤화의 과정으로 연구에서 가장 기본적이고 핵심적인 작업이다.

② 두 모집단의 평균을 비교하기 위해 비교 대상의 쌍들을 조사하고 각 쌍내의 차를 이용하여 추론하는 방법은 대응비교라고 한다.

114. 시계열분석의 주목적은 외부인자와 관련하여 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다. 다음 중 시계열 데이터에 대한 설명으로 가장 부적절한 것은?

① 추세(trend)란 한 시점에서 다음 시점으로의 전반적인 패턴변화를 말한다.

② 짧은 기간 동안의 주기적인 패턴을 계절변동(seasonality)이라 한다.

③ 잡음(noise)은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.

④ 수준(level)은 시계열의 평균값을 말한다.

③ 잡음은 무작위적인 변동으로, 보통 알 수 없는 이유로부터 발생한다.

115. 두 개 이상의 독립변수를 사용해 하나의 종속변수의 변화를 설명하는 다중회귀분석을 실시한 경우, 다음 중 모형을 적합시킨 후 모형이 적절한지 확인하기 위해 체크해야 할 사항으로 가장 부적절한 것은?

① F-통계량 확인을 통해 모형이 통계적으로 유의미한지 확인한다.

② t-통계량, p-값 등을 통해 유의미한지 확인한다.

③ 잔차그래프를 그려서 모형이 데이터를 잘 적합하고 있는지 확인한다.

④ 상관계수를 이용하여 모형의 설명력을 확인한다.

④ 상관계수로는 변수의 상관관계와 그 정도를 파악, 회귀식의 설명력을 확인할 때는 결정계수를 이용한다. 결정계수는 0에서 1의 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명도가 높다.

116. 변수 축소를 위한 주성분분석에서 주성분의 개수를 결정하는 알고리즘과 관련하여 다음 설명 중 가장 부적절한 것은?

① 기준보다 큰 고유치(eigenvalue)의 개수를 이용한다.

② 표본 공분산 행렬의 고유치를 이용한다.

③ 전체 분산을 설명하는 비율이 기준치를 넘는 주성분의 수를 이용한다.

④ 변수들의 선형 결합으로 이루어진 주성분은 서로 독립이 아니다.

④ 서로 독립이다

117. 기술통계(descriptive statistics)란 자료를 요약하는 기초적인 통계를 의미한다. 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해 봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다. 다음 중 기초통계량에 대한 설명으로 가장 부적절한 것은?

① 표본평균은 표본의 위치를 대표하는 값이다.

② 표본의 사분위수는 표본의 산포를 나타내는 대표값이다.

③ 표본분산은 표본의 산포를 나타내는 대표값이다.

④ 상관계수는 두 특성의 선형의 관계를 나타내는 대표값이다.

② 사분위수 자체는 중심위치를 나타내는 대표값이며, 사분위수 범위는 표본의 산포를 나타낸다고 본다

118. 통계적 추론에서 모집단의 모수에 대한 결정에는 모수적방법과 비모수적방법이 있다. 다음 중 비모수적 방법에 대한 설명으로 가장 부적절한 것은?

① 비모수적 검정은 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법이다.

② 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용된다.

③ 관측된 자료의 수가 많지 않거나 자료 자체가 개체간의 서열관계를 나타내는 경우에는 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없는 경우에 이용하는 검정법이다.

④ 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다.

④ 모수적 방법

119. 변수의 개수가 많을 경우 서로 상관이 있는 복잡한 구조를 파악하기 힘들다. 기존 변수보다 적은 개수로 전체 자료의 변동을 설명할 수 있도록 선형/비선형 결합으로 새로운 변수를 생성하는 것을 변수 축소라고 한다. 다음 중 변수 축소에 대한 설명으로 가장 부적절한 것은?

① 주성분분석이란 다변량 자료 분석에 이용하는 방법으로 독립변수와 종속변수를 모두 분석에 사용한다.

② 차원 축소를 통해 자료의 시각화에 도움을 줄 수 있으면 차원이 축소된 주성분으로 회귀분석에도 적용 가능하다.

③ 변수들의 선형결합으로 이루어진 주성분은 서로 독립이며 기존 자료보다 적은 수의 주성분들로 기존 자료의 변동을 설명한다.

④ 부분최소제곱법이란 독립변수와 종속변수의 변동성을 가장 잘 설명할 수 있는 새로운 변수를 설정하고 이들의 관계를 통해 종속변수와 독립변수의 인과관계를 분석하는 방법이다.

① 독립변수만 분석에 사용한다.

120. 아래의 ( )는 무엇인가?

생산량, 비용, 인원 등의 데이터가 1차 함수로 주어졌을 때 목적함수에 대한 최적의 해를 얻는 방법을 ( )라 한다. 자원을 용도에 맞게 효율적으로 배분하는 기본적 문제를 해결하는데 사용되는 최적화기법으로 기업에서 많이 활용하고 있다.

선형계획법(LP ; Linear Programming)

121. 조사하고자 하는 대상 집단 전체인 모집단 모두를 조사하는 것은 많은 비용과 시간이 소요되므로 모집단을 적절히 대표할 수 있는 일부 원소들을 뽑아 관찰 파악하여 모집단에 대해 유추한다. 이때 추출한 모집단의 부분집합을 지칭하는 것은 무엇인가?

표본(sample)

122. 분해시계열이란 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용하고 있다. 다음 중 시계열을 구성하고 있는 요소 4가지에 대한 설명으로 가장 부적절한 것은?

① 추세요인(trend factor) - 자료가 어떤 특정한 형태를 위할 때 추세요인이 있다고 한다.

② 계절요인(seasonal factor) - 고정된 주기에 따라 자료가 변화할 경우 계절요인이 있다고 한다.

③ 순환요인(cyclical factor) - 경제적이나 자연적인 이유 등 잘 알려진 주기를 가지고 자료가 변화할 때 순환요인이 있다고 한다.

④ 불규칙요인(irregular factor) - 추세, 계절, 순환요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙요인이라고 한다.

③ 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 가지고 자료가 변화할 때 순환요인이 있다고 한다.

123. 다음 중 고객의 구매한 품목을 토대로 어떤 제품을 함께 구매할지를 예측할 수 있는 분석은 무엇인가?

① 분류분석

② 군집분석

③ 연관분석

④ 요인분석

124. 다음 중 비계층적 군집방법의 단점에 대한 설명으로 가장 부적절한 것은?

① 가중치와 거리정의가 어렵다.

② 초기군집수를 결정하기가 용이하지 않다.

③ 최종군집의 형태가 초기값에 민감하고 결과해석이 어렵다.

④ 군집이 한번 잘못 결정되면 다음단계의 군집화에서 이것을 수정할 수가 없다.

④ 비계층적 군집방법은 각 단계에서 군집 형태가 바뀔 수 있기 때문에, 군집화가 단계마다 변할 수 있는 장점이 있다.

125. 다음 중 신경망(neural network) 모형의 특징이 아닌 것은 무엇인가?

① 변수의 수가 많고 입력변수와 출력변수가 복잡한 비선형형태를 가질 때에도 다른 분류모형보다 비교적 정확도가 우수하다.

② 누구에게나 모형의 결과에 대한 설명이 용이하여 해석력이 우수하다.

③ 훈련용 데이터에서는 만족스러운 결과를 보이나, 실제 적용에서는 분류가 정확하지 않는 모형의 과대적합 현상을 일으키는 경우가 종종 있다.

④ 훈련용 데이터에 잡음이 있더라도 민감한 반응을 보이지 않는다.

② 신경망모형의 분류결과에 대해서 왜 그렇게 되었는지 설명할 수 없는 블랙박스 형태라서 해석할 수가 없는 점이 신경망 모형의 단점이다. ②번은 의사결정나무의 장점이다.

126. 표본조사나 실험하는 과정에서 추출된 원소나 실험 단위로부터 관측하여 자료를 얻는 것을 측정이라고 한다. 다음 중 측정 방법에 대한 설명으로 가장 부적절한 것은?

① 명목척도(nominal scale) - 측정 대상이 어느 집단에 속하는지 분류할 때 사용하는 척도

② 순서척도(ordinal scale) - 측정 대상의 특성이 서열관계를 관측하는 척도

③ 구간척도(interval scale) - 측정 대상이 갖고 있는 속성의 질을 측정하는 것

④ 비율척도(ratio scale) - 절대적 기준인 0값이 존재하고 모든 사칙연산이 가능

③ 속성의 양을 측정하는 척도이다.

127. 다음 사회연결망분석에서 네트워크의 중심성을 측정하는 방법 중에서 각 노드간의 거리를 근거로 직접적으로 연결된 노드뿐 아니라 간접적으로 연결된 모든 노드간의 거리를 합산해 중심성을 측정하는 방법은 무엇인가?

① 연결정도 중심성(Degree centrality)

② 근접 중심성(Closeness centrality)

③ 매개 중심성(Betweenness centrality)

④ 위세 중심성(Eigenvector centrality)

연결정도 중심성 - 한 점에 직접적으로 연결된 점들의 합으로 얻어지며, 한 점의 포인트 중심성을 측정하는 방법

매개 중심성 - 네트워크 내에서 한 점이 담당하는 매개자 혹은 중재자 역할 정도로서의 중심성을 측정하는 방법

위세 중심성 - 연결된 노드의 중요성에 가중치를 두어 노드의 중심성을 측정하는 방법

128. 주성분분석은 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합하여 변수를 축약하는데 사용하는 방법이다. 상관행렬을 이용하여 주성분분석을 하려고 할 때 공분산행렬을 이용한 분석의 문제점이 아닌 것은 무엇인가?

① 변수들의 측정 단위에 대해 민감하지 않다는 장점이 있다.

② 변수들의 측정 단위가 서로 다를 경우 선형결합함수의 크기에 영향을 미친다.

③ 상관행렬을 이용한 주성분분석은 표준화변수의 공분산행렬로부터 주성분을 유도하는 것이다.

④ 공분산행렬을 사용하는 경우 고유값이 1보다 큰 주성분의 개수를 이용한다.

① 변수들의 측정 단위에 매우 민감하다.

129. 다음 중 연관분석으로 해결할 수 있는 비즈니스 문제와 가장 관련이 없는 것은 무엇인가?

① 구매자가 제품을 구매할 때 이웃의 영향이 있었는가?

② 오렌지 주스와 청정재 구입 시 윈도우 클리너를 같이 구입하는가?

③ 향후 1개월 안에 내점하여 구매할 가능성이 높은 고객은 누구인가?

④ 청정재를 어는 곳에 위치시켜야지만 판매고를 최대화하는가?

③ 분류분석으로 해결할 수 있는 비즈니스 문제

130. 사건 A와 사건 B가 서로 독립이다. 다음 중 항상 옳다고 볼 수 없는 것은 무엇인가?

① P(A∩B) = 0

② P(A|B) = P(A)

③ P(B|A) = P(B)

④ P(A∪B) = P(A) + P(B) - P(A)P(B)

① A와 B가 서로소 일 때, P(A∩B) = 0가 성립한다.

131. 120개의 식물 개체를 7개의 변수(과실 크기, 포엽 길이, 마디 사이의 길이, 꽃잎 폭, 꽃잎 길이, 잎자루 길이, 잎의 길이)로 측정한 데이터를 사용하여 4개의 식물 군으로 구분하려 한다. 이 때 사용 가능한 분석 방법으로 가장 적절한 것은?

① 회귀분석

② 군집분석

③ 연관분석

④ 시계열분석

② 유사한 관측치들끼리 그룹화 시키는 분석은 군집분석이다.

132. 텍스트마이닝을 위한 R 패키지인 tm에서 텍스트 문서들의 집합을 말하며 문서를 관리하는 기본구조는 무엇인가?

① Corpus

② Sentence

③ Morpheme

④ Phoneme

① Corpus는 텍스트마이닝에서 더 이상의 추가적인 절차 없이 데이터마이닝 알고리즘 실험에서 활용될 수 있는 상태를 의미하며, 문서들의 집합이다.

133. 아래 예시와 같이 텍스트마이닝의 전처리 과정 중에서 변형된 단어형태에서 접사(affix) 등을 제거하고 그 단어의 원형 또는 어간(어형변화의 기초가 되는 부분)을 찾아내는 것을 지칭하는 용어는 무엇인가?

(예: "argue", "argued", "arguing", "argus" 단어들의 어간인 "argu"를 찾아내는 것)

스태밍(Stemming)

134. 아래의 설명이 가리키는 척도는 무엇인가?

두 개의 변량 X와 Y간에 존재하는 관계의 정도를 측정하는 척도로 -1과 1 사이의 값을 가진다. 절대치가 1로 근접하면 X와 Y의 상관은 강하고 0에 근접할수록 상관은 약하다.

상관계수(correlation coefficient)

135. 텍스트마이닝에서 전처리 과정을 거친 후 문서번호와 단어 간의 사용여부 또는 빈도수를 이용해 만들어진 행렬을 무엇이라 하는가?

단어 문서 행렬(term document matrix) 또는 문서 단어 행렬(document term matrix)

읽어 들인 문서를 plain text 전환, space 제거, lowercase로 변환, punctuation 제거, stopword처리, stemming 등을 처리한 다음에 문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 matrix를 만드는 작업

136. 다음 중 데이터마이닝 추진단계를 단계별(1단계-2단계-3단계-4단계-5단계) 순서대로 적절하게 나열한 것은?

① 목적설정 - 데이터 준비 - 가공 - 기법 적용 - 검증

② 가공 - 데이터 준비 - 목적설정 - 기법 적용 - 검증

③ 검증 - 데이터 준비 - 가공 - 목적설정 - 기법 적용

④ 데이터 준비 - 목적설정 - 기법 적용 - 가공 - 검증

137. 연관성 분석에 품목 A와 B가 거래 되었다고 가정하자. 품목 A가 주어지지 않았을 때의 품목 B의 확률에 비해, 품목 A가 주어졌을 때의 품목 B의 확률의 증가비율을 나타내는 연관성 분석 측도는 무엇인가?

① 지지도(Support)

② 향상도(Lift)

③ 품목 A => 품목 B 의 신뢰도

④ 품목 B => 품목 A 의 신뢰도

138. 사회연결망분석에서 네트워크의 구조를 파악하는 기법으로 부적절한 것은?

① 밀도(Density)

② 집중도(Centralization)

③ 워드클라우드(Word cloud)

④ 구조적 틈새(Structural hole)

③ 워드클라우드는 텍스트마이닝에서 문서에 포함된 단어의 사용빈도를 효과적으로 보여주기 위해 사용하는 방법이다.

139. 모집단이나 표본에 속한 특성값들의 대략적인 크기를 나타내는 측도를 위치측도라 한다. 다음 중 위치측도에 대한 설명으로 부적절한 것은?

① 중앙값 - 관측된 순으로 데이터를 나열할 때 가장 중앙에 위치하게 되는 데이터 값

② 분위수 - q-분위수는 관측값의 크기순으로 정렬된 데이터를 균등하게 q개로 나누는 값들이다

③ 표본평균 - 데이터의 합계를 데이터의 총 개수로 나눈 값

④ 백분위수 - p-백분위수란 해당 값 이하의 데이터가 전체의 p%인 값을 의미한다.

① 중앙값 - 데이터를 크기 순으로 나열할 때 가장 중앙에 위치하게 되는 데이터 값

140. 다음 중 선형회귀모형을 적합한 후에 확인해야할 가정이 아닌 것은 무엇인가?

① 선형성

② 독립성

③ 등분산성

④ 일치성

④ 선형회귀모형을 적합한 후에 확인해야할 가정: 선형성, 독립성, 등분산성, 비상관성, 정상성 등

141. 아래의 설명이 가리키는 척도의 종류로 가장 적절한 것은?

측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없다. 따라서 두 관측값 사이의 비율은 별 의미가 없게 되는 척도로서 온도, 지수 등이 그 예이다.

① 명목척도

② 순서척도

③ 구간척도

④ 비율척도

142. 아래 제 1종의 오류와 제 2종의 오류에 대한 설명들 중 가장 적절한 것은?

① 제 1종 오류는 실제로 귀무가설이 참이지만, 검정결과 귀무가설을 기각하는 오류이다.

② 제 2종 오류는 실제로 대립가설이 참이지만, 검정결과 대립가설을 기각하는 오류이다.

③ 제 1종 오류는 실제로 대립가설이 참이지만, 검정결과 대립가설을 기각하는 오류이다.

④ 제 2종 오류는 실제로 귀무가설이 참이지만, 검정결과 귀무가설을 기각하는 오류이다.

제 1종 오류 : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류

제 2종 오류 : 귀무가설이 틀린데도 귀무가설을 채택하게 되는 오류

143. 다음 중 아래 ( ) 안에 들어갈 용어로 가장 적절한 것은?

매우 복잡한 신경망 모형을 사용하여 학습오차를 매우 작게 한 경우 예측오차가 매우 커질 수 있는 ( ) 문제가 발생할 수 있다.

① 과적합

② 복잡도

③ 부적합

④ 오분류

144. 다음 군집분석을 위한 R함수 중 사전에 군집수를 지정할 필요가 없는 것은?

① fanny( )

② hclust( )

③ kmeans( )

④ pam( )

② 계층적 군집분석 기법은 자동적으로 적절한 군집수를 도출하기 때문에 사전에 군집수를 지정할 필요가 없음

145. 다음 중 의사결정나무 모형을 구축하는데 사용하는 R 패키지가 아닌 것은?

① rpart

② party

③ maptree

④ nnet

④ nnet 패키지는 신경망 분석을 위한 R 패키지이다.

146. 다음의 통계 검정 중 비모수 검정이 아닌 것은?

① 부호 검정

② 순위합 검정

③ F-검정

④ 만-위트니 U 검정

③ F-검정은 정규선형모형에서 모형의 유의성에 대한 검정으로 정규분포 가정을 한다.

147. 다음 중 모집단에서 표본을 추출하는 방법이 아닌 것은?

① 단순랜덤추출법

② 계통추출법

③ 층화추출법

④ 깁스추출법

④ 깁스추출법은 확률분포로부터 표본을 발생시키는 방법이다.

148. 추정이란 표본을 이용하여 모집단의 특성치에 대한 추측값을 제공하고 그 오차한계를 제시하는 과정이다. 다음 중 추정에 대한 설명으로 가장 부적절한 것은?

① 각각의 확률분포는 분포의 형태를 결정하는 평균, 분산 등의 모수를 갖고 있다.

② 모집단의 특성을 나타내는 모수는 일반적으로 알려져 있지 않으며 표본추출에 의해 미지의 모수를 추정하게 된다.

③ 점추정이란 '모수가 특정한 값일 것'이라고 선언하는 것으로 점추정치만으로 추정이 얼마나 정확한가를 판단할 수 있다.

④ 구간추정이란 '모수가 특정 구간에 있을 것'이라고 선언하는 것으로 항상 추정량의 분포에 대한 전제가 주어져야 한다.

③ 추정의 정확도는 판단이 불가능하다.

149. 다음 중 시계열모형에 대한 설명으로 부적절한 것은?

① 과거의 자료가 현재 자료에 영향을 주는 모형을 자귀회귀모형이라고 한다.

② 현재 자료와 과거의 백색 잡음 결합으로 나타내는 모형을 이동평균모형이라고 한다.

③ 정상성을 만족하지 않는 시계열 자료는 모형화할 수 없다.

④ 계절성을 갖는 비정상 시계열은 계절차분을 이용해 정상 시계열로 바꿀 수 있다.

③ 비정상 시계열을 변환이나 차분을 통해 정상 시계열로 바꾸어 줄 수 있고 이러한 모형 중 하나가 ARIMA모형이다.

150. 다음 중 의사결정나무모형의 특징이 아닌 것은?

① 비정상 잡음 데이터에 대해서도 민감하지 않게 분류할 수 있다.

② 모형의 결과가 누구에게나 용이하여 해석력이 우수하다.

③ 모형구축 방법이 계산적으로 복잡하지 않다.

④ 변수의 수가 많고 입력변수와 출력변수가 복잡한 비선형 형태를 가질 때에도 다른 분류모형보다 비교적 정확도가 우수하다.

④ 한 변수와 상관성이 높은 다른 불필요한 변수가 있더라도 크게 영향을 받지 않으나, 불필요한 변수가 많아지면 의사결정나무의 크기가 커질 수 있기 때문에 분류하기 전에 불필요한 변수를 제거하는 작업이 필요하다.

151. 확률변수란 표본공간내의 각 사건들에 실수값을 대응시키는 함수를 의미한다. 다른 수학적 변수와는 달리 하나의 고정된 값을 가지지 않고 사건의 발생에 따라 각각 다른 확률값을 가지게 된다. 확률변수에 대한 설명으로 가장 부적절한 것은?

① 이산형 확률변수란 확률변수가 값이 셀 수 있는 목록 중 하나의 값을 가지는 확률변수를 말한다.

② 연속형 확률변수란 확률변수가 구간 또는 구간들의 모임인 숫자 값을 가지는 확률변수를 말한다.

③ 확률변수는 모집단의 특성값을 수의 집합 위의 확률에 대응 시켜준다.

④ 확률변수의 값에 따라 확률이 어떻게 흩어져 있는지를 합이 1인 양수로써 나타낸 것을 확률분포라고 한다.

③ 확률변수는 표본공간 위의 확률을 수의 집합 위의 확률에 대응 시켜준다.

152. 다음 중 이상값의 처리에 관한 설명으로 가장 부적절한 것은?

① 이상값은 제외하고 분석을 실시한다.

② 변수의 summary로 mean, median, Q1, Q3로 이상값에 대한 일차적인 판단이 가능하다.

③ boxplot, histogram, scatter plot 등의 플롯을 통해 확인할 수 있다.

④ 이상값 판별의 한 방법으로써 평균으로부터 3 standard deviation 이상 떨어져 있는 값을 이상값으로 판단한다.

① 이상값 중 의도치 않은 현상이지만 분석에 포함되어야 하는 경우가 있다.

153. 가설검정은 지정된 유의수준에서 귀무가설과 대립가설 중 하나를 택하는 결정의 방법론이라 할 수 있다. 다음 중 가설검정에 대한 설명으로 가장 부적절한 것은?

① 귀무가설이 참일 때 귀무가설을 기각하게 되는 오류를 제1종 오류라 한다.

② 유의수준이 지정되는 경우 지정된 수준에서 통계적으로 유의성을 주장할 수 있는 검정통계량 영역을 기각역이라 한다.

③ 유의확률은 검정통계량이 실제 관측된 값보다 대립가설을 지지하는 방향으로 더욱 치우칠 확률로서 대립가설 하에서 계산된 값이다.

④ 대립가설 하에서 제2종 오류를 범하지 않을 확률을 검정력이라 한다.

③ 귀무가설 하에서 계산된 값이다.

154. 데이터마이닝모형 구축을 위하여 분할한 데이터 중에서 구축된 모델의 과잉 또는 과소 맞춤 등에 대한 미세 조정을 위해서 사용되는 데이터로 적절한 것은?

① 구축용 데이터

② 추정용 데이터

③ 훈련용 데이터

④ 검정용 데이터

검정용 데이터


[원문 URL]

지금은 삭제된 듯 하다

https://punch999.tistory.com/62?category=812377