[ADSP] 1과목 데이터 이해 문제 및 답안

01. 데이터는 그 형태에 따라 정성 데이터와 정량 데이터로 구분된다. 다음 중 정성 데이터에 속하는 것은?

① 풍향 ② 습도 ③ 기상특보 ④ 1시간 강수량

③ (정량적 데이터의 형태는 수치, 도형, 기호 등으로 기술이 되며, 정성 데이터의 형태는 언어, 문자 등으로 기술된다.)

02. 다음 중 암묵지와 형식지의 상호작용과 가장 관련이 없는 것은?(15회)

① 공통화 ② 내면화 ③ 연결화 ④ 추상화

④ (암묵지와 상호작용은 공통화, 내면화이고 형식지와 상호작용은 표출화, 연결화이다)

03. SQL은 다양한 집계함수를 제공하는데, 다음 집계함수 중 어떠한 데이터의 타입에도 사용이 가능한 것은?(15회)

① AVG ② COUNT ③ SUM ④ STDDEV

② COUNT

04. 다음 중 개인정보 비식별화 기법을 설명한 것으로 가장 부적절한 것은?(14회)

① 총계처리 - 데이터의 총합값을 보임으로써 개별 데이터의 값을 보이지 않도록 함

② 데이터 마스킹 - 개인 식별에 중요한 데이터 값을 삭제

③ 가명처리 - 개인 식별에 중요한 데이터를 식별 할 수 없는 다른 값으로 변경

④ 범주화 - 데이터의 값을 범주의 값으로 변환하여 값을 감춤

② (데이터 마스킹이란 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭게 읽기 쉬운 데이터를 익명으로 생성하는 기술이다.)

05. 다음 중 데이터에 대한 설명으로 가장 적절하지 않는 것은 무엇인가?(12회)

① 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음

② 창의적인 데이터 매시업(Mashup)은 기존에 풀기 어려웠던 문제 해결에 도움

③ 비정형 데이터는 데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일 형태로 저장

④ 공공부문에서 개방하고 있는 대표적인 데이터는 교통 데이터, 물가 데이터, 의료 데이터이다

③ (데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일형태로 저장되는 것은 반정형 데이터이다.)

06. 다음은 지식에 대한 설명이다. 옳지 않은 것은?

① 지식은 크게 암묵지와 형식지로 구분할 수 있으며 서로 상호작용에 있어 중요한 역할을 한다.

② 암묵지는 '김치담그기', '자전거타기'와 같이 학습적 체험을 통해 개인에게 습득되어 있지만 겉으로는 드러나지 않는 지식을 의미한다

③ 형식지는 교과서, 매뉴얼, 비디오, DB와 같이 형상화된 지식을 의미하는데, 유형의 대상이 있기 때문에 지식의 전달과 공유가 매우 힘들다

④ 암묵지는 사회적으로 중요하지만 다른 사람에게 공유되기 어려우므로 개인에게 축적된 내면화된 지식을 조직의 지식으로 공통화하는 것이 중요하다

③ (형식지는 유형의 대상이 있기 때문에 지식의 전달과 공유가 쉽다.)

07. 다음 중 그 자체로는 의미가 중요하지 않은 객관적인 사실인 데이터를 가공, 처리하여 얻을 수 없는 것은?(13회)

① 지혜(Wisdom) ② 정보(Information) ③ 기호(Sign) ④ 지식(Knowledge)

③ (데이터를 가공, 처리하여 얻을 수 있는 것은 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)이다.)

08. 다음 중 지식(Knowledge)에 대한 예시로 가장 적절한 것은?(15회)

① A사이트보다 B사이트가 다른 물건도 비싸게 팔 것이다.

② B사이트보다 가격이 상대적으로 저렴한 A사이트에서 USB를 사야겠다.

③ A사이트는 10,000원에, B사이트는 15,000원에 USB를 팔고 있다.

④ B사이트의 USB 판매가격이 A사이트보다 비싸다.

② (지식은 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물이다.)

09. 다음 중 글로벌 기업의 빅데이터 활용사례로 그 연결이 부적절한 것은?(14회)

① 구글 - 실시간 자동 번역시스템을 통한 의사소통의 불편해소

② 라쿠텐 - 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영

③ 월마트 - 소셜 미디어를 통해 고객 소비 패턴을 분석하는 월마트랩(Wallmart Labs)운영

④ 자라 - 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측

② (Cinematch 시스템은 넷플릭스(Netflix)에서 개발한 영화 추천 알고리즘이다.)

10. 다음은 데이터베이스의 특징에 관한 설명이다. 옳지 않은 것은?(5회)

① 데이터베이스는 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미하는 통합된 데이터이며 데이터 중복은 관리상의 복잡한 부작용을 초래할 수 있다.

② 데이터베이스는 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미하므로 저장된 데이터이며 기본적으로 컴퓨터 기술을 바탕으로 한 것이다.

③ 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용하므로 공용 데이터이며 대용량화되고 구조가 복잡한 것이 보통이다.

④ 데이터베이스는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 하므로 고정된 데이터이다.

④ (고정된 데이터가 아닌 변화되는 데이터에 대한 설명이다.)

11. 다음 중 데이터에 관한 구조화된 데이터로서 다른 데이터를 설명해 주는 데이터로 정의되는 것은?

① 데이터모델 ② 메타데이터 ③ 백업데이터 ④ 데이터마트

② (메타데이터는 데이터에 관한 구조화된 데이터로 다른 데이터를 설명한다. 즉, 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 말한다.)

12. 다음 중 주요 데이터 분석 기술에 대한 설명으로 가장 부적절한 것은?(15회)

① OLAP - 다차원의 데이터를 대화식으로 분석하기 위한 기술

② Business Intelligence - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

③ Business Analytics - 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

④ Deep Learning - 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술

④ (데이터 마이닝은 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술이다. 딥러닝은 다층구조 형태의 신경망을 바탕으로 하는 머신러닝의 한 분야이다.)

13. 다음의 용어와 설명의 연결이 가장 부적절한 것은?(13회)

① Analytics - 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

② Business Intelligence - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

③ OLTP - 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어

④ Data Mining - 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정

③ (다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어는 OLAP이다.)

14. 다음 중 기업내부 데이터베이스인 고객관계관리(CRM)에 대한 설명으로 적절한 것은 무엇인가?(12회)

① 부품의 설계, 제조, 유통 등의 공정 포함

② 외부 공급업체와의 정보시스템 통합으로 시간과 비용 최적화

③ 기업의 내부 고객들만을 대상으로 한 정보시스템

④ 단순한 정보의 수집에서 탈피, 분석 중심의 시스템 구축 지향

④ (CRM은 데이터베이스를 기초로 고객을 세부적으로 분류하여 효과적이고 효율적인 마케팅 전략을 개발한다.)

15. 기업내부 데이터베이스 중 기업 전체가 경영자원을 효과적으로 이용하기 위해 통합적으로 관리하고 경영의 효율화를 기하기 위한 수단으로 정보의 통합을 위해 기업의 모든 자원을 최적으로 관리하기 위한 기업 경영정보시스템은?(6회)

① CRM(Customer Relationship Management)

② SCM(Supply Chain Management)

③ KMS(Knowledge Management System)

④ ERP(Enterprise Resource Planning)

④ (CRM:고객관계관리, SCM:공급망 관리, KMS:지식 관점의 관리 시스템)

16. 다음 중 사회기반 구조로서의 데이터베이스에 대한 설명으로 가장 부적절한 것은?(13회)

① 물류, 무역, 조세 등 사회간접자본 차원에서 정보망을 통해 유통, 이용된 정보가 데이터베이스로 구축

② 지리, 교통 부문에서 데이터베이스가 보다 고도화되어 데이터베이스를 구축

③ 인터넷의 보편화로 데이터베이스가 사회 전반의 인프라로 자리매김

④ 의료, 교육, 행정 부문에서는 데이터베이스 구축과 활용이 활성화되지 못함

④ (사회기반 구조로서의 데이터베이스는 물류, 지리/교통, 의료, 교육 등 부문에서 구축되었으며 활용이 되고 있다.)

17. 다음 중 유통부분의 대한 내용으로 부적절한 것은?

① 2000년 이후 전반적인 IT 변화 환경에 맞물려 CRM과 SCM 구축이 이뤄졌다.

② 전자문서 교환이 본격화되면서 유통부문의 주요 기업들이 많은 예산을 투입하여 SCM을 구축하기 시작했다.

③ 최근 전자태그가 등장하면서 유통부문에서는 전자태그를 지원하는 대용량 데이터베이스를 지원하는 플랫폼이 요구되는 상황이다.

④ 2000년대 초반에는 EAI, ERP, e-CRM 등과 같이 데이터베이스간의 정보 공유 및 통합이나 고객 정보의 전략적 활용이 주된 테마였다.

④ (2000년대 초반의 EAI, ERP, e-CRM 등과 같은 데이터베이스 간의 정보 공유 및 통합이나 고객 정보의 전략적 활용을 주된 테마로 한 분야는 금융분야이다.)

18. 다음 중 빅데이터에 대한 정의를 설명한 것으로 가장 부적절한 것은?(13회)

① 대규모 데이터에서 저비용으로 가치를 추출, 초고속으로 수집 및 분석하기 위한 아키텍처이다.

② 용량은 방대하지만 구조가 단순한 데이터세트의 집합이다.

③ 일반적인 데이터베이스 소프트웨어로 저장, 분석할 수 있는 범위를 초과하는 규모를 빅데이터라 정의한다.

④ 데이터의 양, 수집, 처리 속도가 급격히 증가하면서 나타난 현상이다.

② (빅데이터는 다양한 종류의 데이터가 있으며 구조가 단순한 것부터 복잡한 것까지 다양하다.)

19. 빅데이터로 인한 새로운 도전과 기회를 잘 요약한 특징으로 가트너그룹의 더그래니가 정리한 빅데이터 세가지 측면으로 부적절한 것은?(8회)

① 양(Volume) ② 다양성(Variety) ③ 속도(Velocity) ④ 유효성(Valid)

④ (빅데이터의 3V는 양, 다양성, 속도이다.)

20. 다음은 빅데이터의 출현 배경에 대한 설명이다. 옳지 않은 것은?

① 여러 거대 기업들이 온, 오프라인을 통해 사용자와 소비자의 다양한 정보를 수집 분석하여 경영과 전략에 활용하게 되었다.

② 기업이 보유한 데이터는 급기야 1페타바이트(PB)이상으로 늘어나고 있으며, 보유한 데이터에 숨어있는 가치를 발굴해 새로운 성장 동력원으로 만들 수 있는 환경이 되었다.

③ 컴퓨터 기술의 발전으로 저장 기술의 다양화와 발전은 가격 상승을 유도했고 분석기법의 발전을 통해 적은 데이터에서도 새로운 인사이트를 발견할 수 있게 발전되었다.

④ 디지털화의 급진전, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅의 보편화도 빅데이터의 출현 배경에 직간접적으로 영향을 미쳤다.

③ (컴퓨터 기술의 발전을 가격 하락을 유도했고 더 많은 데이터를 통해 새로운 인사이트를 발견할 수 있게 발전하고 있다.)

21. 다음 중 빅데이터의 수집, 구축, 분석의 최종 목적으로 가장 적절한 것은?(13회)

① 새로운 통찰과 가치를 창출

② 데이터 중심 조직 구성

③ 초고속 데이터 처리 기술 개발

④ 데이터 관리 비용 절감

① (빅데이터의 수집, 구축, 분석의 최종 목적은 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출, 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도이다.)

22. 빅데이터의 기능 중 '공동 활용의 목적으로 구축된 유, 무형의 구조물 역할을 수행한다.'라는 것에 해당하는 내용은 무엇인가?(12회)

① 산업혁명 시대의 석탄, 철 ② 21세기의 원유 ③ 렌즈 ④ 플랫폼

④ (플랫폼이란 비즈니스 측면에서는 일반적으로 '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미하며 빅데이터가 최근에는 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다.)

23. 다음 중 빅데이터가 만들어 내는 변화로 가장 부적절한 것은?(15회)

① 사전처리에서 사후처리 시대로의 변화

② 대면조사에서 표본조사로의 변화

③ 데이터의 질보다 양의 중요도 증가

④ 인과관계에서 상관관계의 중요도 증가

② (빅데이터가 만들어내는 본질적인 변화는 사전처리에서 사후처리, 표본조사에서 전수조사, 질보다 양, 인과관계에서 상관관계로 변화했다.)

24. '특정 그룹의 편중된 의견으로 인해 왜곡된 결과를 초래하는 문제가 빅데이터의 도입으로 해결되고 있다.'와 관련 있는 변화는 무엇인가?(12회)

① 사후처리로의 변화

② 전수조사로의 변화

③ 인과관계로의 변화

④ 상관관계로의 변화

② (전수조사로의 변화는 데이터 수집 비용의 감소 및 클라우딩 컴퓨팅 기술의 발전으로 인한 데이터 처리비용의 감소로 표본을 조사하는 기존의 지식 발견 방식인 샘플링이 주지 못하는 패턴이나 정보를 전수조사를 통해 제공해주게 된다)

25. 다음 중 데이터의 가치 측정이 어려운 이유로 적절하지 않은 것은 무엇인가?(12회)

① 데이터 재사용의 일반화로 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문이다.

② 빅데이터 전문 인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있기 때문이다.

③ 분석기술의 발전으로 과거에 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문이다.

④ 빅데이터는 기존에 존재하지 않던 새로운 가치를 창출하기 때문이다.

②

데이터의 가치를 측정하기 어려운 이유는 다음과 같다

- 데이터 활용 방식 : 재사용, 재조합(mashup), 다목적용 개발

- 새로운 가치 창출

- 분석기술 발전

26. 클라우드 분산 병렬처리 컴퓨팅 중 빅데이터와 같은 대용량 데이터의 처리 비용을 획기적으로 줄인 방식으로 적절한 것은?

① 말뭉치 ② API ③ Ngram ④ 맵리듀스

④ (맵리듀스는 분산병렬처리 시스템으로 빅데이터에서 데이터를 처리하는데 획기적으로 시간을 줄임으로써 비용을 절약할 수 있게 되었다.)

27. 다음 중 감성 분석(Sentimental Analysis)에 대한 설명으로 가장 부적절한 것은?(14회)

① 특정 주제에 대한 사용자의 긍정,부정 의견을 분석한다.

② 주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적 사례이다.

③ 사용자간의 소셜 관계를 알아내고자 할 때 이용한다.

④ 사용자가 사용한 문장이나 단어가 분석 대상이 된다.

③ (사용자간의 소셜 관계를 알아내고자 할 때 이용하는 분석은 소셜 네트워크 분석이다.)

28. 아래와 같은 비즈니스 문제가 있다면, 각 문제를 해결하기 위해 주로 사용되는 기법과 연결이 적절하지 않은 것은?(12회)

① 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많다 - 연관규칙학습

② 고객의 만족도가 충성도에 어떤 영향을 미치는가? - 회귀분석

③ 친분관계가 승진에 어떤 영향을 미치는가? - 소셜 네트워크 분석

④ 택배차량을 어떻게 배치하는 것이 비용측면에서 가장 효율적인가? - 유형분석

④ (유형분석은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인 수강생들을 특성에 따라 분류할 때 사용한다. ex: '이 사용자는 어떤 특성을 가진 집단에 속하는가?')

29. '특정인과 다른 사람이 몇 촌 정도의 관계인가?' 를 파악할 때 사용되는 기법으로 적절한 것은?(6회)

① 연관규칙 학습 ② 유전 알고리즘 ③ 사회관계망 분석 ④ 기계 학습

③ (특정인과 다른 사람이 몇 촌인지를 파악하는 기법은 사회관계망 분석이라고 한다.)

30. 다음 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야인 것은?(14회)

① 크라우드 펀딩(Crowd Funding)

② 신용평가(Credit Rating)

③ 간편결제(Simple Payment)

④ 블록체인(Block Chain)

② (신용평가는 투자자 보호를 위하여 금융상품 및 신용공여 등에 대하여 그 원리금이 상환될 가능성과 기업, 법인 및 간접투자기구 등의 신용도를 평가하는 행위이며 핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있다.)

31. 다음 중 딥러닝(Deep Learning)과 가장 관련 없는 분석 기법은?(14회)

① LSTM(Long Short-Term Memory)

② Autoencoder

③ K-NN(K Nearest Neighborhood)

④ RNN(Recurrent Neural Network)

③ (K-NN(K Nearest Neighbor)은 학습 데이터 중 가장 유사한 k개의 데이터를 이용해서 값을 예측하는 방법으로 딥러닝과 관련 없는 분석 기법이다.)

32. 최근에 딥러닝(Deep Learning)에 대한 관심이 전 세계적으로 높아지고 있다. 딥러닝을 활용하기 위해 다양한 오픈소스가 개발되어 제공되고 있다. 다음 중 이와 가장 관련이 없는 것은?(13회)

① Caffe ② Tensorflow ③ Anaconda ④ Theano

③ (Anaconda는 Python프로그램의 머신러닝 기능을 강화해주는 소프트웨어이다. Caffe, Tensorflow, Theano는 딥러닝 소프트웨어이다.)

33. 다음 중 빅데이터 시대에 발생할 수 있는 위기 요인으로 가장 부적절한 것은?

① 재산권 침해 ② 데이터 오용 ③ 책임원칙 훼손 ④ 사생활 침해

① (빅데이터 시대에 발생할 수 있는 위기 요인은 사생활 침해, 책임원칙 훼손, 데이터 오용이 있다.)

34. 다음 중 빅데이터 시대 위기 요인 중 사생활 침해 문제를 해결하기 위해 개인 정보를 사용하는 자가 적극적인 보호장치를 강구하게 하는 방법으로 가장 적절한 것은?(13회)

① 알고리즘에 대한 접근을 허용해 부당함을 반증할 방법을 명시해 공개할 것을 주문

② 개인정보 제공자가 허락하는 동의제의 도입

③ 개인정보를 사용하는 사람이 직접 책임지는 책임제의 도입

④ 정보 사용자에게 수집된 내용을 공개하고 접근하는 권리 부여

③ (빅데이터의 통제방안은 1.동의에서 책임으로, 2.결과 기반 책임 원칙을 고수, 3. 알고리즘의 접근을 허용이다.)

35. 애플 CEO였던 스티브 잡스는 새로운 제품을 개발할 때 사람들의 의견을 묻지 않는다고 했다. 왜냐하면 사람들이 일반적으로 필요로 하는 것은 현실에 대한 인식에 바탕으로 두고 있기 때문이다. 따라서 포드가 자동차를 만들려고 했을 때 사람들의 의견을 물었다면 사람들은 더 빠른 말이 필요하다는 대답을 했을 것이라고 비유를 들었다. 이러한 예를 통해 알 수 있는 빅데이터 시대의 위기 요인으로 적절한 것은?

① 소셜 네트워크 ② 사생활 침해 ③ 책임원칙 훼손 ④ 데이터 오용

④ (스티브 잡스의 의견은 정확하지 않은 데이터를 활용하면서 경영 전략을 수립하는데 부정적인 결정을 내릴 수 있다는 사례로 데이터 오용에 해당한다.)

36. 다음 중 데이터화(datafication) 현상에 큰 영향을 미치는 기술로 적절한 것은?(14회)

① 사물인터넷(Internet of Things)

② 인공지능(Artificial Intelligence)

③ 가상현실(Virtual Reality)

④ 3D 프린팅(3D-Printing)

① (사물인터넷은 인터넷을 기반으로 모든 사물을 연결해 사람과 사물, 사물과 사물 간의 정보를 상호 소통하는 지능형 기술 및 서비스이며, 사물에서 생성되는 Data를 활용한 분석을 통해 마케팅 등에 활용할 수 있다.)

37. 다음은 빅데이터의 위기요인을 통제할 수 있는 방안에 대한 설명이다. 옳지 않은 것은?

① 동의에서 책임으로 : 현재 개인정보의 활용 동의를 통한 가공, 유통됨에 따른 사생활 침해에 대비해 개인정보 사용자의 책임제로 변환하여 사용자의 적극적인 보호를 유도하고자 한다.

② 결과기반 책임원칙 고수 : 사전적인 예측을 통해 판단보다는 행동 결과를 보고 판단하는 원칙을 고수함으로써 기업들이 담합할 확률이 높다고 먼저 처벌하지 말고, 사용자의 신용등급이 낮다고 불이익을 당할 가능성을 최소화하고자 한다.

③ 데이터 오용 방지 : 데이터를 통한 결과가 모든 것을 예측할 수 없기 때문에 가능하면 데이터 분석을 하지 말고 사용자의 판단에 따르고자 한다.

④ 알고리즘 접근 허용 : 데이터 오용의 위기에 대처하기 위해 활용되고 있는 알고리즘이 어떤 식으로 계산되는지 알고리즘을 소개하여 명시함으로써 문제가 발생한 피해자를 구제하고자 한다.

③ (데이터가 분석의 결과가 정확하게 예측할 수 없거나 결과를 설명하기 힘들더라도 데이터 분석을 통한 의사결정은 불확실성을 최소화 할 수 있는 방법이다.)

38. 데이터 사이언스는 데이터 처리와 관련된 IT 영역, 분석적 영역, 그리고 비즈니스 컨설팅 영역을 포괄하고 있다. 다음 중 세 개의 영역과 다른 영역에 속하는 하나는?(15회)

① 데이터 시각화 ② 데이터 웨어하우징 ③ 분산 컴퓨터 ④ 파이썬 프로그래밍

① (데이터 시각화는 비즈니스 컨설팅 영역이며 나머지 3개는 데이터 처리와 관련된 IT영역이다.)

39. 다음 중 데이터 사이언스에 대한 설명으로 가장 부적절한 것은?(11회)

① 데이터 사이언스의 핵심 구성요소는 Analytics, IT, 그리고 Domains Expertise이다.

② 데이터 사이언스가 기존 통계학과 다른 점은 총체적 접근법을 사용한다는 점이다.

③ "데이터 사이언스는 과학과 인문의 교차로에 서 있다."는 말은 학문간 통일의 중요성을 의미한다.

④ 데이터에서 의미있는 정보를 추출해내는 학문으로 데이터마이닝과 개념상으로 유사하다.

① (데이터 사이언스의 핵심 구성요소는 Analytics, IT 그리고 비즈니스 분석이다.)

40. 다음 중 데이터 사이언티스트의 필요 역량으로 가장 부적절한 것은?(14회)

① 설득력있는 스토리텔링

② 통찰력있는 분석

③ 네트워크 최적화

④ 다분야 간 협력을 위한 커뮤니케이션

③ (데이터 사이언티스트의 필요 역량은 하드 스킬과 소프트 스킬이 있으며, 소프트 스킬 중 통찰력있는 분석, 설득력있는 전달, 다분야 간 협력이 있다.)

41. 다음 중 빅데이터와 데이터 사이언스에 대한 설명으로 가장 부적절한 것은?(10회)

① 데이터 사이언스는 정형화된 실험데이터를 분석 대상으로 한다.

② 미래 가치 패러다임과 변화에서 빅데이터 분석 활용 능력은 핵심적인 역할을 할 것이다.

③ 데이터 사이언스에서 시각화와 효과적 커뮤니케이션은 매우 중요한 요소이다.

④ 기업에서의 빅데이터 분석은 기업의 분석 문화에 결정적으로 영향을 받는다.

① (데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.)

42. 고객테이블(CUSTOMERS)로부터 나이(AGE)가 20~30대인 고객정보(NAME, GENDER, SALARY)를 추출하기 위해 아래와 같은 SQL문을 작성하려고 한다. 다음 (가) 안에 들어갈 적절한 구문을 채워 쓰시오.(15회)

SELECT NAME, GENDER, SALARY

FROM CUSTOMERS

WHERE AGE (가) 20 AND 30

가 - BETWEEN

43. 아래에서 설명하고 있는 (가)와 (나) 적절한 용어를 쓰시오.(15회)

데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (가) skill과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 (나) skill로 나누어진다.

가 - 하드, 나 - 소프트

44. 아래 (가) 안에 들어갈 용어를 기입하시오.(14회)

(가)는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료가 된다.

가 - 정보

45. 아래는 데이터 분석과 관련된 기술을 설명한 것이다. (가)에 들어갈 용어를 기입하시오.(14회)

기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 (가)라고 한다.

가 - 데이터 웨어하우스(Data Warehouse)

46. 아래에서 설명하고 있는 (가)는 무엇인가?(13회)

지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는데 도움이 되기 때문이다. 다시 말해 별도로 정제 되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 (가)를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운용하는 첫해가 될 전망이다.

가 - 데이터 레이크

47. 형태와 형식이 정해져 있지 않고 언어 또는 문자로 기술되는 데이터를 무엇이라고 하는가?(13회)

정성적 데이터(qualitative)

48. 아래는 데이터의 양을 표현하는 단위를 값이 작은 것에서부터 큰 것 순으로 나열한 것이다.

( 가 )에 적합한 단위는 무엇인가?

기가 바이트(GB) < 테라바이트(TB) < (가) < 엑사바이트(EB)

가 - 페타바이트(PB)

49. 아래에서 설명하는 이것은 무엇인가?(12회)

이것은 공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이루어짐으로써 생산성을 극대화할 수 있는 기술이다

스마트 팩토리(Smart Factory)

50. DIKW 피라미드 중 다음 내용이 설명하는 것은?

"A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단"

지혜 (지혜는 근본원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어이다.)

51. 다음 중 빅데이터 분석에 경제성을 제공해 준 결정적인 기술로 가장 적절한 것은?

① 텍스트 마이닝 ② 클라우드 컴퓨팅 ③ 저장장치 비용의 지속적인 하락 ④ 스마트폰의 급속한 확산

② (클라우드 컴퓨팅은 대규모의 데이터가 모이는 곳일 뿐 아니라 맵리듀스(Map Reduce)와 같은 병렬분산처리 기법을 통해 거대 규모 데이터의 신속한 처리 비용을 급격히 하락시켜 빅데이터 분석의 경제성을 획기적으로 개선하였다.)

52. 다음 중 빅데이터의 가치 산정이 어려운 이유를 나타내는 사례로 가장 부적절한 것은?

① 구글 검색에서 나타나는 것과 같은 데이터의 반복적 재사용

② 전기차 배터리 정보를 충전소 최적지 선정과 같은 2차적 목적에 활용

③ 독자의 전자책 독서 순서 정보가 저자의 글쓰기 방식에 영향을 주는 것

④ 은행 대출심사 알고리즘 작동 원리 이해의 어려움

④ (빅데이터 가치 산정을 어렵게 만드는 요인으로는 데이터의 재사용, 2차적 목적으로의 활용, 창조적 방식으로 활용되며 새로운 가치를 창출하는 것들이라고 볼 수 있다. 이해하기 어려운 대출심사 알고리즘의 경우 빅데이터의 가치 산정이 어려운 이유가 아니라 알고리즘 전문가인 알고리즈미스트에게 도움을 받아야 하는 이유이다.)

53. 다음 중 빅데이터 분석의 특성에 대한 설명 중 가장 부적절한 것은?

① 더 많은 정보가 더 많은 가치를 창출할 수 있는 것은 아니다.

② 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰력을 줄 수 있는 데이터를 찾는 것이 중요하다.

③ 빅데이터 과제와 관련된 주된 걸림돌은 비용이 아니다.

④ 데이터의 크기가 커질수록 분석을 많이 사용하는 것이 중요해진다.

④ (데이터의 크기가 커진다고 분석을 많이 사용하는 것이 중요해지는 것은 아니다. 문제는 분석을 많이 사용하는 것이 아니라, 데이터의 성격과 데이터에서 얻고자 하는 가치에 적합한 분석을 사용하는 것이다.)

54. 다음 중 데이터 분석에 기초한 가치 창출과 관련된 설명으로 가장 부적절한 것은?

① 핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁전략과 밀접하게 연관된다.

② 복잡하고 다양한 데이터를 최적화하는 능력이 최고의 가치를 창출하는 가장 중요한 기준이다.

③ 전략적 분석과 통찰력 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.

④ 기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 기반 분석의 가장 중요한 목표는 아니다.

② (복잡한 데이터의 최적화 능력이 반드시 최고의 가치를 창출하는 것은 아니다. 전략적 통찰 없는 복잡한 분석이 쓸모없는 비즈니스 모델을 뒷받침하는데 활용될 경우 비즈니스에 필요한 가치를 창출하지 못하는 경우도 많다.)

55. 다음 중 비즈니스에 분석을 적용할 때 효과적인 분석 적용 대상에 대한 검토와 관련된 설명으로 가장 부적절한 것은?

① 사업적 잠재력만이 아니라 데이터 및 필요한 자원이 이용 가능한지를 고려해 대상을 택한다.

② 조직이 분석을 배우는 동안에는 분석의 노력을 가능한 다양한 대상에 기울이도록 한다.

③ 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려한다.

④ 무엇이 가능한지 발견하기 위한 실험을 망설이지 말고 분석기회에 대한 직관을 무시하지 않는다.

② (조직이 분석을 도입하는 시기에는 분석의 노력을 너무 많은 대상에 기울이지 말고, 한가지 주요한 대상이나 몇 가지 작은 대상에 몰두하는 것이 바람직하다.)

56. 데이터 사이언티스트가 효과적인 분석 모델 개발을 위해 고려해야 하는 사항으로 가장 부적절한 것은?

① 분석모델이 예측할 수 없는 위험을 살피기 위해 현실세계를 돌아보고 분석을 경험과 세상에 대한 통찰력과 함께 활용한다.

② 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심을 가진다.

③ 분석의 객관성에 의문을 제기하고 분석 모델에 포함된 가정과 해석의 개입 등의 한계를 고려한다.

④ 넓은 시각에서 모델 범위 바깥의 요인들을 판단할 수 있도록 가능한 한 많은 상황 데이터를 모델에 포함한다.

④ (분석모델의 정확성은 대부분 수집된 데이터의 범위 내에서만 유효하다. 모델 범위 외 요인들을 판단하고자 하는 것은 부적절하며 심지어 큰 위험을 동반할 수 있다. 또한 지나치게 많은 과거 데이터를 모델에 포함하는 것은 글로벌 금융위기 사례에서 알 수 있듯이 모델의 정확성을 떨어뜨리기도 한다.)

57. 분석의 전형적인 의사결정 오류를 로직 오류와 프로세스 오류로 나눠 보았을 때, 각 오류에 대한 설명으로 가장 부적절한 것은?

① 부정확한 가정을 하고 테스트를 하지 않는 것은 로직 오류이다.

② 결정에서 분석과 통찰력을 고려하지 않는 것은 프로세스 오류이다.

③ 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것은 로직 오류이다.

④ 대안을 진지하게 고려하지 않는 것은 프로세스 오류이다.

③ (데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것은 프로세스 오류에 대한 설명이다.)

58. 아래 내용은 데이터, 정보, 지식의 차이점을 예시로 설명한 것이다. 각각의 용어와 예시가 적절하게 연결된 것은?

(가) A마트는 100원, B마트는 200원에 연필을 판매한다

(나) A마트는 연필가격이 더 싸다

(다) 상대적으로 저렴한 A마트에서 연필을 사야겠다

(라) A마트의 다른 상품도 B마트보다 저렴할 것이다

① 데이터-(가), 정보-(나), 지식-(다)

② 데이터-(가), 정보-(나), 지식-(라)

③ 데이터-(가), 정보-(다), 지식-(라)

④ 데이터-(가), 정보-(라), 지식-(다)

①

(가) - 데이터(존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호)

(나) - 정보(데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터)

(다) - 지식(상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물)

(라) - 지혜(근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어)

59. 다음 중 기업내부 데이터베이스의 활용과 가장 관련이 없는 것은?

① CRM(Customer Relationship Management)

② ERP(Enterprise Resource Planning)

③ ITS(Intelligent Transport Systems)

④ KMS(Knowlege Management Systems)

③

▶ CRM(고객관계관리) : 기업들이 고객을 확보하고 이를 유지하고자 구매이력 등 데이터를 분석하여 고객관리에 적용하는 등의 방법

▶ ERP(전사적자원관리) : 기업활동 전반 모든 업무의 경영자원을 대상으로 관리함으로써 기업의 경영 및 관리 업무효율 증대

▶ ITS(지능형교통체계) : 국가교통DB 구축을 통해 교통소통을 목적으로 운전자에게 정보를 제공

▶ KMS(지식관리시스템) : 조직 내 인적자원들이 축적하고 있는 지식을 체계화하여 공유함으로써 조직의 역량을 강화

60. 다음 중 빅데이터가 만들어 내는 변화와 가장 거리가 먼 것은?

① 가치가 있을 것이라고 예상되는 특정한 정보만 모아서 처리하는 것이 아니라 최대한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식이 중요해진다.

② 데이터의 규모가 증가함에 따라 사소한 몇 개의 오류 데이터는 분석결과에 영향을 미치지 않기 때문에 데이터세트에 포함하여 분석해도 상관없는 경우가 많아진다.

③ 인과관계의 규명 없이 상관관계 분석결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출할 수 있는 기회가 점차 늘어나고 있다.

④ 데이터의 양이 증가하고 유형이 복잡해짐에 따라 수많은 데이터 중에서 분석에 필요한 데이터를 선정하기 위한 정교한 표본조사 기법의 중요성이 대두되고 있다.

④

빅데이터가 만들어내는 본질적인 변화:

▶ 사전처리 → 사후처리 (= 선택지①)

▶ 데이터의 질 → 데이터의 양 (= 선택지②)

▶ 인관관계 분석 → 상관관계 분석 (= 선택지③)

▶ 표본조사 → 전수조사 (= 선택지④)

61. 아래 ㉠에 들어갈 내용을 작성하시오.

IoT(Internet of Things)시대가 되면 수많은 물건에 센서가 부착되어 데이터가 끊임없이 생산된다. 이 때 빅데이터 사업자들은 IoT를 통해 생산된 데이터를 저장해 두고 이 데이터를 3rd party에 API(Application Programing Interface)를 통해 공개하여 활용하도록 할 수 있다. 이러한 기능을 빅데이터의 ( ㉠ ) 기능이라고 한다.

플랫폼 (빅데이터의 기능을 포현하는 비유로는 첫째 산업혁명의 석탄 또는 철, 둘째 21세기의 원유, 셋째 렌즈, 넷째 플랫폼 기능이 있다. 이 중 플랫폼이란 다양한 차원에서 활용되는 개념이지만 비즈니스 측면에서는 일반적으로 '공동 활용의 목적으로 구축된 유,무형의 구조물'을 의미한다.)

62. 아래 제시된 데이터양의 표시 단위를 작은 것부터 큰 것의 순서로 나열하시오.

가. 엑사바이트(Exabyte, EB)

나. 페타바이트(Pettabyte, PB)

다. 요타바이트(Yottabyte, YB)

라. 제타바이트(Zettabyte, ZB)

나-가-라-다 (테라바이트=10244, 페타바이트=10245, 엑사바이트=10246, 제타바이트=10247, 요타바이트=10248)

63. 아래는 빅데이터로 달성할 수 있는 경영혁신의 단계를 나열한 것이다. 빅데이터 경영혁신의 시작 단계에서 궁극적인 단계까지 바르게 나열된 것은?

(가) 생산성 향상 (나) 발견에 의한 문제해결 (다) 의사결정 향상 (라) 새로운 고객가치와 비즈니스 창출

① (가) → (나) → (다) → (라)

② (나) → (다) → (라) → (가)

③ (다) → (라) → (가) → (나)

④ (라) → (가) → (나) → (다)

① (빅데이터를 통한 경영혁신 단계 : 새로운 차원의 생산성 향상 → 발견에 의한 문제해결 → 의사결정의 과학화와 자동화 → 새로운 고객가치와 비즈니스 창출)

64. 다음 중 연방거래위원회(FTC)가 제시한 '소비자 프라이버시 보호 3대 권고사항'에 해당되지 않는 것은?

① 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용

② 소비자 행동예측 알고리즘에 대한 이해당사자의 접근권 보장

③ 소비자에게 수집된 정보 내용 공개 및 접근권 부여

④ 소비자에게 공유정보 선택옵션 제공

② (데이터 오용의 위기요소에 대한 대응책의 일환)

65. 데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식 및 기술적 숙련과 관련된 능력인 하드 스킬(Hard Skill)과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 소프트 스킬(Soft Skill)로 나누어진다. 다음 중 소프트 스킬에 가장 가까운 것은?

① Machine Learning

② Statistics Modeling

③ Data Visualization

④ Distributed Computing

③ (데이터 사이언티스트에게 요구되는 소프트 스킬에는 창의적 사고, 호기심, 논리적 비판, 스토리텔링, 비주얼라이제이션, 커뮤니케이션 등이 있다.)

66. 다음 중 데이터에 대한 설명으로 가장 부적절한 것은?

① 1바이트는 0에서 255까지의 정수값을 표현할 수 있는 데이터의 크기를 의미한다.

② 영어 한 글자는 1바이트로 저장할 수 있지만 한글 한 글자는 2바이트로 저장하는 것이 일반적이다.

③ 수치 데이터는 용량이 증가하더라도 텍스트 데이터에 비해 DBMS에서 관리하기 용이하다.

④ 설문조사 데이터는 그 형태와 형식이 정해져 있지 않아 비정형 데이터라고 한다.

④ (설문조사의 주관식 응답은 텍스트 데이터로서 비정형 데이터이지만, 객관식 응답은 수치로 처리할 수 있는 정형 데이터로 볼 수 있다.)

67. 데이터웨어하우스는 기업 내의 의사결정지원 어플리케이션에 정보기반을 제공하는 하나의 통합된 데이터 저장공간을 말한다. 다음 중 데이터웨어하우스의 고유한 특성이 아닌 것은?

① 데이터웨어하우스에서는 데이터의 지속적 갱신에 따른 데이터의 무결성 유지가 무엇보다 중요하다.

② 데이터웨어하우스 데이터들은 전사적 차원에서 일관된 형식으로 정의된다.

③ 데이터웨어하우스에서 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장한다.

④ 데이터웨어하우스에서는 특정 주제에 따라 데이터들이 분류, 저장, 관리된다.

① (데이터웨어하우스는 데이터의 주제 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비휘발성이라는 4가지 특성을 갖는다.)

68. 다음 중 빅데이터로 인한 변화방향을 기술한 것으로 가장 부적절한 것은?

① 필요한 정보만을 수집하던 시대에서 가능한 많은 정보를 수집한 후 용도를 찾아내는 시대로의 변화

② 단순한 상관관계보다 이론적 인과관계를 중시하는 방향으로 변화

③ 표본조사보다 전수조사가 보편화되는 시대로의 변화

④ 데이터의 질보다 양을 중시하는 시대로의 변화

② (빅데이터 시대에는 변인 간의 인과관계를 밝혀내는 것보다 사용 목적에 따라서는 단순한 상관관계만을 밝혀내 활용하는 것이 사업 목적상 더 부합하는 경우가 빈번해지고 있음.)

69. 다음 중 빅데이터의 출현 배경과 가장 거리가 먼 것은?

① 하둡과 같은 분산처리 기술의 발전

② M2M, IoT과 같은 통신 기술의 발전

③ 의료정보 등 공공데이터의 개방 가속화

④ 트위터, 페이스북 등 SNS의 급격한 확산

③ (공공 데이터의 개방은 빅데이터의 출현배경이라기 보다는 빅데이터 현상 이후 국가에서 보다 활성화하기 위한 측면이 강함)

70. 구글 번역 서비스에서 활용된 빅데이터의 특성으로 가장 적절한 것은?

① Volume

② Variety

③ Velocity

④ Veracity

① (빅데이터의 5V 특성 : Volume, Variety, Velocity, Veracity, Value)

구글은 전 세계에서 수집한 수십억개의 공문서 및 도서를 기반으로 번역 서비스를 개발하였고, 수집한 문서가 많으면 많을수록 번역의 질이 높아진다는 가정하에서 출발

71. 빅데이터 시대가 도래하면서 발생할 수 있는 부정적인 측면의 하나로 "책임원칙의 훼손"의 이슈가 있다. 다음 중 이에 대한 사례로 가장 적절한 것은?

① 범죄 예측 프로그램에 의해 범행 전에 체포

② 빅브라더가 개인의 일상생활 전반을 감시

③ 여행 사실을 트윗한 사람의 집에 강도가 침입

④ 검색엔진의 검색결과의 차별적 누락에 따른 피해 발생

① 빅데이터의 부정적 측면

▶ 책임원칙 훼손 (= 선택지 ①)

▶ 사생활침해 (= 선택지 ②,③)

▶ 데이터 오용 (= 선택지 ④)

72. 다음 중 빅데이터에 관한 설명으로 가장 적절한 것은?

① 빅데이터 분석을 통한 가치창출 여부는 데이터의 규모에 의해 크게 좌우된다.

② 비즈니스 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 확보해야 한다.

③ 빅데이터 프로젝트를 추진하는데 있어 가장 큰 걸림돌은 막대한 소요비용이다.

④ 성과가 높은 기업의 대부분은 폭넓은 가치 분석적 통찰력을 갖추고 있는 것으로 밝혀졌다.

②

① 데이터 유형의 다양성에 따라 잠재적 보상을 받을 수 있다고 조사됨.

③ 빅데이터와 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족임.

④ 성과가 높은 기업 중에서도 폭넓은 가치 분석적 통찰력을 갖추고 있는 기업의 비율은 낮음.

73. 아래는 데이터의 이용과 분석에 대한 시대별 용어와 그것의 의미를 서로 연결한 것이다. ㉠에 들어갈 적절한 용어는?

OLAP - 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어

( ㉠ ) - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

Business Analytics - 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

비즈니스 인텔리전스(BI) (데이터 분석에 대한 시대적 흐름을 이해하고 있는지 측정하는 문제로서, 비즈니스 인텔리전스는 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구를 의미함.)

74. 아래에서 언급한 이것은 무엇인가?

이것은 컴퓨터공학, 통계학, 수학 등의 학문적 지식은 물론 시각화 및 해커로서의 소양에 이르는 관련 분야의 전문 지식을 종합한 학문을 일컫는다. 기존의 통계학과 이것이 다른 점은 총체적 접근법을 사용한다는 점이다.

데이터 사이언스 (빅데이터를 학문적 관점에서 접근하려는 데이터 사이언스에 대한 문제이다.)

75. 다음 중 정량적 데이터(Quantitative data)의 예로서 부적절한 것은?

① 직업 ② 강우량 ③ 영업이익 ④ GDP 증가율

① ('직업'은 정성적 데이터로 수치, 기호, 도형으로 표시되는 정량 데이터로 보기엔 어렵다.)

76. 일반적으로 지적 및 지식 기반 자산은 형식지(Explicit knowledge)와 암묵지(Tacit knowledge)로 나누어진다. 다음 중 암묵지의 예로서 부적절한 것은?

① 고려청자를 만드는 비법

② 간장의 맛을 결정한다는 시어머니의 손맛

③ 연봉이 수억에 달한다는 보험설계사의 영업비밀

④ 회계규칙에 입각하여 대차대조표를 작성하는데 요구되는 지식

④ (암묵지란 말로는 하나하나 설명할 수 없는, 개인이 체화하여 갖고 있는 내면의 비밀스런 지식을 의미하며, 형식지란 전달과 설명이 가능한 적절히 표현되고 정리된 지식을 의미한다.)

77. 다음 중 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 라는 문제의 해결을 위해 사용 될 분석방법으로 가장 적절한 것은?

① 소셜 네트워크 분석(Social network analysis)

② 유전 알고리즘(Genetic algorithme)

③ 기계 학습(Machine learning)

④ 유형 분석(Classification tree analysis)

② (유전 알고리즘은 '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 최적화가 필요한 문제의 해결책을 찾을 때 사용되는 분석이다.)

78. 다음 중 비정형 데이터로 분류하기에 가장 부적절한 것은?

① IE 웹브라우저로 Gmarket에 접속한 로그기록

② Naver의 검색창에 입력한 키워드

③ Facebook 친구에게 게시한 댓글

④ Galaxy S5로 찍은 셀카 사진

① (반정형 데이터는 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태로 일반적으로 형태가 있으면서 연산 불가능한 경우 반정형 데이터로 볼 수 있다. log가 대표적이다.)

79. 다음 중 빅데이터 분석의 특성에 대한 설명으로 가장 부적절한 것은?

① 더 많은 정보가 더 많은 가치를 창출할 수 있는 것은 아니다.

② 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰력을 줄 수 있는 데이터를 찾는 것이 중요하다.

③ 빅데이터 과제와 관련된 주된 걸림돌은 비용이 아니다.

④ 데이터의 크기가 커질수록 분석을 많이 사용하는 것이 경쟁우위를 가져다주는 원천이 된다.

④ (분석을 많이 사용하는 것이 경쟁우위를 가져다주지는 않는다. 분석의 포커스를 제대로 두고 경쟁의 본질을 제대로 바라보고 분석을 활용하는 것이 보다 더 중요하다.)

80. 빅데이터 시대에 가치 패러다임이 변화하는 단계를 올바르게 나열한 것은?

① 연결(Connection) → 디지털화(Digitalization) → 에이전시(Agency)

② 디지털화(Digitalization) → 연결(Connection) → 에이전시(Agency)

③ 에이전시(Agency) → 연결(Connection) → 디지털화(Digitalization)

④ 연결(Connection) → 에이전시(Agency) → 디지털화(Digitalization)

② 가치 패러다임 변화 3단계

1단계) Digitalization - 아날로그의 세상을 효과적으로 디지털화하는 것

2단계) Connection - 디지털화된 정보와 대상들의 연결을 효과적이고 효율적으로 제공하는 것

3단계) Agency - 복잡한 연결을 효과적이고 신뢰성있게 관리해주는 것

81. 다음 중 데이터베이스의 특징에 대한 설명으로 가장 부적절한 것은?

① 데이터베이스는 통합된 데이터(Integrated data)이다.

② 데이터베이스는 다양한 방법으로 필요한 정보를 검색할 수 있는 검색 가능성을 가진다.

③ 데이터베이스는 여러 사용자가 서로 단일한 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어야 한다.

④ 데이터베이스는 변화되는 데이터로 데이터의 삽입, 삭제, 갱신에도 항상 현재의 정확한 데이터를 유지해야 한다.

③ (데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용한다는 것을 의미하는 공용 데이터(shared data)를 일반적인 특징으로 한다.)

82. 다음 중 기업내부 데이터베이스에 대한 설명으로 가장 부적절한 것은?

① 2000년대 들어서면서 기업 DB구축의 화두는 CRM과 SCM에서 경영정보시스템(MIS)과 ERP로 바뀌었다.

② '실시간 기업'은 기업의 비즈니스 프로세스를 투명하고 민첩하게 유지하여 환경 변화에 따른 적응 속도를 최대화하여 지연시간을 없애는 정보화 전략이다.

③ 2000년대 들어 금융부문에도 DW를 적극적으로 도입하여 관련 DB마케팅을 증대시키기 위한 노력이 가시화되었다.

④ 제조부문은 데이터베이스 기술의 가장 중요한 적용분야로 부품 테이블이나 재고관리 등의 영역에서 데이터베이스 활용이 중점을 이루다가, 부품의 설계, 제조, 유통 전 공정을 포함하는 범위로 확대되었다.

① (2000년대 들어서면서 기업DB 구축의 화두는 CRM과 SCM으로 바뀌었다.)

83. 아래와 같은 SQL 문장을 사용할 때, 다음 중 출력되는 결과로 옳은 것은?

SELECT CUSTOMER_NAME 고객명, E_CUSTOMER_NAME 고객영문명

FROM CUSTOMER

WHERE E_CUSTOMER_NAME LIKE '_A%;

① 영문명이 A로 시작하는 고객들의 이름

② 영문명이 두 번째 문자가 A인 고객들의 이름

③ 영문명이 A나 a로 시작하는 고객들의 이름

④ 위치에 상관없이 영문명에 A를 포함하는 고객들의 이름

② ('_'는 하나의 글자. '%'는 모든 문자를 대신하여 사용이 되는 와일드카드이므로 두 번째 문자가 A인 경우만 출력됨.)

84. 아래 SQL 명령 중 DML(Data Manipulation Language)에 해당하는 항목을 모두 나열한 것은?

(A) DELETE (B) INSERT (C) SELECT (D) UPDATE (E) CREATE

① (A), (B)

② (A), (B), (C)

③ (A), (B), (C), (D)

④ (A), (B), (C), (D), (E)

③ (가이드에는 상세하게 기술되어 있지 않지만 데이터베이스의 기본인 SQL에 대한 기초 지식이 있는지 묻는 문제로서, CREATE는 테이블을 생성하는 SQL로 DDL(Data Definition Language)에 해당함.)

85. 아래 ㉠에 들어갈 말로 적절한 것은?

빅데이터가 기업에 주는 영향으로 혁신 촉진, 경쟁력 제고, 그리고 ( ㉠ ) 향상을 들 수 있다.

생산성 (빅데이터에서 추출된 가치는 먼저 기업에게 혁신과 경쟁력, 생산성 향상을 가져다준다.)

기업에서는 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴할 수 있다. 또 빅데이터를 원가절감, 제품 차별화, 기업활동의 투명성 제고 등에 활용하면 경쟁사보다 강한 경쟁력을 확보하는데 도움이 된다. 나아가 빅데이터를 활용해 기업들의 운용 효율성이 증가하면, 산업 전체의 생산성이 향상된다.

86. 아래 ( ㉠ ) 안에 들어갈 용어를 작성하시오.

( ㉠ ) 은(는) 데이터베이스의 구조와 제약조건에 관한 전반적인 명세(Specification)을 의미하는 것으로서, 데이터베이스를 구성하는 데이터 개체(Entity), 속성(Attribute), 관계(Relationship) 및 데이터 조작시 데이터값들이 갖는 제약조건 등에 관해 전반적으로 정의한다.

스키마(Schema) (데이터베이스 스키마는 데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료간의 관계를 형식 언어로 정의한 구조이다.)

87. 다음 중 일반적으로 통용되고 있는 빅데이터의 정의와 가장 거리가 먼 것은 무엇인가?

① 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.

② 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집 · 발굴 · 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다.

③ 빅데이터는 데이터의 양(Volume), 데이터의 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.

④ 빅데이터는 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 하둡(Hadoop)을 기반으로 하는 대용량 분산처리 기술을 통해 창출하는 새로운 방식이다.

④ (하둡은 대량의 자료를 처리할 수 있도록 대형 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램 지원 프레임워크로 빅데이터 자체로 볼 수는 없음)

88. 다음 중 구글의 Ngram Viewer는 빅데이터의 어떤 기능을 보여주는 사례라고 할 수 있는가?

① 현미경 ② 21세기의 오일(oil) ③ 차세대 산업혁명의 에너지원 ④ 플랫폼

① (Ngram Viewer는 모든 책을 디지털로 전환하여 검색 서비스에 포함시키려는 구글의 프로젝트 결과물로서 제공되는 서비스임. 여기에서는 특정한 말뭉치(corpus)를 검색하면 그 말뭉치가 시간의 흐름에 따라 어떤 빈도로 사용되어 왔는지를 보여주며 렌즈처럼 특정 시점에 비교하려는 말뭉치와의 빈도수를 보여줌으로써 현미경의 확대와 유사한 서비스를 제공함)

89. 다음 중 빅데이터의 위기요인 통제를 위해 논의되고 있는 방안에 대한 설명으로 가장 부적절한 것은?

① 개인정보 활용에 대한 동의제를 책임제로 전환하는 것은 책임원칙 훼손 위기에 대한 통제 방안으로 효과적일 수 있으며 개인정보 사용자가 적극적인 보호 장치를 강구하게 하는 효과가 기대된다.

② 개인정보의 가치가 증가하고 기술발전으로 사생활침해 가능성도 함께 증가하고 있기 때문에 개인정보 활용에 대한 가이드라인 제정에 대한 요구가 급증하고 있다.

③ 데이터 오용의 위기 요소에 대한 대응책으로 알고리즘에 대한 접근권 보장이 필요하며 알고리즈미스트(algorithmist)의 필요성도 증대되고 있다.

④ 특정인이 채용이나 대출, 신용카드 발급여부 결정 등에서 예측 자료에 의해 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요하다.

① (개인정보 활용에 대한 동의제를 책임제로 전환하는 것은 사생활침해 문제해결을 위한 방안이다. 책임원칙 훼손 위기에 대한 통제 방안으로는 결과에 대해서만 처벌하는 기존의 책임원칙을 좀 더 보강하고 강화하는 것이 논의되고 있다.)

90. 빅데이터의 시대가 도래함에 따라 CRM(Customer Relationship Management) 환경이 바뀌고 있다. 다음 중 이와 관련된 설명으로 옳지 않은 것은 무엇인가?

① 다양한 채널로 CRM 수행이 가능하게 되었다.

② CRM의 목적과 방법이 변화하고 있다.

③ 기업과 고객 간 양방향 소통이 가능한 서비스 플랫폼이 활성화되고 있다.

④ 실시간으로 고객 트렌드를 파악할 수 있게 되었다.

② (오늘날 CRM은 기존의 목적은 그대로 유지하면서 방법론에서 다양한 모색을 하고 있다.)

91. 다음 중 전략적 통찰력을 얻기 위해 분석을 사용하는 방법으로 가장 부적절한 것을 2개 고르시오.

① 경영진의 직관적 결정을 뒷받침하기 위해 분석을 사용한다.

② 비즈니스의 핵심가치와 관련된 분석 프레임워크와 평가지표를 개발하여 사용한다.

③ 사업 상황을 확인하기 위해 업계 내부의 문제들에 집중하여 분석을 사용한다.

④ 분석이 경쟁의 본질을 제대로 바라볼 수 있도록 큰 그림을 그린다.

①, ③ (경영진의 직관적 결정을 뒷받침하기 위해 분석을 사용한다거나 업계 내부의 문제에만 포커스를 두는 경우는 전략적 통찰력을 얻기 위한 분석이 아니라 일차적인 분석 사용 방법이다.)

92. 데이터(data)와 정보(information)의 차이를 구분하는 것은 중요하다. 다음 중 정보에 대한 예로 가장 부적절한 것은?

① 평균 구매액 ② 주문수량 ③ 베스트셀러 ④ 우량고객

② (데이터는 사건의 특징을 기술하는 사실을, 정보는 상황에 맞게 의미 있고 유용하게 변환된 데이터를 의미한다.)

93. 다음 중 데이터 분석테크닉에 대한 설명 중 가장 부적절한 것은?

① 개인의 신용평가에 가장 많이 활용되는 것은 연관규칙 학습이다.

② 기계학습은 대규모 데이터를 처리 분석할 때 상당한 분석 인프라와 많은 시간이 소요될 수 있다.

③ 한국어의 경우 그 언어적 특성으로 인해 감정 분석에 상대적으로 어려운 측면이 있다.

④ 소셜 네트워크 분석은 최근 핀테크 기업에서 대출을 제공할 때 활용되고 있다.

① (개인의 신용도 평가에 가장 많이 활용되는 것은 회귀분석이다.)

94. 다음 중 뛰어난 데이터 사이언티스트에 대한 설명으로 가장 적절한 것은?

① 통계학에 대한 이론적 지식과 최적의 분석설계 노하우를 축적하는 것이 가장 중요하다.

② 정량 분석이라는 과학과 인문학적 통찰에 근거한 합리적인 추론을 조합한다.

③ 분석 결과를 인간의 해석이 개입하지 않도록 객관적으로 사용한다.

④ 분석에 현실이 개입하지 않도록 최대한 긍정적인 가정과 모델들에 기초한다.

② (뛰어난 데이터 사이언티스트는 정량 분석이라는 과학과 인문학적 통찰에 근거한 합리적 추론을 탁월하게 조합한다.)

95. 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어는?

① DBMS ② Data Dictionary ③ SQL ④ ERD

① (DBMS는 사용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어로써 데이터베이스 자체와는 구분되나 일반적으로 데이터베이스와 DBMS를 함께 데이터베이스 시스템으로 칭한다.)

96. 아래에서 언급한 이것은 무엇인가?

이것은 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것을 말한다.

가명(pseudonym), 일반화(generalization), 치환(permutation), 섭동(perturbation) 등을 포함한 다양한 방법으로 이것을 구현한다.

데이터 익명화(Data Anonymity)

97. 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당분야의 전문 지식을 종합한 학문으로 정의하기도 한다. 이런 정의의 연장선에서 데이터 사이언스가 기존의 통계학과 다른 접근법을 사용하는데 이는 무엇인가?

총체적 접근법

(데이터 사이언스가 기존의 통계학과 다른 점은 총체적(holistic) 접근법을 사용한다는 점으로 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, CCTV 등에서 생성되는 숫자와 문자, 영상정보 등 다양한 유형의 데이터를 대상으로 한다.)

98. 다음 중 데이터웨어하우스에 대한 설명으로 가장 부적절한 것은?

① 데이터웨어하우스는 기업 내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간을 말한다.

② ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.

③ 데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지한다.

④ 일반적으로 데이터웨어하우스는 전사적 차원에서 접근하기 보다는 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 맞춰 초점을 맞추어 구축된다.

④ (재무, 생산, 운영과 같이 부서별 또는 업무 기능별 특정 주제 중심으로 구축되는 것은 데이터마트의 특징이다.)

99. 다음 중 내부 프로세스와 관련된 전형적인 분석 활용기법에 대한 설명으로 가장 부적절한 것은?

① 미래가치 분석 - 증거를 관찰하기 전과 후의 가설에 대한 믿음의 정도를 나타내는 추정치로 수익예측에 사용

② 최적화 - 일부 변수의 값이 반드시 정수여야 할 때, 한정된 자원으로 특정 목적을 달성하는 솔루션을 내놓은 효과적인 할당을 의미

③ 몬테카를로 시뮬레이션 - 특정 결과 혹은 위험이 발생할 확률을 평가하는 계산 기법으로 수학적 모델을 통해 가설 사건을 여러 차례 실험하고 미리 정해진 확률 분포와 비교

④ 신경망 분석 - 투입 요소들을 구분할 때까지 반복해서 학습이 이루어지며 주로 대규모 데이터베이스에 사용

① (증거를 관찰하기 전과 후의 가설에 대한 믿음의 정도를 나타내는 추정치로 수익예측에 사용되는 것은 베이즈 추론에 대한 설명이다.)

100. 다음은 비즈니스 문제와 이를 해결하기 위해 주로 사용되는 기법을 연결한 것이다. 잘못 연결된 것은?

① 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가? - 연관규칙학습

② 고객의 만족도가 충성도에 어떤 영향을 미치는가? - 회귀분석

③ 친분관계가 승진에 어떤 영향을 미치는가? - 소셜네트워크분석

④ 택배차량을 어떻게 배치하는 것이 가장 비용 효율적인가? - 유형분석

④ (택배차량을 어떻게 배치하는 것이 가장 비용 효율적인가? 와 같은 문제는 유전 알고리즘 등 최적화 기법을 사용하여 해결한다. 유전 알고리즘은 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등의 매커니즘을 통해 점진적으로 진화(evolve)시켜 나가는 방법이다.)

101. 아래는 데이터베이스를 기반으로 기업 내에 구축되는 주요 정보시스템 중 하나를 설명한 것이다. 다음 중 아래의 내용에 적합한 것은?

기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화하기 위한 시스템

① ERP ② CRM ③ SCM ④ KMS

① (ERP(전사적자원관리)는 기업활동 전반 모든 업무의 경영자원을 대상으로 관리함으로써 기업의 경영 및 관리 업무효율 증대를 목적으로 한다.)

102. 최근에 인문학적 사고의 필요성이 대두하게 된 사회 경제적 환경 변화를 기술한 것 중 가장 관련이 없는 것은?

① 단순한 세계화에서 복잡한 세계화로 변화하고 있다.

② 비즈니스의 중심이 제품생산에서 서비스로 이동하고 있다.

③ 경제와 산업의 논리가 생산에서 시장창조로 바뀌고 있다.

④ 직관보다는 데이터에 기반한 의사결정이 더욱 중요해지고 있다.

④

최근 사회경제적 환경 변화의 특징:

▶ 단순한 세계화에서 복잡한 세계화로 변화

▶ 비즈니스의 중심이 제품생산에서 서비스로 이동

▶ 경제와 산업의 논리가 생산에서 시장창조로 바뀜

※ 데이터 기반 의사결정이 중요해지는 것은 인문학적 사고와 관련이 없음

103. DIKW 피라미드에서 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물을 무엇이라고 하는가?

지식 (DIKW 피라미드(Data, Information, Knowledge, Wisdom hierarchy)에서는 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하고 있다.)

104. 아래 ( ㉠ )에 적합한 데이터베이스 용어는?

데이터 ( ㉠ )은(는) 데이터베이스 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 혹은 수정 시 여러가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다.

무결성(integrity)

[원문 URL]

지금은 글이 삭제된 듯 하다

https://punch999.tistory.com/24?category=812377

'자기계발 도전하기' 카테고리의 다른 글

[월드코인] AI 관련 투자 feat.알트먼의 월드코인 (0)	2024.02.24
[ADSP] 2과목 데이터 분석 기획 문제 및 답안 (0)	2024.02.23
[UX/UI] UX/UI 개념과 전략 (0)	2024.02.08
[취업] 취준생때 하면 좋은 것들 feat.에피코딩 (0)	2024.01.29
[자기계발] 3Why 기법 (1)	2023.11.03

'자기계발 도전하기' 카테고리의 다른 글

티스토리툴바