2022년 제4회 기출문제
2022년 4월 9일에 시행된 빅데이터 분석기사 필기 4회 기출문제입니다. 총 80문항이며 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상이면 합격입니다. 실제 시험과 100%일치하지는 않습니다. 정답 버튼을 클릭하시면 정답을 보실 수 있고 에러사항이 있으면 댓글을 달아 주시면 바로 수정하겠습니다.
[1과목 빅데이터의 이해]
1. HDFS에 대한 설명으로 옳은 것은?
① 복제의 횟수는 내부에서 결정된다.
② ETL, NTFA가 상위 프로그램이다.
③ GFS와 동일한 소스코드를 사용한다.
④ 네임노드는 저장공간에 네임노드 데이터를 같이 저장한다.
③ GFS와 동일한 소스코드를 사용한다.
2. 인공지능학습에 대한 설명으로 옳지 않은 것은?
① 훌륭한 알고리즘을 보유하였다면 학습을 생략해도 된다.
② 강인공지능은 범용으로 사용되기는 시기 상조이다.
③ 약인공지능의 제한된 기능을 뛰어넘어 더 발달된 인공지능이다.
④ 강인공지능이라고 불릴 만한 수준의 인공지능은 지금도 개발되지 않았다.
① 훌륭한 알고리즘을 보유하였다면 학습을 생략해도 된다.
3. 분산파일 시스템에 대한 설명으로 옳은 것은?
① 데이터베이스를 분산 저장한다.
② x86 서버의 CPU, RAM 등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.
③ 여러 컴퓨터를 하나의 서버 환경에 저장한다.
④ 네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.
④ 네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.
4. 분석로드맵 설정시 우선순위 고려해야할 사항 아닌 것은?
① 비즈니스 성관 및 ROI
② 시급성
③ 분석 데이터 적용
④ 전략적 중요도
③ 분석 데이터 적용
5. 분석 시나리오 적용을 해야 하는 이유로 가장 적절하지 않은 것은?
① 이해관계자 도출
② 업무성과 판단
③ 최신 업무 형태 반영
④ 분석 목표 도출
③ 최신 업무 형태 반영
6. 빅데이터 분석기획 절차는?
① 프로젝트정의-> 범위설정 -> 위험계획수립 -> 수행계획수립
② 프로젝트정의-> 범위설정 -> 수행계획수립 -> 위험계획수립
③ 범위설정 -> 프로젝트정의 -> 수행계획수립 -> 위험계획수립
④ 범위설정 -> 프로젝트정의 -> 위험계획수립 -> 수행계획수립
③ 범위설정 -> 프로젝트정의 -> 수행계획수립 -> 위험계획수립
7. 개인정보 비동의 시에도 사용 가능한 경우가 아닌 것은?
① 법령상 의무를 준수하기 위하여 불가피한 경우
② 계약의 체결 및 이행을 위하여 불가피하게 필요한 경우
③ 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우
④ 개인 편의 제공 시 합당한 이유가 있으면 가능하다.
④ 개인 편의 제공 시 합당한 이유가 있으면 가능하다.
8. 개인정보 비식별화 기술에 대한 설명 중 가장 적절하지 않은 것은?
① 총계처리: 데이터의 총합 값으로 처리하여 개인 데이터의 값을 보이지 않도록 하는 기술
② 데이터 마스킹 : 개인식별에중요한 데이터 값을 삭제하는 기술
③ 가명처리: 개인 식별에 중요한 데이터를 식별할수 없는 다른 값으로 변경하는 기술
④ 범주화: 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술
② 데이터 마스킹 : 개인식별에중요한 데이터 값을 삭제하는 기술
9. 가트너가 정의한 빅데이터 처리 플랫폼 특징 중 3V에 속하지 않는 것은?
① Value
② Volume
③ Velocity
④ Variety
① Value
10. 1제타바이트에 1byte의 아스키 코드를 넣으면 얼만큼 넣을 수 있는가?
① 2의 40승
② 2의 50승
③ 2의 60승
④ 2의 70승
④ 2의 70승
11. 다음 중 인메모리기반의 데이터 처리와 연관된 오픈소스 프로젝트는?
① 스파크
② 맵리듀스
③ 하이브
④ 피그
① 스파크
12. 다음 중 데이터분석 모델링과 관련하여 수행하는 업무가 아닌 것은?
① 데이터 분할
② 데이터 모델링
③ 프로젝트 성과 분석 및 평가 보고
④ 모델 적용 및 운영방안
③ 프로젝트 성과 분석 및 평가 보고
13. 다음 중 정형데이터와 비정형데이터와 관련된 것 중 옳은 것은?
① 동영상, 오디오 데이터는 정형 데이터에 속한다.
② 형태소는 정형데이터를 분석하기 위한 단위이다.
③ 정형데이터는 지정된 행과열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터이다.
④ 비정형 데이터는 잠재적 가치가 가장 낮다.
③ 정형데이터는 지정된 행과열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터이다.
14. 다음 중 고품질데이터의 특성이 아닌 것은?
① 정확성(Accuracy)
② 적시성(Timeliness)
③ 불편의성(Uncompleteness)
④ 일관성(Consistency)
③ 불편의성(Uncompleteness)
15. 다음 중 시스템의전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고, 내부 시스템으로 전달하는 미들웨어는?
① API 게이트웨이
② 데이터베이스
③ Paas
④ ESB(Enterprise Service Bus)
① API 게이트웨이
16. 데이터 3법에 포함되는 것이 아닌 것은?
① 개인정보보호법
② 정보통신산업 진흥법
③ 정보통신망 이용촉진 및 정보보호 등에 관한 법률
④ 신용정보의 이용 및 보호에 관한 법률
② 정보통신산업 진흥법
17. 공공데이터에서 제공하는 파일의 형식이 아닌 것은?
① xml
② Sql
③ Json
④ Csv
② Sql
18. 데이터 저장소가 아닌 것은?
① 데이터 웨어하우스
② 데이터 레이크
③ 데이터 마이닝
④ 데이터 댐
③ 데이터 마이닝
19. 데이터에 노이즈를 추가해 개인정보와 데이터분석을 모두 진행할 수 있는 방법은?
① K익명성
② 가명화
③ 개인정보차등보호
④ L다양성
③ 개인정보차등보호
20. 빅데이터 저장기술 중 옳은 것은?
① 맵리듀스
② 직렬화
③ 가시화
④ Nosql
④ Nosql
[2과목 빅데이터 탐색]
21. 다음 중 대표값관련 설명으로 옳지 않은 것은
① 평균은 중앙값보다 이상값에 영향을 더 적게 받는다.
② Q3-Q1같은 사분위수 범위를 의미한다.
③ 변동률 등은 기하 평균으로 구한다.
④ 변동계수는 분산과 관련이 있다.
① 평균은 중앙값보다 이상값에 영향을 더 적게 받는다.
22. 다음 표를 참고하여 귀무 가설 검정으로 옳은 것은?
사람의 평균수명을 알아보기 위해 사망자 100명을 표본으로 추출하여 조사하였더니 평균 72.4년으로 나타났다. 모표준편차를 12년으로 가정할 때, 현재의 평균수명은 70년보다 길다고 할 수 있는가를 검정하라(유의수준 a=0.05)
Z왼쪽 열은 2.5-3.0 까지 있었고 내부 데이터는 모두 0.99이상 값이었음.
① 표준정규확률변수 z=2, 귀무가설 채택
② 표준정규확률변수 z=2, 귀무가설 기각
③ 표준정규확률변수 z=3, 귀무가설 채택
④ 표준정규확률변수 z=3, 귀무가설 기각
② 표준정규확률변수 z=2, 귀무가설 기각
23. 다음 중 시공간데이터가 아닌 것은?
① 지도 데이터
② 패턴 데이터
③ 패널 데이터
④ 격자 데이터
② 패턴 데이터
24. 다음 중 이상값을 찾는 방법에 대한 설명이 아닌 것은?
① 박스플롯과 스캐터 플롯 등에서 멀리 떨어진 값
② 정규분포에서 표준편차가 3이상인 값
③ 도메인 지식에서 이론적이나 물리적으로 맞지 않는 값
④ 가설 검정의 노이즈 값
④ 가설 검정의 노이즈 값
25. 다음 중 주성분분석에 대한 설명으로 틀린 것은?
① 선형 결합하여 새로운 변수를 만든다.
② 분산이 커지도록 한다.
③ 데이터가 이산적인 경우에 사용한다.
④ 직관적으로 이해할 수 있다.
④ 직관적으로 이해할 수 있다.
26. 상관관계에 대한 설명 중 틀린 것은?
① 상관계수는 결정계수의 제곱이다.
② 범위는 -1에서 1사이 이다.
③ 0에 가까우면 상관성이 낮다.
④ 관계를 산점도로 알 수 있다.
① 상관계수는 결정계수의 제곱이다.
27. 정규 모집단 N(50,2²)에서 크기 n=16의 표본을 무작위 추출할때 표본평균 분포의 표준편차 또한 표본평균이 l=51이상일떄의 표준화 점수, 이에 대한 분포는?
① σₓ = 1/2, z=2, N(0,1)
② σₓ = 1, z=2, N(50,2²)
③ σₓ = 1/2, z=2, N(50,2²)
④ σₓ = 1, z=2, N(0,1)
① σₓ = 1/2, z=2, N(0,1)
28. 박스 플롯에서 3Q보다작은건?
① 중앙값
② 평균
③ 80퍼센트
④ Max값
① 중앙값
29. 자료의 분포가 오른쪽으로 긴꼬리일 경우에 대한 설명으로 맞는 것은?
① 왜도 > 0, 빈도수 < 중위수 < 평균
② 왜도 > 0, 평균 < 중앙값 < 최빈값
③ 왜도 < 0, 중앙값 < 최빈값 < 평균
④ 왜도 < 0, 최빈값 < 중앙값 < 평균
① 왜도 > 0, 빈도수 < 중위수 < 평균
30. 이산 확률 변수 X에 대해 E(X) = 4, E(X^2) = 25일 때, 확률 변수 Y = 3X - 4의 평균과 분산으로 옳은 것은?
① E(Y) = 8, V(Y) = 81
② E(Y) = 16, V(Y) = 9
③ E(Y) = 8, V(Y) = 25
④ E(Y) = 16, V(Y) = 81
① E(Y) = 8, V(Y) = 81
31. 정규화에 대한 설명으로 옳은 것은?
① Min-max 정규화 범위는 0과 1 사이 이다.
② 평균은 0, 표준편차는 1로 변환 하는 방법 이다.
③ 정규화를 표준화하면 표준정규분포다
④ Minmax 정규화보다 z값이 이상치에 영양을 덜 받는다.
① Min-max 정규화 범위는 0과 1 사이 이다.
32. 정규 분포의 설명이 아닌 것은?
① 왜도가 3, 첨도가 0이다.
② 직선 x=u(평균)에 대해여대칭인 종 모양의 곡선이다.
③ 곡선과 x축으로 둘러싸인 영역의 넓이는 1이다. (확률의 총합은 100%이다)
④ 곡선의 모양은 표준편차가 일정할 때, 평균이 변하면 대칭축의 위치와 곡선의 모양이 바뀐다.
① 왜도가 3, 첨도가 0이다.
33. 포아송 분포가 맞는지 적합도 검정을 한다.
ㄱ. 하루에 몇회인지 평균을 구해야한다. ㄴ. 카이제곱 값이 클수록 귀무가설 기각 ㄷ. 자유도 4 |
① ㄱ,ㄴ
② ㄱ,ㄷ
③ ㄴ,ㄷ
④ ㄱ,ㄴ,ㄷ
① ㄱ,ㄴ
34. 각각의 사례에 알맞은 분석 방법으로 옳은 것은?
① 어떤 규칙이나 방법을 찾는데 회귀분석이나 군집분석을 사용 한다.
② 수요예측은 회귀분석 등 연속형 모델 등을 이용하여 분석 할 수 있고 인공신경망을 사용할 수도 있다.
③ 일정한 단위 시간의 변화에 따른 개개의 상품이나상품의 집합체에 관한 경제변량의 기본적인 관계를 나타내는 계수를 추정 및 분석하는 방법은 차원축소 분석을 사용한다.
④ 동일한 공간상에 비교한 상표들의 상대적 위치를 나타내는 분석방법은 요인분석이다.
② 수요예측은 회귀분석 등 연속형 모델 등을 이용하여 분석 할 수 있고 인공신경망을 사용할 수도 있다.
35. 비정형 텍스트 데이터 전처리 기법이 아닌 것은?
① Tokenizing
② API 이용
③ POS tagging
④ Stemming
② API 이용
36. 빅데이터 탐색에 대한 설명으로 적절하지 않은 것은?
① 빅데이터의 전체 분포를 검토하는 과정이다.
② 데이터 분석과정에서 결과를 도출한다.
③ 데이터 탐색 시 잠재적 문제를 발견하는 과정이다.
④ 데이터 탐색 시 패턴을 찾는 과정이다.
② 데이터 분석과정에서 결과를 도출한다.
37. 표준화와 점수분포에 관한 설명으로 적절한 것은?
① 표준화는 각 요소에서 평균을 뺀 값을 분산으로 나눈다.
② 표준화의 최대값은 1이다.
③ 표준화의 표준편차는 0이다.
④ 정규분포를 표준화하면 표준정규분포가 된다.
④ 정규분포를 표준화하면 표준정규분포가 된다.
38. 소수의 극단값의 영향을 받지 않으므로 변동성 척도로서 적절한 것은?
① 범위
② 변동계수
③ 사분위범위
④ 표준편차
③ 사분위범위
39. 초기하 분포의 설명으로 적절하지 않은 것은?
① 확률변수 값으로서 일정횟수의 베르누이 시행에서 성공횟수를 가진다.
② 성공확률은 일정하지 않다.
③ 각 시행은 독립적이다.
④ 이상형 확률분포를 따른다.
③ 각 시행은 독립적이다.
40. 다음과 같은 열이 4개인 박스플롯에 대한 설명으로 적절하지 않은 것은?
① 토요일의 분산은 금요일보다 크다.
② 금요일의 평균은 10에 가깝다.
③ 목요일의 1사분위수는 12에 가깝다.
④ 금요일에 이상값이 존재한다.
② 금요일의 평균은 10에 가깝다.
[3과목 빅데이터 모델링]
41. 텍스트 문맥 파악을 위해서 단어 단위로 끊어서 판별하는 기법은?
① 토픽 모델링
② 워드 클라우드
③ N-Gram
④ TFIDF
③ N-Gram
42. 선형회귀분석 오차항의 특성이 아닌 것은?
① 선형성
② 독립성
③ 정규성
④ 등분산성
① 선형성
43. 비지도학습에 대한 설명으로 다음 빈칸에 들어갈 말로 알맞은 것은?
정답을( ), ( )이 이에 속한다.
① 가르쳐주지 않고, 회귀분석
② 가르쳐주고, 회귀분석
③ 가르쳐주지 않고, 군집분석
④ 가르쳐주고, 군집분석
③ 가르쳐주지 않고, 군집분석
44. 인공지능에 대한 설명으로 가장 거리가 먼 것은?
① 모델 예측값과 실제값의 오차인 비용함수(Cost Function)는 인공지능 학습에서 최적화된 비용에 관련된 모든 변량에 대하여 어떤 관계를 나타내는 함수이다.
② 일반적으로 여러개의 은닉총을 가진 신경망을 통해 데이터를 학습 하는 것을 딥러닝이라 한다.
③ 딥러닝은 인공신경망으로 발전했다.
④ 인공지능이 기울기 소실 문제로 인해 암흑기가 발생한 적이 있다.
③ 딥러닝은 인공신경망으로 발전했다.
45. 인공신경망의 단층퍼셉트론 문제로 표현이 불가능한 논리회로는?
① AND
② OR
③ NOR
④ XOR
④ XOR
46. 오토인코더에 대한 설명으로 가장 잘못된 것은?
① 비지도 학습이다.
② 사전학습으로 사용된다.
③ 입력수는 은닉총 수보다 항상 작다.
④ 인코드 입력수와 디코드 출력수는 동일하다.
③ 입력수는 은닉총 수보다 항상 작다.
47. Boolean Function 나이브 베이지만 함수로 잘못된 것은?
① P(A,B|C) = P(A) X P(B|C)
② P(A,B,C|E) = P(A|C) X P(B|C) X P(C|C)
③ P(A,B|C) = P(A|C) X P(B|C)
④ P(A,E|C) = P(A|C) X P(E|C)
48. 의사결정나무에 대한 설명 중 틀린 것은?
① 가지에 하나가 남는 끝까지 진행한다.
② 변수를 하나 골라서 한계치 설정한다.
③ 나무구조에 의해 모델이 표현되기 때문에 해석이 용이한 편이다.
④ 분류 및 예측 목적으로 사용할 수 있다.
① 가지에 하나가 남는 끝까지 진행한다.
49. 범주형에 대한 분류방법이 아닌 것은?
① 인공신경망
② 선형회귀분석
③ 서포트 벡터머신
④ 의사결정나무
② 선형회귀분석
50. 다음이 설명하는 시계열의 특성은 무엇인가? (중장기적, 빈번한 발생 빈도가 없는 패턴)
① 추세
② 주기
③ 계절
④ 불규칙
② 주기
51. 연관분석기법으로 알맞은 것은?
① 회귀분석
② Apriori
③ 군집분석
④ 월콕슨순위합
② Apriori
52. 로지스틱 회귀분석에 대한 설명으로 잘못된 것은?
① 분류에 주로 사용한다.
② 자료형이 범주형을 갖는 경우 사용하는 분석기법이다.
③ Y값은 0과 1사이이다.
④ 대표적인 비지도 학습 알고리즘이다.
④ 대표적인 비지도 학습 알고리즘이다.
53. 비지도 학습 알고리즘 유형으로 알맞은 것은?
① 회귀분석
② 로지스틱 회귀분석
③ 서포트 벡터
④ 군집분석
④ 군집분석
54. 정준연결(Canonical link)의 로그함수로 알맞은 것은?
① 정규분포
② 베르누이
③ 포아송
④ 감마
③ 포아송
55. 통계에서 평균에 대한 차이검정으로 모집단 3개 이상 사용하는 분석방법으로 가장 알맞은 것은?
① t검정
② z검정
③ 분산분석
④ 상관분석
③ 분산분석
56. 비모수 통계 분석기법인 Willcoxon Signed rank와 Willcoxon rank sum 설명 중 가장 옳지 않은 것은?
① 윌콕슨 부호순위는 일변량 검정이다.
② 윌콕슨 순위합은 이변량 검정이다.
③ 주로 30개 이하의 작은 샘플일때 사용한다.
④ 윌콕슨 부호 순위 검정은 검정 결과가 대칭되어야 검정 가능하다.
④ 윌콕슨 부호 순위 검정은 검정 결과가 대칭되어야 검정 가능하다.
57. 아래의 수식이 나타내는 회귀는?
① 라쏘
② 릿지
③ 엘라스틱넷 회귀
④ 단순 회귀
② 릿지
58. 다음 설명 중 배깅에 대한 내용으로 가장 옳은 것은?
① 편향이 낮은 과소적합 모델을 사용한다.
② 편향이 높은 과대적합 모델을 사용한다.
③ 부트스트랩 자료를 생성하고 각 부트스트랩 자료를 결합하여 최종 예측모형 산출
④ 가중치를 활용하여 약 분류기를 강 분류기로 만드는방법
③ 부트스트랩 자료를 생성하고 각 부트스트랩 자료를 결합하여 최종 예측모형 산출
59. 초매개변수의 최적화로 옳지 않은 것은?
① 랜덤 서치
② 그리드 서치
③ 베이지안 최적화
④ 경사하강법
④ 경사하강법
60. 맨해튼 거리를 계산하시오 점A에서 2번째로 가까운 점의 거리는?
- 4개의 보기 A(1,1), B(1,2) C(2,2), D(4,1)
① 1
② 2
③ 3
④ 4
② 2
[4과목 빅데이터 결과 해석]
61. 시공간 시각화 기법 중 옳은 것은?
① 히스토그램
② 체르노프 페이스
③ 지도맵핑
④ 평행 좌표계
③ 지도맵핑
62. 실루엣 계수를 이용한 최적의 군집분석 갯수는?
① 2
② 3
③ 4
④ 5
② 3
63. 다음 그래프의 이름으로 적절한 것은?
① 히트맵
② 트리맵
③ 영역차트
④ 누적영역차트
① 히트맵
64. 효과적인 인포그래픽의 조건 중 가장 적절하지 않은 것은?
① 인포메이션(Information과 시각적 그래프의 합성어이다.
② 최대한 많은 정보를 담는다.
③ 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.
④ 누적영역차트
② 최대한 많은 정보를 담는다.
65. y=0 혹은 y=1 값을 가지는 이진 분류 분석에서 y=1의 값이 y=0 값의 2배일 때, 민감도, 특이도, 정확도에 대한 설명으로 적절한 것은?
① 민감도와 특이도 둘다 1일때 정확도는 1이다.
② 특이도가 1일 때 정확도는 1/2이다.
③ 민감도가 1/2일 때 정확도는 1/2이다.
④ 민감도와 특이도가 같을 때 정확도도 특이도와 같다.
① 민감도와 특이도 둘다 1일때 정확도는 1이다.
66. 홀드아웃 관련 데이터가 아닌 것은?
① 검증데이터
② 학습데이터
③ 평가데이터
④ 증강데이터
④ 증강데이터
67. ROC 그래프의 설명으로 적절하지 않은 것은?
① 민감도가 1, 특이도가 0인 점을 지난다.
② 민감도가 0, 특이도가 1인점을 지난다.
③ 가장 이상적인 그래프는 민감도가 1, 특이도가 1인 점을 지난다.
④ 특이도가 증가하는 그래프이다.
④ 특이도가 증가하는 그래프이다.
68. A상품에 대한 인지도 조사결과가 아래와 같을 때, 이에 대한 설명으로 옳은 것은?
알고있음 | 모름 | 합계 | |
아이가 있는 남자(명) | 460 | 40 | 500 |
아이가 없는 남자(명) | 440 | 60 | 500 |
합계 | 900 | 100 | 1000 |
① A제품을 알고있을 확률은 0.90이다.
②아이가 있는 남자이면서 A제품을 모르고 있을 확률은 0.04이다.
③ 아이가 없는 남자이면서 A제품을 모르고 있을 확률은 0.06이다.
④ 아이가 있는 남자 중에서 A제품을 알고 있을 확률은 약 0.92이다.
※중복 정답
① A제품을 알고있을 확률은 0.90이다.
④ 아이가 있는 남자 중에서 A제품을 알고 있을 확률은 약 0.92이다.
69. 다음 관측값에 대한 설명으로 옳지 않은 것은?
54, 46, 60, 40 |
① 기대빈도 50
②비율이 p1 = p2 = p3 = p4 = 1/4
③ 카이제곱 값이 4.64
④ 카이제곱(3) = 7.8이라면, 귀무가설을 기각한다.
④ 카이제곱(3) = 7.8이라면, 귀무가설을 기각한다.
70. 포아송 분포가 맞는지 적합도 검정을 한다면 보기중 가장 알맞는 것은?
① 연속형 확률 분포에서 주로 사용한다.
② 유의 수준은 사용하지 않는다.
③ P-value가 유의수준보다 작으면 귀무가설을 기각한다.
④ 람다는 어떤 일정 시간과 공간의 구간 안에서 발생한 평균 사건 수를 의미하지 않는다.
71. 비교 그래프가 아닌것은?
① 막대그래프
② 레이더차트
③ 히트맵
④ 산점도
④ 산점도
72. K-fold CV에 대한 설명 중 옳지 않은 것은?
① 검증, 훈련, 테스트 데이터로 이루어져 있다.
② k=3 이상만 가능
③ k개의 균인한 서브셋
④ k-1개의 부분집합을 학습데이터로 사용
② k=3 이상만 가능
73. 누적 히스토그램에 대한 설명으로 가장 알맞은 것은?
① 범주형과 수치형 모두의 분포를 알 수 있다.
② 히스토그램의 y축을 평균으로도 나타낼 수 있다.
③ 계급수를 잘 정해야 정확한 분포 파악이 가능하다.
④ 누적확률분포표는 누적확률밀도함수와 비슷한 형태를 보인다.
③ 계급수를 잘 정해야 정확한 분포 파악이 가능하다.
74. 과대적합일 때 대응방법이 아닌 것은?
① Regularization
② Batch Nomalization
③ Drop-out
④ Max Pooling
④ Max Pooling
75. 회귀분석 log(odds) = a + bx 설명으로 가장 거리가 먼것은?
① a,b 둘다 0이면 y확률 0이다.
② Log 연산을 통해 0에서 1사이의 Logit을 획득한다.
③ 오즈(Odds)는 클래스 0에 속하는 확률에 대한 클래스 1에 속하는 확률의 비이다.
④ 승산비(Odd Ratio)사건이 발생한 확률과 발생하지 않을 확률 간의 비율이다.
① a,b 둘다 0이면 y확률 0이다.
76. 혼돈행렬에서의 FN 해석에 대한 것으로 알맞은 것은?
① 예측값 False 실제값 False
② 예측값 False 실제값 True
③ 예측값 True 실제값 False
④ 예측값 True 실제값 True
② 예측값 False 실제값 True
77. 데이터 불균형이 있을 경우 사용하는 평가지표로 옳지 않은 것은?
① 민감도
② 정확도
③ 오분류율
④ ROC곡선
② 정확도
78. 보고서 작성시 방법으로 가장 거리가 먼 것은?
① 전문용어를 많이 사용한다.
② 쉽게 이해할 수 있도록 작성한다.
③ 비즈니스에 사용할 수 있도록 한다.
④ 보고서를 통해 성과 기준과 기여도를 표현할 수 있도록 한다.
① 전문용어를 많이 사용한다.
79. 회귀계수의 유의성 검정? (유사한 유형)
어느 중학교에서 1학년 학생들의 키의 차이가 2학년이 되면 더 커질 것이라고 예상된다. 1학년에서 6명을 뽑고, 2학년에서 8명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 10.0이었고 2학년의 분산은 50.0이었다. 두 모집단의 분산은 같다고 볼 수 있을까?
a=0.05에서 검정해보자.
① F통계량, p-value < 유의수준, 귀무가설 채택
② F통계량, p-value < 유의수준, 귀무가설 기각
③ 카이제곱, p-value < 유의수준, 귀무가설 채택
④ 카이제곱, p-value < 유의수준, 귀무가설 기각
② F통계량, p-value < 유의수준, 귀무가설 기각
80. 분석모형 리모델링 및 활용 과정별 명칭과 그 내용에 대하여 잘못짝지어진 것은?
정의 → 표준화 → ( ) → 일반화
① 정규화
② 최적화
③ 합리화
④ 중복제거
② 최적화
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제 (0) | 2022.10.01 |
---|---|
빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 변수 변환 방법과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 2021년 2회차 기출문제 (2) | 2022.09.30 |