본문 바로가기

전산 필기 시험/빅데이터분석기사, AI 용어30

빅분기 4회 기출문제 풀이 (1단원) 빅데이터 분석 기획 가트너가 정의한 빅데이터 처리 플랫폼 특징 3V Volume(규모), Veolocity(속도), Variety(다양성) 정형데이터와 비정형데이터와 관련된 설명 지정된 행과 열에 의해 데이터 속성이 구별되는 스프레이드 시트 1제타 바이트에 1byte의 아스키 코드 KB - MB - GB - TB - PB - EB - ZB(2의 70승) - YB 인메모리 기반의 데이터 처리와 연관된 오픈소스 프로젝트 (데이터 분산 처리 시스템) 스파크 데이터 플로우를 처리하는 스크립트 언어, 복잡한 맵리듀스 프로그래밍 대체 피그(Pig) 하둡 기반의 데이터웨어 하우스 하이브(Hive) 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고, 내부 시스템으로 전달하는 미들웨어 API .. 2023. 5. 16.
지지도, 신뢰도 https://swingswing.tistory.com/m/33 데이터마이닝_연관규칙(Association)_지지도, 신뢰도, 향상도, Apriori, 빈발항목▣ 연관규칙(Association)_지지도, 신뢰도, 향상도, Apriori, 빈발항목 - 항목들 간의 관계를 얻기 위해 한 항목의 존재가 다른 항목의 존재를 암시하는 조합을 발견하는 분석 방법 - 동시에 발생한 사swingswing.tistory.com 2023. 5. 13.
베이즈 정리(Bayes’ theorem)_빅데이터분석 베이즈 정리(Bayes’ theorem) : 두 확률변수(A,B)의 사전확률과 사후확률 사이의 관계를 나타내는 정리 베이즈 정리 기반의 지도 학습 분류 모델로 나이브 베이즈(Naïve Bayes) 모델이 있음 𝑃(𝐴|𝑋,𝑌) = 𝑃(𝑋,𝑌 |𝐴)∙𝑃(𝐴) / 𝑃(𝑋, 𝑌) = 𝑃(𝑋|𝐴)∙𝑃(𝑌|𝐴)∙𝑃(𝐴) / 𝑃(𝑋) ∙ 𝑃(𝑌) (문제) 순수베이지안분류 훈련용데이터로 순수베이지안분류기 적용 Yes no yes 일때 클래스 확인 ㄱ. P(A|M) 확률, P(A|N) 확률 ㄴ. P(A|M)P(M) 확률, P(A|N)P(N) 확률 ㄷ P(A|M) > P(A|N) 이므로 mammals ㄹ P(A|M) P(A|N)(N) 이므로 mamma.. 2023. 5. 7.
머신러닝 분류모델 평가(정밀도, 재현율, f1-score 등) * (목표) : 정밀도, 재현율, f1-score 계산 가능하도록 수식 정리 및 암기 정확도(Accuracy) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표이다. 정확도(Accuracy) = (예측 결과가 동일한 데이터 건수) / (전체 예측 데이터 건수) 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표이다. 하지만 이진 분류의 경우 데이터의 구성에 따라 모델 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 않는다. 예를 들어 캐글(Kaggle)의 타이타닉(Titanic)데이터 로 비유를 해보겠다. 먼저 성별(Sex)에 따라 남성은 생존할 확률 30% 여성이 생존할 확률 70% 라고 했을때 정확도를 사용하게 무조건 여성이 생존할 확률에 투표를 한다.. 2023. 1. 10.