본문 바로가기

전산 관련 시험/빅데이터분석기사, AI 용어29

확률분포 - 포아송분포 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포 - 단 시간 안에 어떤 사건이 몇번 발생할 것인지 표현한 분포 - 이항분포와 비슷하지만 포아송 분포는 시행횟수 n이 일반적으로 크면서 사건의 발생확률 P가 매우 작은 경우 사용 기댓값과 분산이 동일 E(X) = Var(X) = λ https://soohee410.github.io/discrete_dist3 2022. 9. 29.
앙상블(Ensemble) 기법 - 배깅(/보팅), 부스팅, 랜덤포레스트 앙상블 기법 : 주어진 자료로부터 여러개의 예측모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측모형을 만드는 방법 ex) 배깅, 부스팅, 랜덤포레스트(배깅과 임의선택을 결합한 앙상블 방법) 1) 배깅(Bagging) : 주어진 자료에서 여러개의 부스트랩 자료를 생성하고, 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법 - 샘플을 여러 번 뽑아 학습시킨 모델들의 결과물을 집계하여 결과값 출력 - 서로 같은 알고리즘 투표 - Bootstrap Aggregation의 약자 보팅(Voting) : 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정하는 과정 - 서로 다른 알고리즘 투표 2) 부스팅(Boosting) : 예측력이 약한 모형들을 결합하여 강한 .. 2022. 9. 29.
개인정보, 가명정보, 익명정보 1) 개인정보 [개인정보 보호법] "개인정보"란 살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보 2) 가명정보 - 추가정보 사용 -> 식별 가능 - 개인정보의 일부를 삭제하거나 일부 또는 전체를 대체하는 등의 방법으로 추가정보를 사용하지 않고서는 특정 개인을 식별할 수 없는 정보 - 가목 또는 나목을 제1호의2에 따라 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용ㆍ결합 없이는 특정 개인을 알아볼 수 없는 정보(이하 "가명정보"라 한다) - "가명처리"란 추가정보를 사용하지 아니하고는 특정 개인인 신용정보주체를 알아볼 수 없도록 개인신용정보를 처리 3) 익명정보 추가정보 사용 -> 식별 불가능 - 개인을 특정할 수 있는 핵심 식별 정보를 철저히 제거하여 추가정보를 .. 2022. 9. 29.
머신러닝 데이터 모델링 방법 - 지도학습, 비지도학습, 강화학습 1) 지도학습 : (입력, 출력) 입력 데이터와 원하는 출력값을 모두 제공하면서 기계를 훈련시키는 방법 ex) 통계적 분류, 회구 2) 비지도학습 : (입력, ) 자율학습, 데이터에 표식이 붙어 있지 않는 경우로 학습 데이터 없이 입력 데이터만을 이용하여 학습하는 형태 정확한 답이 없어도 기계가 자체적으로 데이터 속의 패턴을 찾아내고 의미를 추론해야 함 ex) 군집화, 차원축소, 연관성 분석 3) 강화학습 : (입력, , 보상) 주어진 입력값에 대한 출력값의 정답이 주어지지 않은 상황에서 일련의 행동의 결과에 대한 보상이 주어지며, 선택 가능한 행동들 중 보상을 최대화하는 행동 또는 행동 순서를 선택하여 학습을 진행함. https://ebbnflow.tistory.com/165 [인공지능] 지도학습, 비.. 2022. 9. 29.