본문 바로가기
전산 관련 시험/빅데이터분석기사, AI 용어

데이터 종류 - 정형 데이터, 반정형 데이터, 비정형 데이터

by 응_비 2022. 9. 26.

https://computer-science-student.tistory.com/471

 

데이터 종류 - 정형 데이터, 반정형 데이터, 비정형 데이터

데이터 종류 일반적으로 데이터는 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터로 분류할 수 있다. 정형 데이터(Structured Data) 정형 데이터는 구조화된 데이터, 즉 미리 정해진 구조에

computer-science-student.tistory.com

정형 데이터(Structured Data)

정형 데이터는 구조화된 데이터, 즉 미리 정해진 구조에 따라 저장된 데이터다. 표 안에서 행과 열에 의해 지정된 각 칸에 데이터를 저장하는 엑셀의 스프레드 시트, 관계 데이터베이스의 테이블이 대표적인 예시이다.

정형 데이터는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터입니다.


지정된 행과 열에 데이터가 구별되어 입력되어 있으며 관계형 데이터 베이스(RDMS)의 테이블 형태로 저장됩니다.

정해진 형식과 저장 구조를 바탕으로 손쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있어 주로 정형화된 업무 또는 서비스에 사용합니다.

반정형 데이터(Semi-Structured Data)

반정형 데이터는 구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재한다. 그렇기 때문에 데이터 내용에 대한 설명인 구조를 파악하는 파싱 과정이 필요하고, 보통 파일 형태로 저장된다. 반정형 데이터의 예시로 웹에서 데이터를 교환하기 위해 작성하는 HTML, XML, JSON 문서나 웹 로그, 센서 데이터 등이 있다.

반정형 데이터는 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터로, 데이터의 형식과 구조가 변경될 수 있는 데이터입니다.

정형 데이터와 같이 테이블의 행과 열로 구조화되어 있지는 않으나 스키마 및 메타데이터 특성을 가지고 있으며, 주로 XML, HTML, JSON 등의 파일 형태로 저장됩니다.

 

 

비정형 데이터(Unstructured Data)

비정형 데이터는 정해진 구조가 없이 저장된 데이터다. 소셜 데이터의 텍스트, 이미지, 영상, 워드나 PDF 문서와 같은 멀티미디어 데이터가 대표적인 예다. SNS 이용률이 크게 높아지면서 실시간으로 많은 양의 비정형 데이터가 생산되고 있다.

비정형 데이터는 정의된 구조가 없는 동영상 파일, 오디오 파일, 사진, 보고서, 메일 본문 등과 같이 정형화되지 않은 데이터입니다. 정형 데이터와 반대로 형태가 없고 연산할 수 없는 데이터입니다.


비정형 데이터는 데이터 구조가 없어 내용에 대한 질의 처리를 할 수 없으므로 데이터 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리 과정이 필요합니다.

페이스북, 트위터 등 웹에서 폭발적으로 생성되고 있는 비정형 데이터는 그 내용을 통해 비즈니스 미래를 예측할 수 있다는 점에서 빅데이터 시대의 주목을 받고 있습니다.


https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=zalesia2020&logNo=222148881355

 

정형 데이터 비정형 데이터, 반정형 데이터 개념

빅데이터 시대에는 방대한 양의 데이터가 아주 빠른 속도로 생성되므로 데이터를 수집하고 분석하는 과정이...

blog.naver.com

 

댓글