본문 바로가기
Analytics/Data Lake

정형(structured) 및 비정형(unstructured) 데이터의 의미

by Write the Story of Your Life 2023. 1. 28.

구조화된 데이터(structured data)는 관계형 데이터베이스의 데이터와 같이 구성되고 특정 형식을 따르는 데이터를 의미합니다. 일반적으로 데이터가 열과 행으로 구성되고 각 행에 특정 필드 집합이 있음을 의미하는 잘 정의된 스키마가 있습니다. 이 데이터는 SQL과 같은 도구를 사용하여 쉽게 검색, 정렬 및 분석할 수 있습니다. 구조화된 데이터의 예로는 CRM 시스템의 고객 정보, 은행 시스템의 금융 거래 또는 제조 시스템의 재고 수준이 있습니다.

반면, 비정형 데이터(unstructured data)는 특정 형식이나 구조가 없는 데이터를 말합니다. 일반적으로 조직화되지 않았으며 기존의 관계형 데이터베이스에 적합하지 않습니다. 비정형 데이터의 예로는 텍스트 문서, 이미지, 비디오, 오디오 파일 및 소셜 미디어 게시물이 있습니다. 이러한 유형의 데이터는 미리 정의된 스키마가 없기 때문에 검색, 정렬 및 분석하기가 더 어려운 경우가 많습니다.

최근에는 인터넷에서 생성되는 데이터의 증가로 비정형 데이터가 부각되고 있다. 비정형 데이터에서 인사이트를 추출하는 능력은 점점 더 중요해졌으며 대량의 비정형 데이터를 처리하고 분석하도록 설계된 Hadoop 및 Spark와 같은 빅 데이터 기술의 개발로 이어졌습니다.

반구조화된 데이터(semi-structured data)도 데이터 유형이며 구조가 있지만 구조화된 데이터와 같이 엄격하게 정의되지 않은 데이터입니다. 반구조화된 데이터의 예로는 JSON, XML 및 CSV가 있습니다.

반응형