본문 바로가기
Analytics/Data Lake

용어정의 - Data Lake (DW, ODS, ELT, Data Mesh)

by Write the Story of Your Life 2020. 12. 9.

데이터레이크 라는 용어는 Pentaho의 CTO였던 Jame Dixon이 2010년에 자신의 블로그에 개념을 설명하면서 시작되었습니다.(링크) 그는 Pentaho의 Hadoop 지원 릴리스를 소개하며 기존 DW에서 정제된 데이터는 이미 정의된 질문에만 답변할 수 있어서 다양한 정보를 알기위한 가시성을 해친다고 기술합니다.

그러면서, 아래와 같은 얘기로 마무리 합니다.
If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake and various users of the lake can come to examine, dive in, or take samples.

"데이터 마트를 생수 저장소(정제되고 쉽게 소비될 수 있는 구조)라면 데이터 레이크는 보다 자연 상태의 큰 수원입니다. 다양한 소스로부터 유입되어 호수를 채우고, 다양한 사용자가 다이빙 또는 샘플 채취를 할 수 있습니다.(데이터 분석을 의미함)"

첨언을 드리면, 분석가가 어떤 분석을 할지 모르는데 원래 소스를 그대로(1:1) 가져다놓고 자유롭게 분석하자는 것입니다. 소스를 1:1로 가져다 놓는 것을 ELT(Extract, Load, Transform) 이라고도 표현합니다. 데이터를 변환해서 적재하는 ETL(Extract, Transform, Load)은 변환처리를 하느라 데이터 적재에 시간이 걸리고, 실시간/준시간의 분석을 방해하게됩니다. ELT를 하면 일단 소스와 동일한 적재를 하면서 적재시간을 줄이면서도 분석가가 어떤 분석을 하더라도 다시 소스에 가서 데이터를 가져올 일이 없다는 것입니다.

이런 Data Lake의 개념은 Hadoop이 적은 비용으로 안전하게 대용량을 저장/분석 할 수 있는 환경을 제공한다는 컨셉으로 발전하게 됩니다. (현재는 Data Lake를 도입하는 고객이 Hadoop을 새로 도입한다면 필수가 아니며, 비용도 저렴하지 안습니다만...)
실은 DW 환경에서도 ODS(Operational Data Store)라는 개념으로 Data Lake 비슷한 개념이 있었습니다. 다만, ODS는 몇개월만 가져가는 형태의 임시 저장소 였습니다.

Data Lake가 10년전 개념이다보니 최근에는 Data Mesh 라는 개념이 나오고 있습니다. (링크)
기존은 DW/Data Lake는 중앙집중식 관리 형태라면 최근 모든 application이 cloud화 되고, 그러면서도 데이터는 로컬있는 등의 데이터 연결/관리/지원의 복잡성을 해결 하기위해서 추상화된 연결 계층을 둡니다. 그러면서 여러 사일로에 보관된 데이터를 연결하는데 도움을 주게됩니다. 즉, 데이터의 다양한 위치와 조직에게 분산된 데이터를 연결하는데 필요한 서비스 입니다.

얘기가 어렵지만 결국은 서비스가 다양화되면서 데이터 사일로화 되고 증앙에서 관리할 수 없는 형태로 되가는데 이를 해결하기 위해서는 중앙화 하는데 비용과 서비스 문제가 발생하니.... 서비스에 문제 없도록 다양한 데이터 소스를 단일 저장소로 통합하지 안고도, 보안에 문제없이 데이터 분석을 할 수 있게 하는 기술을 의미합니다.

반응형