본문 바로가기

IT/Data

(4)
빅데이터 저장 시에 파케이(parquet)의 장점 안녕하세요. 잇킹 시도르입니다. AWS를 활용한 빅데이터 프로젝트를 하면서 S3에 저장한 파일을 Athena(Presto 기반 SQL 조회서비스)로 조회하거나, Spark를 이용한 데이터 처리를 했었습니다. 이때 S3에서는 파케이(Parquet)로 저장 포맷을 가져가는 게 유리하다는 것을 알 수 있었습니다. 프로젝트 시에는 유리하다는 것만 알고 사용하기만 했었는데, 유리한 이유에 대해서 알아야 할 듯해서 정리하게 되었습니다. 파케이는 컬럼 기반으로 저장하는 파일 포맷 중에 하나입니다. 파케이 외에도 ORC라고 하는 파일 포맷도 존재합니다. ORC는 하이브에 최적화된 포맷이고, 파케이는 Spark에 최적화된 포맷이라고 합니다. 그렇다면 빅데이터에서 컬럼 기반의 파일 포맷이 인기 있는 이유가 무엇일까요? 빅..
빅데이터 기본 용어 정리 안녕하세요. 잇킹 시도르입니다.요즘은 사실 빅데이터가 기본이 되어버린 시대입니다. 모든 건 빅데이터가 시작이죠. 데이터를 어떻게 활용하냐에 따라 데이터 분석부터 AI까지 활용되고, 수단으로 클라우드가 뜨는 시대에서 핵심은 데이터입니다.그러다 보니 이전과는 다른 용어가 일상적으로 쓰이고 있습니다. 회의를 하면서 같은 용어를 서로 다르게 이해하거나, 선배들이 단어의 의미를 풀어서 회의 진행을 하지는 않으니깐요. 기본 용어를 정리하는 시간을 가지려고 합니다. 이 단어를 이해하고 있어야 빅데이터 학습이 가능할 테니깐요. 1. Cluster(클러스터)여러 대의 컴퓨터를 연결되어서 하나의 시스템처럼 동작하는 컴퓨터들의 집합.하둡 클러스터가 예시이겠네요. 2. Job / TaskHadoop MapReduce 실행 시..
DBMS별 Schema(스키마) 와 Database와 차이점 안녕하세요. 잇킹 시도르입니다. 최근에 회의를 하면서 저를 혼동시킨 용어가 있었습니다. 바로 '스키마!!!!' 원천 시스템의 데이터베이스 분석 미팅을 가지는데, 동료는 스키마라고 표현을 하다 보니 응? 이게 맞는 건가? 라는 생각이 들었습니다. 이전에도 다른 분들이 회의에서 스키마를 데이터베이스와 같은 의미로 언급을 하는 경우가 있었습니다. 하지만 그때는 대충 어떤 것을 말하는지 아니깐 넘어갔는데, 이번에는 이게 정확한건가 라는 의문이 계속 들더라고요. 가끔 그런날 있잖아요. 먼가에 확 꽂히는 날이... 그래서 이번에 스키마의 의미와 데이터베이스와의 차이를 아예 정리하자 라는 생각을 가지게 되었죠. 결론부터 말하면 DBMS마다 달랐습니다. 저는 이전에 오라클을 주로 다루고, 동료들은 mariaDB를 이전..
데이터에서 최종 일관성이란? 안녕하세요. 잇킹 시도르입니다. 작년부터 업무로 인해서 AWS 사이트에서 서비스 설명이나 개발자 안내서를 주로 참고하고 있습니다. 그러다 보니 간혹 이해가 잘 되지 않는 개념들이 있어서 글을 남기려 합니다. AWS S3 데이터 일관성 모델의 특징을 보면 "Amazon S3은 모든 리전의 S3 버킷에 있는 새 객체의 PUT에 대해 한 가지 주의 사항을 제시함으로써 읽기 후 쓰기 일관성을 제공합니다. 주의할 점은 객체를 만들기 전에 (객체가 있는지 찾기 위해) 키 이름에 HEAD 또는 GET 요청을 하는 경우 Amazon S3가 읽기 후 쓰기에 대한 최종 일관성을 제공하는 것입니다. Amazon S3은 모든 리전의 덮어쓰기 PUT 및 DELETE에 대한 최종 일관성을 제공합니다." 라고 설명하고 있습니다. ..