본문 바로가기

IT/Data

빅데이터 기본 용어 정리

안녕하세요. 잇킹 시도르입니다.

요즘은 사실 빅데이터가 기본이 되어버린 시대입니다. 모든 건 빅데이터가 시작이죠. 데이터를 어떻게 활용하냐에 따라 데이터 분석부터 AI까지 활용되고, 수단으로 클라우드가 뜨는 시대에서 핵심은 데이터입니다.

그러다 보니 이전과는 다른 용어가 일상적으로 쓰이고 있습니다. 회의를 하면서 같은 용어를 서로 다르게 이해하거나, 선배들이 단어의 의미를 풀어서 회의 진행을 하지는 않으니깐요. 기본 용어를 정리하는 시간을 가지려고 합니다. 이 단어를 이해하고 있어야 빅데이터 학습이 가능할 테니깐요.

 

1. Cluster(클러스터)

여러 대의 컴퓨터를 연결되어서 하나의 시스템처럼 동작하는 컴퓨터들의 집합.

하둡 클러스터가 예시이겠네요.

 

2. Job / Task

Hadoop MapReduce 실행 시, 전체 프로세스는 Job입니다.

하나의 Job에서 Map과 Reduce가 반복되는데, 단위 Map과 Reduce를 Task라고 합니다.

 

3. Node(노드)

클러스터 내에서 컴퓨터(서버) 한대를 말합니다. HDFS에서 네임 노드냐 데이터 노드냐 말할 때 결국 클러스터에 속한 하나의 서버 역할이 어떻게 되냐를 의미합니다.

 

4. MPP(Massively Parallel Processing)

OS와 메모리가 분리된 독립적인 다수 서버 상의 병렬 처리입니다.

 

5. SMP(Symmetrically Parallel Processing)

한 서버 내에서 다수 CPU 상의 병렬 처리입니다. 즉 기존 서버의 멀티 태스킹을 의미합니다.

MPP와 SMP는 서로 반대되는 개념입니다.

 

6. Workflow

문서, 정보, 태스크가 한 사용자(어플리케이션)에서 다른 사용자로 일련의 업무 절차 규칙에 의한 처리를 위해 전달되는 비즈니스 프로세스의 자동화를 의미합니다. 

<출처 : 정보통신기술용어 해설>

 

7. HA(High Availablilty) 

고가용성. A 노드가 장애가 발생했을 시에 대기 중인 B 노드로 교체되는 것을 의미합니다.

HDFS는 데이터 노드와 달리, 네임 노드를 매우 중요합니다. 그래서 네임노드 장애에 대한 대처로 Standby NameNode가 대기하고 있어서, 변경 로그가 동기화되고 있습니다. 그래서 네임노드 장애 발생 시에도 무중단 서비스를 제공한다고 하네요.

 

8. 데이터 마트

데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터들을 담은 작은 규모의 데이터 웨어하우스입니다. 데이터 웨어하우스가 통합의 개념이라면 마트는 요약이죠. 그래서 마트는 일부 데이터를 가지고 특정 사용자를 대상으로 합니다.

 

9. 데이터 마이닝

데이터에서 유용한 정보를 찾아내는 과정입니다.

 

이상입니다.