IT (16) 썸네일형 리스트형 빅데이터 저장 시에 파케이(parquet)의 장점 안녕하세요. 잇킹 시도르입니다. AWS를 활용한 빅데이터 프로젝트를 하면서 S3에 저장한 파일을 Athena(Presto 기반 SQL 조회서비스)로 조회하거나, Spark를 이용한 데이터 처리를 했었습니다. 이때 S3에서는 파케이(Parquet)로 저장 포맷을 가져가는 게 유리하다는 것을 알 수 있었습니다. 프로젝트 시에는 유리하다는 것만 알고 사용하기만 했었는데, 유리한 이유에 대해서 알아야 할 듯해서 정리하게 되었습니다. 파케이는 컬럼 기반으로 저장하는 파일 포맷 중에 하나입니다. 파케이 외에도 ORC라고 하는 파일 포맷도 존재합니다. ORC는 하이브에 최적화된 포맷이고, 파케이는 Spark에 최적화된 포맷이라고 합니다. 그렇다면 빅데이터에서 컬럼 기반의 파일 포맷이 인기 있는 이유가 무엇일까요? 빅.. [네트워크]IP 클래스(A ,B ,C 클래스란?)와 서브넷 마스크 안녕하세요. 잇킹 시도르입니다. 최근에서 프로젝트에서 인프라 담당자들끼리 VPC IP를 C클래스로 하겠다 B클래스로 한다 등의 말을 나누는 것을 들었습니다. IP 클래스가 무엇인지, 어떤 목적을 가지는지 몰랐었는데요. 이번에 그 의미를 알아보게 되었습니다. IP는 네트워크와 호스트 부분으로 나누어져 있습니다. https://sidorl.tistory.com/30?category=859284 IP 표기 보고 사용가능한 IP 수 알아내기 안녕하세요. 잇킹 시도르입니다. 시스템을 운영하거나 프로젝트를 마무리하게 되면 정리할 문서도 많고 응대할 내용도 많습니다. 특히 저는 네트워크 관련 지식이 적어서 해당 내용을 담당자에 sidorl.tistory.com 이때 IP에서 어디까지 네트워크 영역이고 어디부터 호스트.. CLI vs SDK vs 콘솔 안녕하세요. 잇킹 시도르입니다. 클라우드를 제어할 수 있는 인터페이스에는 API, CLI, SDK, 콘솔의 네 종류가 있습니다. CLI/SDK/콘솔은 내부적으로 API를 사용해서 제어를 하게 되어, 실제로는 같은 기능을 하고 있습니다. CLI Command Line Interface. 커맨드 창으로 제어할 수 있는 사용자 인터페이스입니다. 흔히 알고 있는 프롬포트 창이라고 생각하면 될 듯합니다. 일반적으로 가장 익숙하지 않은 인터페이스로 생각됩니다. AWS는 AWS CLI(명령줄 인터페이스)와 윈도우 기반인 Windows Powershell을 제공합니다. 그 외에도 대부분의 클라우드 서비스는 기본적으로 CLI를 제공하고 있습니다. SDK Software Development Kit. 각종 프로그램 언어를.. FQDN, DNS 라운드 로빈과 가상 호스트 안녕하세요. 잇킹 시도르입니다. 이번에는 클라우드 학습을 위해 알아야 할 몇 가지 웹의 기본 내용에 대해 정리하려고 합니다. FQDN(Fully Qualified Domain Name) 도메인은 사람이 쉽게 식별할 수 있도록 만들어진 것으로 실제 TCP/IP 주소 통신을 할 때 도메인과 IP 주소 사이의 변환 기능을 해주는 것이 DNS입니다. https://sidorl.tistory.com/36?category=859284 프로토콜과 포트, DNS 안녕하세요. 잇킹 시도르입니다. 인프라 학습을 한다고 했는데, 자꾸 다른 것을 본다고 요즘 못했네요. 오늘은 포트와 프로토콜, DNS에 대해 학습했던 것을 정리하도록 하겠습니다. 프로토콜 컴퓨터 데이터 통신은.. sidorl.tistory.com 도메인을 볼 .. [Cloud]블록 스토리지와 오브젝트 스토리지 안녕하세요. 잇킹 시도르입니다. 오늘은 클라우드 스토리지에 대해서 알아보려고 합니다. 크게 블록 스토리지와 오브젝트 스토리가 있습니다. 블록 스토리지 블록 스토리지는 앞에서 언급했던 이페머럴(Ephermeral) 디스크와는 반대로, 인스턴스 종료 시에도 계속 내용을 보존하는 스토리지입니다. AWS에서는 EBS(Elastic Block Storage)로 부르고 있습니다. 이페머럴 디스크는 AWS에서는 인스턴스 스토리지라고 부릅니다. 블록 스토리지는 크게 볼륨과 스냅샷 두 종류로 구분되며, 실제 블록 스토리 관련 글들을 보다 보면 자주 언급되는 용어들입니다. 볼륨은 실제 서버에 연결되는 디스크를 의미하고, 디스크가 물리적으로 삭제되거나 고장이 나지 않는 한 데이터가 지워지지 않으며 이는 휘발되지 않는다라고 .. 이전 1 2 3 4 다음