최근 글
-
1. 생성형 AI 입문
파인튜닝 vs RAG, 헷갈릴 때 딱 필요한 정리 가이드
파인튜닝 vs RAG — 언제, 무엇을, 어떻게 선택해야 할까요?대규모 언어 모델(LLM)을 실제 업무나 서비스에 적용하시다 보면 꼭 고민하게 되는 질문이 있습니다."이건 파인튜닝을 해야 할까, 아니면 RAG로도 충분할까?"이 두 개념은 단순한 기술 선택 그 이상입니다.먼저 핵심적인 차이를 짚고 가겠습니다.RAG는 '아키텍처 개념' 또는 '시스템 구성 방식'**에 가깝고,파인튜닝은 RAG 시스템 내에서 활용될 수 있는 'LLM 자체를 학습시키는 방식입니다.쉽게 말해, RAG는 정보를 ‘찾아와서’ 답하는 구조이고, 파인튜닝은 정보를 ‘기억해서’ 답하게 만드는 구조입니다.1. 파인튜닝(Fine-tuning): 모델에게 특정 지식을 ‘내재화’시키는 방식▶ 개념LLM에 특정 도메인의 데이터를 추가 학습시켜, 모..
-
1. 생성형 AI 입문
RAG 질의응답 파이프라인: 유사도 검색부터 LLM 응답까지
앞서 우리는 RAG 시스템의 인덱싱 파이프라인을 정리해봤습니다. 이번에는 사용자가 질문을 던졌을 때, RAG 시스템이 어떤 과정을 거쳐 답변을 만들어내는지를 정리해보려 합니다.즉, "질문 → 정보 검색 → LLM 답변 생성"이라는 흐름이 어떻게 작동하는지를 8단계로 나누어 설명드리겠습니다.1. 사용자 질문 (User Query)설명: 모든 RAG 질의응답은 사용자 질문으로 시작됩니다. 질문은 자연어 그대로 입력됩니다.예시:“최근 회사 빅데이터 플랫폼의 주요 개선 사항은?”“2024년 데이터 관리 정책 변경 사항에 대해 알려줘”이 단계는 간단해 보이지만, 이후 과정의 품질을 좌우합니다. 질문이 구체적일수록 더 정확한 답변이 가능하죠.2. 질문 임베딩 (Query Embedding)설명: 질문을 컴퓨터가 이..
-
1. 생성형 AI 입문
RAG 인덱싱 파이프라인 : 청킹과 임베딩 핵심 이해
회사에서 자주 언급되는 RAG 아키텍처, 그래서 직접 정리해봤다요즘 우리 회사에서도 RAG(Retrieval-Augmented Generation) 아키텍처가 중요한 시스템 구성 요소로 자주 언급됩니다. "앞으로 데이터 기반의 지식 활용은 다 저걸로 가지 않을까?" 싶을 정도로 회의나 문서에서 등장 빈도가 많아졌고, 저 역시 자연스럽게 관심을 갖고 학습하게 됐습니다.이 글은 그 과정을 정리한 내용입니다. 전문가처럼 이론을 파고들기보다는, RAG가 어떻게 작동하고 어떤 흐름으로 구현되는지 실무자의 시선에서 풀어보려 합니다.RAG에서 가장 핵심이 되는 인덱싱 파이프라인RAG 시스템이 질문에 답하기 위해서는 사전에 ‘지식’을 잘 정리해 두어야 합니다. 이때 사용하는 것이 RAG 인덱싱 파이프라인인데요, 이 파..
-
1. 생성형 AI 입문
생성형 AI가 데이터 엔지니어에게 주는 기회
생성형 AI, 데이터 엔지니어에게 어떤 기회를 줄까?ChatGPT 이후 생성형 AI 기술은 빠르게 확산되었습니다.자연어로 질문하면 사람처럼 대답해주는 서비스는 이제 더 이상 낯설지 않습니다.이러한 변화는 개발자나 기획자뿐만 아니라, 데이터 엔지니어에게도 새로운 가능성과 기회를 제공하고 있습니다.지금은 데이터 엔지니어의 역할이 확장되는 전환점이라고 볼 수 있습니다.1. 데이터 엔지니어의 역할, 더 넓어지고 있습니다생성형 AI는 단독으로 작동하지 않습니다.RAG(Retrieval-Augmented Generation), 벡터 DB, LLM 튜닝, 데이터 파이프라인 등 다양한 기술이 유기적으로 연결되어야 제대로 동작합니다.이 과정에서 데이터 엔지니어가 다뤄온 수집, 정제, 적재, 변환 작업은이제 단순한 준비 ..
-
2. 데이터 엔지니어링
[Redshift]테이블 컬럼 정보 조회(컬럼desc, PK, 컬럼 사이즈 등)
안녕하세요. 잇킹 시도르입니다. 프로젝트를 진행하다 보면 문서 작성이나, 원천 시스템 분석을 위해서 테이블 스키마 조회를 자주 하게 됩니다. 이때 테이블 정보를 조회하기 위해서 각 DBMS들의 메타 테이블을 조회하는 쿼리를 자주 사용합니다. 오라클이면 ALL_TAB_COLUMNS과 같은 시스템 테이블이나 VIEW, MYSQL/MariaDB는 information_schema의 테이블을 이용해서 스키마 정보를 조회하기 위한 쿼리를 짜게 되죠. Postgresql을 기반으로 하는 Redshift도 마찬가지로 스키마 메타 데이터를 저장하는 테이블이 있으며, 데이터베이스 개발자 안내서를 확인해보니 시스템 카탈로그 테이블이라고 하네요. docs.aws.amazon.com/ko_kr/redshift/latest/d..