분류 전체보기 27

[AI 부트캠프] 과정 종료 회고

작년 11월, 패스트캠퍼스의 AI 부트캠프에 참여하기로 결심했을 때에는 사실 두려움과 기대가 반반이었다. 새로운 분야에 도전하는 만큼 기대가 되기도 했지만 내가 끝까지 이 과정을 버텨낼 수 있을지 불안하기도 했다. 그리고 어느 새 채 한 달도 남지 않은 시점이 다가왔다. 기초 파이썬 문법부터 시작해 통계학, 컴퓨터 공학, 머신러닝과 딥러닝의 전반적인 흐름, 그리고 실전에서 요구되는 MLOps, 각종 경진대회와 프로젝트들 등등 AI 실무의 전 영역을 단기간에 몰입해서 경험한 시간이었다. 강의Upstage AI 부트캠프에서 제공되는 강의는 실시간 강의와 온라인 강의 두 가지 형태로 구성되어 있다. 학습 단계에 따라 자연스럽게 학습 방식이 바뀌도록 설계되어 있었다. 초반에는 실시간 강의 비중이 높았다. 줌을..

[AI 부트캠프] 7문7답 Q&A

1. 왜 다른 부트캠프가 아닌 패스트캠퍼스 부트캠프를 선택했나요?기존에 하던 분야와는 다른 AI 개발 분야로 커리어를 전환하고자 했기 때문에 초심자도 충분히 따라갈 수 있는 커리큘럼이 가장 중요했다. 단순히 강의나 이론만 다루는 과정이 아니라 실제 업무 현장에서 쓰이는 기술을 기반으로 한 구조화된 학습이 갖춰져 있는지를 중심적으로 비교했다. 그 과정에서 여러 부트캠프를 검토해보았고, 그중 패스트캠퍼스의 AI 부트캠프는 파이썬, 머신러닝, 딥러닝, LLM, RAG 등 기초부터 심화까지 단계적으로 구성된 커리큘럼이었다. 특히 단순히 배우는 데 그치지 않고 실습과 프로젝트를 중심으로 설계되어 있어서 학습한 내용을 실전에서 바로 적용해볼 수 있는 기회가 많아 보였다. 또한, 패스트캠퍼스 AI 부트캠프가 업스테이..

[AI 부트캠프] LangChain 프로젝트

이번 AI 부트캠프에서는 LangChain을 활용한 LLM 애플리케이션 개발 프로젝트를 진행하였다. 이번 프로젝트를 통해 자연어 처리, RAG, LangChain을 활용해 딥러닝 기반 언어 모델이 실제 애플리케이션에 어떻게 적용되는지 실습을 통해 학습하는 데 중점을 두었다. 프로젝트 기간은 총 5일로, 단기간에 몰입해서 결과물을 만드는 식으로 진행되었다. 주제는 크게 두 가지로 나뉘었고, 1) Knowledge Base를 구축한 QA Engine 개발과 2) 특정 페르소나를 가지는 Agent 개발 중 같은 주제를 선택한 인원들끼리 팀이 편성되었다. 우선 1번 주제를 선택했고, 개발 과정에서 2번으로 확장 가능한 구조를 염두에 두고 있었다. QA Engine 개발 목표는 LLM API를 사용해 수집한 문서..

[AI 부트캠프] NLP 경진대회

이번 AI 부트캠프에서는 자연어처리(NLP)를 활용한 경진대회가 진행되었다. 주제는 일상 대화 요약으로, 회의나 토의, 일상적인 대화 속에서 핵심 내용을 효과적으로 요약하는 모델을 개발하는 것이 목표였다. 이번 프로젝트는 자연어처리 기반 딥러닝 모델링의 실전 경험을 쌓을 수 있는 좋은 기회였다. 데이터 구성데이터는 모두 CSV 형식으로 제공되었으며, 총 4개의 세트로 구성되어 있었다. train(12,457개), dev(499개), test(250개), hidden-test(249개). 각 대화(dialogue)는 최소 2턴, 최대 60턴으로 이루어져 있었으며, 요약(summary)은 해당 대화를 보고 생성해야 했다. 대화에는 최소 2명에서 최대 7명까지 참여하며, 발화자는 #PersonN# 형식으로 ..

[AI 부트캠프] Computer Vision 경진대회

이번 AI 부트캠프에서 진행된 프로젝트는 Computer Vision(CV) 도메인에서 가장 대표적인 태스크인 이미지 분류(Image Classification) 경진대회였다. 최근 딥러닝과 컴퓨터 비전 기술의 비약적인 발전으로 인해 이미지 분류는 다양한 산업 분야에서 실질적인 가치를 창출하고 있으며, 특히 문서 자동화, 의료 영상 분석, 제조 품질 검수 등에서 핵심 기술로 자리 잡고 있다. 이번 프로젝트에서는 그 중에서도 문서 타입을 구분하는 문서 이미지 분류 문제를 다루었으며, 이는 금융, 의료, 보험, 물류 등 산업 전반에서 디지털 전환을 위해 꼭 필요한 기반 기술이다. 실제로 많은 대기업과 공공기관에서도 방대한 문서를 자동으로 분류하여 업무 효율을 높이기 위한 인공지능 솔루션 도입이 활발히 진행되..

[강의] DL / PyTorch

두근두근 딥러닝과 파이토치의 시간. 이번 스터디 그룹에서는 공부하며 매일 TIL을 작성하다 보니 이전에 배운 내용을 쉽게 잊어버리지 않게 되었다. 설령 잊더라도 정리한 내용을 다시 보면되니 부담이 적다. 처음에는 TIL 작성 방식이 낯설었지만 점점 구조적으로 정리하는 습관이 생겨 학습 효과가 좋다. Deep Learning딥러닝의 발전 5단계SW1.0 : Rule-based programming (규칙 기반 프로그래밍)SW1.5 : Conventional machine learning (기계 스스로 특징값 판별 로직 고안)SW2.0 : Deep Learning (출력을 위한 모든 연산을 기계가 고안)SW2.5 : Pre-training & Fine-tuning (사전 학습과 미세 조정) SW3.0 : B..

Upstage AI 2025.02.10

[AI 부트캠프] MLOps 프로젝트

AI 부트캠프의 첫 팀 프로젝트로 MLOps 프로젝트를 수행했다. 이번 프로젝트는 서비스 개발과 MLOps 파이프라인 구축을 목표로 진행되었으며 MLOps 파이프라인 구축 방식은 동일하지만 서비스 주제는 세 가지 중 하나를 선택할 수 있었다. 첫째, 공공 기상 데이터를 활용한 기상 예측 서비스, 둘째, IMDB 데이터를 활용한 영화 평점 예측 서비스, 세번째 자유 주제로 선택할 수 있었다. 나는 기상 예측 서비스를 선택했고, 같은 주제를 선택한 팀원들과 팀을 이루어 프로젝트를 진행했다. 이전 경진대회는 팀 단위로 진행되었지만, 특정 역할 구분 없이 함께 문제 해결에 집중하는 방식이었다. 반면, 이번 프로젝트는 MLOps를 직접 구축하는 작업이 포함되었기 때문에 보다 체계적인 역할 분담이 필요했다. MLO..

[AI 부트캠프] Machine Learning 경진대회

이번 AI 부트캠프에서 부동산 가격 예측을 주제로 첫 번째 경진대회가 진행되었다. 대회 시작 전 조가 편성되었으며, 협업을 위해 Github를 활용한 버전 관리 및 코드 공유가 이루어졌다. 대회의 주요 과제는 서울시 아파트 실거래가 예측이었으며, 그동안 강의를 통해 학습한 Git 활용법, 머신러닝 기법 등을 실제 데이터에 적용해볼 수 있는 실전 경험이었다.  AI Stage 경진대회에서는 데이터셋, 베이스라인 코드, 튜토리얼 강의, GPU 등을 제공해주었다. 또한, 실시간 리더보드 플랫폼을 제공하여 모델 실험 결과를 즉각적으로 확인하고, 순위를 비교하며 성능을 개선할 수 있도록 지원해주었다.  대회는 Public Score와 Private Score로 나뉘며 각각 다른 방식으로 모델의 성능을 평가한다. ..

Feature Selection

Feature Selection 변수 선택학습에 필요한 변수(특성)의 중요도에 따라 변수를 선택하는 과정모델 학습에 불필요한 변수를 제거하여 효율성과 성능을 향상핵심은 변수의 중요도를 어떻게 정의하고 평가할지에 대한 방법론을 사용하는 것변수 선택을 수행하는 이유차원의 저주(Curse of Dimensionality) 해소데이터의 차원이 증가하면 학습 데이터의 희소성이 커지고, 모델의 복잡도가 증가하여 성능이 저하되는 현상불필요한 변수들을 제거함으로써 차원을 줄여 모델의 복잡도를 낮추고 성능을 향상시킴과적합(Overfitting) 완화너무 많은 변수를 포함하면 모델이 학습 데이터에 과도하게 적응하여 일반화 성능이 떨어질 수 있음중요한 변수만 선택하여 과적합 문제를 완화학습 및 추론 시간, 메모리 개선변수가..

Machine Learning 2024.12.29

Continuous Variable Transformation

연속형 변수 변환 Continuous Variable Transformation함수 변환데이터의 분포를 조정하거나 비선형 관계를 선형으로 바꾸기 위해 수학적 변환을 적용1. 로그 변환값의 범위를 축소하고, 데이터의 분포가 오른쪽으로 치우친 경우(왜도가 큰 경우) 정규분포에 가깝게 만든다.예시: 소득 분포가 고소득층에 집중된 경우 로그 변환2. 제곱근 변환데이터의 큰 값의 영향을 줄이고, 분포를 안정화한다.예시: 특정 국가의 투자 금액이 다른 국가 대비 매울 클 때3. Box-Cox 변환로그 변환, 제곱근 변환 등을 포함한 일반화된 변환 방법으로, 데이터 분포를 정규분포에 가깝게 만드는 데 사용된다.조건: 데이터가 0보다 커야 함스케일링데이터의 스케일(크기)을 조정해 변수 간의 크기 차이를 줄이고, 모델 ..

Machine Learning 2024.12.26