AI 패션 검색 엔진 · 2026

패션 이미지 하나로
최저가를 찾다

옷 한 장의 사진을 올리면 AI가 스타일을 분석하고, 유니클로·ZARA·탑텐 등 SPA 브랜드에서 가장 유사한 상품의 최저가 5곳을 실시간 비교합니다.

'극실용주의(Extreme Pragmatism)'와 '듀프(Dupe) 소비'가 급성장하는 2026년, 텍스트 검색으로 표현하기 어려운 비주얼 느낌(Vibe)을 AI 이미지 임베딩으로 정확하게 탐색합니다.

📸

이미지 업로드

착용 사진 또는
상품 이미지

🤖

AI 분석

YOLO 객체탐지
+ CLIP 임베딩

🔍

벡터 검색

Elasticsearch
KNN 유사도

💰

최저가 결과

5개 쇼핑몰
가격 비교

📌 기획 배경 — 탐색 비용 문제

기존 네이버 렌즈는 패션 특화가 아니라 유사도 정확도가 낮고 가격 비교 기능도 없습니다. '그 느낌(Vibe)'을 텍스트로 표현하기 어렵다는 소비자 Pain Point를 AI 이미지 검색으로 해결합니다.

📊 시장 근거 — 듀프 소비 급성장

트렌드 분석(노준영, 2026)에 따르면 현대 소비자는 브랜드 로고보다 실질적 가치를 중시합니다. 에이블리 '듀프족' 등장으로 SPA 시장이 전년 대비 2배 이상 성장했습니다.

🎯 차별점 — 기존 서비스 대비

① 패션 카테고리 특화 정확도 ② 이미지·자연어 복합 검색 ③ 실시간 최저가 5개 쇼핑몰 비교를 동시에 제공하는 서비스입니다.

타겟 SPA 브랜드

6종

의류 카테고리

5개

최저가 쇼핑몰 비교

AWS

g4dn.xlarge GPU 서버

Technology

시스템 아키텍처 & 기술 스택

▸ System Architecture Overview

👤 사용자 / 프론트엔드HTML5 · Bootstrap 5 · JavaScript

↓

🔌 FastAPI Backend인증 · 상품검색 · 게시판 · 마이페이지

⟷

🤖 ML FastAPIYOLO-Seg · Fashion-CLIP · 임베딩 추론

↓

🗃 PostgreSQL / MySQL상품 Meta · 사용자 인증 · 가격 이력

⚡ Elasticsearch + Redis벡터검색 · 캐시 · 세션 · Rate Limit

🍃 MongoDB크롤링 원본 · 로그 · AI 분석 결과

↕

⚙️ Apache Airflow매일 새벽 2시 DAG 자동 실행

→

🔀 Apache Spark전처리 · Hadoop HDFS ETL

→

📡 Kafka실시간 로그 · 메트릭 스트리밍

Database

PostgreSQLMySQL MongoDBRedis Elasticsearch

AI / Deep Learning

YOLOv11-SegFashion-CLIP KeyBERTKoNLPy PyTorchD-FINE

Infrastructure

AWS EC2Docker KafkaHadoop HDFS GitHub CI/CD

Web / Backend

FastAPIHTML5 Bootstrap 5JavaScript Naver Shopping API

Data Pipeline

Apache AirflowApache Spark Hadoop HDFSSelenium BeautifulSoup

Server Env

g4dn.xlargeUbuntu 22.04 NVIDIA T4 GPUPyTorch 2.9 Jupyter

Team Members

팀원 소개

카드에 마우스를 올리면 각 팀원의 세부 역할과 주요 성과를 확인할 수 있습니다.

한

Lead Data Engineer · Pipeline Architect · Team Lead

한대성

Han Dae-Seong

전체 데이터 아키텍처를 설계하고 팀원들이 각 파트를 구현할 수 있도록 분산 처리 인프라·대용량 파이프라인 기반을 완성한 핵심 DE 리더입니다. 이기종 DB(RDBMS/NoSQL) 설계부터 대용량 데이터 로깅·모니터링 체계 효율화, Airflow/Spark 클러스터 고도화까지 분산 시스템 전 영역의 아키텍처를 정립했습니다.

Data ArchitectureDocker/AWS Infra Kafka StreamingSystem Modeling CI/CDAuto Recovery Apache Airflow/Spark

✦ 마우스를 올려 세부 역할 확인

🏗️ 인프라 아키텍처 & CI/CD 설계

14개 컨테이너 통합 환경 설계— AWS EC2 기반 Docker Compose 인프라를 구축하여 팀 내 개발·배포 사이클 표준화
GitHub Actions CI/CD — 빌드 최적화 및 지속적인 데이터 통합 자동화 파이프라인 구현으로 운영 효율 극대화
이기종 데이터 모델링 — PostgreSQL(정형)과 MongoDB(로그)의 ERD 설계 및 데이터 모델링 단독 진행
분산 처리 클러스터 고도화 — Airflow/Spark 기반 전처리 시스템을 최적화하여 대용량 이미지 정제 성능 개선

⚡ 데이터 파이프라인 최적화 (성능 200배 개선)

병목 현상 해결 (20s → 100ms) — 수집과 조회 시스템을 완전 분리하여 페이지 로딩 속도를 혁신적으로 단축
리소스 부하 절감 (91% → 30%) — Kafka 기반 실시간 스트리밍 및 Elasticsearch Bulk 인덱싱 최적화로 CPU 부하 극한 효율화
이중 로깅 파이프라인 — Filebeat와 Docker SDK를 활용한 Fallback 설계로 장애 시 메시지 유실 완벽 차단
데이터 정합성 100% 보장 — MD5 해시 기반 고유 ID 발급으로 이중 트래픽 수집 시 자동 중복 제거 구현

🛡️ 통합 모니터링 및 자가 치유(Auto-Recovery)

Auto-Recovery 아키텍처 — 인프라 임계치 기반 장애 컨테이너 자동 재시작 기믹 독자 개발 및 안정 장치 적용
실시간 헬스 대시보드 — Elasticsearch와 통합된 FastAPI 백엔드를 구축하여 전 시스템 상태 실시간 가시화
Slack 조기 경보망 — 슬라이딩 윈도우 기반 Circuit Breaker 로직을 적용하여 이상 징후 즉시 알림 체계 구축
비동기 리팩토링 — Python asyncio.to_thread()를 활용해 메트릭 동시 수집 성능 및 서버 응답성 개선

🖥️ 서비스 총괄 및 E2E 구현

FastAPI 백엔드 API 설계 — 사용자 인증, 게시판, 상품 검색 및 어드민 페이지를 포함한 전체 서비스 로직 구현
사용자 경험(UX) 기능 — 좋아요, 최근 본 상품, 검색 히스토리 등 사용자 맞춤형 기능 및 도메인 연동
기술 산출물 총괄 — 인프라 아키텍처 설계서, 기능 정의서, 분석 설계서 등 문서화 주도

🚀 DE 고도화 진행 예정

Airflow 고도화 — Custom Operator 작성 및 DAG 병렬화, 메타DB 최적화 및 로그 ES 연동
Spark 튜닝 실전 적용 — Executor 메모리 최적화, 파티션 전략 및 Skew 데이터 처리(Salting) 경험 확보
데이터 레이크 설계 — HDFS 기반 Raw/Processed/Feature 3계층 구조 및 파티셔닝 전략 문서화

박

Data Engineer · ETL · Crawling

박주언

Park Ju-Eon

브랜드별 쇼핑몰 크롤러를 직접 개발해 각 브랜드의 데이터 수집·적재 초기 모델을 테스트하고 구축했습니다. TOPTEN·ZARA 크롤러 개발, Spark 전처리 프로그램 작성, Naver 쇼핑 API 연동, ERD·DB 설계까지 ETL 파이프라인의 실질적 구현을 책임진 데이터 엔지니어입니다.

Apache Spark Web CrawlingETL Pipeline ERD 설계Naver API

✦ 마우스를 올려 세부 역할 확인

🕷️ 브랜드별 크롤러 개발 · 초기 수집 모델 구축

TOPTEN · ZARA 공식몰 크롤러를 브랜드별로 독립 개발 — 각 사이트 구조를 분석해 상품명·이미지·가격·상세 정보 수집 로직 설계
브랜드마다 다른 HTML 구조·JS 렌더링 방식에 맞춰 Selenium / BeautifulSoup 전략을 선택적으로 적용
초기 수집 모델을 테스트하며 데이터 누락·중복·포맷 불일치 문제를 반복 보완, 안정적인 수집 기준 수립
쇼핑몰 카테고리 구조 정리 및 상품 메타데이터 필드 표준화 — 팀 전체 공통 스키마 기준 마련
Naver 쇼핑 API 연동으로 키워드별 최저가 5개 자동 수집, MongoDB 캐시로 중복 호출 방지

⚙️ Spark 전처리 · 데이터 적재 파이프라인

Apache Spark 전처리 프로그램 개발 — 병렬 정제·중복 제거·이미지 다운로드 후 Parquet 포맷 변환
Hadoop HDFS 파티션 적재 및 관리, 데이터 볼륨 증가에도 안정적으로 동작하는 구조 설계
Docker 환경 구성 테스트 및 팀원 환경 세팅 지원

🗄️ DB 설계 · 문서 · 발표

테이블 정의서 · ERD · DDL Script 작성 — 팀 전체 DB 설계의 기준 문서 담당
Architecture 정의서 및 프로젝트 기획서 작성
최종 발표 자료 제작 및 프로젝트 결과 발표 주도

이

ML Engineer · Crawler · MLOps

이주형

Lee Ju-Hyeong

객체 탐지·임베딩·벡터 검색 모델을 비교 연구해 AI 모델 스택을 선정하고, 무신사·ZARA 크롤러를 설계하며 데이터 수집의 핵심 파트를 담당했습니다. 특히 VLM 모델 선정·학습과 텍스트 기반 검색 모듈을 핵심적으로 주도했으며, Airflow DAG와 ML 파이프라인을 최종 연결해 End-to-End 자동화를 완성한 엔지니어입니다.

Apache AirflowYOLOv11 VLM · LLaVAEmbedding Crawler 설계ML Pipeline

✦ 마우스를 올려 세부 역할 확인

🤖 AI 모델 리서치 · 스택 선정

객체 탐지·임베딩·고속 벡터 검색 분야 논문 및 모델 전반을 조사·비교해 프로젝트 AI 스택(YOLOv11, Fashion-CLIP, Elasticsearch KNN) 최종 선정 주도
YOLOv11 분류 모델 파인튜닝 실험 — 카테고리별 탐지 성능 비교 및 최적 가중치 선택
임베딩 모델 비교 실험 (Fashion-CLIP vs ResNet vs ViT) — 패션 도메인 유사도 정확도 기준으로 Fashion-CLIP 채택 근거 마련

🧠 VLM 선정 · 학습 · 텍스트 검색 모듈 구축

텍스트 기반 검색을 위한 VLM 모델 후보군 조사 — LLaVA · InstructBLIP · MiniGPT 비교 후 LLaVA 선정
LLaVA 기반 VLM 프롬프트 설계 및 학습 실험 — 상품 이미지에서 자연어 설명 생성 품질 검증
VLM 생성 텍스트 → SBERT 임베딩 연결 파이프라인 설계 — 텍스트 기반 검색 모듈의 핵심 흐름 구축
이미지 검색(Fashion-CLIP)과 텍스트 검색(SBERT) 두 경로의 Late Fusion 전략 설계에 기여

🕷️ 크롤러 설계 · ML 파이프라인 자동화

무신사 · ZARA 크롤러 설계 및 개발, MongoDB 저장·이미지 다운로드 로직 구현
Scraping 방식 전환으로 대용량 이미지 저장 용량 이슈 해결
데이터 수집 → 전처리 → 임베딩 → DB 적재 통합 ML 파이프라인 구축
Airflow DAG와 ML 파이프라인 최종 연결 — End-to-End 자동화 완성
라이브러리 가이드 · 데이터 명세서 작성으로 팀 온보딩 지원

정

AI Researcher · Model · Vector Search

정수아

Jung Su-A

서비스 전체의 디자인 방향성과 UX 흐름을 정의하고, 이미지·텍스트 유사도 검색의 핵심 AI 코어를 개발했습니다. YOLOv11 파인튜닝, Fashion-CLIP·SBERT 임베딩 구현부터 검색 정확도를 높이기 위한 하이퍼파라미터 튜닝, ML 전용 FastAPI 백엔드 구축까지 검색 품질 전반을 책임진 AI 연구자입니다.

YOLOv11 파인튜닝Fashion-CLIP Vector SearchModel Pipeline UX 설계

✦ 마우스를 올려 세부 역할 확인

🎨 서비스 디자인 방향성 · UX 설계

서비스 전체 디자인 방향성 정의 — 색상 체계·레이아웃·인터랙션 가이드 수립으로 UI 일관성 확보
사용자 시나리오 기반 화면 설계서 및 UX 흐름 정의 — 이미지 업로드부터 결과 확인까지 전 과정 설계
서비스 흐름도·유스케이스 명세서 작성으로 팀 전체 개발 방향 공유

🧠 검색 AI 코어 개발 · 정확도 튜닝

YOLOv11 파인튜닝 — 에포크·학습률·앵커 박스 등 하이퍼파라미터를 반복 실험해 카테고리별 탐지 정확도 최적화
이미지 전처리·객체 탐지 후처리 파이프라인 구현 — 배경 제거 품질이 임베딩 정확도에 미치는 영향 분석 및 개선
Fashion-CLIP 임베딩 모델 구현 및 유사도 임계값·검색 결과 수 튜닝으로 검색 품질 반복 개선
SBERT 텍스트 임베딩 파이프라인 구현 — VLM 생성 텍스트의 임베딩 품질 검증 및 후처리 로직 설계
Late Fusion(이미지 70% · 텍스트 30%) 가중치 실험 — 비율별 검색 정확도를 비교해 최적 융합 비율 도출

🔍 ML 백엔드 · 벡터 검색 구현

검색 전용 FastAPI 백엔드 서버 구축 — 이미지·텍스트·복합 입력 3가지 검색 경로를 단일 API로 통합
Elasticsearch 벡터 DB 적재 코드 작성 — KNN 인덱스 설정, 샤드·리플리카 구성, 매핑 최적화
이미지 유사도 검색 로직 설계·구현 및 Airflow 모델 파이프라인 자동화 개발
ARM 리눅스 환경 구성 및 모델 실행 최적화 — GPU 메모리 관리·배치 크기 조정으로 추론 속도 개선

Pipeline

시스템 파이프라인

Airflow DAG 실행 — 매일 새벽 2시 자동 트리거

스케줄러가 DAG를 자동 실행해 크롤링 → 전처리 → 임베딩 전 과정을 무인 자동화로 처리합니다.

크롤링 — 유니클로 · ZARA · 탑텐 · 무신사 스탠다드 · 8-seconds

상품명·이미지·가격·상세 정보를 수집해 Hadoop에 원본 저장합니다. 탑텐은 상세 정보가 이미지이므로 OCR로 텍스트를 추출합니다.

Spark 전처리 — Hadoop Parquet 변환

병렬 처리로 데이터 정제·중복 제거·이미지 다운로드 후 Parquet 포맷으로 변환해 분석 효율을 높입니다.

PostgreSQL · MongoDB 분리 적재

정형 상품 데이터는 PostgreSQL(JSONB · 시계열 파티셔닝), 크롤링 원본·로그·AI 분석 결과는 MongoDB에 저장합니다.

Naver 쇼핑 API — 최저가 5개 수집

상품명으로 Naver API를 조회해 오름차순 최저가 5개 판매처를 수집합니다. MongoDB 캐시로 중복 API 호출을 방지합니다.

임베딩 생성 → Elasticsearch 벡터 DB 이중 적재

크롤링으로 수집된 상품 이미지를 두 경로로 병렬 처리합니다.

📷 이미지 임베딩 경로

YOLOv11객체 탐지 · 카테고리 분류

↓

Fashion-CLIP이미지 → 벡터 변환

↓

Elasticsearch이미지 벡터 인덱스 저장

📝 텍스트 임베딩 경로

VLM이미지 → 상품 설명 텍스트 생성

↓

SBERT텍스트 → 벡터 변환

↓

Elasticsearch텍스트 벡터 인덱스 저장

사용자 입력 — 이미지 / 텍스트 / 이미지+텍스트

메인 페이지에서 착용 사진·상품 이미지를 업로드하거나, 텍스트 키워드를 입력하거나, 두 가지를 함께 입력할 수 있습니다. 입력 유형에 따라 아래 세 가지 검색 경로 중 하나로 분기됩니다.

유사도 검색 — 입력 유형에 따른 3가지 분기

📷 이미지만 입력

Fashion-CLIP이미지 → 벡터 임베딩

↓

Elasticsearch이미지 벡터 유사도 계산 → 상위 6개 반환

📝 텍스트만 입력

SBERT텍스트 → 벡터 임베딩

↓

Elasticsearch텍스트 벡터 유사도 계산 → 상위 6개 반환

🔀 이미지 + 텍스트 입력

Fashion-CLIP + SBERT이미지 벡터 · 텍스트 벡터 각각 생성

↓

Late Fusion이미지 70% · 텍스트 30% 가중 결합

↓

Elasticsearch결합 벡터 유사도 계산 → 상위 6개 반환

상품 상세 정보 및 최저가 조회 → 결과 반환

유사 상품 6개가 확정되면 PostgreSQL에서 상품 상세 정보(상품명·브랜드·공식가)를 가져오고, Naver 쇼핑 API로 외부 쇼핑몰 최저가 5개를 조회합니다. 최종 결과를 검색 결과 페이지에 표시하며, 사용자는 마이페이지에 저장하거나 검색 히스토리로 관리할 수 있습니다.

로그 & 메트릭 이중 수집 — 14개 Docker 컨테이너 대상

7개 서비스 그룹(Airflow·Spark·Hadoop·Kafka·DB·Elasticsearch·FastAPI)에서 발생하는 로그와 CPU/메모리 메트릭을 이중 경로로 안정적으로 수집합니다.

📋 로그 수집 경로

Filebeat 8.x컨테이너 로그 파일 tail → 노이즈 필터링

↓

Kafka토픽: container-logs · gzip 압축 · 버퍼링

↓

KafkaLogConsumer50건 or 10초마다 ES Bulk 인덱싱

↓

Elasticsearchcontainer-logs 인덱스 · ILM 7일 자동삭제

📊 메트릭 수집 경로 (15초 주기)

MetricCollectorDocker Socket API → CPU/메모리 수집

↓

Kafka토픽: system-metrics · Fail-Safe 패턴

↓

KafkaMetricConsumer10건 or 2초마다 ES Bulk 인덱싱

↓

Elasticsearchcontainer-metrics 인덱스 · 시계열 보존

Fallback Kafka 장애 시 Docker SDK 직접 수집(LogCollector)이 자동 활성화되어 로그 유실을 방지합니다. MD5 해시 기반 문서 ID로 이중 수집 시에도 Elasticsearch가 자동 중복 제거합니다.

실시간 어드민 대시보드 — 30초 자동 갱신

Elasticsearch에 저장된 데이터를 FastAPI REST API로 조회하여 인프라 상태와 로그를 실시간으로 시각화합니다. 초기 로딩을 최소화하기 위해 통합 API와 2단계 점진적 로딩을 적용했습니다.

🖥️ 인프라 모니터링

/api/metrics/stream · statsES → CPU/메모리 시계열 차트

↓

/api/admin/infra/dashboard시스템 리소스 + DB 상태 통합 1회 왕복

↓

/api/admin/docker/containers14개 컨테이너 실행 상태 (캐시 워밍)

📋 로그 모니터링

/api/logs/dashboardstats + trend + top-errors + 서비스 건강도 통합

↓

/api/logs/stream실시간 로그 필터링 (서비스 / 레벨 / 키워드)

↓

/api/logs/pipeline-statusKafka · Docker SDK · ES 파이프라인 활성 상태

🗄️ DB 상태 모니터링

PostgreSQLpg_stat_activity (활성 연결) · pg_database_size

↓

Redis · MongoDBINFO/DBSIZE · dbStats (메모리·키수·컬렉션)

↓

asyncio.gather() 병렬 조회직렬 ~300ms → 병렬 ~100ms

Slack 알람 — CRITICAL/ERROR 발생 시 즉시 알림

LogCollector가 파싱한 로그 레벨이 임계치를 초과하면 SlackNotifier가 Webhook으로 즉시 알림을 전송합니다. 중복 알람 방지를 위한 쿨다운·레이트 리미팅·서킷 브레이커를 내장했습니다.

⚡ 즉시 알림 조건

CRITICAL / ERROR 로그 감지쿨다운 60초 · HTTP 정상 요청 오분류 방지

↓

Slack Webhook 전송서비스명 · 레벨 · 메시지 · 타임스탬프

📈 에러 급증 감지

슬라이딩 윈도우 집계10분간 15건 초과 시 요약 알림

↓

알림 쿨다운 5분레이트 리미팅 · 서킷 브레이커 내장

설정 알림 레벨(CRITICAL/ERROR/WARN) · 활성 시간대(KST) · 제외 서비스를 어드민 UI에서 토글로 제어합니다.

자동 복구 (Auto-Recovery) — 장애 컨테이너 자동 재시작

서비스별 에러 카운트가 임계치를 넘으면 AutoRecovery가 Docker Socket API로 해당 컨테이너를 재시작합니다. 무한 재시작을 막는 4단계 안전장치를 내장했습니다.

🔄 자동 복구 흐름

ERROR/CRITICAL 에러 카운트슬라이딩 윈도우 5분 · 임계치 10건

↓

안전 장치 통과 확인시간당 최대 3회 · 쿨다운 2분

↓

Docker container.restart()성공/실패 모두 Slack 알림 전송

📊 로그 관리 기능

Purge (로그 초기화)DELETE /api/logs/purge → ES match_all 삭제

↓

좀비 로그 차단PURGE_TIMESTAMP 이전 재수집 로그 즉시 파기

↓

로그 다운로드 / 클립보드 복사필터링 로그 .txt 내보내기 · 모달 복사

Development Journey

개발 여정

기획 & 설계

주제 선정 및 타겟 소비자 조사
관련 논문 및 모델 리서치
기능 정의서 · 아키텍처 설계
화면 설계서 · 유스케이스 명세서
테이블 정의서 · ERD 설계

환경 구축 & 데이터

AWS · Docker 인프라 환경 구성
크롤러 개발 (무신사·ZARA·탑텐)
Airflow DAG · Spark 파이프라인
Hadoop · PostgreSQL · MongoDB
Naver API 연동 최저가 수집

AI 모델 개발

YOLO-Seg 객체 탐지 파인튜닝
Fashion-CLIP 임베딩 구축
VLM (LLaVA) 프롬프트 설계
Elasticsearch 벡터 DB 적재
ML Pipeline 자동화 연결

서비스 완성 & 운영

프론트엔드 전 페이지 완성
실시간 인프라·로그 모니터링
Slack 에러 알람 자동화
CI/CD 자동 배포 시스템
통합 테스트 · 최종 발표

패션 이미지 하나로최저가를 찾다

이미지 업로드

AI 분석

벡터 검색

최저가 결과

📌 기획 배경 — 탐색 비용 문제

📊 시장 근거 — 듀프 소비 급성장

🎯 차별점 — 기존 서비스 대비

시스템 아키텍처 & 기술 스택

팀원 소개

시스템 파이프라인

Airflow DAG 실행 — 매일 새벽 2시 자동 트리거

크롤링 — 유니클로 · ZARA · 탑텐 · 무신사 스탠다드 · 8-seconds

Spark 전처리 — Hadoop Parquet 변환

PostgreSQL · MongoDB 분리 적재

Naver 쇼핑 API — 최저가 5개 수집

임베딩 생성 → Elasticsearch 벡터 DB 이중 적재

사용자 입력 — 이미지 / 텍스트 / 이미지+텍스트

유사도 검색 — 입력 유형에 따른 3가지 분기

상품 상세 정보 및 최저가 조회 → 결과 반환

로그 & 메트릭 이중 수집 — 14개 Docker 컨테이너 대상

실시간 어드민 대시보드 — 30초 자동 갱신

Slack 알람 — CRITICAL/ERROR 발생 시 즉시 알림

자동 복구 (Auto-Recovery) — 장애 컨테이너 자동 재시작

개발 여정

패션 이미지 하나로
최저가를 찾다