이미지로 찾는 최저가 쇼핑
AI 패션 검색 엔진 · 2026

패션 이미지 하나로
최저가를 찾다

옷 한 장의 사진을 올리면 AI가 스타일을 분석하고, 유니클로·ZARA·탑텐 등 SPA 브랜드에서 가장 유사한 상품의 최저가 5곳을 실시간 비교합니다.

'극실용주의(Extreme Pragmatism)'와 '듀프(Dupe) 소비'가 급성장하는 2026년, 텍스트 검색으로 표현하기 어려운 비주얼 느낌(Vibe)을 AI 이미지 임베딩으로 정확하게 탐색합니다.

📸

이미지 업로드

착용 사진 또는
상품 이미지

🤖

AI 분석

YOLO 객체탐지
+ CLIP 임베딩

🔍

벡터 검색

Elasticsearch
KNN 유사도

💰

최저가 결과

5개 쇼핑몰
가격 비교

📌 기획 배경 — 탐색 비용 문제

기존 네이버 렌즈는 패션 특화가 아니라 유사도 정확도가 낮고 가격 비교 기능도 없습니다. '그 느낌(Vibe)'을 텍스트로 표현하기 어렵다는 소비자 Pain Point를 AI 이미지 검색으로 해결합니다.

📊 시장 근거 — 듀프 소비 급성장

트렌드 분석(노준영, 2026)에 따르면 현대 소비자는 브랜드 로고보다 실질적 가치를 중시합니다. 에이블리 '듀프족' 등장으로 SPA 시장이 전년 대비 2배 이상 성장했습니다.

🎯 차별점 — 기존 서비스 대비

① 패션 카테고리 특화 정확도 ② 이미지·자연어 복합 검색 ③ 실시간 최저가 5개 쇼핑몰 비교를 동시에 제공하는 서비스입니다.

5+
타겟 SPA 브랜드
6종
의류 카테고리
5개
최저가 쇼핑몰 비교
AWS
g4dn.xlarge GPU 서버
Technology

시스템 아키텍처 & 기술 스택

▸ System Architecture Overview
👤 사용자 / 프론트엔드HTML5 · Bootstrap 5 · JavaScript
🔌 FastAPI Backend인증 · 상품검색 · 게시판 · 마이페이지
🤖 ML FastAPIYOLO-Seg · Fashion-CLIP · 임베딩 추론
🗃 PostgreSQL / MySQL상품 Meta · 사용자 인증 · 가격 이력
⚡ Elasticsearch + Redis벡터검색 · 캐시 · 세션 · Rate Limit
🍃 MongoDB크롤링 원본 · 로그 · AI 분석 결과
⚙️ Apache Airflow매일 새벽 2시 DAG 자동 실행
🔀 Apache Spark전처리 · Hadoop HDFS ETL
📡 Kafka실시간 로그 · 메트릭 스트리밍
Database
PostgreSQLMySQL MongoDBRedis Elasticsearch
AI / Deep Learning
YOLOv11-SegFashion-CLIP KeyBERTKoNLPy PyTorchD-FINE
Infrastructure
AWS EC2Docker KafkaHadoop HDFS GitHub CI/CD
Web / Backend
FastAPIHTML5 Bootstrap 5JavaScript Naver Shopping API
Data Pipeline
Apache AirflowApache Spark Hadoop HDFSSelenium BeautifulSoup
Server Env
g4dn.xlargeUbuntu 22.04 NVIDIA T4 GPUPyTorch 2.9 Jupyter
Team Members

팀원 소개

카드에 마우스를 올리면 각 팀원의 세부 역할과 주요 성과를 확인할 수 있습니다.

Lead Data Engineer · Pipeline Architect · Team Lead
한대성
Han Dae-Seong
전체 데이터 아키텍처를 설계하고 팀원들이 각 파트를 구현할 수 있도록 분산 처리 인프라·대용량 파이프라인 기반을 완성한 핵심 DE 리더입니다. 이기종 DB(RDBMS/NoSQL) 설계부터 대용량 데이터 로깅·모니터링 체계 효율화, Airflow/Spark 클러스터 고도화까지 분산 시스템 전 영역의 아키텍처를 정립했습니다.
Data ArchitectureDocker/AWS Infra Kafka StreamingSystem Modeling CI/CDAuto Recovery Apache Airflow/Spark
✦ 마우스를 올려 세부 역할 확인
🏗️ 인프라 아키텍처 & CI/CD 설계
  • 14개 컨테이너 통합 환경 설계— AWS EC2 기반 Docker Compose 인프라를 구축하여 팀 내 개발·배포 사이클 표준화
  • GitHub Actions CI/CD — 빌드 최적화 및 지속적인 데이터 통합 자동화 파이프라인 구현으로 운영 효율 극대화
  • 이기종 데이터 모델링 — PostgreSQL(정형)과 MongoDB(로그)의 ERD 설계 및 데이터 모델링 단독 진행
  • 분산 처리 클러스터 고도화 — Airflow/Spark 기반 전처리 시스템을 최적화하여 대용량 이미지 정제 성능 개선
⚡ 데이터 파이프라인 최적화 (성능 200배 개선)
  • 병목 현상 해결 (20s → 100ms) — 수집과 조회 시스템을 완전 분리하여 페이지 로딩 속도를 혁신적으로 단축
  • 리소스 부하 절감 (91% → 30%) — Kafka 기반 실시간 스트리밍 및 Elasticsearch Bulk 인덱싱 최적화로 CPU 부하 극한 효율화
  • 이중 로깅 파이프라인 — Filebeat와 Docker SDK를 활용한 Fallback 설계로 장애 시 메시지 유실 완벽 차단
  • 데이터 정합성 100% 보장 — MD5 해시 기반 고유 ID 발급으로 이중 트래픽 수집 시 자동 중복 제거 구현
🛡️ 통합 모니터링 및 자가 치유(Auto-Recovery)
  • Auto-Recovery 아키텍처 — 인프라 임계치 기반 장애 컨테이너 자동 재시작 기믹 독자 개발 및 안정 장치 적용
  • 실시간 헬스 대시보드 — Elasticsearch와 통합된 FastAPI 백엔드를 구축하여 전 시스템 상태 실시간 가시화
  • Slack 조기 경보망 — 슬라이딩 윈도우 기반 Circuit Breaker 로직을 적용하여 이상 징후 즉시 알림 체계 구축
  • 비동기 리팩토링 — Python asyncio.to_thread()를 활용해 메트릭 동시 수집 성능 및 서버 응답성 개선
🖥️ 서비스 총괄 및 E2E 구현
  • FastAPI 백엔드 API 설계 — 사용자 인증, 게시판, 상품 검색 및 어드민 페이지를 포함한 전체 서비스 로직 구현
  • 사용자 경험(UX) 기능 — 좋아요, 최근 본 상품, 검색 히스토리 등 사용자 맞춤형 기능 및 도메인 연동
  • 기술 산출물 총괄 — 인프라 아키텍처 설계서, 기능 정의서, 분석 설계서 등 문서화 주도
🚀 DE 고도화 진행 예정
  • Airflow 고도화 — Custom Operator 작성 및 DAG 병렬화, 메타DB 최적화 및 로그 ES 연동
  • Spark 튜닝 실전 적용 — Executor 메모리 최적화, 파티션 전략 및 Skew 데이터 처리(Salting) 경험 확보
  • 데이터 레이크 설계 — HDFS 기반 Raw/Processed/Feature 3계층 구조 및 파티셔닝 전략 문서화
Data Engineer · ETL · Crawling
박주언
Park Ju-Eon
브랜드별 쇼핑몰 크롤러를 직접 개발해 각 브랜드의 데이터 수집·적재 초기 모델을 테스트하고 구축했습니다. TOPTEN·ZARA 크롤러 개발, Spark 전처리 프로그램 작성, Naver 쇼핑 API 연동, ERD·DB 설계까지 ETL 파이프라인의 실질적 구현을 책임진 데이터 엔지니어입니다.
Apache Spark Web CrawlingETL Pipeline ERD 설계Naver API
✦ 마우스를 올려 세부 역할 확인
🕷️ 브랜드별 크롤러 개발 · 초기 수집 모델 구축
  • TOPTEN · ZARA 공식몰 크롤러를 브랜드별로 독립 개발 — 각 사이트 구조를 분석해 상품명·이미지·가격·상세 정보 수집 로직 설계
  • 브랜드마다 다른 HTML 구조·JS 렌더링 방식에 맞춰 Selenium / BeautifulSoup 전략을 선택적으로 적용
  • 초기 수집 모델을 테스트하며 데이터 누락·중복·포맷 불일치 문제를 반복 보완, 안정적인 수집 기준 수립
  • 쇼핑몰 카테고리 구조 정리 및 상품 메타데이터 필드 표준화 — 팀 전체 공통 스키마 기준 마련
  • Naver 쇼핑 API 연동으로 키워드별 최저가 5개 자동 수집, MongoDB 캐시로 중복 호출 방지
⚙️ Spark 전처리 · 데이터 적재 파이프라인
  • Apache Spark 전처리 프로그램 개발 — 병렬 정제·중복 제거·이미지 다운로드 후 Parquet 포맷 변환
  • Hadoop HDFS 파티션 적재 및 관리, 데이터 볼륨 증가에도 안정적으로 동작하는 구조 설계
  • Docker 환경 구성 테스트 및 팀원 환경 세팅 지원
🗄️ DB 설계 · 문서 · 발표
  • 테이블 정의서 · ERD · DDL Script 작성 — 팀 전체 DB 설계의 기준 문서 담당
  • Architecture 정의서 및 프로젝트 기획서 작성
  • 최종 발표 자료 제작 및 프로젝트 결과 발표 주도
ML Engineer · Crawler · MLOps
이주형
Lee Ju-Hyeong
객체 탐지·임베딩·벡터 검색 모델을 비교 연구해 AI 모델 스택을 선정하고, 무신사·ZARA 크롤러를 설계하며 데이터 수집의 핵심 파트를 담당했습니다. 특히 VLM 모델 선정·학습텍스트 기반 검색 모듈을 핵심적으로 주도했으며, Airflow DAG와 ML 파이프라인을 최종 연결해 End-to-End 자동화를 완성한 엔지니어입니다.
Apache AirflowYOLOv11 VLM · LLaVAEmbedding Crawler 설계ML Pipeline
✦ 마우스를 올려 세부 역할 확인
🤖 AI 모델 리서치 · 스택 선정
  • 객체 탐지·임베딩·고속 벡터 검색 분야 논문 및 모델 전반을 조사·비교해 프로젝트 AI 스택(YOLOv11, Fashion-CLIP, Elasticsearch KNN) 최종 선정 주도
  • YOLOv11 분류 모델 파인튜닝 실험 — 카테고리별 탐지 성능 비교 및 최적 가중치 선택
  • 임베딩 모델 비교 실험 (Fashion-CLIP vs ResNet vs ViT) — 패션 도메인 유사도 정확도 기준으로 Fashion-CLIP 채택 근거 마련
🧠 VLM 선정 · 학습 · 텍스트 검색 모듈 구축
  • 텍스트 기반 검색을 위한 VLM 모델 후보군 조사 — LLaVA · InstructBLIP · MiniGPT 비교 후 LLaVA 선정
  • LLaVA 기반 VLM 프롬프트 설계 및 학습 실험 — 상품 이미지에서 자연어 설명 생성 품질 검증
  • VLM 생성 텍스트 → SBERT 임베딩 연결 파이프라인 설계 — 텍스트 기반 검색 모듈의 핵심 흐름 구축
  • 이미지 검색(Fashion-CLIP)과 텍스트 검색(SBERT) 두 경로의 Late Fusion 전략 설계에 기여
🕷️ 크롤러 설계 · ML 파이프라인 자동화
  • 무신사 · ZARA 크롤러 설계 및 개발, MongoDB 저장·이미지 다운로드 로직 구현
  • Scraping 방식 전환으로 대용량 이미지 저장 용량 이슈 해결
  • 데이터 수집 → 전처리 → 임베딩 → DB 적재 통합 ML 파이프라인 구축
  • Airflow DAG와 ML 파이프라인 최종 연결 — End-to-End 자동화 완성
  • 라이브러리 가이드 · 데이터 명세서 작성으로 팀 온보딩 지원
AI Researcher · Model · Vector Search
정수아
Jung Su-A
서비스 전체의 디자인 방향성과 UX 흐름을 정의하고, 이미지·텍스트 유사도 검색의 핵심 AI 코어를 개발했습니다. YOLOv11 파인튜닝, Fashion-CLIP·SBERT 임베딩 구현부터 검색 정확도를 높이기 위한 하이퍼파라미터 튜닝, ML 전용 FastAPI 백엔드 구축까지 검색 품질 전반을 책임진 AI 연구자입니다.
YOLOv11 파인튜닝Fashion-CLIP Vector SearchModel Pipeline UX 설계
✦ 마우스를 올려 세부 역할 확인
🎨 서비스 디자인 방향성 · UX 설계
  • 서비스 전체 디자인 방향성 정의 — 색상 체계·레이아웃·인터랙션 가이드 수립으로 UI 일관성 확보
  • 사용자 시나리오 기반 화면 설계서 및 UX 흐름 정의 — 이미지 업로드부터 결과 확인까지 전 과정 설계
  • 서비스 흐름도·유스케이스 명세서 작성으로 팀 전체 개발 방향 공유
🧠 검색 AI 코어 개발 · 정확도 튜닝
  • YOLOv11 파인튜닝 — 에포크·학습률·앵커 박스 등 하이퍼파라미터를 반복 실험해 카테고리별 탐지 정확도 최적화
  • 이미지 전처리·객체 탐지 후처리 파이프라인 구현 — 배경 제거 품질이 임베딩 정확도에 미치는 영향 분석 및 개선
  • Fashion-CLIP 임베딩 모델 구현 및 유사도 임계값·검색 결과 수 튜닝으로 검색 품질 반복 개선
  • SBERT 텍스트 임베딩 파이프라인 구현 — VLM 생성 텍스트의 임베딩 품질 검증 및 후처리 로직 설계
  • Late Fusion(이미지 70% · 텍스트 30%) 가중치 실험 — 비율별 검색 정확도를 비교해 최적 융합 비율 도출
🔍 ML 백엔드 · 벡터 검색 구현
  • 검색 전용 FastAPI 백엔드 서버 구축 — 이미지·텍스트·복합 입력 3가지 검색 경로를 단일 API로 통합
  • Elasticsearch 벡터 DB 적재 코드 작성 — KNN 인덱스 설정, 샤드·리플리카 구성, 매핑 최적화
  • 이미지 유사도 검색 로직 설계·구현 및 Airflow 모델 파이프라인 자동화 개발
  • ARM 리눅스 환경 구성 및 모델 실행 최적화 — GPU 메모리 관리·배치 크기 조정으로 추론 속도 개선
Pipeline

시스템 파이프라인

1

Airflow DAG 실행 — 매일 새벽 2시 자동 트리거

스케줄러가 DAG를 자동 실행해 크롤링 → 전처리 → 임베딩 전 과정을 무인 자동화로 처리합니다.

2

크롤링 — 유니클로 · ZARA · 탑텐 · 무신사 스탠다드 · 8-seconds

상품명·이미지·가격·상세 정보를 수집해 Hadoop에 원본 저장합니다. 탑텐은 상세 정보가 이미지이므로 OCR로 텍스트를 추출합니다.

3

Spark 전처리 — Hadoop Parquet 변환

병렬 처리로 데이터 정제·중복 제거·이미지 다운로드 후 Parquet 포맷으로 변환해 분석 효율을 높입니다.

4

PostgreSQL · MongoDB 분리 적재

정형 상품 데이터는 PostgreSQL(JSONB · 시계열 파티셔닝), 크롤링 원본·로그·AI 분석 결과는 MongoDB에 저장합니다.

5

Naver 쇼핑 API — 최저가 5개 수집

상품명으로 Naver API를 조회해 오름차순 최저가 5개 판매처를 수집합니다. MongoDB 캐시로 중복 API 호출을 방지합니다.

6

임베딩 생성 → Elasticsearch 벡터 DB 이중 적재

크롤링으로 수집된 상품 이미지를 두 경로로 병렬 처리합니다.

📷 이미지 임베딩 경로
YOLOv11객체 탐지 · 카테고리 분류
Fashion-CLIP이미지 → 벡터 변환
Elasticsearch이미지 벡터 인덱스 저장
📝 텍스트 임베딩 경로
VLM이미지 → 상품 설명 텍스트 생성
SBERT텍스트 → 벡터 변환
Elasticsearch텍스트 벡터 인덱스 저장
Development Journey

개발 여정

01
기획 & 설계
  • 주제 선정 및 타겟 소비자 조사
  • 관련 논문 및 모델 리서치
  • 기능 정의서 · 아키텍처 설계
  • 화면 설계서 · 유스케이스 명세서
  • 테이블 정의서 · ERD 설계
02
환경 구축 & 데이터
  • AWS · Docker 인프라 환경 구성
  • 크롤러 개발 (무신사·ZARA·탑텐)
  • Airflow DAG · Spark 파이프라인
  • Hadoop · PostgreSQL · MongoDB
  • Naver API 연동 최저가 수집
03
AI 모델 개발
  • YOLO-Seg 객체 탐지 파인튜닝
  • Fashion-CLIP 임베딩 구축
  • VLM (LLaVA) 프롬프트 설계
  • Elasticsearch 벡터 DB 적재
  • ML Pipeline 자동화 연결
04
서비스 완성 & 운영
  • 프론트엔드 전 페이지 완성
  • 실시간 인프라·로그 모니터링
  • Slack 에러 알람 자동화
  • CI/CD 자동 배포 시스템
  • 통합 테스트 · 최종 발표