이미지 중심 멀티모달 RAG에서 Vector/Graph/Vectorless/Hybrid 중 어떤 접근을 어떤 기준으로 선택해야 할까요?

문제 상황

이미지가 많은 멀티모달 환경(예: 이미지 + 캡션/설명 텍스트 + 일부 구조화 메타데이터)에서 RAG를 설계하려고 합니다.
텍스트 중심 RAG는 Vector RAG(임베딩 기반 검색)가 사실상 기본 선택지처럼 굳어져 있지만, 멀티모달(특히 이미지 비중이 큰 경우)에서는 다음과 같은 선택지가 모두 후보로 보입니다.

  • Vector RAG: 이미지/텍스트 임베딩 기반 유사도 검색
  • GraphRAG: 엔티티/관계 중심으로 지식그래프(또는 그래프 인덱스)를 구성해 탐색/근거 추적
  • Vectorless RAG: 키워드/룰/메타데이터/검색엔진(BM25 등) 중심, 혹은 임베딩 의존 최소화
  • Hybrid RAG: (예) BM25 + 벡터, 그래프 + 벡터 등 혼합

현재는 “어떤 유형이 무조건 정답”이라기보다, 이미지 중심 멀티모달 시나리오에서 무엇을 기준으로 어떤 방식을 선택하는 게 합리적인지가 궁금합니다.

시도한 것

아직 특정 프레임워크/코드에 묶여 PoC를 깊게 진행한 단계는 아니고, 설계 단계에서 아래처럼 비교 관점을 정리 중입니다.

  • 이미지가 주 데이터인 경우
    • 텍스트처럼 “정확히 일치하는 키워드”가 약해 순수 BM25/키워드 방식의 한계가 있을 수 있음
    • 반대로, 임베딩 기반 검색은 편하지만 비용(임베딩/저장/검색), 지연, 품질(모달 정렬/도메인 편향) 이슈가 있을 수 있음
  • GraphRAG는 근거 추적/해석가능성이 좋다고들 하지만
    • 이미지에서 엔티티/관계를 뽑아 그래프를 만드는 비용과 정확도가 관건일 것 같음
  • Hybrid가 가장 안전해 보이지만
    • 구성요소가 늘어나면서 운영 복잡도가 커질 수 있다는 걱정이 있음

기대하는 결과

이미지 비중이 큰 멀티모달 RAG에서 아래 질문들에 대한 실무적인 기준/경험을 듣고 싶습니다.

  1. 우선순위 기준을 보통 무엇으로 두시나요?
    • 검색 정확도(리콜/정밀도) vs 비용/지연(성능/운영비) vs 해석가능성(근거 추적/감사)
  2. 어떤 조건에서 Vector RAG가 충분하고, 어떤 조건에서 GraphRAG/Vectorless/Hybrid로 넘어가야 하는지 판단 기준이 있을까요?
  3. 이미지 검색에서 “텍스트화(캡션/태깅) → 텍스트 RAG”로 가는 전략과 “진짜 이미지 임베딩 중심” 전략 중
    • 어떤 경우에 전자가 더 낫고, 어떤 경우에 후자가 더 나은지(데이터 규모/도메인/질문 유형 관점)
  4. 실무에서 많이 쓰는 검증 방법(오프라인 평가 지표/샘플링 전략/실험 설계) 도 추천 부탁드립니다.