AI의 정보 선택 원리

AI에게 선택 받는 브랜드 - 클릭이 사라진 시대의 마케팅 2화
26.06.18.
읽는시간 0

작게

보통

크게

0

【배경】 AI의 답변에 특정 브랜드가 포함될 지 여부는 마케터의 의도보다 AI의 판단 기준에 의해 결정되며, 그 기준은 데이터를 처리하고 의미를 해석하는 기술적 메커니즘에 의해 작동

  • 따라서 어떤 형태의 정보가 ‘읽히는 콘텐츠’이고 그들의 판단 과정에 작동하는 기술적 요소와 역할은 무엇인지에 대한 이해가 필요

① 벡터 임베딩: AI가 정보의 유사성을 판단하는 원리

【개념】 AI는 단어와 문장을 다차원 공간의 숫자 배열(벡터)로 변환. 이때 단순 키워드 매칭에 그치지 않고 의미론적 유사성을 기반으로 사용자의 질문 의도와 정보 사이의 ‘의미적 거리’를 계산해 맥락에 부합하는 정보를 우선적으로 추출해 냄

  • 벡터 임베딩(Vector Embedding) Ⅰ 단어나 이미지와 같은 비수치적 데이터를 AI가 처리할 수 있는 숫자 배열로 표현하는 방식. 가령 ‘강아지’라는 단어를 “0.2, 0.8, 0.1…” 같은 숫자 묶음으로 변환
    - 주변 단어와의 관계를 학습하여 비슷한 의미를 가진 단어들을 유사한 숫자 패턴으로 변환. 지도에서 서로 인접한 장소가 가까운 좌표에 표시되는 것처럼, 수치 공간에서 의미가 비슷한 단어들을 가까운 위치에 배치
    - 예를 들어 ‘금리 인상’과 ‘이자율 상승’은 서로 다른 표현이지만 의미적 유사성에 따라 함께 검색됨. 이는 AI가 단어를 단순히 암기하는 대신 개념 간 상관관계를 학습하여 두 단어를 동일한 의미로 이해하고 수치 공간 내 가까운 위치에 배치한 결과

【영향】 특정 키워드를 반복적으로 삽입하는 방식은 AI 환경에서 실효성이 낮으며, 콘텐츠 전체의 유기적인 의미 구조와 풍부한 맥락 제공의 중요성이 높아짐

음식으로 설명한 임베딩의 개념

'음식을 활용해 데이터 임베딩의 개념을 2차원 좌표 평면에 설명한 그림'이다. 세로축은 디저트와 볶음, 가로축은 국물과 샌드위치 기준이며 '각 특성에 가까운 음식 일러스트들이 사분면에 배치'되어 있다.

자료: 연구자 작성

이미지의 벡터 임베딩

IBM 자료로, 이미지의 '벡터 임베딩 원리를 설명'한다. 과일들이 담긴 격자 형태의 사진에서 '특정 영역을 추출하여, 이를 컴퓨터가 연산할 수 있는 삼색 채널의 숫자 배열 리스트로 변환하는 과정'을 보여준다.

자료: IBM

② RAG: AI가 특정 정보를 먼저 활용하는 원리

【개념】 AI는 크롤링(Crawling)³ 을 통해 수집한 자료를 바탕으로 훈련되는 특성상 최종 업데이트 시점의 정보만을 보유하는 구조적 한계를 지님. 이러한 한계를 극복하기 위해 검색증강생성 기술을 활용하여 답변을 생성하기 전 외부 데이터베이스 실시간 검색을 통해 관련 정보를 수집

  • RAG(Retrieval-Augmented Generation, 검색 증강 생성)⁴ Ⅰ AI가 관련성과 신뢰성이 높은 최신 정보를 검색해 답변에 우선적으로 활용하는 기술로, 챗GPT의 웹 검색 기능과 퍼플렉시티의 실시간 인용 구조가 대표적 사례
    - 기존의 학습 정보에 머물지 않고 실시간 검색을 통해 사용자의 질문 의도와 가장 가깝고 정확한 최신 정보를 선택해 답변을 생성
    - 애플리케이션 프로그래밍 인터페이스(API)를 통해 인터넷과 유기적으로 연결되어 있으므로, 실시간 소셜 미디어 피드나 소비자 후기에 접근하여 최신 시장 동향을 한 발 앞서 파악 가능

【영향】 RAG 구조에서는 어떤 문서가 검색되고 선택되느냐에 따라 AI 답변의 질과 노출되는 브랜드가 결정되면서, 답변 엔진 최적화(AEO, Answer Engine Optimization)·생성형 엔진 최적화(GEO, Generative Engine Optimization)가 마케팅의 핵심 과제로 부상

RAG 기술의 작동 원리

'RAG 기술의 작동 원리를 나타낸 흐름도'다. 지식 베이스의 데이터 청크와 사용자 질문이 임베딩 모델을 거쳐 각각 문서 내용 임베딩과 질문 임베딩으로 변환된 후, 벡터 DB를 통해 최종 검색된 문서로 출력된다.

주: 단어, 문장, 문서 등 자연어 데이터의 의미와 맥락을 반영하여 컴퓨터가 연산할 수 있는 다차원의 고정된 숫자 배열로 압축·전 환하는 기술 자료: 긱스포긱스(Geeks for Geeks)

³ 검색 엔진이나 AI가 웹페이지를 자동으로 방문하여 내용을 수집·저장하는 작업. 구글이 검색 결과를 제공할 수 있는 것도 미리 수십억개의 페이지를 크롤링해 둔 덕분. 크롤러가 접근하지 못하는 페이지는 AI 인용에도 포함되기 어려움

⁴ 메타 AI(구 페이스북 AI 연구팀)이 2020년 5월, 최초로 명명한 개념으로, 논문 발표 후 5년 만에 아마존웹서비스·IBM·구글·마이크로소프트·엔비디아·오라클 등 글로벌 빅테크 기업들이 모두 서비스형 RAG(RAG-as-a-Service)를 출시하며 사실상 AI 산업의 표준 인프라로 자리 잡
음. 챗GPT의 웹 검색 기능 및 퍼플렉시티의 실시간 인용 구조가 모두 RAG 기반으로 구현

③ 구조화 데이터: AI가 읽기 쉬운 정보를 만드는 원리

【개념】 RAG를 통한 정보 검색 시 AI가 특정 문서의 내용은 정확히 파악하는 반면, 다른 문서는 제대로 이해하지 못하는 경우가 발생. 이 같은 차이의 근본 원인은 구조화 데이터의 유무에 있음

  • 구조화 데이터 Ⅰ AI 환경에서 브랜드가 단순한 텍스트 뭉치에 머물지 않고, 알고리즘이 즉각 선택할 수 있는 ‘해석 가능한 구조’를 갖추게 만드는 기술적 장치
    − PDF 이미지나 스캔 문서는 텍스트가 그림 형태로 저장되어 AI가 읽기 어렵지만, HTML이나 스키마(Schema) 규격으로 작성된 구조화 데이터는 AI가 내용을 파악해 인용 가능
  • 스키마 Ⅰ 웹사이트의 콘텐츠를 AI 에이전트나 검색 엔진이 오차 없이 이해하고 처리할 수 있도록 일정한 규격으로 정리한 ‘AI 친화적인(AI Readable)’ 데이터베이스의 전반적인 형태와 틀
    − AI 시스템은 정보를 동기화하는 과정에서 스키마를 통해 일관성 있게 구조화된 웹사이트를 신뢰할 수 있는 정보원으로 인식하고 답변에 우선적으로 활용

【영향】 검색 엔진 최적화 기업 브라이트엣지(BrighEdge)의 2026년 조사 결과, 구조화 데이터를 구현한 웹사이트에서 AI 검색 인용 빈도가 44% 증가한 것으로 나타나, 콘텐츠의 구조와 형태가 AI의 선택과 인용에 큰 영향을 미치는 것으로 확인됨

○ ‘벡터 임베딩’이 의미를 수치로 변환하고(무엇이 유사한가), ‘RAG’가 우선적으로 활용할 정보를 검색하며(어떤 정보를 먼저 꺼낼까), ‘구조화 데이터’는 정보를 읽기 쉬운 형태로 정리(어떻게 읽을까). AI의 선택을 받기 위해서는 세 가지 기술적 층위에 모두 최적화되어야 함

【참고】 “어려운 기술 용어, 비유로 쉽게 설명해드립니다”

“어떤 건물(HTML)이 있고, 공통 표준 서식(JSON)인 등기사항전부증명서에 그 속성을 정의한 내용(스키마)이 기록되어 있어서 누구나 즉시 읽고 파악할 수 있는 구조”

  1. HTML(HyperText Markup Language) Ⅰ 웹페이지를 구성하는 기본 코드 언어로, PDF·이미지와 달리 텍스트가 구조화된 형태로 저장되어 검색 엔진이나 AI가 내용을 인식하기에 유리
  2. 스키마 Ⅰ 웹페이지 코드 안에 삽입하는 규격화된 정보 표기 방식. ‘이 페이지는 자주 묻는 질문(FAQ)이다’, ‘이 항목은 금융 상품 비교다’와 같이, AI와 검색 엔진이 정보의 성격을 정확히 파악하도록 지원(JSON-LD 형식으로 HTML 파일에 삽입하는 방식을 통해 구현)
  3. JSON-LD(JavaScript Object Notation for Linked Data) Ⅰ HTML 페이지 코드 안에 삽입하는 표준 데이터 형식. 사람 눈에는 보이지 않지만 AI와 검색 엔진이 페이지 성격을 코드 수준에서 정확히 인식하도록 지원(JSON은 데이터를 담는 표준 양식, LD는 데이터들이 서로 관계를 맺고 있음을 의미)

※ 본 보고서는 연구자의 개인 의견으로 KB경영연구소 공식 의견과 다를 수 있으며, 인용시 출처를 밝혀주시기 바랍니다.제약 요인으로 작용할 수 있음

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

금융용어사전

KB금융그룹의 로고입니다. KB라고 기재되어 있습니다 KB Think

이미지