AI 검색은 문서의 전문성과 토픽 권위도를 어떻게 측정할까
AI검색최적화
AI 검색은 문서의 전문성과 토픽 권위도를 어떻게 측정할까
이성규의 프로필 사진
이성규
2025.07.25
댓글

AI 검색최적화를 요청하시는 분들이 자주 묻는 질문이 있습니다. "내가 쓴 글의 전문성이나 권위도 등을 AI 검색은 어떻게 측정하나요? 무엇을 보고 평가하는 거죠?"입니다. 여러 복합적인 기술이 포함돼 있는 탓에 답변이 쉽지 않았습니다. 여러 기술적 배경을 덧붙여야 하기에 더더욱 그렇습니다. 하지만 오늘 이 글을 통해서 자세한 프로세스를 설명을 해 드리고자 합니다. 블루닷 인텔리전스는 이러한 기술적 이해를 바탕으로 구축된 AI 검색을 위한 브랜드 및 제품 가시성 최적화 솔루션입니다.

ChatGPT 검색, 구글 AI Overviews, Perplexity, Microsoft Copliot 등 AI 검색은 기본적으로 RAG(Retrieval-augmented generation)라는 기술에 의존하고 있습니다. 지금은 RAG가 매우 다양한 방식으로 진화하고 있는데요. 그 종류만 해도 십수개나 됩니다. 각 AI 검색이 어떤 방식의 RAG 기술을 통합해 활용하고 있는지는 정확히 파악하기는 어렵습니다. 하지만 검색 기술 기반이 오래된 곳일수록 지식 그래프(Knowledge Graph)를 다양한 목적으로 구축해 활용하고 있다는 점을 분명합니다. 오늘은 Knowledge Graph가 구축된 AI 검색을 전제로 문서 품질과 전문성을 평가하는 프로세스를 설명해 드리고자 합니다.

지식 그래프는 왜 RAG 통합되기 시작했나

가장 기본적인 RAG를 통상 '벡터RAG(VectorRAG)'라고 부릅니다. 벡터 임베딩과 벡터 유사도에 의존하는 모델입니다. 하지만 이 모델은 몇 가지 한계가 존재했습니다. 전역 질문(global query)이라고 하는데요. 포괄적인 질문을 던지면 제대로 답변을 하지 못합니다. 예를 들어 "지난 10년간 학제 간 연구가 과학적 발견에 미치는 주요 트렌드는 무엇인가?”처럼 복합적이고 의미 파악이 필요한 질문에는 성능이 떨어진다는 의미입니다. 이를 보완하기 위한 기술적 대안이 필요했죠. 그게 대안이 바로 GraphRAG입니다.

GraphRAG는 "그래프 기반 머신러닝(예: 그래프 신경망(GNNs))과 그래프/네트워크 분석 기술(예: 그래프 트래버스 검색 및 커뮤니티 탐지)을 활용하여 관계형 지식을 포착하는" RAG 기술입니다. 비교적 최근에 등장한 향상된 RAG 기법이라고 할 수 있습니다. 기존 벡터 RAG에 그래프 구조를 통합함으로써 더 복잡한 질문에 더 정확한 답변을 내놓을 수 있도록 구성한 것입니다. GRAG이나 SementicRAG로 불리기도 합니다.

아시다시피 그래프는 일종의 관계망입니다. 정확하게는 엔티티의 네트워크 관계도이라고 할 수 있습니다. 아래 이미지를 보면 훨씬 더 잘 이해를 하실 수 있을 겁니다. 가장 대표적인 그래프 데이터베이스 구축 솔루션 Neo4j의 그래프 데이터베이스 화면인데요. 중심 엔티티를 기준으로 엔티티의 관계망이 형성돼 있습니다. 원(노드)으로 된 걸 엔티티라고 보시면됩니다. 엔티티는 사람, 장소, 개념, 사물과 같은 중요한 개념어들입니다. 아래 그래프에 표시된 것들은 이러한 중요한 개념어들입니다. 때론 가까이 붙어있기도 하고 떨어져 있기도 한데요. 관계가 밀접할수록 촘촘하게 붙어있다고 보시면 됩니다.

GraphRAG는 이러한 엔티티로 형성된 그래프 데이터베이스를 통합해 복잡한 질문에서 의미를 파악하여 중요한 엔티티를 추출할 수 있게 됩니다. 추상적인 질문에도 정확한 문서를 찾아내 답변을 만들어낼 수 있게 되죠.

AI 검색은 지식 그래프를 어떻게 활용하나

본격적으로 GraphRAG형 AI 검색이 문서 품질과 전문성을 측정하는 프로세스를 설명해 드리도록 하겠습니다.

예로 시작해 보겠습니다. 사용자가 AI 검색창에 "에펠탑이 언제 지어졌고, 누가 설계했나요?"라고 질문을 합니다. 에펠탑이라는 엔티티가 먼저 떠오를 겁니다. "언제 지어졌고'는 건설 연도, "누가 설계했나요"는 설계자를 의미하게 되는데요. 이 그래프 데이터베이스에는 엔티티별 속성값이 있어서 곧바로 엔티티로 치환을 할 수가 있게 됩니다. 좀더 쉽게 설명하면, LLM이 먼저 엔티티와 그 속성값을 추출합니다. 에펠탑(엔티티), 건설연도(속성), 설계자(속성)가 되겠죠. 이걸 지식 그래프 데이터베이스와 연결시키면, 에펠탑, 1889, 구스타브 에펠로 판정이 됩니다.

RAG는 이때부터 이러한 엔티티와 속성을 지닌 웹 문서를 검색합니다. 해당 의도에 맞는 내용을 가지고 있지만 1889가 아니라 1888로 작성된 글이 있다면 그 문서를 배제하겠죠. 이건 지식 그래프에 이미 정확한 정보를 담은 엔티티 구조망, 즉 지식 그래프가 있어서 가능한 것입니다. 당연히 이 지식 그래프와 일치한 정확한 정보를 지닌 문서나 사이트에 대해선 권위도가 부여됩니다.

구글의 경우 이미 오랫동안 이 지식 그래프를 구축해왔고, 지식 패널이라는 이름으로 운영을 해왔습니다. 막대한 지식 그래프 데이터베이스를 갖추고 있기 때문에 정확한 정보를 담은 문서를 빠르게 찾아내고 답변에 활용을 할 수 있게 되는 것입니다. 사실 위키피디아의 공이 크다고 할 수 있을 겁니다.

자 여기서 유의할 점이 하나 있습니다. 모든 AI 검색은 페이지 단위가 아닌 청크(Chunk) 단위로 문서의 완결성을 본다는 것입니다. AI 검색은 문서를 저장할 때에도(정확히는 임베딩할 때에도) 검색에서 찾아내 답변 생성에 인용할 때에도 청크 단위로 쪼개서 파악합니다. 시맨틱 검색에서 사용하는 임베딩 모델 자체가 이러한 청크 단위로 분류를 하기 때문에 문서를 작성할 때부터 청크를 염두에 둬야 한다고 강조하게 되는 것입니다. 일반적으로 청크의 크기는 많게는 1028토큰 적게는 128토큰으로 다양합니다. 전처리 분야에서 청킹은 매우 중요한 전략 중 하나입니다.

지식 그래프로 AI 검색은 무엇을 할 수 있나?

이제 가장 궁금한 대목으로 들어가 보겠습니다. 바로 지식 그래프로 무엇을 할 수 있느냐에 대한 것입니다. 특히 내가 작성한 콘텐츠 품질 평가에 어떤 식으로 관여할 수 있는가에 대한 내용입니다.

  • 정확성 평가 및 검증 : 이미 앞에서 설명을 드렸지만, '합의된 지식' 즉 정확한 정보로 구축된 지식 그래프는 수집된 문서의 정확성을 평가하는데 활용됩니다. 에펠탑의 사례를 들었는데요. 에펠탑의 완공 연도를 1887년(착공한 연도)로 작성한 글(청크)은 지식 그래프와 배치되기 때문에 배제합니다. 이러한 내용들이 반복되면 정확도가 낮은 사이트로 간주하고, 권위도와 전문성을 떨어뜨리게 되겠죠.
  • 전문성 평가 및 검증 : 지식 그래프에는 콘텐츠를 작성한 조직과 작성자(작가)의 엔티티도 포함돼 있습니다. 통상 블로그 등을 보면 작성자가 있고, 작성자의 소셜미디어 링크가 연결돼 있기 마련인데요. 작성자와 조직의 프로필에 담긴 여러 정보들이 지식 그래프에 엔티티 형태로 연결돼 있습니다. 예를 들어 작성자의 프로필에 관련 서적이 열거돼 있고 그 서적이 다시 명성 있는 서점의 저서로 링크가 걸려있다면, 해당 작성자는 높은 전문성을 갖고 있다고 판단하겠죠. 그래서 AI 검색 최적화에서 작성자 프로필을 스키마 마크업을 통해 관리하고 관련 전문성을 입증할 수 있는 정보를 링크로 연결하라고 하는 것입니다.
  • 콘텐츠의 토픽 권위도 평가 : 지식 그래프는 해당 콘텐츠의 토픽 권위도를 평가하는 데에도 기여합니다. 아래는 지식 그래프의 네트워크 형태를 시각화한 것인데요. 하나의 색상 그룹이 '그래프 커뮤니티'라고 불리는 것입니다. 특정 토픽을 중심으로 엔티티가 형성된 구조라고 할 수 있습니다. 보시면 알겠지만 가장 중심에 중심 엔티티(토픽)가 존재하고 그 주변으로 관련 엔티티가 배치돼 있습니다. 당연히 가장 정확한 정보 엔티티로 구축이 돼 있어야 할 겁니다. 만약 특정 문서의 청크가 특정 토픽의 중심 엔티티와 연결 강도가 높은 주변 엔티티를 잘 활용해서 작성된 글이라면, 정확성도 높고 전문성도 높다고 판정하게 되는 겁니다. 특정 주제를 중심으로 강도 높은 엔티티를 잘 활용하고 있는 글이라면 그만큼 전문성 점수도 높아지겠죠.
Knowledge Graph와 Graph Community

따라서 전문성을 갖춘 작성자나 조직이 해당 AI 검색의 지식 그래프에 어긋나지 않는 정확한 팩트로 기초로, 그래프 커뮤니티의 중심과 잘 연결된 토픽 엔티티를 활용해서 작성하면 그만큼 높은 토픽 권위도와 인용 확률을 얻게 되는 것입니다. 그 반대로 지식 그래프의 엔티티와 불일치하는 엔티티를 자주 사용하게 되면 잘못된 정보로 판정해서 권위도를 낮추게 될 수도 있는 거죠.

마무리하며

지식 그래프는 사용자 질문(쿼리)의 추상성을 구체화하고 정확한 정보 검색을 위해 엔티티를 추출하는 역할도 하지만 수집된 문서의 정확성과 전문성, 권위도 등을 평가하는 잣대와 기준으로 활용이 됩니다. 오로지 지식 그래프만의 역할은 아니고요. LLM와 결합돼 있기에 이러한 작업이 가능해진 것입니다.

다만 지식 그래프를 구축하고 운영하는 건 그만큼의 비용이 증가한다는 걸 의미합니다. 새로운 지식과 그것의 관계가 늘 생겨나기 때문에 최신성과 정확성을 잘 유지해야 할 필요도 있습니다. 정확한 정보를 생성해 제공한다는 게 그만큼 어려운 작업이 될 수밖에 없는 것입니다

참고 문헌

  • Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.
  • Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, X. Retrieval-Augmented Generation with Graphs (GraphRAG). arXiv 2024. arXiv preprint arXiv:2501.00309.

도움이 되는 다른 콘텐츠

이성규

저는 블루닷에이아이의 공동창업자이자 현재 CEO를 맡고 있습니다. AI검색최적화 분석 플랫폼 '블루닷 인텔리전스', AI 검색최적화 CMS '블루닷CMS'의 프로덕트 매니징도 담당하고 있고요. 저널리즘 AI 오웰도 만들고 있답니다. 더코어(전 미디어고토사)에서 미디어 에디터로 활동하고 있습니다.

작가와 대화를 시작하세요.