AI는 세계를 어떻게 이해하는가

기술·유지혜·2026. 4. 5

우리는 흔히 인공지능을 두고 “이해한다”고 말합니다.
챗봇이 자연스럽게 답하고, 추천 시스템이 내 취향을 아는 것처럼 행동하고, 생성형 AI가 그럴듯한 이미지와 문장을 만들어내는 모습을 보면 정말 그렇게 느껴집니다.

하지만 여기서 한 번쯤 질문해볼 필요가 있습니다.

AI는 정말 인간처럼 세계를 이해하고 있을까요.
아니면 인간과는 전혀 다른 방식으로 세계를 계산하고 있는 것일까요?
질문에 답하려면, AI를 둘러싼 화려한 결과물보다 먼저 그 내부의 아주 기본적인 작동 원리를 봐야 합니다.

이 글에서는 AI가 세계를 이해하는 방식이 어떻게 토큰(Token)에서 시작해 벡터(Vector), 잠재공간(Latent Space), 의미(Semantic)로 이어지고, 마지막에 애딥 GPR(Generative Pre-trained Recommender)이라는 구조로 통합되는지를 정리해보겠습니다.


AI를 이해하려면 먼저 질문부터 바꿔야 한다.

우리는 질문 세 개로 시작합니다.

첫 번째는 “ChatGPT는 어떻게 그럴듯한 문장을 만들어내는가?”
두 번째는 “추천 AI는 왜 내 취향을 아는 것처럼 행동하는가?”
세 번째는 “AI가 왜 가끔 엉뚱하고 이상한 답을 내놓는가?”입니다.

이 세 질문은 사실 하나의 흐름으로 연결됩니다.
문장을 만드는 문제는 토큰과 임베딩의 문제이고, 취향을 아는 것처럼 보이는 이유는 잠재공간의 문제이며, 엉뚱한 답을 내놓는 이유는 확률과 의미의 차이에서 비롯됩니다.

즉 AI를 이해하려면, 단순히 “성능이 좋다”는 결과가 아니라
AI가 입력을 어떤 단위로 쪼개고, 그것을 어떤 좌표로 바꾸고, 그 좌표 위에서 무엇을 추론하는지를 먼저 봐야 합니다.


토큰(Token): AI가 세상을 쪼개는 최소 단위

AI가 세계를 다루기 위해 가장 먼저 하는 일은 현실을 잘게 나누는 것입니다.
그리고 이때 사용되는 최소 단위가 바로 토큰(Token)입니다.

여기서 중요한 점은 토큰이 곧 의미 단위는 아니라는 사실입니다.
토큰은 어디까지나 AI가 계산할 수 있는 단위입니다.
컴퓨터는 결국 숫자만 다룰 수 있기 때문에, AI는 텍스트든 이미지든 음성이든 행동 로그든 먼저 그것을 계산 가능한 조각으로 분해해야 합니다.

예를 들어 “나는 오늘 행복하다”라는 문장을 생각해보면, 이것은 단어 단위로도 쪼갤 수 있고, 문자 단위로도 쪼갤 수 있고, 서브워드(Subword) 단위로도 쪼갤 수 있습니다.
어떻게 쪼개느냐에 따라 AI가 세상을 인식하는 해상도도 달라집니다. 너무 크게 자르면 세부 변화가 사라지고, 너무 잘게 자르면 전체 맥락을 잡기 어려워집니다.

이 점에서 토크나이저(Tokenizer)는 단순한 전처리 도구가 아닙니다.
토크나이저는 AI가 세상을 어떤 단위로 보고, 어떤 해상도로 다룰지를 결정하는 시작점입니다.

또한 토큰은 텍스트에만 있는 개념도 아닙니다.
이미지에서는 패치(Patch), 음성에서는 프레임(Frame), 행동 데이터에서는 이벤트(Event)나 로그(Log)가 토큰처럼 작동합니다. 결국 텍스트, 이미지, 음성, 행동 이벤트는 모두 AI 안에서는 입력 단위로 쪼개져 처리됩니다.

하지만 여기서 바로 한계도 드러납니다.
토큰은 세상을 쪼개는 데는 성공하지만, 그렇게 쪼개진 조각들을 다시 의미 있는 상태로 묶지는 못합니다.
토큰은 관측(Observation)의 단위이지 상태(State)의 단위가 아닙니다.

이 문장은 매우 중요합니다.
왜냐하면 AI가 보는 것은 처음부터 “사람의 마음”이나 “상황의 의미”가 아니라, 잘게 나뉜 관측 조각들이기 때문입니다.


벡터(Vector)와 임베딩(Embedding): 조각들을 좌표로 바꾸는 단계

토큰이 세상을 쪼갠 결과라면, 벡터(Vector)는 그 조각들을 계산 가능한 좌표로 바꾼 결과입니다.
토큰이 상징이라면, 벡터는 위치입니다.
즉 토큰만으로는 계산이 어렵지만, 토큰을 벡터로 바꾸면 서로의 관계를 거리와 방향으로 계산할 수 있게 됩니다.

이때 등장하는 개념이 임베딩(Embedding)입니다.
임베딩은 토큰을 벡터로 변환하는 과정이자, 학습을 통해 형성된 매핑입니다. 중요한 점은 임베딩이 사전적 의미를 그대로 옮기는 규칙표가 아니라는 것입니다. 임베딩은 데이터 속에서 반복적으로 드러난 관계 구조의 결과입니다.

그래서 의미는 벡터 자체에 들어 있는 것이 아니라, 벡터들 사이의 상대적 위치에서 드러납니다.
어떤 벡터가 다른 벡터와 얼마나 가까운지, 어떤 방향 관계를 가지는지가 의미를 형성합니다.

예를 들어 잘 알려진 벡터 연산인 “King - Man + Woman ≈ Queen”은, 단어 하나하나의 뜻을 사전처럼 저장한 결과가 아니라 벡터 공간 안의 관계가 수학적으로 드러난 사례입니다.
또 코사인 유사도(Cosine Similarity)는 두 벡터가 얼마나 비슷한 방향을 바라보는지를 계산합니다. 여기서 중요한 것은 크기보다 방향입니다. 절대적 등장 횟수보다, 다른 단어들과 어떤 관계를 맺고 있는지가 의미를 결정하기 때문입니다.

최근 임베딩 연구의 흐름도 이 구조를 더 발전시키고 있습니다.
하나의 모델로 다양한 차원의 임베딩을 제공하는 Matryoshka Representation, 텍스트와 이미지를 하나의 의미 공간에 정렬하는 Multimodal Alignment, 거대 언어 모델(Large Language Model, LLM)을 임베더로 활용하는 LLM-as-Embedder, 목적에 따라 임베딩 성격을 제어하는 Promptable Embeddings 등이 그 흐름입니다.

하지만 임베딩이 잘 작동한다고 해서 곧 의미를 이해하는 것은 아닙니다.

임베딩은 유사성을 잘 표현합니다.
본 적 없는 조합도 어느 정도 일반화할 수 있습니다.
멀티모달 통합도 가능합니다.

그러나 임베딩은 본질적으로 정적인 관계 표현에 강할 뿐, 시간에 따라 변하는 상태를 직접 담기 어렵습니다.
또 벡터 공간의 근접성은 통계적 유사성을 말해줄 뿐, 그것이 지금 이 상황에 맞는지, 목적과 가치에 부합하는지까지 보장하지는 못합니다.

즉 임베딩은 “비슷해 보임”을 잘 표현하지만,
“지금 이 상황에서 맞음”까지 직접 표현하지는 못합니다.


임베딩 연구의 흐름: 좌표에서 의미 구조로

임베딩은 한때 “단어를 벡터로 바꾸는 기술” 정도로 설명되곤 했습니다. 하지만 지금의 임베딩은 그보다 훨씬 큰 역할을 맡고 있습니다. 이제 임베딩은 단순한 표현 기법이 아니라, AI가 세계를 어떤 구조로 정렬하고 어떤 관계를 중요한 것으로 간주할지를 결정하는 핵심 인프라가 되었습니다.

초기의 임베딩은 주로 텍스트 안에서 단어 간 통계적 관계를 포착하는 데 집중했습니다. 비슷한 문맥에서 자주 등장하는 단어들이 가까운 위치에 놓이도록 학습하면서, 의미를 직접 저장하는 대신 의미가 드러나는 좌표 구조를 형성하는 방식이었습니다. 이 시기의 핵심은 “유사한 것은 가깝게, 다른 것은 멀게”라는 비교적 단순한 원칙이었습니다.

그러나 검색, 추천, 생성, 멀티모달 이해가 하나의 시스템 안에서 연결되기 시작하면서, 임베딩 연구의 질문도 달라졌습니다. 이제 중요한 것은 단순히 비슷한 것을 가깝게 두는 것이 아니라, 어떤 목적에서의 유사성을 만들 것인지, 서로 다른 데이터 형식을 어떻게 같은 의미 공간에 정렬할 것인지, 그리고 시간과 맥락이 바뀌어도 표현이 얼마나 안정적으로 유지될 수 있는지까지 함께 다루는 것입니다. 이 지점에서 임베딩은 “좌표”를 만드는 기술에서 “의미 구조”를 설계하는 기술로 이동하고 있습니다.

1. 고정 길이 벡터에서 유연한 벡터로

최근 가장 중요한 변화 중 하나는 임베딩을 더 이상 고정 길이 벡터로만 보지 않는다는 점입니다. 대표적인 흐름이 Matryoshka Representation Learning, 즉 마트료시카 표현 학습입니다. 이 방식은 하나의 고차원 벡터 안에 여러 크기의 유효한 하위 벡터를 중첩해 학습합니다. 쉽게 말하면, 2048차원 전체를 써도 되고, 앞의 1024차원이나 512차원만 잘라 써도 여전히 쓸 만한 임베딩이 되도록 만드는 방식입니다. 이 접근은 성능과 비용 사이에서 더 유연한 선택을 가능하게 만들었고, 이후 2D Matryoshka 같은 방식은 차원뿐 아니라 레이어 수도 줄여가며 효율을 높이는 방향으로 확장되었습니다. 실제 산업 문서에서도 이런 유연 차원 임베딩은 저장 비용과 검색 비용을 줄이는 방식으로 적극 활용되고 있습니다.

이 흐름이 중요한 이유는 임베딩이 더 이상 “정답 하나”가 아니라는 점을 보여주기 때문입니다. 같은 의미 구조라도, 모바일 환경에서는 더 짧고 빠른 벡터가 유리할 수 있고, 대규모 검색 인프라에서는 더 정밀한 긴 벡터가 필요할 수 있습니다. 즉 임베딩의 핵심은 이제 최대 성능만이 아니라, 환경에 따라 조절 가능한 표현을 만드는 데로 이동하고 있습니다.

2. 텍스트 임베딩에서 멀티모달 의미 정렬로

또 하나의 큰 흐름은 멀티모달 정렬입니다. 과거에는 텍스트는 텍스트 모델이, 이미지는 이미지 모델이 따로 다뤘습니다. 하지만 CLIP 이후, 텍스트와 이미지를 하나의 공동 의미 공간에 배치하는 방식이 강력한 표준으로 자리 잡았습니다. 이 접근에서는 “강아지”라는 텍스트와 강아지 사진이 서로 다른 데이터 형식임에도 같은 의미 공간에서 가까운 좌표를 차지하게 됩니다. 이렇게 되면 텍스트로 이미지를 검색하거나, 별도 라벨 없이도 이미지 분류를 수행하는 제로샷 전이가 가능합니다.

그런데 최근 연구는 여기서 더 나아가고 있습니다. 단순히 텍스트와 이미지를 한 공간에 맞추는 수준이 아니라, 더 세밀한 지역 정보, 속성 정보, 문서 구조, 영상 안의 음성·자막·프레임까지 함께 엮는 방향으로 발전 중입니다. 예를 들어 지역 단위 정렬을 강화하는 연구는 “개 사진” 전체가 아니라 “목줄”, “털 색”, “배경 환경”처럼 더 세밀한 속성을 구분할 수 있게 만들고, 비디오 검색에서는 프레임, 음성, 자막, 메타데이터를 함께 고려하는 late interaction 방식이 확장되고 있습니다. 즉 멀티모달 임베딩의 목표도 “같은 의미를 대충 가깝게 두는 것”에서 “어떤 속성, 어떤 단서, 어떤 모달리티가 지금 더 중요한지를 구분하는 것”으로 이동하고 있습니다.

3. 임베딩 모델 자체가 더 커지고, 더 지시를 이해하게 됨

과거의 임베딩 모델은 대체로 인코더 전용 구조였습니다. 대표적으로 BERT 계열이 그 흐름을 이끌었습니다. 하지만 최근에는 대규모 언어 모델을 임베딩 생성기로 활용하는 흐름이 강해졌습니다. 이른바 LLM-as-Embedder입니다. 이런 방식은 단순히 문장을 벡터로 압축하는 것이 아니라, 긴 문맥과 풍부한 사전 지식을 활용해 더 정교한 표현을 만듭니다.

이 흐름에서 특히 중요한 것은 임베딩이 점점 더 “지시를 이해하는 표현”으로 바뀌고 있다는 점입니다. 예전에는 같은 문장은 항상 같은 방식으로 벡터화되는 경향이 강했습니다. 이제는 “이 문장을 검색용으로 표현하라”, “이 문장을 분류용으로 표현하라”, “이 문장에서 핵심 주장만 남겨라”처럼 목적을 함께 넣어 임베딩을 생성하는 방향으로 가고 있습니다. 이런 instruction-based embedding은 검색, 분류, 군집화, 랭킹 같은 서로 다른 다운스트림 과업에서 같은 입력을 다른 방식으로 구조화할 수 있게 만듭니다.

4. 임베딩은 점점 더 “압축”이 아니라 “검색 전략"

예전에는 문서 하나를 벡터 하나로 압축하는 single-vector embedding이 표준에 가까웠습니다. 이 방식은 빠르고 단순하지만, 긴 문서나 다의적인 질의에서는 중요한 세부 정보가 눌려버릴 수 있습니다. 그래서 등장한 것이 late interaction 계열입니다. 대표적으로 ColBERT는 질의와 문서를 각각 토큰 단위로 인코딩한 뒤, 마지막 단계에서 토큰 간 상호작용을 남겨 relevance를 계산합니다. 이는 single-vector 방식보다 훨씬 더 세밀한 매칭을 가능하게 하면서도, cross-encoder처럼 쿼리-문서 쌍 전체를 매번 다시 계산하는 비용은 피하는 절충 구조입니다.

이 흐름은 중요한 시사점을 갖습니다. 임베딩의 목적이 단순한 압축이 아니라, 어떤 정보는 유지하고 어떤 정보는 버릴지를 전략적으로 결정하는 방향으로 바뀌고 있다는 뜻입니다. 특히 긴 문서 검색, 복합 질의 응답, 멀티모달 검색 같은 문제에서는 “하나의 벡터로 얼마나 잘 요약했는가”보다 “어떤 상호작용을 끝까지 남겼는가”가 더 중요해지고 있습니다.

5. 긴 문맥을 다루는 임베딩으로 확장

대규모 언어 모델의 컨텍스트 윈도우가 계속 커지면서, 임베딩 모델도 더 긴 입력을 다뤄야 하는 요구를 받고 있습니다. 그러나 한동안 임베딩 모델은 상대적으로 짧은 입력 길이에 머물러 있었습니다. LongEmbed 연구는 이런 격차를 정면으로 다뤘습니다. 이 연구는 기존 임베딩 모델이 긴 문서 검색에서 얼마나 취약한지 보여주었고, 추가 학습 없이도 입력 길이를 여러 배 확장할 수 있음을 보였습니다.

이 흐름은 앞으로 중요성이 더 커질 가능성이 높습니다. 왜냐하면 실제 서비스에서는 짧은 문장 하나만 임베딩하는 일이 아니라, 긴 문서, 긴 세션 로그, 긴 대화 맥락, 복합 상품 설명, 장기 사용자 이력 전체를 다뤄야 하는 경우가 점점 늘어나고 있기 때문입니다. 결국 임베딩의 미래는 “짧은 표현을 잘 만드는 것”을 넘어 “긴 구조를 무너지지 않게 표현하는 것”으로 이동하고 있습니다.

6. 표현의 품질을 높이기 위한 학습 신호도 더 복잡해짐

초기의 임베딩은 주로 공동 등장 빈도나 대조 학습에 크게 의존했습니다. 지금도 이 원리는 핵심이지만, 학습 신호는 점점 더 풍부해지고 있습니다. 하드 네거티브 마이닝, synthetic data를 활용한 instruction tuning, 검색용과 비검색용 과제를 함께 섞는 멀티스테이지 학습, 지역 수준 대조 손실, 다국어 정렬 등이 그 예입니다.

이 말은 결국 임베딩이 단순한 “표현 학습”을 넘어서고 있다는 뜻입니다. 임베딩은 이제 검색, 추천, RAG, 분류, 군집화, 에이전트 기억, 멀티모달 정렬 같은 다양한 목적에 맞게 조정되는 범용 표현 계층으로 진화하고 있습니다.

7. 그럼에도 임베딩이 해결하지 못하는 것

여기서 중요한 것은, 임베딩 연구가 아무리 발전해도 그것만으로 AI가 세계를 충분히 이해하게 되지는 않는다는 점입니다. 임베딩은 관계를 정렬하는 데 탁월합니다. 유사한 것을 가깝게 두고, 검색과 매칭을 효율화하며, 서로 다른 모달리티를 하나의 의미 공간에 맞추는 데 강력합니다. 그러나 임베딩은 여전히 주로 “정적인 관계”를 다룹니다.

즉 임베딩은 “무엇이 서로 비슷한가”를 잘 표현하지만, “지금 이 사용자는 어떤 상태인가”, “이 상태는 시간에 따라 어디로 이동하는가”, “같은 행동 뒤에 있는 다른 내적 조건은 무엇인가”까지 직접 해결하지는 못합니다. 그래서 임베딩 다음에는 잠재공간, 상태공간, 그리고 동역학 모델이 필요해집니다. 벡터가 관계를 만들었다면, 그다음 과제는 그 관계 위에 시간과 상태를 올리는 것입니다.

이 지점에서 애딥이 강조하는 방향도 자연스럽게 이해됩니다. 임베딩은 매우 중요하지만 끝이 아닙니다. 오히려 시작에 가깝습니다. 토큰을 좌표로 바꾸는 데 성공한 다음에는, 그 좌표들이 어떤 상태 변화를 암시하는지, 어떤 맥락에서 어떤 의미를 갖는지, 그리고 어떻게 추천과 생성으로 이어질지를 다뤄야 합니다. 결국 임베딩 연구의 흐름은 “벡터를 잘 만드는 법”에서 “의미를 정렬하는 법”으로, 다시 “상태와 목적까지 포함한 구조를 만드는 법”으로 확장되고 있습니다.


잠재공간(Latent Space): 보이지 않는 상태의 무대

여기서 AI 이해의 다음 단계가 등장합니다. 바로 잠재공간(Latent Space)입니다.
임베딩은 보이는 것을 표현하지만, 잠재공간은 보이지 않지만 존재하는 것을 표현합니다.

이 말은 곧, 관측된 데이터 그 자체가 아니라
그 뒤에 숨어 있는 상태(State), 의도(Intent), 스타일(Style), 장면(Scene), 대상의 상태(Object State) 같은 보이지 않는 요인을 표현하는 공간이 잠재공간이라는 뜻입니다.

잠재공간이 중요한 이유는, 현실의 관측만으로는 충분히 설명되지 않는 차이를 다룰 수 있기 때문입니다.

예시를 보면,
“상품 A 조회 → 스크롤다운 → 상품 A 재조회”라는 동일한 행동 시퀀스가 있다고 해도, 그 내부 상태는 전혀 다를 수 있습니다.

한 경우에는 여러 상품을 비교 탐색하는 중일 수 있습니다.
이때는 비교표나 리뷰 요약이 적절합니다.

다른 경우에는 이미 구매를 거의 결정했고, 마지막 확인만 하는 상태일 수 있습니다.
이때는 구매 혜택이나 보증 정보가 더 적절합니다.

관측된 행동만 보면 두 상황은 비슷해 보입니다.
하지만 실제 내부 상태는 다르고, 따라서 적절한 다음 반응도 달라집니다.

이 차이를 구분하려면 토큰만으로는 부족합니다.
잠재공간과 상태 모델이 있어야 동일한 관측 뒤에 있는 다른 상태를 추론할 수 있습니다.

그래서 잠재공간은 단순한 저장소가 아니라 추론의 무대가 됩니다.
복잡하고 노이즈가 많은 관측에서 본질적인 상태를 추출하고, 하나의 정답이 아니라 확률 분포로 불확실성을 관리하며, 개별 사례를 외우는 것이 아니라 생성 규칙을 압축해 일반화된 추론을 가능하게 합니다. 더 나아가 현실에서 행동하지 않고도 내부에서 미래 상태를 시뮬레이션할 수 있게 해줍니다.

이 지점에서 RSSM(Recurrent State Space Model, 순환 상태 공간 모델)이 등장합니다.
RSSM을 “시간을 품은 잠재공간”으로 설명합니다.
결정론적 경로는 지금까지 무슨 일이 있었는지를 기억하는 축이고, 확률적 경로는 앞으로 무슨 일이 일어날 수 있는지를 상상하는 축입니다. 이 기억과 상상의 결합이 곧 세계모델(World Model)의 기반이 됩니다.


확률적 그럴듯함과 의미적 맞음은 다르다

AI가 때때로 그럴듯하지만 틀린 답을 내놓는 이유는 어디서 오는가.
이 문제를 “AI의 두 가지 판단 기준”으로 설명합니다.

첫째는 확률적 그럴듯함(Probabilistic Plausibility)입니다.
이것은 통계적 빈도에 기반한 판단입니다.
“이 단어 뒤에 어떤 단어가 올 확률이 높은가” 같은 문제를 푸는 방식입니다. 문맥상 자연스러운 연결을 만드는 데에는 강하지만, 그 결과가 반드시 참이거나 맞는 것은 아닙니다. 그래서 환각(Hallucination), 즉 그럴듯한 거짓말이 생깁니다.

둘째는 의미적 맞음(Semantic Correctness)입니다.
이것은 논리적 정합성과 사실, 인과관계, 규칙 준수를 기준으로 판단합니다.
무엇이 사실에 부합하는지, 무엇이 규칙과 의미 구조에 맞는지를 보는 기준입니다.

문제는 대부분의 대규모 언어 모델이 태생적으로 확률 모델이라는 점입니다.
즉 기본적으로는 “그럴듯함”을 더 잘 다룹니다.
그래서 의미적 구조를 강제하는 별도의 메커니즘이 필요합니다.

더 많은 데이터를 넣는다고 해서 이 문제가 자동으로 해결되지는 않는다고 말합니다.
모든 가능한 상황을 데이터로 수집할 수는 없고, 드물지만 중요한 긴 꼬리(Long-tail) 사건은 충분히 학습되지 않으며, 상관관계는 잡아도 인과관계까지 직접 배우지는 못하기 때문입니다.

결국 AI는 확률적 그럴듯함을 넘어,
의미적 필연성에 가까운 구조를 확보해야 합니다.


애딥 GPR은 이 모든 개념을 어떻게 통합하는가

이제 마지막 단계로 넘어갑니다.
토큰, 임베딩, 잠재공간, 의미 판단 기준을 하나의 시스템으로 묶는 구조가 바로 애딥 GPR(Generative Pre-trained Recommender)입니다.

GPR은 단순한 검색기가 아닙니다.
단순히 기존 목록 중 하나를 고르는 시스템도 아닙니다.
유저의 상태와 문맥을 이해하고, 그 상태에 맞는 최적 경로를 생성하는 구조입니다.

이 파이프라인은 대략 다음과 같이 이해할 수 있습니다.

사용자 이력(User History), 아이템 특성(Item Features), 문맥(Context)이 입력으로 들어오고,
GPR 엔진 안에서는 트랜스포머(Transformer)가 문맥 이해를 담당하고, RSSM이 상태 시뮬레이션을 담당합니다.
그 결과는 다음 행동 예측에만 머무르지 않고, 생성(Generation)과 추천(Recommendation)으로 이어집니다.

여기서 중요한 것은 GPR이 semantic tokenization과도 구분된다는 점입니다.
semantic tokenization이 상품이나 콘텐츠를 의미 기반 토큰으로 압축해 표현하는 기술이라면, GPR은 사용자 상태, 콘텐츠, 상품, 행동을 하나의 의미 공간에서 함께 모델링하는 전체 추천·생성 아키텍처입니다.

즉 질문 자체가 다릅니다.

semantic tokenization의 질문은
“상품을 어떻게 표현할까”에 가깝습니다.

반면 GPR의 질문은
“사용자 상태와 객체 관계를 어떻게 하나의 의미 공간에서 모델링할까”입니다.

그래서 GPR 파이프라인 안에서 semantic tokenization은 하나의 단계일 뿐입니다.
상품과 콘텐츠 정보는 멀티모달 인코더(Multimodal Encoder)를 통해 임베딩되고, semantic tokenization을 통해 의미 토큰으로 압축됩니다. 그다음 통합 잠재공간(Integrated Latent Space)에서 사용자, 상품, 콘텐츠의 잠재 벡터가 정렬되고, 상태 동역학(State Dynamics)에서 사용자의 상태 변화가 학습됩니다. 마지막으로 이 모든 것이 생성과 추천으로 이어집니다.

이를 하나의 사고 체계로 요약합니다.

  • 토큰은 세상을 쪼개서 관측

  • 임베딩은 조각들을 관계로 연결

  • 잠재공간은 보이지 않는 맥락을 추론

  • 의미 구조는 의미 있는 결과를 생성

이 흐름은 단순한 기술 목록이 아닙니다.
AI가 세계를 이해하는 방식이 어떻게 관측에서 관계로, 관계에서 상태로, 상태에서 의미 구조로 확장되는지를 보여주는 하나의 사고 경로입니다.


AI는 처음부터 의미를 이해하는 존재가 아닙니다.
먼저 세계를 쪼개고, 그 조각을 좌표로 바꾸고, 좌표들 사이의 관계를 계산하고, 그 뒤에 숨어 있는 상태를 추론하는 방향으로 발전해 왔습니다.

이 관점에서 보면 토큰은 시작점이고, 임베딩은 관계의 수학적 표현이며, 잠재공간은 보이지 않는 상태를 다루는 무대입니다. 그리고 그 위에서 확률적 그럴듯함을 넘어 의미적 맞음까지 확보하려는 시도가 오늘날 더 중요한 과제가 됩니다.

애딥 GPR은 바로 이 전체 흐름을 추천과 생성의 통합 구조로 끌고 가려는 시도입니다.
단순히 “무엇이 비슷한가”를 찾는 것을 넘어서, 사용자의 상태와 문맥, 콘텐츠와 상품의 관계를 하나의 의미 공간 안에서 다루고, 그 결과를 다음 행동과 생성 결과로 연결하는 구조입니다.

결국 AI를 이해한다는 것은, 결과만 보는 것이 아니라 그 결과가 어떤 사고 단계를 거쳐 나왔는지를 보는 일입니다.
그리고 그 과정을 이해하면, 우리가 AI를 어디까지 확장할 수 있는지도 함께 달라지기 시작합니다.