이걸 이해하려면 크게 두 가지 개념을 알아야 해. "토큰화"랑 "패턴 학습" 이야.
토큰화(Tokenization) - 단어를 잘게 쪼개는 것
-
인공지능은 텍스트를 그냥 문장 덩어리로 읽지 않아.
-
문장을 작은 조각으로 나눠서 인식해. 이걸 토큰(token) 이라고 불러.
-
토큰은 단어일 수도 있고, 단어 조각일 수도 있어. 예를 들면,
"나는 김치를 좋아한다."
→ ["나", "는", "김", "치", "를", "좋아", "한다", "."]
이렇게 잘게 쪼개서 각각을 기억하고, 연결하는 방식을 배워.
패턴 학습 - 어떤 말 뒤에 무슨 말이 오는지 통계적으로 익히기
-
AI는 책, 웹사이트, 기사 등을 읽으면서
"어떤 토큰 다음에는 어떤 토큰이 자주 오는지" 를 수없이 계산해. -
예를 들면, "김치"라는 단어 뒤에는 "맛있다", "매콤하다", "발효" 같은 단어가 자주 나온다는 걸 배워.
그래서 질문을 받으면
-
"아, 이 토픽에선 이런 단어들이 자연스럽게 따라오는구나."
-
"이런 문맥에서는 이런 문장 구조를 쓰는 게 자연스럽구나."
하는 패턴을 꺼내와서,
완전히 새로 문장을 조립해서 대답하는 거야.
즉석 조립, 즉석 창작
-
인공지능은 정해진 답을 꺼내오는 게 아니라,
-
매 순간 토큰을 이어붙이면서 답변을 만들어내.
-
질문할 때마다 똑같은 질문에도 약간씩 표현이 달라질 수 있는 이유가 바로 이거야.
중요한 건 "확률"
-
무슨 단어를 쓸지 결정할 때, 가장 "확률이 높은" 다음 단어를 선택해 이어나가는 구조야.
-
그래서 AI답변은 항상 "자연스러운 문장처럼" 보이게 되는 거지.
AI는 텍스트를 작은 조각(토큰)으로 쪼개서, 어떤 조각 뒤에 어떤 조각이 오는지를 수백억 번 학습해서, 순간순간 가장 자연스러운 답을 새로 조립해서 만들어낸다.