-
2장 LLM의 중추, 트랜스포머 아키텍처 살펴보기LLM/LLM을 활용한 실전 AI 애플리케이션 개발 2025. 1. 10. 09:22
2.1 트랜스포머 아키텍처란
2.1
2.2
squeeze 와 unsqueeze
squeeze : 으깨서 없애기
https://sanghyu.tistory.com/86
[PyTorch] squeeze, unsqueeze함수: 차원 삭제와 차원 삽입
squeeze함수 squeeze함수는 차원이 1인 차원을 제거해준다. 따로 차원을 설정하지 않으면 1인 차원을 모두 제거한다. 그리고 차원을 설정해주면 그 차원만 제거한다. Python 코드 import torch x = torch.rand(3
sanghyu.tistory.com
2.3
2.4
2.5
2.6
2.7
토큰화 예
강남스타일 🎵 PSY의 공연이 LA에서 열렸다
"강남스타일" (자주 사용되는 표현으로 하나의 토큰)
"🎵" (이모티콘은 개별 토큰)
"PSY" (유명인 이름으로 하나의 토큰)
"의"
"공연"
"이"
"LA" (도시 이름으로 하나의 토큰)
"에서"
"열렸다"
"!"
"BTS" (유명 그룹명으로 하나의 토큰)
"가"
"Grammy" (자주 사용되는 외국어로 하나의 토큰)
"어워즈"
"@" (특수문자는 개별 토큰)
"미국" (국가명으로 하나의 토큰)
"무대"
"에서"
"#" (특수문자는 개별 토큰)
"Amazing" (외국어는 음절 단위)
"공연"
"💫" (이모티콘은 개별 토큰)
"대한민국" (국가명으로 하나의 토큰)
"vs" (자주 사용되는 특수표현으로 하나의 토큰)
"일본" (국가명으로 하나의 토큰)
"월드컵" (자주 사용되는 표현으로 하나의 토큰)
"2002" (숫자는 개별 토큰)
"결승전"
"⚽️" (이모티콘은 개별 토큰)
소프트맥스 함수란?
소프트맥스(Softmax) 함수는 기계 학습과 자연어 처리(NLP)에서 주로 사용되는 함수로,
특히 언어 모델과 같은 대규모 언어 모델(LLM, Large Language Model) 구현 과정에서 중요합니다.
이 함수는 주어진 벡터의 각 요소를 확률 분포로 변환하는 역할을 합니다.
다음은 소프트맥스 함수의 주요 특징입니다:
01. 확률 분포 변환: 소프트맥스 함수는 입력 벡터의 각 요소를 0과 1 사이의 값으로 변환하며,
모든 요소의 합은 1이 됩니다. 이를 통해 각 요소가 특정 클래스에 속할 확률을 나타낼 수 있습니다.02. 수식: 소프트맥스 함수는 다음과 같은 수식으로 표현됩니다:
소프트맥스 함수는 다음과 같이 정의됩니다:
여기서 는 자연상수이며, Z i 는 입력 벡터의 𝑖 i번째 요소입니다.소프트맥스 함수의 출력은 항상 0과 1 사이의 값이며, 모든 출력 값의 합은 1이 됩니다.
따라서 소프트맥스 함수의 출력은 각 클래스에 대한 확률로 해석할 수 있습니다.
소프트맥스 함수는 주로 신경망의 마지막 층에서 사용되어, 모델이 예측한 각 클래스에 대한 확률을 제공하는 데 유용합니다.03. 사용 사례: 언어 모델에서 소프트맥스 함수는 단어 예측 및 분류 작업에 주로 사용됩니다.
예를 들어, 문장에서 다음에 올 단어를 예측할 때, 소프트맥스 함수는 각 단어가 다음에 나올 확률을 계산합니다.
소프트맥스 함수의 또 다른 장점은 그 결과값이 해석 가능하다는 점입니다.
이를 통해 모델이 예측하는 결과를 보다 직관적으로 이해할 수 있습니다.
책 : https://ridibooks.com/books/3649000042
LLM을 활용한 실전 AI 애플리케이션 개발
LLM을 활용한 실전 AI 애플리케이션 개발 작품소개: 트랜스포머 아키텍처부터 RAG 개발, 모델 학습, 배포, 최적화, 운영까지 라마인덱스와 LLM을 활용한 AI 애플리케이션 개발의 모든 것이 책에서는
ridibooks.com
'LLM > LLM을 활용한 실전 AI 애플리케이션 개발' 카테고리의 다른 글
2.5 인코더 (0) 2025.01.10 2.3 어텐션 이해하기 (0) 2025.01.10 1.2 언어 모델이 챗GPT가 되기까지 (1) 2025.01.09 1장 LLM 지도 1.1 딥러닝과 언어모델 (2) 2025.01.03 책 - LLM을 활용한 실전 AI 애플리케이션 개발 (0) 2025.01.03