-
1.4 LLM의 미래: 인식과 행동의 확장LLM/LLM을 활용한 실전 AI 애플리케이션 개발 2025. 1. 12. 16:46
목차
1.4 LLM의 미래: 인식과 행동의 확장
세 가지 큰 흐름
- 멀티모달(multi modal) : LLM이 더 다양한 형식의 데이터(예, 이미지, 비디오, 오디오 등)을 입/출력으로 사용
- AI Agent: LLM이 텍스트 생성 능력을 사용해 계획을 세우거나 의사결정을 내리고 필요한 행동까지 수행
- 새로운 아키텍처 : 트랜스포머 아키텍처를 새로운 아키텍처로 변경해 더 긴 입력을 효율적으로 처리하려는 연구
GPT-4o 는 뛰어난 이미지 및 음성 처리 능력을 보여줬고, 구글의 제미나이, Antrhopic의 Claude 같은 상업용 모델도 이미지를 함께 처리할 수 잇다. RAG 에서도 이미지와 텍스트를 함께 검색하는 멀티 모달 RAG에 대한 관심이 높아지고 있다.
AI Agent
AutoGPT
Significant Gravitas 라는 개발자가 GPT-4를 기반으로 만든 오픈소스, 사용자가 목표를 설정하면, AI가 자동으로 방법을 터득하여 결과물을 내놓는 기능을 제공합니다
- 자동 목표 설정 및 달성: 사용자가 명확한 목표를 설정해주면, AutoGPT는 이를 달성하기 위한 다양한 방법을 스스로 모색하고 실행합니다.
- 다양한 GPT 모델 활용: 텍스트 생성, 코드 생성, 검색 등 다양한 GPT 모델들을 활용하여 복잡한 문제를 해결합니다.
- 연쇄적인 작업 수행: 하나의 작업을 수행하는 데 그치지 않고, 다음 작업으로 자연스럽게 연결하여 최종 목표 달성을 위한 연쇄적인 작업을 수행합니다.
- 지속적인 학습: 수행한 작업 결과를 바탕으로 지속적으로 학습하여 다음 작업에 반영합니다.
AutoGPT가 할 수 있는 일
- 아이디어 발상: 새로운 사업 아이템이나 콘텐츠 아이디어를 제시합니다.
- 코드 작성: 간단한 웹사이트부터 복잡한 알고리즘까지 다양한 코드를 작성합니다.
- 연구: 특정 주제에 대한 연구를 수행하고 보고서를 작성합니다.
- 마케팅: 제품이나 서비스를 홍보하기 위한 마케팅 전략을 수립하고 실행합니다.
https://github.com/Significant-Gravitas/AutoGPT
Microsoft Research 의 AutoGen
다중 에이전트 AI 프레임워크
이 프레임워크는 LLM을 활용하여 복잡한 워크플로우를 자동화하고 최적화하는 데 중점을 두고 있습니다
- 다중 에이전트 시스템: 여러 에이전트가 서로 소통하며 특정 작업을 수행합니다. 예를 들어, 코드 기반 질문 응답 시, Commander 에이전트가 사용자 질문을 받아들이고, Writer 에이전트가 코드를 작성하고, Safeguard 에이전트가 안전성을 확인합니다.
- 유연한 구성: 에이전트 간의 상호 작용 방식을 자유롭게 구성하여 다양한 시나리오에 맞는 시스템을 구축할 수 있습니다.
- 확장성: 새로운 기능을 추가하거나 기존 기능을 개선하기 쉽도록 설계되어 있습니다.
- 오픈 소스: 누구나 자유롭게 사용하고 수정할 수 있는 오픈 소스 프로젝트입니다.
활용 사례:
- 복잡한 대화 시스템: 챗봇, 가상 비서 등 다양한 대화 시스템을 개발하는 데 활용될 수 있습니다.
- 자동화된 작업: 문서 요약, 데이터 분석, 코드 생성 등 반복적인 작업을 자동화할 수 있습니다.
- 창의적인 작업: 새로운 아이디어를 생성하고, 문제 해결을 위한 다양한 방법을 모색하는 데 활용될 수 있습니다.
AutoGen : https://www.microsoft.com/en-us/research/project/autogen/
CrewAI
협업하는 역할 수행형 자율 AI 에이전트를 오케스트레이션하기 위해 설계된 플랫폼입니다. 각 에이전트는 특정 역할을 수행하며, 서로 협력하여 주어진 작업을 완료합니다.
Agent : 에이전트는 CrewAI에서 작업을 수행하는 주체입니다. 이들은 특정 작업을 수행하도록 프로그래밍된 자율적인 AI입니다. 예를 들어, 데이터 분석 에이전트, 웹 검색 에이전트, 텍스트 요약 에이전트 등이 있습니다.
각 에이전트는 특정한 능력과 역할을 가지고 있으며, 이를 통해 팀의 목표를 달성하는 데 기여합니다.
예시) 데이터 분석 에이전트는 대규모 데이터를 처리하고 통계적 분석을 수행하며, 웹 검색 에이전트는 인터넷에서 필요한 정보를 빠르게 수집합니다.
Tools: 툴은 에이전트가 태스크를 수행하는 데 사용하는 도구입니다. 이는 소프트웨어, API, 데이터베이스 등 다양한 형태를 가질 수 있습니다. 예를 들어, 웹 검색 에이전트는 검색 엔진을 툴로 사용하고, 데이터 분석 에이전트는 데이터 분석 소프트웨어를 사용할 수 있습니다.
예시) 웹 검색 에이전트는 Google API를 사용하며, 데이터 분석 에이전트는 Python의 pandas 라이브러리를 활용합니다.
Task: 태스크는 에이전트가 수행해야 할 구체적인 과제나 작업입니다.
예를 들어, "웹에서 최신 트렌드 정보를 검색하여 요약 보고서 작성하기"라는 태스크는 웹 검색 에이전트와 텍스트 요약 에이전트가 협력하여 수행할 수 있습니다.
예시) 특정 주제에 대한 트렌드 정보를 수집하는 태스크는 웹 검색 에이전트가 다양한 소스에서 데이터를 수집하고, 텍스트 요약 에이전트가 이를 요약하여 보고서를 작성하는 방식으로 진행됩니다
Process: 프로세스는 에이전트들이 태스크를 효율적으로 수행할 수 있도록 작업의 흐름을 조정하는 역할을 합니다.
이는 프로젝트 관리와 유사하게 태스크의 우선순위를 정하고, 작업의 순서를 결정하며, 각 단계에서 필요한 조치를 취할 수 있도록 합니다.
예를 들어, 데이터 수집, 분석, 보고서 작성의 순서로 작업을 진행하는 프로세스를 설정할 수 있습니다.
예시) 마케팅 캠페인을 위한 데이터 분석 작업은 먼저 데이터 수집, 그다음 데이터 처리 및 분석, 마지막으로 결과 보고서 작성의 프로세스로 구성됩니다.
inert ability : 비활성적(내제된,상호적)인 능력
활용 사례:
- 자동화된 서비스: 고객 서비스, 기술 지원 등 다양한 서비스를 자동화할 수 있습니다.
- 사업 프로세스 자동화: 제품 개발, 마케팅, 영업 등 다양한 사업 프로세스를 자동화할 수 있습니다.
- 데이터 분석: 대규모 데이터를 분석하고, 유용한 정보를 추출하는 데 활용될 수 있습니다.
crewAI : https://www.crewai.com/
1.5 정리
1장에서 설명한 내용을 바탕으로 정리한 LLM 지도는 다음과 같다
Keyword
Multi Modal : 다양한 형식의 데이터(이미지, 비디오, 오디오등)을 입/출력으로 사용
Ai Agent : LLM 이 자동화 되어, 계획을 세우거나, 의사결정을 내리고, 필요한 행동까지 수행
AutoGPT : AI 가 자동으로 방법을 터득하여 결과물을 내놓음
AutoGen : Microsoft Research 의 다중 에이전트 시스템
CrewAI : 협업하는 역할 수행형 자율 AI 에이전트를 오케스트레이션하기 위해 설계된 플랫폼
책 출처 : https://ridibooks.com/books/3649000042
'LLM > LLM을 활용한 실전 AI 애플리케이션 개발' 카테고리의 다른 글
4장 말 잘 듣는 모델 만들기 4.1 코딩 테스트 통과하기 (1) 2025.01.26 2장 토큰화와 Emdeding Python code 예 (0) 2025.01.18 1.3 LLM 애플리케이션의 시대가 열리다 (0) 2025.01.12 2.5 인코더 (0) 2025.01.10 2.3 어텐션 이해하기 (0) 2025.01.10