생성형 AI 용어집

이 용어집에서는 생성형 인공지능(AI) 용어를 정의합니다.

AI 에이전트

AI 에이전트는 입력을 처리하고 사용 가능한 도구로 추론을 수행하며 결정에 따라 작업을 수행하여 목표를 달성하는 애플리케이션입니다. AI 에이전트는 함수 호출을 사용하여 입력 형식을 지정하고 외부 도구와의 정확한 상호작용을 보장합니다. 다음 다이어그램에서 AI 에이전트 구성요소를 보여줍니다.

AI 에이전트는 조정 레이어, 모델, 도구로 구성됩니다.

위 다이어그램과 같이 AI 에이전트는 다음 구성요소로 구성됩니다.

  • 조정: 에이전트의 조정 레이어는 계획, 도구 사용, 데이터 흐름을 제어하여 메모리, 상태, 의사결정을 관리합니다. 조정에는 다음 구성요소가 포함됩니다.
    • 프로필 및 안내: 에이전트는 특정 역할이나 캐릭터를 맡아 작업과 의사 결정을 지시합니다.
    • 메모리: 컨텍스트와 상태가 유지되도록 에이전트는 단기 메모리와 장기 메모리를 유지합니다. 단기 메모리는 현재 태스크에 필요한 즉각적인 컨텍스트와 정보를 보관합니다. 장기 메모리는 전체 대화 기록을 보관합니다.
    • 추론 및 계획: 에이전트는 모델을 사용하여 태스크 분해 및 반영을 수행한 후 계획을 만듭니다. 먼저 에이전트는 사용자 프롬프트를 하위 구성요소로 분리하여 함수 하나 이상을 호출해 복잡한 태스크를 처리합니다. 그런 다음 에이전트는 추론과 의견을 사용하여 함수 출력을 반영하여 대답을 개선합니다.
  • 모델: 목표를 처리하고 계획을 만들며 대답을 생성하는 생성형 언어 모델입니다. 최적의 성능을 위해서는 모델에서 함수 호출을 지원해야 하며 도구 또는 추론 단계의 데이터 서명으로 학습되어야 합니다.
  • 도구: 데이터를 가져오고 작업이나 트랜잭션을 수행하는 API, 서비스 또는 함수를 포함한 도구 모음입니다. 도구를 사용하면 에이전트가 외부 데이터 및 서비스와 상호작용할 수 있습니다.

자율적인 의사 결정, 복잡한 다단계 워크플로 관리 또는 적응형 환경이 필요한 애플리케이션의 경우 AI 에이전트가 표준 파운데이션 모델보다 우수한 성능을 발휘합니다. 에이전트는 외부 데이터를 사용하여 실시간으로 문제를 해결하고 지식 집약적인 태스크를 자동화하는 데 탁월합니다. 이러한 기능을 통해 에이전트는 파운데이션 모델의 수동 텍스트 생성 기능보다 더 강력한 결과를 제공할 수 있습니다.

AI 에이전트에 대한 자세한 내용은 AI 에이전트란 무엇인가요?를 참조하세요.


컨텍스트 윈도우

컨텍스트 윈도우는 파운데이션 모델이 지정된 프롬프트에서 처리할 수 있는 토큰 수입니다. 컨텍스트 윈도우가 클수록 모델은 더 많은 정보에 액세스하고 처리할 수 있으므로 더 일관되고 포괄적인 관련성이 높은 대답을 생성할 수 있습니다.

Gemini 모델은 이러한 대량의 정보를 처리하기 위해 긴 컨텍스트 윈도우로 특별히 빌드되었습니다. 규모를 가늠할 수 있도록 표현하자면 토큰이 100만 개인 컨텍스트 윈도우가 있는 모델은 다음 입력 중 하나를 처리할 수 있습니다.

  • 코드 50,000줄(줄당 표준 80자)
  • 지난 5년 동안 보낸 모든 문자 메시지
  • 평균 길이의 영어 소설 8권
  • 평균 길이 200분이 넘는 팟캐스트 에피소드 스크립트
  • 오디오가 없는 1시간 분량의 동영상
  • 오디오가 포함된 약 45분 분량의 동영상
  • 9시간 30분 분량의 오디오

긴 컨텍스트 프롬프트 작성에 대한 자세한 권장사항은 긴 컨텍스트를 참조하세요.


임베딩

임베딩은 텍스트, 이미지, 동영상과 같은 데이터의 수치적 표현으로, 여러 입력 간의 관계를 포착합니다. 임베딩은 모델 학습 단계에서 텍스트, 이미지, 동영상을 벡터라고 하는 부동 소수점 숫자 배열로 변환함으로써 생성합니다. 임베딩은 종종 데이터의 차원을 줄여 계산 효율성을 높이고 대규모 데이터 세트를 처리하는 데 도움이 됩니다. 이러한 차원 축소는 복잡한 모델을 학습하고 배포하는 데 중요합니다.

머신러닝(ML) 모델을 사용하려면 데이터를 모델에서 처리할 수 있는 형식으로 표현해야 합니다. 임베딩은 근접성이 더 가까울수록 비슷한 의미를 가진 데이터 포인트를 반영하는 연속 벡터 공간에 데이터를 매핑하여 요구 사항을 충족합니다. 임베딩을 사용하면 모델이 원시 데이터에서는 모호할 수 있는 미묘한 패턴과 관계를 파악할 수 있습니다.

예를 들어 대규모 언어 모델(LLM)은 텍스트의 맥락과 의미를 이해하기 위해 임베딩을 사용합니다. 이를 통해 LLM은 일관되고 관련성 높은 대답을 생성할 수 있습니다. 이미지 생성에서 임베딩은 이미지의 시각적 특징을 포착하므로 모델에서 사실적이고 다양한 출력을 만들 수 있습니다.

검색 증강 생성(RAG)을 사용하는 시스템은 임베딩을 사용하여 사용자 쿼리를 관련 지식과 일치시킵니다. 쿼리가 제출되면 쿼리가 임베딩으로 변환된 후 기술 자료에 있는 문서의 임베딩과 비교됩니다. 벡터 공간에서의 유사성 검색을 통해 수행되는 이 비교를 통해 시스템은 의미론적으로 가장 관련성이 높은 정보를 검색할 수 있습니다.

임베딩 모델 및 사용 사례에 대한 자세한 내용은 임베딩 API 개요를 참조하세요.


파운데이션 모델

파운데이션 모델은 방대한 양의 데이터로 학습된 강력한 대규모 모델로, 텍스트, 이미지, 동영상, 오디오와 같은 여러 모달리티에 걸쳐 있는 경우가 많습니다. 이러한 모델은 통계 모델링을 사용하여 프롬프트에 대한 예상 대답을 예측하고 새 콘텐츠를 생성합니다. 모델은 텍스트 생성의 언어 패턴, 이미지 생성의 확산 기법과 같은 학습 데이터에서 패턴을 학습합니다.

Google은 관리형 API를 통해 액세스할 수 있는 다양한 생성형 AI 파운데이션 모델을 제공합니다. Google Cloud에서 사용할 수 있는 파운데이션 모델에 액세스하려면 Vertex AI Model Garden을 사용합니다.


함수 호출

함수 호출대규모 언어 모델(LLM)을 API 및 함수와 같은 외부 도구에 연결하여 LLM 대답을 개선하는 기능입니다. 이 기능을 사용하면 LLM이 정적 지식을 넘어 데이터베이스, 고객 관계 관리 시스템, 문서 저장소와 같은 실시간 정보 및 서비스를 사용하여 응답을 개선할 수 있습니다.

함수 호출을 사용하려면 모델에 함수 집합을 제공합니다. 그런 다음 모델에 프롬프트를 작성하면 모델에서 요청을 기반으로 함수를 선택하고 호출할 수 있습니다. 모델은 프롬프트를 분석한 후 호출할 함수와 파라미터 값을 지정하는 구조화된 데이터를 생성합니다. 구조화된 데이터 출력은 함수를 호출한 후 결과를 모델에 반환합니다. 모델은 결과를 추론에 통합하여 대답을 생성합니다. 이 프로세스를 통해 모델은 내부 지식 이상의 정보에 액세스하고 활용할 수 있으므로 외부 데이터나 처리가 필요한 태스크를 수행할 수 있습니다.

함수 호출은 AI 에이전트 아키텍처의 핵심 구성요소입니다. 함수 호출은 모델에게 사용할 도구와 입력 형식 지정 방법을 지정하는 구조화된 방법을 제공하므로 외부 시스템과의 정확한 상호작용을 보장할 수 있습니다.

Gemini의 함수 호출에 대한 자세한 내용은 함수 호출 소개를 참조하세요.


생성형 AI

생성형 AI분류예측에 중점을 둔 기존 AI를 뛰어넘는 AI 유형입니다. 기존의 AI 모델은 기존 데이터를 학습하여 정보를 분류하거나 과거 패턴을 바탕으로 미래 결과를 예측합니다. 생성형 AI는 파운데이션 모델을 사용하여 텍스트, 이미지, 오디오 또는 동영상과 같은 새로운 콘텐츠를 생성합니다. 이 새로운 콘텐츠는 학습 데이터의 기본 패턴과 스타일 학습을 통해 생성되므로 모델에서 학습한 데이터와 유사한 출력을 효과적으로 만들 수 있습니다.

생성형 AI를 사용해야 하는 경우생성형 AI 비즈니스 사용 사례를 자세히 알아보세요.


그라운딩

그라운딩은 모델의 출력을 확인 가능한 정보 소스에 연결하는 프로세스입니다. 이러한 소스는 내부 회사 문서, 프로젝트별 데이터 또는 커뮤니케이션 기록과 같은 실용적이고 문맥에 맞는 정보를 제공할 수 있습니다. 그라운딩은 모델에 특정 데이터 소스에 대한 액세스 권한을 제공하여 AI 출력의 정확성, 신뢰성, 유용성을 개선하는 데 도움이 됩니다. 그라운딩은 모델이 사실과 다른 콘텐츠를 생성하는 할루시네이션의 가능성을 줄입니다. 일반적인 그라운딩 유형은 관련 외부 정보를 검색하여 모델 대답을 개선하는 검색 증강 생성(RAG)입니다.

Google 검색으로 그라운딩하는 방법에 대한 자세한 내용은 그라운딩 개요를 참조하세요.


대규모 언어 모델(LLM)

대규모 언어 모델(LLM)은 방대한 양의 데이터로 학습된 텍스트 기반 파운데이션 모델입니다. LLM은 텍스트 생성, 기계 번역, 텍스트 요약, 질의 응답과 같은 자연어 처리(NLP) 태스크를 수행하는 데 사용됩니다. LLM 용어는 파운데이션 모델과 같은 의미로 사용되기도 합니다. 하지만 LLM은 텍스트 기반인 반면, 파운데이션 모델은 텍스트, 이미지, 오디오, 동영상을 포함한 여러 모달리티로 학습되고 이러한 모달리티로부터 입력을 받을 수 있습니다.

LLM은 언어 내 패턴과 관계를 학습하기 위해 강화 학습 및 안내 미세 조정과 같은 기법을 사용합니다. 프롬프트를 설계할 때는 모델 대답에 영향을 미칠 수 있는 다양한 요소를 고려해야 합니다.


지연 시간

지연 시간은 모델이 입력 프롬프트를 처리하고 대답을 생성하는 데 걸리는 시간입니다. 모델 지연 시간을 검사할 경우 다음 사항을 고려하세요.

  • 첫 번째 토큰까지의 시간(TTFT): 모델이 프롬프트를 수신한 후 대답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 즉각적인 의견을 원하는 스트리밍 애플리케이션에 중요합니다.
  • 마지막 토큰까지의 시간(TTLT): 모델에서 프롬프트를 처리하고 완전 응답을 생성하는 데 걸리는 총 시간입니다.

지연 시간 단축에 대한 자세한 내용은 대규모 언어 모델(LLM) 권장사항을 참조하세요.


프롬프트 엔지니어링

프롬프트 엔지니어링은 프롬프트를 만들고 모델 대답에 액세스하여 원하는 대답을 얻는 반복 프로세스입니다. 언어 모델에서 정확한 고품질 대답을 보장하려면 잘 구조화된 프롬프트를 작성하는 것이 필수적일 수 있습니다.

다음은 대답을 개선하는 데 사용할 수 있는 일반적인 기법입니다.

  • 제로샷 프롬프팅: 예시 없이 프롬프트를 제공하고 모델의 기존 지식을 활용합니다.
  • 원샷 프롬프팅: 프롬프트에 단일 예시를 제공하여 모델 대답을 유도합니다.
  • 퓨샷 프롬프팅: 프롬프트에 예시 여러 개를 제공하여 원하는 패턴이나 태스크를 보여줍니다.

모델에 예시를 제공하면 형식 지정, 표현, 범위, 전반적인 패턴과 같은 모델 대답 측면을 제어하는 데 도움이 됩니다. 효과적인 퓨샷 프롬프트는 명확한 안내와 구체적이고 다양한 예시를 결합합니다. 최적의 예시 수를 결정하기 위해 실험하는 것이 중요합니다. 예시가 너무 적으면 충분한 안내를 제공하지 못할 수 있고 예시가 너무 많으면 모델이 예시에 과적합하여 일반화할 수 없습니다.

프롬프트 작성 권장사항에 대한 자세한 내용은 프롬프트 작성 전략 개요를 참조하세요.


프롬프트 작성

프롬프트는 대답을 유도하기 위해 생성형 AI 모델로 전송되는 자연어 요청입니다. 모델에 따라 프롬프트에는 텍스트, 이미지, 동영상, 오디오, 문서 및 기타 모달리티는 물론 여러 모달리티(멀티모달)도 포함될 수 있습니다.

효과적인 프롬프트는 콘텐츠와 구조로 구성됩니다. 콘텐츠는 안내, 예시, 컨텍스트와 같은 모든 관련 태스크 정보를 제공합니다. 구조는 정렬, 라벨 지정, 구분자를 포함한 구성을 통해 효율적인 파싱을 보장합니다. 원하는 출력에 따라 추가 구성요소를 고려할 수 있습니다.


모델 파라미터

모델 파라미터는 모델이 입력 데이터를 처리하는 방식과 출력을 생성하는 방식을 결정하는 데 사용하는 내부 변수입니다. 학습 중에 가중치 및 편향과 같은 모델 파라미터를 조정하여 모델 성능을 최적화할 수 있습니다. 추론 중에 다양한 프롬프트 작성 파라미터를 통해 모델 출력에 영향을 줄 수 있지만 학습된 모델 파라미터를 직접 변경하지는 않습니다.

다음은 Vertex AI의 Gemini API에서 콘텐츠 생성에 영향을 미치는 프롬프트 작성 파라미터 중 일부입니다.

  • temperature: 온도는 응답 생성 중에 토큰 선택의 무작위성을 변경하여 출력의 창의성과 예측 가능성에 영향을 미칩니다. temperature 값의 범위는 0~1입니다. 온도가 낮을수록(0에 더 가까울수록) 더 결정론적이고 예측 가능한 결과가 생성됩니다. 온도가 높을수록(1에 가까울수록) 더 다양하고 창의적인 텍스트가 생성되지만 결과 일관성이 저하될 수 있습니다.
  • topP: Top-P는 모델이 출력용 토큰을 샘플링하고 선택하는 방식을 변경합니다. Top-P는 누적 확률이 기준점(p)을 초과하는 가장 작은 토큰 집합을 선택한 후 해당 분포에서 샘플링합니다. topP 값의 범위는 0~1입니다. 예를 들어 토큰 A, B, C의 확률이 각각 0.3, 0.2, 0.1이고 topP 값이 0.5이면 모델은 온도를 사용하여 다음 토큰으로 A 또는 B를 선택하고 C를 후보로 제외합니다.
  • topK: Top-K는 모델이 출력용 토큰을 샘플링하고 선택하는 방식을 변경합니다. Top-K는 응답을 생성할 가능성이 가장 높은 토큰을 통계적으로 선택합니다. topK 값은 토큰 수(1~40)를 나타내며 모델은 응답을 생성하기 전에 이 중에서 선택합니다. 예를 들어 토큰 A, B, C, D의 확률이 각각 0.6, 0.5, 0.2, 0.1이고 top-K 값이 3이면 모델은 온도를 사용하여 다음 토큰으로 A, B, C 중 하나를 선택하고 D를 후보로 제외합니다.
  • maxOutputTokens: maxOutputTokens 설정은 대답에서 생성될 수 있는 최대 토큰 수를 변경합니다. 값이 낮을수록 짧은 대답이 생성되고 값이 높을수록 긴 대답이 생성됩니다.

Vertex AI의 Gemini API 샘플링 파라미터에 대한 자세한 내용은 콘텐츠 생성 파라미터를 참조하세요.


검색 증강 생성(RAG)

검색 증강 생성(RAG)은 모델이 학습된 후에 검색된 지식 소스로 그라운딩하여 대규모 언어 모델(LLM) 출력의 품질과 정확성을 개선하는 기법입니다. RAG는 사실에 기반한 부정확성, 최신 정보나 전문 정보에 대한 액세스 부족, 출처를 인용할 수 없음과 같은 LLM의 한계를 해결합니다. RAG는 모델이 학습되지 않은 데이터, 독점 데이터, 민감한 사용자별 데이터를 포함한 신뢰할 수 있는 기술 자료나 문서에서 검색된 정보에 대한 액세스 권한을 제공함으로써 LLM이 더 신뢰할 수 있고 맥락과 관련성이 높은 대답을 생성할 수 있도록 지원합니다.

RAG를 사용하는 모델이 프롬프트를 수신하면 RAG 프로세스에서 다음 단계를 완료합니다.

  1. 검색: 프롬프트와 관련된 데이터를 검색합니다.
  2. 보강: 검색된 데이터를 프롬프트에 추가합니다.
  3. 생성:
    1. 보강된 프롬프트를 기반으로 요약이나 대답을 만들도록 LLM에 지시합니다.
    2. 대답을 다시 제공합니다.

Vertex AI 및 RAG에 대한 자세한 내용은 Vertex AI RAG Engine 개요를 참조하세요.


tokens

토큰은 파운데이션 모델에서 처리하는 기본 데이터 단위입니다. 모델은 처리를 위해 프롬프트의 데이터를 토큰으로 구분합니다. 모델에서 사용하는 모든 토큰 집합을 어휘라고 합니다. 토큰은 단일 문자(예: z), 전체 단어(예: cat) 또는 긴 단어의 일부일 수 있습니다.

토크나이저는 복잡한 용어나 기술 용어, 복합 단어 또는 구두점과 특수문자가 포함된 단어와 같은 긴 단어를 토큰 여러 개로 구분합니다. 텍스트를 토큰으로 분할하는 프로세스를 토큰화라고 합니다. 토큰화의 목표는 원래 단어를 이해하기 위해 재조합할 수 있는 문맥 의미가 있는 토큰을 만드는 것입니다. 예를 들어 'predefined' 단어는 'pre', 'define', 'ed'라는 토큰으로 분할될 수 있습니다.

토큰은 이미지, 동영상, 오디오와 같은 멀티모달 입력을 나타낼 수 있습니다. 임베딩 기법은 멀티모달 입력을 모델이 토큰으로 처리할 수 있는 수치 표현으로 변환합니다. 다음은 표시나 파일 크기와 관계없이 멀티모달 입력에 대한 대략적인 토큰 계산 예시입니다.

  • 이미지: 토큰 총 258개
  • 동영상: 초당 토큰 263개
  • 오디오: 초당 토큰 32개

각 모델에는 프롬프트 및 대답에서 처리할 수 있는 토큰 수에 대한 제한이 있습니다. 또한 모델 사용 비용은 입력 및 출력 토큰 수를 기준으로 계산됩니다. Gemini 모델로 전송된 프롬프트의 토큰 수를 가져오는 방법은 토큰 나열 및 집계를 참조하세요. Vertex AI의 생성형 AI 모델 비용은 Vertex AI 가격 책정을 참조하세요.


조정

조정은 더 높은 정밀도와 정확성으로 특정 태스크를 수행하도록 파운데이션 모델을 조정하는 프로세스입니다. 조정은 모델의 일부 또는 모든 파라미터 조정 또는 원하는 태스크와 결과를 복제하는 예시가 포함된 데이터 세트에서 모델 학습을 통해 수행됩니다. 조정은 복잡하고 비용이 많이 들 수 있는 반복적인 프로세스이지만 조정을 통해 성능을 크게 향상시킬 수 있습니다. 조정은 100개가 넘는 예시가 있는 라벨이 지정된 데이터 세트가 있고 프롬프트 작성 기법이 부족한 복잡하거나 고유한 태스크를 수행하려는 경우에 가장 효과적입니다.

다음은 Vertex AI에서 지원하는 조정 기법입니다.

  • 전체 미세 조정: 조정 프로세스 중에 모델의 모든 파라미터를 업데이트하는 기법입니다. 전체 미세 조정은 계산 비용이 많이 들고 많은 데이터가 필요할 수 있지만 특히 복잡한 태스크의 경우 가장 높은 수준의 성능을 달성할 수 있습니다.
  • 파라미터 효율적 조정: 어댑터 조정이라고도 하는 기법입니다. 파라미터 효율적 조정은 조정 프로세스 중에 일부 모델 파라미터를 업데이트합니다. 파라미터 효율적 조정은 전체 미세 조정에 비해 리소스와 비용 면에서 더 효율적입니다.
  • 지도 미세 조정: 라벨이 지정된 입력-출력 쌍을 사용하여 모델을 학습하는 기법입니다. 지도 미세 조정은 분류, 번역, 요약과 관련된 태스크에 흔히 사용됩니다.

조정에 대한 자세한 내용은 조정 소개를 참조하세요.