공유

2024년 12월 11일

Gemini가 tldraw의 '자연어 컴퓨팅' 환경을 지원합니다.

Vishal Dharmadhikari

제품 솔루션 엔지니어

스티브 루이스

Tldraw

Tldraw 쇼케이스 히어로

Gemini API를 사용한 자연어 상호작용

Gemini API를 통해 개발자는 고급 AI 기능을 애플리케이션에 원활하게 통합하여 사용자 경험과 기능에 새로운 가능성을 열 수 있습니다. 이 게시물에서는 tldraw가 Gemini를 활용하여 새로운 프로젝트인 computer 내에서 혁신적인 '자연어 컴퓨팅' 환경을 구축하는 방법을 설명합니다. 이를 통해 스타트업이 Gemini API와 tldraw의 캔버스 SDK를 사용하여 강력한 AI를 얼마나 빠르고 쉽게 통합할 수 있는지 확인할 수 있습니다. tldraw팀은 곧 Gemini 1.5 Flash를 탑재한 컴퓨터를 출시할 예정이며 (대기자 명단에 참여) 현재 Gemini 2.0 Flash를 사용하여 향후 반복을 위한 프로토타입을 제작하고 있습니다.

tldraw는 Gemini API를 사용하여 시각적 프로그래밍에 대화형 AI의 기능을 제공하므로 사용자가 자연어를 사용하여 콘텐츠를 생성하고 정보를 처리할 수 있습니다. 이를 통해 AI를 중심으로 더 직관적이고 효율적인 사용자 환경을 제공하고 시각적 커뮤니케이션의 경계를 넓힐 수 있는 흥미로운 기회가 열립니다.

컴퓨터 뒤에 숨겨진 비전

다이어그램을 접근 가능하고 직관적으로 만들고자 노력하는 tldraw는 사용자가 캔버스와 상호작용하는 더 자연스러운 방법을 구상했습니다. 창업자 Steve Ruiz는 tldraw의 무한 캔버스 SDK의 기능을 활용하여 생성형 AI로 작업할 수 있는 동적 환경을 만들고자 했습니다. 이 비전으로 인해 사용자가 텍스트, 이미지, 안내 블록에서 워크플로를 만드는 실험적 애플리케이션인 컴퓨터가 개발되었습니다. 실행되면 정보가 한 구성요소에서 다음 구성요소로 흐르고 각 세대의 출력이 다음 세대의 입력으로 사용되어 분기, 루프, 반복을 통해 출력을 생성하는 강력한 프로세스를 만듭니다.

Gemini 2.0으로 빌드: Compute 심층 분석

tldraw의 컴퓨터는 캔버스에 있는 요소를 나타내는 상호 연결된 '구성요소'(텍스트 상자, 이미지, 오디오 클립 등) 네트워크를 기반으로 합니다. 이러한 구성요소는 화살표로 연결되어 데이터 흐름과 변환을 시각화합니다. 각 구성요소에는 연결된 구성요소의 입력을 기반으로 실행되는 명령어 집합인 '절차'가 연결되어 있습니다. 구성요소는 여러 다른 구성요소의 데이터를 수락하고 자체를 포함한 여러 다른 구성요소에 출력 데이터를 전달할 수 있습니다. 이 구성요소 기반 아키텍처는 Gemini 2.0 Flash의 강력한 성능과 속도와 결합되어 다양한 작업을 처리할 수 있는 빠르고 유연한 시스템을 지원합니다.

tldraw 컴퓨터의 AI 시각적 프로그래밍(Gemini 2.0을 사용한 텍스트 생성 및 이미지 생성 모델을 사용한 이미지 생성)

Gemini 2.0 Flash 프로토타입이 환경을 지원하는 방식은 다음과 같습니다.


  • 매우 빠른 절차 실행: Gemini 2.0 Flash는 절차를 빠르게 실행합니다. 예를 들어 'Instruction' 구성요소에는 '짧은 광고를 작성해 줘'가 포함될 수 있습니다. 트리거된 후 잠시 지나면 구성요소에서 모든 입력 조합을 상업용 스크립트로 바꿀 수 있는 재사용 가능한 단계 스크립트를 생성합니다. 그러면 구성요소는 이 스크립트를 현재 입력 (예: '고양이를 위한 새로운 AI 기반 스마트 장갑'이 포함된 '텍스트' 구성요소)과 함께 사용하여 모델에 최종 출력을 위한 두 번째 프롬프트를 만듭니다. 이 출력은 표시를 위해 연결된 다른 '텍스트' 구성요소는 물론, 텍스트 음성 변환을 위한 '음성', 시각적 생성을 위한 '이미지' 또는 추가 변환을 위한 기타 '안내' 구성요소와 같은 연결된 구성요소에 전달될 수 있습니다.

  • 많은 컨텍스트, 다양한 모드: tldraw의 컴퓨터에서 맥시멀리스트는 속도, 용량, 기능을 요구했습니다. 각 생성에 데이터를 제공하는 여러 구성요소가 있으므로 Gemini 2.0 Flash의 큰 컨텍스트 윈도우는 모든 입력을 고려한 출력을 생성하는 데 매우 중요했으며, 작성된 프롬프트와 함께 이미지와 파일을 지원하는 것도 마찬가지였습니다.

  • 구조화된 데이터: 단일 스키마를 준수하지 않으면 구성요소 간 데이터 흐름이 불가능합니다. Gemini 2.0 Flash의 구조화된 JSON 출력을 사용하면 워크플로의 각 구성요소가 모든 유형의 데이터를 인식하고 동일한 구조로 출력을 생성할 수 있으므로 정체를 방지하고 실행을 원활하게 하며 대규모 워크플로도 안정적으로 완료할 수 있습니다.

  • 동적 절차 생성: Gemini 2.0 Flash는 사전 정의된 절차를 실행하는 것 외에도 절차를 동적으로 생성할 수 있습니다. 사용자가 '이 제품 설명을 기반으로 마케팅 캠페인을 만들어 줘'라고 입력하면 Gemini 2.0 Flash가 필요한 단계 (절차)와 필수 구성요소를 생성하여 사용자의 개략적인 요청에 따라 캔버스에 워크플로를 빌드합니다. 이러한 동적 생성은 혁신적인 사용자 환경과 간소화된 워크플로를 위한 엄청난 잠재력을 제공합니다.

혁신을 위한 빠른 성과

tldraw의 빠른 구현은 스타트업을 위한 Gemini의 가치 제안을 강조합니다. 빠른 프로토타입 제작, 직관적인 자연어 인터페이스를 통한 사용자 환경 개선, Gemini 2.0 Flash와 같은 모델 덕분에 효율적인 구조화된 데이터 처리 등이 그 예입니다. 이 조합을 통해 소규모 팀은 혁신적인 AI 기반 기능을 빠르고 비용 효율적으로 만들 수 있습니다.

'어떤 팀이든 tldraw의 캔버스 SDK로 야심찬 프로젝트를 빌드할 수 있다는 것을 보여주고 싶습니다. Gemini Flash는 빠르고 멀티모달이며 캔버스 기반 워크플로 도구에 완벽한 엔진이었습니다. Gemini 2.0과 더 나은 이름을 사용하면 내일 컴퓨터를 자체 스타트업으로 소개할 수 있을 것입니다.”

— 스티브 루이스, tldraw 창립자

Gemini API로 애플리케이션 강화

tldraw의 성공에 영감을 받으셨나요? Gemini API는 Gemini 1.5 Pro, Gemini 1.5 Flash, 이제 Gemini 2.0 Flash와 같은 강력한 모델을 실험 버전 미리보기 모델로 제공하여 애플리케이션에 혁신적인 AI 기능을 제공합니다. Gemini API 문서를 살펴보고 AI로 사용자에게 힘을 실어주세요.

tldraw는 크리에이티브 전문가, 개발자, 모든 종류의 팀이 아이디어를 실현할 수 있는 강력한 플랫폼을 제공합니다. 컴퓨터 대기자 명단에 등록 지금 시각적 공동작업의 미래를 경험해 보세요.