共有

2024 年 12 月 11 日

Gemini が tldraw の「自然言語コンピューティング」エクスペリエンスを強化

Vishal Dharmadhikari

プロダクト ソリューション エンジニア

Steve Ruiz

Tldraw

Tldraw ショーケースのヒーロー

Gemini API を使用して自然言語操作を実現する

Gemini API を使用すると、デベロッパーは高度な AI 機能をアプリケーションにシームレスに統合し、ユーザー エクスペリエンスと機能の新たな可能性を切り開くことができます。この投稿では、tldraw が Gemini を活用して、新しいプロジェクト computer 内に革新的な「自然言語コンピューティング」エクスペリエンスを構築する方法を紹介します。これにより、スタートアップ企業が Gemini API と tldraw の canvas SDK を使用して強力な AI を迅速かつ簡単に統合できることが実証されました。tldraw チームは、Gemini 1.5 Flash を搭載したコンピュータを近日中にリリースする予定です(ウェイティング リストに登録)。また、今後のイテレーションに向けて Gemini 2.0 Flash を使用したプロトタイピングも実施しています。

tldraw は Gemini API を使用して、会話型 AI の機能をビジュアル プログラミングに導入しています。これにより、ユーザーは自然言語を使用してコンテンツを生成し、情報を処理できます。これにより、AI を中心としたより直感的で効率的なユーザー エクスペリエンスの可能性が広がり、視覚的なコミュニケーションの限界が押し広げられます。

コンピュータの背後にあるビジョン

図の作成をより身近で直感的なものにすることを目指す tldraw は、ユーザーがキャンバスをより自然に操作できる方法を考案しました。創業者である Steve Ruiz 氏は、tldraw の無限キャンバス SDK の力を活用して、生成 AI を操作するための動的な環境を構築しようとしました。このビジョンに基づいて、ユーザーがテキスト、画像、手順のブロックからワークフローを作成する試験運用アプリ「computer」が開発されました。実行すると、情報が 1 つのコンポーネントから次のコンポーネントに流れ、各世代の出力が次の世代の入力として機能し、分岐、ループ、反復を行う強力なプロセスが作成されて出力が生成されます。

Gemini 2.0 を使用した構築: Computer の詳細

tldraw のコンピュータは、キャンバス上の要素(テキスト ボックス、画像、音声クリップなど)を表す相互接続された「コンポーネント」のネットワーク上に構築されています。これらのコンポーネントは矢印で結ばれており、データの流れと変換が可視化されています。各コンポーネントには、接続されたコンポーネントからの入力に基づいて実行される一連の手順である「プロシージャ」が関連付けられています。コンポーネントは、他の任意の数のコンポーネントからデータを受け取り、その出力データを他の多くのコンポーネント(自分自身を含む)に渡すことができます。このコンポーネント ベースのアーキテクチャと Gemini 2.0 Flash のパワーとスピードを組み合わせることで、多様なタスクを処理できる高速で柔軟なシステムが実現します。

Gemini 2.0 を使用したテキスト生成と画像生成モデルを使用した画像生成による tldraw コンピュータの AI ビジュアル プログラミング

Gemini 2.0 Flash のプロトタイピングがどのようにエクスペリエンスを強化したかをご紹介します。


  • 高速なプロシージャ実行: Gemini 2.0 Flash はプロシージャを高速で実行します。たとえば、「指示」コンポーネントには「短いコマーシャルを作成してください」というテキストが含まれることがあります。トリガーされると、コンポーネントは、任意の入力の組み合わせを商用スクリプトに変換できる再利用可能なステップ スクリプトを生成します。コンポーネントは、このスクリプトと現在の入力(「New AI-powered smartgloves for cats」という「テキスト」コンポーネントなど)を使用して、最終出力のモデルに対する 2 番目のプロンプトを作成します。この出力は、表示用に別のリンクされた「テキスト」コンポーネントに渡すことができます。また、テキスト読み上げ用の「音声」、ビジュアル生成用の「画像」、さらなる変換用の他の「指示」コンポーネントなど、他の接続されたコンポーネントに渡すこともできます。

  • 多くのコンテキスト、多くのモード: tldraw のコンピュータの最大主義的な傾向により、速度、容量、機能が求められました。複数のコンポーネントが各世代のデータを提供しているため、Gemini 2.0 Flash の大きなコンテキスト ウィンドウは、すべての入力を考慮した出力を生成するうえで不可欠でした。また、記述されたプロンプトに加えて画像とファイルもサポートしていることも重要でした。

  • 構造化データ: 単一のスキーマに準拠していないと、コンポーネント間のデータフローは実現できません。Gemini 2.0 Flash からの構造化された JSON 出力により、ワークフローの各コンポーネントはあらゆるタイプのデータを認識し、同じ構造で出力を生成できます。これにより、停止を防ぎ、実行をスムーズにし、大規模なワークフローでも確実に完了できます。

  • 動的プロシージャの生成: Gemini 2.0 Flash は、事前定義されたプロシージャの実行だけでなく、プロシージャを動的に生成することもできます。ユーザーが「この商品説明に基づいてマーケティング キャンペーンを作成して」と入力すると、Gemini 2.0 Flash は必要な手順とコンポーネントを生成し、ユーザーの概要リクエストに基づいてキャンバスにワークフローを構築します。この動的な生成により、革新的なユーザー エクスペリエンスと効率化されたワークフローの可能性が大きく広がります。

イノベーションのクイック ウィン

tldraw の迅速な実装は、スタートアップ向けの Gemini の価値提案を強調しています。迅速なプロトタイピング、直感的な自然言語インターフェースによるユーザー エクスペリエンスの向上、Gemini 2.0 Flash などのモデルによる効率的な構造化データ処理です。この組み合わせにより、小規模なチームでも革新的な AI 搭載機能を迅速かつ費用対効果の高い方法で作成できます。

「私たちは、どんなチームでも tldraw のキャンバス SDK を使って野心的なプロジェクトを構築できることを示したいと考えています。Gemini Flash は、高速でマルチモーダルなキャンバスベースのワークフロー ツールに最適なエンジンでした。Gemini 2.0 と、おそらくもっと良い名前があれば、明日にもコンピュータを独自のスタートアップとして売り込めるでしょう。」

— Steve Ruiz 氏(tldraw の創設者)

Gemini API でアプリケーションを強化する

tldraw の成功に触発されましたか?Gemini API は、Gemini 1.5 Pro、Gemini 1.5 Flash、そして試験運用版プレビュー モデルとして Gemini 2.0 Flash などの強力なモデルを提供し、革新的な AI 機能をアプリケーションに導入できるようにします。Gemini API のドキュメントを確認して、AI を活用したユーザー エクスペリエンスを実現しましょう。

クリエイティブなプロフェッショナル、デベロッパー、あらゆる種類のチームにとって、tldraw はアイデアを形にするためのユニークで強力なプラットフォームです。パソコンの順番待ちリストに登録します。ビジュアル コラボレーションの未来を今すぐ体験しましょう。