Udostępnij

11 GRUDNIA 2024 R.

Gemini obsługuje funkcję „Natural Language Computing” w tldraw

Vishal Dharmadhikari

Inżynier ds. rozwiązań produktowych

Steve Ruiz

Tldraw

Tldraw showcase hero

Umożliwianie interakcji w języku naturalnym za pomocą interfejsu Gemini API

Interfejs Gemini API umożliwia deweloperom bezproblemowe integrowanie zaawansowanych funkcji AI z aplikacjami, co otwiera nowe możliwości w zakresie wrażeń użytkowników i funkcjonalności. W tym poście opisujemy, jak tldraw wykorzystuje Gemini do stworzenia rewolucyjnego środowiska „przetwarzania języka naturalnego” w ramach nowego projektu computer. Pokazuje to, jak szybko i łatwo startupy mogą zintegrować zaawansowaną AI za pomocą interfejsu Gemini API i pakietu SDK do obsługi obszaru roboczego tldraw. Zespół tldraw wkrótce wprowadzi na rynek komputer z Gemini 1.5 Flash (dołącz do listy oczekujących), a obecnie tworzy prototypy z Gemini 2.0 Flash na potrzeby przyszłych wersji.

tldraw korzysta z interfejsu Gemini API, aby wprowadzić możliwości konwersacyjnej AI do programowania wizualnego, umożliwiając użytkownikom generowanie treści i przetwarzanie informacji za pomocą języka naturalnego. Otwiera to nowe możliwości bardziej intuicyjnego i wydajnego korzystania ze sztucznej inteligencji, przesuwając granice komunikacji wizualnej.

Wizja komputera

Firma tldraw, która dąży do tego, aby tworzenie diagramów było dostępne i intuicyjne, opracowała bardziej naturalny sposób interakcji użytkowników z obszarem roboczym. Założyciel Steve Ruiz chciał wykorzystać możliwości pakietu SDK tldraw z nieograniczonym polem do popisu, aby stworzyć dynamiczne środowisko do pracy z generatywną AI. Ta wizja doprowadziła do opracowania computer, eksperymentalnej aplikacji, w której użytkownicy tworzą przepływy pracy z bloków tekstu, obrazów i instrukcji. Gdy jest uruchamiany, informacje przepływają z jednego komponentu do drugiego, a wynik każdego wygenerowania służy jako dane wejściowe do następnego, tworząc zaawansowane procesy, które rozgałęziają się, zapętlają i powtarzają, aby generować wyniki.

Tworzenie aplikacji z użyciem Gemini 2.0: szczegółowe omówienie funkcji komputera

Komputer tldraw jest oparty na sieci połączonych „komponentów” reprezentujących elementy na obszarze roboczym (pola tekstowe, obrazy, klipy audio itp.). Komponenty te są połączone strzałkami, które wizualizują przepływ danych i przekształcenia. Każdy komponent ma powiązane „procedury”, czyli zestawy instrukcji wykonywanych na podstawie danych wejściowych z połączonych komponentów. Komponent może przyjmować dane z dowolnej liczby innych komponentów i przekazywać dane wyjściowe do wielu innych komponentów – w tym do samego siebie. Ta architektura oparta na komponentach w połączeniu z mocą i szybkością Gemini 2.0 Flash tworzy szybki i elastyczny system, który poradzi sobie z różnorodnymi zadaniami.

tldraw computer’s AI visual programming with text gen using Gemini 2.0 and image generation with an image gen model

Oto jak prototypowanie z użyciem Gemini 2.0 Flash wpłynęło na jakość usługi:


  • Błyskawiczne wykonywanie procedur: Gemini 2.0 Flash błyskawicznie wykonuje procedury. Na przykład komponent „Instrukcja” może zawierać tekst „Napisz krótki spot reklamowy”. W krótkim czasie po uruchomieniu komponent wygeneruje skrypt wielokrotnego użytku, który może przekształcić dowolną kombinację danych wejściowych w skrypt komercyjny. Komponent użyje tego skryptu wraz z bieżącymi danymi wejściowymi (np. komponentem „Tekst” z tekstem „Nowe inteligentne rękawiczki dla kotów oparte na AI”), aby utworzyć drugi prompt dla modelu, który posłuży do wygenerowania ostatecznego wyniku. Dane wyjściowe można przekazać do innego połączonego komponentu „Tekst” w celu wyświetlenia, a także do innych połączonych komponentów, takich jak „Mowa” (do zamiany tekstu na mowę), „Obraz” (do generowania obrazów) lub innych komponentów „Instrukcja” (do dalszego przekształcania).

  • Dużo kontekstu, wiele trybów: maksymalistyczne podejście w przypadku komputera tldraw wymagało szybkości, pojemności i możliwości. W przypadku każdej generacji dane dostarcza wiele komponentów, dlatego duże okno kontekstu Gemini 2.0 Flash miało kluczowe znaczenie dla generowania wyników, które uwzględniały wszystkie dane wejściowe. Ważna była też obsługa obrazów i plików oprócz promptów tekstowych.

  • Uporządkowane dane: przepływ danych między komponentami nie byłby możliwy bez przestrzegania jednego schematu. Ustrukturyzowane dane wyjściowe w formacie JSON z Gemini 2.0 Flash zapewniają, że każdy komponent w procesie może rozpoznawać dane dowolnego typu i generować dane wyjściowe w tej samej strukturze. Zapobiega to przestojom, usprawnia wykonywanie zadań i zapewnia niezawodne działanie nawet dużych procesów.

  • Dynamiczne generowanie procedur: Gemini 2.0 Flash nie tylko wykonuje predefiniowane procedury, ale też może generować je dynamicznie. Użytkownik może wpisać „utwórz kampanię marketingową na podstawie tego opisu produktu”, a Gemini 2.0 Flash wygeneruje niezbędne kroki (procedury) i komponenty, tworząc na obszarze roboczym przepływ pracy na podstawie ogólnego żądania użytkownika. Dynamiczne generowanie otwiera ogromne możliwości tworzenia innowacyjnych rozwiązań dla użytkowników i usprawniania przepływów pracy.

Szybki sukces w zakresie innowacji

Szybkie wdrożenie tldraw podkreśla wartość Gemini dla startupów: szybkie prototypowanie, lepsza obsługa dzięki intuicyjnym interfejsom w języku naturalnym i wydajne przetwarzanie danych strukturalnych dzięki modelom takim jak Gemini 2.0 Flash. Dzięki temu małe zespoły mogą szybko i ekonomicznie tworzyć innowacyjne funkcje oparte na AI.

„Chcemy pokazać, że każdy zespół może tworzyć ambitne projekty za pomocą pakietu SDK tldraw. Gemini Flash to idealny silnik do szybkiego, multimodalnego narzędzia opartego na płótnie. Z Gemini 2.0 i lepszą nazwą jestem prawie pewien, że jutro moglibyśmy przedstawić komputer jako osobny startup”.

– Steve Ruiz, założyciel tldraw

Wzbogacanie aplikacji za pomocą interfejsu Gemini API

Zainspirowany sukcesem tldraw? Interfejs Gemini API oferuje zaawansowane modele, takie jak Gemini 1.5 Pro, Gemini 1.5 Flash i teraz Gemini 2.0 Flash jako eksperymentalny model w wersji zapoznawczej, aby wprowadzać innowacyjne funkcje AI do Twojej aplikacji. Zapoznaj się z dokumentacją interfejsu Gemini API i udostępnij użytkownikom funkcje AI.

Dla profesjonalistów z branży kreatywnej, programistów i zespołów wszelkiego rodzaju tldraw to wyjątkowa i zaawansowana platforma do realizacji pomysłów. Dołącz do listy oczekujących na komputer Poznaj przyszłość współpracy wizualnej już dziś.