11 DE DEZEMBRO DE 2024
O Gemini impulsiona a experiência de "Computação em linguagem natural" do tldraw

Como ativar interações em linguagem natural com a API Gemini
Com a API Gemini, os desenvolvedores podem integrar recursos avançados de IA aos aplicativos, abrindo novas possibilidades para a experiência do usuário e a funcionalidade. Esta postagem destaca como o tldraw usa o Gemini para criar uma experiência revolucionária de "computação em linguagem natural" no novo projeto, o computer. Isso demonstra a velocidade e a facilidade com que as startups podem integrar uma IA poderosa usando a API Gemini e o SDK de tela do tldraw. A equipe do tldraw vai lançar o computador com o Gemini 1.5 Flash em breve (entre na lista de espera) e está prototipando com o Gemini 2.0 Flash para iterações futuras.
O tldraw usa a API Gemini para trazer o poder da IA de conversação para a programação visual, permitindo que os usuários gerem conteúdo e processem informações usando linguagem natural. Isso abre oportunidades interessantes para uma experiência do usuário mais intuitiva e eficiente com a IA, ampliando os limites da comunicação visual.
A visão por trás do computador
O tldraw, que busca tornar a criação de diagramas acessível e intuitiva, imaginou uma maneira mais natural para os usuários interagirem com a tela. O fundador Steve Ruiz queria aproveitar o poder do SDK de tela infinita do tldraw para criar um ambiente dinâmico de trabalho com a IA generativa. Essa visão levou ao desenvolvimento do computador, um aplicativo experimental em que os usuários criam fluxos de trabalho com blocos de texto, imagens e instruções. Quando executadas, as informações fluem de um componente para o outro, e a saída de cada geração serve como entrada para a próxima, criando processos poderosos que se ramificam, fazem loops e iteram para produzir saídas.
Building with Gemini 2.0: A Deep Dive into Computer
O computador do tldraw é construído em uma rede de "componentes" interconectados que representam elementos na tela (caixas de texto, imagens, clipes de áudio etc.). Esses componentes são vinculados por setas, visualizando o fluxo de dados e transformações. Cada componente tem "procedimentos" associados, que são conjuntos de instruções executadas com base nas entradas de componentes conectados. Um componente pode aceitar dados de qualquer número de outros componentes e transmitir os dados de saída para muitos outros, incluindo ele mesmo. Essa arquitetura baseada em componentes, combinada com a potência e a velocidade do Gemini 2.0 Flash, permite um sistema rápido e flexível capaz de lidar com diversas tarefas.
Confira como a prototipagem do Gemini 2.0 Flash impulsionou a experiência:
Execução de procedimentos ultrarrápida:o Gemini 2.0 Flash executa procedimentos rapidamente. Por exemplo, um componente "Instrução" pode conter "Escreva um comercial curto". Em instantes, o componente vai gerar um script reutilizável de etapas que podem transformar qualquer combinação de entradas em um script comercial. Em seguida, o componente usa esse script, junto com as entradas atuais (por exemplo, um componente "Texto" com "Novas luvas inteligentes com tecnologia de IA para gatos"), para fazer um segundo comando ao modelo e gerar a saída final. Essa saída pode ser transmitida para outro componente "Texto" vinculado para exibição, bem como para outros componentes conectados, como "Fala" para conversão de texto em voz, "Imagem" para geração visual ou outros componentes "Instrução" para mais transformações.
Muito contexto, muitos modos:a tendência maximalista no computador do tldraw exigia velocidade, capacidade e funcionalidade. Com vários componentes fornecendo dados para cada geração, a grande janela de contexto do Gemini 2.0 Flash foi essencial para produzir saídas que considerassem todas as entradas, assim como o suporte a imagens e arquivos junto com comandos escritos.
Dados estruturados:o fluxo de dados entre componentes não seria possível sem a adesão a um único esquema. A saída JSON estruturada do Gemini 2.0 Flash garante que cada componente em um fluxo de trabalho possa reconhecer dados de qualquer tipo e produzir saídas na mesma estrutura, evitando paralisações, facilitando a execução e garantindo que até mesmo fluxos de trabalho grandes sejam concluídos de maneira confiável.
Geração dinâmica de procedimentos:além de executar procedimentos predefinidos, o Gemini 2.0 Flash pode gerar procedimentos dinamicamente. Um usuário pode inserir "crie uma campanha de marketing com base nesta descrição do produto", e o Gemini 2.0 Flash vai gerar as etapas (procedimentos) e os componentes necessários, criando um fluxo de trabalho na tela com base na solicitação de alto nível do usuário. Essa geração dinâmica abre um enorme potencial para experiências inovadoras e fluxos de trabalho simplificados.
Uma melhoria rápida para a inovação
A implementação rápida do tldraw de destaques de computador demonstra a proposta de valor do Gemini para startups: prototipagem rápida, experiência do usuário aprimorada com interfaces intuitivas de linguagem natural e tratamento eficiente de dados estruturados graças a modelos como o Gemini 2.0 Flash. Essa combinação permite que equipes pequenas criem recursos inovadores com tecnologia de IA de forma rápida e econômica.
"Queremos mostrar que qualquer equipe pode criar projetos ambiciosos com o SDK de tela do tldraw. O Gemini Flash era um mecanismo perfeito para uma ferramenta de fluxo de trabalho rápida, multimodal e baseada em tela. Com o Gemini 2.0 e talvez um nome melhor, tenho certeza de que poderíamos apresentar o computador como uma startup amanhã."
Potencialize seu aplicativo com a API Gemini
Inspirado no sucesso do tldraw? A API Gemini oferece modelos poderosos, como o Gemini 1.5 Pro, o Gemini 1.5 Flash e agora o Gemini 2.0 Flash como um modelo de prévia experimental para trazer recursos inovadores de IA ao seu aplicativo. Confira a documentação da API Gemini e ofereça IA aos seus usuários.
Para profissionais de criação, desenvolvedores e equipes de todos os tipos, o tldraw oferece uma plataforma exclusiva e eficiente para dar vida às ideias. Entre na lista de espera para computadores. Conheça o futuro da colaboração visual hoje.