แชร์

11 ธ.ค. 2024

Gemini ขับเคลื่อนประสบการณ์ "การประมวลผลภาษาธรรมชาติ" ของ tldraw

Vishal Dharmadhikari

วิศวกรโซลูชันผลิตภัณฑ์

Steve Ruiz

Tldraw

Tldraw showcase hero

ปลดล็อกการโต้ตอบด้วยภาษาธรรมชาติด้วย Gemini API

Gemini API ช่วยให้นักพัฒนาแอปผสานรวมความสามารถขั้นสูงของ AI เข้ากับแอปพลิเคชันได้อย่างราบรื่น ซึ่งจะเปิดโอกาสใหม่ๆ สำหรับประสบการณ์ของผู้ใช้และฟังก์ชันการทำงาน โพสต์นี้จะเน้นวิธีที่ tldraw ใช้ประโยชน์จาก Gemini เพื่อสร้างประสบการณ์ "การประมวลผลภาษาธรรมชาติ" ที่ปฏิวัติวงการภายในโปรเจ็กต์ใหม่ของตนเองอย่าง computer ซึ่งแสดงให้เห็นถึงความรวดเร็วและความง่ายที่สตาร์ทอัพสามารถผสานรวม AI อันทรงพลังโดยใช้ Gemini API และ Canvas SDK ของ tldraw ทีม tldraw จะเปิดตัวคอมพิวเตอร์ที่ใช้ Gemini 1.5 Flash ในเร็วๆ นี้ (เข้าร่วมรายชื่อรอ) และกำลังสร้างต้นแบบด้วย Gemini 2.0 Flash สำหรับการทำซ้ำในอนาคต

tldraw ใช้ Gemini API เพื่อนำความสามารถของ AI แบบสนทนามาสู่การเขียนโปรแกรมแบบภาพ ซึ่งช่วยให้ผู้ใช้สร้างเนื้อหาและประมวลผลข้อมูลโดยใช้ภาษาที่เป็นธรรมชาติได้ ซึ่งจะเปิดโอกาสที่น่าตื่นเต้นในการมอบประสบการณ์ของผู้ใช้ที่ใช้งาน AI ได้อย่างมีประสิทธิภาพและง่ายดายยิ่งขึ้น รวมถึงขยายขอบเขตของการสื่อสารด้วยภาพ

วิสัยทัศน์เบื้องหลังคอมพิวเตอร์

tldraw มุ่งมั่นที่จะทำให้การสร้างไดอะแกรมเข้าถึงได้และใช้งานง่าย จึงได้ออกแบบวิธีที่ผู้ใช้จะโต้ตอบกับ Canvas ได้อย่างเป็นธรรมชาติมากขึ้น ผู้ก่อตั้ง Steve Ruiz พยายามใช้ประโยชน์จากความสามารถของ SDK ของ Canvas แบบไม่จำกัดของ tldraw เพื่อสร้างสภาพแวดล้อมแบบไดนามิกสำหรับการทำงานร่วมกับ Generative AI วิสัยทัศน์นี้ทำให้เกิดการพัฒนา Computer ซึ่งเป็นแอปพลิเคชันทดลองที่ผู้ใช้สร้างเวิร์กโฟลว์จากบล็อกข้อความ รูปภาพ และคำสั่ง เมื่อเรียกใช้ ข้อมูลจะไหลจากคอมโพเนนต์หนึ่งไปยังคอมโพเนนต์ถัดไป โดยเอาต์พุตของการสร้างแต่ละครั้งจะทำหน้าที่เป็นอินพุตของครั้งถัดไป ซึ่งจะสร้างกระบวนการที่มีประสิทธิภาพซึ่งแยกสาขา วนซ้ำ และทำซ้ำเพื่อสร้างเอาต์พุต

การสร้างด้วย Gemini 2.0: เจาะลึกเกี่ยวกับคอมพิวเตอร์

คอมพิวเตอร์ของ tldraw สร้างขึ้นบนเครือข่ายของ "คอมโพเนนต์" ที่เชื่อมต่อกัน ซึ่งแสดงถึงองค์ประกอบต่างๆ บน Canvas (กล่องข้อความ รูปภาพ คลิปเสียง ฯลฯ) องค์ประกอบเหล่านี้เชื่อมโยงกันด้วยลูกศร ซึ่งแสดงให้เห็นถึงการไหลของข้อมูลและการแปลง แต่ละคอมโพเนนต์มี "ขั้นตอน" ที่เกี่ยวข้อง ซึ่งเป็นชุดคำสั่งที่ดำเนินการตามอินพุตจากคอมโพเนนต์ที่เชื่อมต่อ คอมโพเนนต์สามารถรับข้อมูลจากคอมโพเนนต์อื่นๆ ได้ไม่จำกัดจำนวน และส่งต่อข้อมูลเอาต์พุตไปยังคอมโพเนนต์อื่นๆ อีกมากมาย รวมถึงตัวคอมโพเนนต์เองด้วย สถาปัตยกรรมแบบคอมโพเนนต์นี้ทำงานร่วมกับความสามารถและความเร็วของ Gemini 2.0 Flash ทำให้ระบบทำงานได้อย่างรวดเร็วและยืดหยุ่น พร้อมรองรับงานที่หลากหลาย

การเขียนโปรแกรมภาพ AI ของคอมพิวเตอร์ tldraw ด้วยการสร้างข้อความโดยใช้ Gemini 2.0 และการสร้างรูปภาพด้วยโมเดลสร้างรูปภาพ

การสร้างต้นแบบ Gemini 2.0 Flash ช่วยขับเคลื่อนประสบการณ์การใช้งานได้อย่างไร


  • การดำเนินการตามขั้นตอนที่รวดเร็ว: Gemini 2.0 Flash ดำเนินการตามขั้นตอนได้อย่างรวดเร็ว เช่น คอมโพเนนต์ "คำสั่ง" อาจมี "เขียนโฆษณาสั้นๆ" เมื่อทริกเกอร์แล้ว คอมโพเนนต์จะสร้างสคริปต์ขั้นตอนที่นำกลับมาใช้ใหม่ได้ในเวลาไม่นาน ซึ่งจะเปลี่ยนอินพุตใดๆ ก็ตามให้เป็นสคริปต์เชิงพาณิชย์ได้ จากนั้นคอมโพเนนต์จะใช้สคริปต์นี้ร่วมกับอินพุตปัจจุบัน (เช่น คอมโพเนนต์ "ข้อความ" ที่มีข้อความ "ถุงมืออัจฉริยะรุ่นใหม่ที่ทำงานด้วยระบบ AI สำหรับแมว") เพื่อสร้างพรอมต์ที่ 2 ให้กับโมเดลสำหรับเอาต์พุตสุดท้าย ระบบอาจส่งเอาต์พุตนี้ไปยังคอมโพเนนต์ "ข้อความ" อื่นที่ลิงก์ไว้เพื่อแสดงผล รวมถึงคอมโพเนนต์อื่นๆ ที่เชื่อมต่ออยู่ เช่น "คำพูด" สำหรับการแปลงข้อความเป็นคำพูด "รูปภาพ" สำหรับการสร้างภาพ หรือคอมโพเนนต์ "คำสั่ง" อื่นๆ เพื่อทำการเปลี่ยนแปลงเพิ่มเติม

  • บริบทมากมาย หลายโหมด: ความมุ่งมั่นสูงสุดในคอมพิวเตอร์ของ tldraw เรียกร้องความเร็ว ความจุ และความสามารถ เนื่องจากมีคอมโพเนนต์หลายรายการที่ให้ข้อมูลสำหรับการสร้างแต่ละครั้ง หน้าต่างบริบทขนาดใหญ่ของ Gemini 2.0 Flash จึงมีความสำคัญอย่างยิ่งต่อการสร้างเอาต์พุตที่คำนึงถึงอินพุตทั้งหมด เช่นเดียวกับการรองรับรูปภาพและไฟล์ควบคู่ไปกับพรอมต์ที่เป็นข้อความ

  • Structured Data: การไหลของข้อมูลระหว่างคอมโพเนนต์จะเป็นไปไม่ได้หากไม่ยึดมั่นในสคีมาเดียว เอาต์พุต JSON ที่มีโครงสร้างจาก Gemini 2.0 Flash ช่วยให้มั่นใจได้ว่าแต่ละคอมโพเนนต์ในเวิร์กโฟลว์จะจดจำข้อมูลทุกประเภทและสร้างเอาต์พุตในโครงสร้างเดียวกันได้ ซึ่งจะช่วยป้องกันการหยุดชะงัก ดำเนินการได้อย่างราบรื่น และรับประกันว่าแม้เวิร์กโฟลว์ขนาดใหญ่ก็จะเสร็จสมบูรณ์ได้อย่างน่าเชื่อถือ

  • การสร้างขั้นตอนแบบไดนามิก: นอกเหนือจากการดำเนินการตามขั้นตอนที่กำหนดไว้ล่วงหน้าแล้ว Gemini 2.0 Flash ยังสร้างขั้นตอนแบบไดนามิกได้ด้วย ผู้ใช้สามารถป้อนข้อความว่า "สร้างแคมเปญการตลาดตามคำอธิบายผลิตภัณฑ์นี้" แล้ว Gemini 2.0 Flash จะสร้างขั้นตอนที่จำเป็น (กระบวนการ) และคอมโพเนนต์ที่ต้องใช้ เพื่อสร้างเวิร์กโฟลว์บน Canvas ตามคำขอระดับสูงของผู้ใช้ การสร้างแบบไดนามิกนี้จะปลดล็อกศักยภาพอันมหาศาลในการสร้างประสบการณ์การใช้งานที่เป็นนวัตกรรมใหม่และเวิร์กโฟลว์ที่มีประสิทธิภาพ

ภารกิจรางวัลทันใจเพื่อการสร้างสรรค์นวัตกรรม

การติดตั้งใช้งานอย่างรวดเร็วของ tldraw แสดงให้เห็นถึงคุณค่าของ Gemini สำหรับสตาร์ทอัป นั่นคือ การสร้างต้นแบบอย่างรวดเร็ว ประสบการณ์ของผู้ใช้ที่ดียิ่งขึ้นผ่านอินเทอร์เฟซภาษาที่เป็นธรรมชาติที่ใช้งานง่าย และการจัดการข้อมูลที่มีโครงสร้างอย่างมีประสิทธิภาพด้วยโมเดลอย่าง Gemini 2.0 Flash การผสานรวมนี้ช่วยให้ทีมขนาดเล็กสร้างฟีเจอร์ที่ทำงานด้วยระบบ AI ที่ล้ำสมัยได้อย่างรวดเร็วและประหยัดค่าใช้จ่าย

"เราต้องการแสดงให้เห็นว่าทุกทีมสามารถสร้างโปรเจ็กต์ที่ยิ่งใหญ่ด้วย Canvas SDK ของ tldraw Gemini Flash เป็นเครื่องมือที่เหมาะสำหรับเครื่องมือเวิร์กโฟลว์แบบหลายโมดอลที่รวดเร็วและอิงตาม Canvas ด้วย Gemini 2.0 และอาจมีชื่อที่ดีกว่านี้ ผมค่อนข้างมั่นใจว่าเราจะสามารถนำเสนอคอมพิวเตอร์ในฐานะสตาร์ทอัพของตัวเองได้ในวันพรุ่งนี้"

- Steve Ruiz ผู้ก่อตั้ง tldraw

เพิ่มประสิทธิภาพแอปพลิเคชันด้วย Gemini API

ได้รับแรงบันดาลใจจากความสำเร็จของ tldraw ใช่ไหม Gemini API มีโมเดลที่ทรงพลัง เช่น Gemini 1.5 Pro, Gemini 1.5 Flash และตอนนี้มี Gemini 2.0 Flash เป็นโมเดลเวอร์ชันทดลองเพื่อนำฟีเจอร์ AI ที่เป็นนวัตกรรมมาสู่แอปพลิเคชันของคุณ สำรวจเอกสารประกอบของ Gemini API และเพิ่มศักยภาพให้ผู้ใช้ด้วย AI

สำหรับผู้เชี่ยวชาญด้านครีเอทีฟโฆษณา นักพัฒนาซอฟต์แวร์ และทีมทุกประเภท tldraw มีแพลตฟอร์มที่ไม่เหมือนใครและทรงพลังที่จะช่วยทำให้ไอเดียเป็นจริงได้ ลงชื่อในคิวรอสำหรับคอมพิวเตอร์ สัมผัสอนาคตของการทำงานร่วมกันผ่านภาพได้แล้ววันนี้