Përmbledhje e LiteRT-LM

LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.

Karakteristikat kryesore

  • Mbështetje ndërplatformore: Ekzekutohet në Android, iOS, Ueb dhe Desktop.
  • Përshpejtimi i harduerit:
    • GPU: Mundësuar nga ML Drift, duke mbështetur modelet ML dhe Generative AI.
    • NPU: Përfundim i përshpejtuar në pajisjet me çipe Qualcomm dhe MediaTek (Qasje e Hershme).
  • Multi-Modalitet: Mbështetje për hyrje vizuale dhe audio.
  • Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës së agjentëve.
  • Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.

Backend-et dhe Platformat e Mbështetura

Platforma Mbështetja e CPU-së Mbështetje GPU-je Mbështetje NPU
Android
iOS -
macOS -
Windows -
Linux -
I integruar - -

Fillimi i shpejtë

Dëshironi ta provoni më parë? Para se të vazhdoni me konfigurimin e plotë, mund të përdorni skedarët binare të parapërgatitur për desktop ose aplikacionin Google AI Edge Gallery për celular për të ekzekutuar menjëherë LiteRT-LM.

Aplikacionet Mobile

Galeria Google AI Edge është një aplikacion demo që ju jep fuqinë e modeleve të inteligjencës artificiale gjeneruese të teknologjisë së fundit, të mundësuar nga LiteRT-LM.

CLI i Desktopit

Pasi të shkarkoni skedarin binar lit , thjesht ekzekutoni lit për të parë opsionet.

Zgjidhni Platformën Tuaj

Gjuha Statusi Më e mira për... Dokumentacioni
Kotlin
Stallë
Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines. Referenca e API-t të Kotlin
C++
Stallë
Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura. Referenca e API-t C++
I shpejtë 🚀
Në Zhvillim
Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal. Së shpejti
Python 🚀
Në Zhvillim
Prototipizim, zhvillim dhe skriptim i shpejtë në desktop. Së shpejti

Modelet e Mbështetura

Tabela e mëposhtme tregon një mostër të modeleve që mbështeten plotësisht dhe testohen me LiteRT-LM.

Shënim: "Gati për bisedë" tregon modele të akorduara për bisedë (akordim udhëzimesh). Modelet "bazë" shpesh kërkojnë akordim të imët për performancë optimale të bisedës, përveç nëse përdoren për përfundime specifike.

Model Lloji Kuantizimi Gjatësia e kontekstit Madhësia (MB) Shkarko
Gemma
Gemma3-1B Gati për bisedë 4-bit për kanal 4096 557 Shkarko
Gemma-3n-E2B Gati për bisedë 4-bit për kanal 4096 2965 Shkarko
Gemma-3n-E4B Gati për bisedë 4-bit për kanal 4096 4235 Shkarko
FunksioniGemma-270M Baza (Kërkohet rregullim i imët) 8-bit për kanal 1024 288 Udhëzues për rregullimin e imët
↪ TinyGarden-270M Demo 8-bit për kanal 1024 288 Shkarko / Provo aplikacionin
Lama
Llama-3.2-1B-Instruct Gati për bisedë 8-bit për kanal 8192 1162 Shkarko
Llama-3.2-3B-Instruct Gati për bisedë 8-bit për kanal 8192 2893 Shkarko
Phi
phi-4-mini Gati për bisedë 8-bit për kanal 4096 3728 Shkarko
Qwen
qwen2.5-1.5b Gati për bisedë 8-bit për kanal 4096 1524 Shkarko

Performanca

Më poshtë janë numrat e performancës së ekzekutimit të secilit model në pajisje të ndryshme. Vini re se testi krahasues matet me 1024 para-mbushje tokenësh dhe 256 dekodim tokenësh (me bllokim të performancës në pajisjet Android).

Model Pajisje Sfondi Mbushje paraprake (tokena/sek) Dekodo (tokena/sek) Madhësia e kontekstit
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunksioniGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Shënim: Herën e parë që një model i caktuar ngarkohet në një pajisje të caktuar, do të duhet më shumë kohë për t'u ngarkuar pasi peshat optimizohen. Ngarkimet pasuese do të jenë më të shpejta për shkak të ruajtjes në memorien e përkohshme.

Pritja dhe Vendosja e Modelit

Kur një model tejkalon limitet e shkarkimit "over-the-air" (shpesh rreth 1.5 GB), kërkohet një strategji e marrjes në distancë.

  • Firebase: Rekomandohet për shkarkimin e skedarëve të mëdhenj në Android dhe iOS .
  • API HuggingFace: Merr modelet direkt duke përdorur API-n HuggingFace .

Raportimi i Çështjeve

Nëse hasni ndonjë gabim ose keni një kërkesë për ndonjë veçori, ju lutemi përdorni faqen e Problemeve të GitHub të LiteRT-LM .