Përmbledhje e LiteRT-LM

LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.

Karakteristikat kryesore

Mbështetje ndërplatformore: Ekzekutohet në Android, iOS, Ueb dhe Desktop.
Përshpejtimi i harduerit:
- GPU: Mundësuar nga ML Drift, duke mbështetur modelet ML dhe Generative AI.
- NPU: Përfundim i përshpejtuar në pajisjet me çipe Qualcomm dhe MediaTek (Qasje e Hershme).
Multi-Modalitet: Mbështetje për hyrje vizuale dhe audio.
Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës së agjentëve.
Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.

Backend-et dhe Platformat e Mbështetura

Platforma	Mbështetja e CPU-së	Mbështetje GPU-je	Mbështetje NPU
Android	✅	✅	✅
iOS	✅	✅	-
macOS	✅	✅	-
Windows	✅	✅	-
Linux	✅	✅	-
I integruar	✅	-	-

Fillimi i shpejtë

Dëshironi ta provoni më parë? Para se të vazhdoni me konfigurimin e plotë, mund të përdorni skedarët binare të parapërgatitur për desktop ose aplikacionin Google AI Edge Gallery për celular për të ekzekutuar menjëherë LiteRT-LM.

Aplikacionet Mobile

Galeria Google AI Edge është një aplikacion demo që ju jep fuqinë e modeleve të inteligjencës artificiale gjeneruese të teknologjisë së fundit, të mundësuar nga LiteRT-LM.

CLI i Desktopit

Pasi të shkarkoni skedarin binar lit , thjesht ekzekutoni lit për të parë opsionet.

Zgjidhni Platformën Tuaj

Gjuha	Statusi	Më e mira për...	Dokumentacioni
Kotlin	✅ Stallë	Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines.	Referenca e API-t të Kotlin
C++	✅ Stallë	Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura.	Referenca e API-t C++
I shpejtë	🚀 Në Zhvillim	Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal.	Së shpejti
Python	🚀 Në Zhvillim	Prototipizim, zhvillim dhe skriptim i shpejtë në desktop.	Së shpejti

Modelet e Mbështetura

Tabela e mëposhtme tregon një mostër të modeleve që mbështeten plotësisht dhe testohen me LiteRT-LM.

Shënim: "Gati për bisedë" tregon modele të akorduara për bisedë (akordim udhëzimesh). Modelet "bazë" shpesh kërkojnë akordim të imët për performancë optimale të bisedës, përveç nëse përdoren për përfundime specifike.

Model	Lloji	Kuantizimi	Gjatësia e kontekstit	Madhësia (MB)	Shkarko
Gemma
Gemma3-1B	Gati për bisedë	4-bit për kanal	4096	557	Shkarko
Gemma-3n-E2B	Gati për bisedë	4-bit për kanal	4096	2965	Shkarko
Gemma-3n-E4B	Gati për bisedë	4-bit për kanal	4096	4235	Shkarko
FunksioniGemma-270M	Baza (Kërkohet rregullim i imët)	8-bit për kanal	1024	288	Udhëzues për rregullimin e imët
↪ TinyGarden-270M	Demo	8-bit për kanal	1024	288	Shkarko / Provo aplikacionin
Lama
Llama-3.2-1B-Instruct	Gati për bisedë	8-bit për kanal	8192	1162	Shkarko
Llama-3.2-3B-Instruct	Gati për bisedë	8-bit për kanal	8192	2893	Shkarko
Phi
phi-4-mini	Gati për bisedë	8-bit për kanal	4096	3728	Shkarko
Qwen
qwen2.5-1.5b	Gati për bisedë	8-bit për kanal	4096	1524	Shkarko

Performanca

Më poshtë janë numrat e performancës së ekzekutimit të secilit model në pajisje të ndryshme. Vini re se testi krahasues matet me 1024 para-mbushje tokenësh dhe 256 dekodim tokenësh (me bllokim të performancës në pajisjet Android).

Model	Pajisje	Sfondi	Mbushje paraprake (tokena/sek)	Dekodo (tokena/sek)	Madhësia e kontekstit
Gemma3-1B	MacBook Pro (2023 M3)	CPU	423	67	4096
Gemma3-1B	Samsung S24 (Ultra)	CPU	243	44	4096
Gemma3-1B	Samsung S24 (Ultra)	GPU	1877	45	4096
Gemma3-1B	Samsung S25 (Ultra)	NPU	5837	85	1280
Gemma-3n-E2B	MacBook Pro (2023 M3)	CPU	233	28	4096
Gemma-3n-E2B	Samsung S24 (Ultra)	CPU	111	16	4096
Gemma-3n-E2B	Samsung S24 (Ultra)	GPU	816	16	4096
Gemma-3n-E4B	MacBook Pro (2023 M3)	CPU	170	20	4096
Gemma-3n-E4B	Samsung S24 (Ultra)	CPU	74	9	4096
Gemma-3n-E4B	Samsung S24 (Ultra)	GPU	548	9	4096
FunksioniGemma	Samsung S25 (Ultra)	CPU	1718	126	1024

Shënim: Herën e parë që një model i caktuar ngarkohet në një pajisje të caktuar, do të duhet më shumë kohë për t'u ngarkuar pasi peshat optimizohen. Ngarkimet pasuese do të jenë më të shpejta për shkak të ruajtjes në memorien e përkohshme.

Pritja dhe Vendosja e Modelit

Kur një model tejkalon limitet e shkarkimit "over-the-air" (shpesh rreth 1.5 GB), kërkohet një strategji e marrjes në distancë.

Firebase: Rekomandohet për shkarkimin e skedarëve të mëdhenj në Android dhe iOS .
API HuggingFace: Merr modelet direkt duke përdorur API-n HuggingFace .

Raportimi i Çështjeve

Nëse hasni ndonjë gabim ose keni një kërkesë për ndonjë veçori, ju lutemi përdorni faqen e Problemeve të GitHub të LiteRT-LM .