LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.
Karakteristikat kryesore
- Mbështetje ndërplatformore: Ekzekutohet në Android, iOS, Ueb dhe Desktop.
- Përshpejtimi i harduerit:
- GPU: Mundësuar nga ML Drift, duke mbështetur modelet ML dhe Generative AI.
- NPU: Përfundim i përshpejtuar në pajisjet me çipe Qualcomm dhe MediaTek (Qasje e Hershme).
- Multi-Modalitet: Mbështetje për hyrje vizuale dhe audio.
- Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës së agjentëve.
- Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.
Backend-et dhe Platformat e Mbështetura
| Platforma | Mbështetja e CPU-së | Mbështetje GPU-je | Mbështetje NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| I integruar | ✅ | - | - |
Fillimi i shpejtë
Dëshironi ta provoni më parë? Para se të vazhdoni me konfigurimin e plotë, mund të përdorni skedarët binare të parapërgatitur për desktop ose aplikacionin Google AI Edge Gallery për celular për të ekzekutuar menjëherë LiteRT-LM.
Aplikacionet Mobile
Galeria Google AI Edge është një aplikacion demo që ju jep fuqinë e modeleve të inteligjencës artificiale gjeneruese të teknologjisë së fundit, të mundësuar nga LiteRT-LM.
CLI i Desktopit
Pasi të shkarkoni skedarin binar lit , thjesht ekzekutoni lit për të parë opsionet.
Zgjidhni Platformën Tuaj
| Gjuha | Statusi | Më e mira për... | Dokumentacioni |
|---|---|---|---|
| Kotlin | ✅ Stallë | Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines. | Referenca e API-t të Kotlin |
| C++ | ✅ Stallë | Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura. | Referenca e API-t C++ |
| I shpejtë | 🚀 Në Zhvillim | Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal. | Së shpejti |
| Python | 🚀 Në Zhvillim | Prototipizim, zhvillim dhe skriptim i shpejtë në desktop. | Së shpejti |
Modelet e Mbështetura
Tabela e mëposhtme tregon një mostër të modeleve që mbështeten plotësisht dhe testohen me LiteRT-LM.
Shënim: "Gati për bisedë" tregon modele të akorduara për bisedë (akordim udhëzimesh). Modelet "bazë" shpesh kërkojnë akordim të imët për performancë optimale të bisedës, përveç nëse përdoren për përfundime specifike.
| Model | Lloji | Kuantizimi | Gjatësia e kontekstit | Madhësia (MB) | Shkarko |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Gati për bisedë | 4-bit për kanal | 4096 | 557 | Shkarko |
| Gemma-3n-E2B | Gati për bisedë | 4-bit për kanal | 4096 | 2965 | Shkarko |
| Gemma-3n-E4B | Gati për bisedë | 4-bit për kanal | 4096 | 4235 | Shkarko |
| FunksioniGemma-270M | Baza (Kërkohet rregullim i imët) | 8-bit për kanal | 1024 | 288 | Udhëzues për rregullimin e imët |
| ↪ TinyGarden-270M | Demo | 8-bit për kanal | 1024 | 288 | Shkarko / Provo aplikacionin |
| Lama | |||||
| Llama-3.2-1B-Instruct | Gati për bisedë | 8-bit për kanal | 8192 | 1162 | Shkarko |
| Llama-3.2-3B-Instruct | Gati për bisedë | 8-bit për kanal | 8192 | 2893 | Shkarko |
| Phi | |||||
| phi-4-mini | Gati për bisedë | 8-bit për kanal | 4096 | 3728 | Shkarko |
| Qwen | |||||
| qwen2.5-1.5b | Gati për bisedë | 8-bit për kanal | 4096 | 1524 | Shkarko |
Performanca
Më poshtë janë numrat e performancës së ekzekutimit të secilit model në pajisje të ndryshme. Vini re se testi krahasues matet me 1024 para-mbushje tokenësh dhe 256 dekodim tokenësh (me bllokim të performancës në pajisjet Android).
| Model | Pajisje | Sfondi | Mbushje paraprake (tokena/sek) | Dekodo (tokena/sek) | Madhësia e kontekstit |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) | CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) | CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) | GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) | NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) | CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) | CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) | GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) | CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) | CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) | GPU | 548 | 9 | 4096 |
| FunksioniGemma | Samsung S25 (Ultra) | CPU | 1718 | 126 | 1024 |
Shënim: Herën e parë që një model i caktuar ngarkohet në një pajisje të caktuar, do të duhet më shumë kohë për t'u ngarkuar pasi peshat optimizohen. Ngarkimet pasuese do të jenë më të shpejta për shkak të ruajtjes në memorien e përkohshme.
Pritja dhe Vendosja e Modelit
Kur një model tejkalon limitet e shkarkimit "over-the-air" (shpesh rreth 1.5 GB), kërkohet një strategji e marrjes në distancë.
- Firebase: Rekomandohet për shkarkimin e skedarëve të mëdhenj në Android dhe iOS .
- API HuggingFace: Merr modelet direkt duke përdorur API-n HuggingFace .
Raportimi i Çështjeve
Nëse hasni ndonjë gabim ose keni një kërkesë për ndonjë veçori, ju lutemi përdorni faqen e Problemeve të GitHub të LiteRT-LM .