LiteRT-LM 개요

LiteRT-LM은 에지 기기에서 고성능 크로스 플랫폼 LLM 배포를 제공하도록 설계된 프로덕션 지원 오픈소스 추론 프레임워크입니다.

  • 크로스 플랫폼 지원: Android, iOS, 웹, 데스크톱, IoT (예: Raspberry Pi)에서 실행됩니다.
  • 하드웨어 가속: 다양한 하드웨어에서 GPU 및 NPU 가속기를 활용하여 최고 성능과 시스템 안정성을 확보합니다.
  • 멀티모달: 시각 및 오디오 지원 기능이 있는 LLM으로 빌드합니다.
  • 도구 사용: 정확성 향상을 위해 디코딩이 제한된 에이전트형 워크플로를 위한 함수 호출 지원
  • 광범위한 모델 지원: Gemma, Llama, Phi-4, Qwen 등을 실행합니다.

새로운 기능 (v0.12.0)

  • Swift API: Metal GPU 가속을 사용하여 LiteRT-LM을 iOS 애플리케이션에 기본적으로 통합합니다. Swift 가이드를 참고하세요.
  • 웹 JavaScript API: 웹 GPU/CPU를 사용하여 웹브라우저 내에서 고성능으로 모델을 실행합니다. JavaScript 가이드를 참고하세요.
  • LiteRT-LM CLI / Python API 업데이트: 이제 명령줄 인터페이스와 Python API가 Linux, macOS, Windows에서 CPU 및 GPU 백엔드 외에 NPU를 지원합니다. CLI 가이드를 참고하세요.
  • 커뮤니티에서 유지관리하는 Flutter API: 커뮤니티 flutter_gemma 패키지를 사용하여 크로스 플랫폼 Flutter 애플리케이션을 빌드합니다. Flutter 가이드를 참고하세요.

온디바이스 생성형 AI 쇼케이스

Google AI Edge 갤러리 스크린샷

Google AI Edge Gallery는 LiteRT-LM을 사용하여 완전히 오프라인으로 실행되는 온디바이스 생성형 AI 기능을 선보이는 실험용 앱입니다.

  • Google Play: 지원되는 Android 기기에서 LLM을 로컬로 사용합니다.
  • App Store: iOS 기기에서 온디바이스 AI를 경험하세요.
  • GitHub 소스: 갤러리 앱의 소스 코드를 확인하여 자체 프로젝트 내에서 LiteRT-LM을 통합하는 방법을 알아보세요.
  • 모델 크기: 2.58GB
  • 추가 기술 세부정보는 HuggingFace 모델 카드를 참고하세요.

    플랫폼 (기기) 백엔드 미리 채우기 (tk/s) 디코딩 (tk/s) 첫 번째 토큰까지의 시간 (초) 최대 CPU 메모리 (MB)
    Android (S26 Ultra) CPU 557 47 1.8 1733
    GPU 3808 52 0.3 676
    iOS (iPhone 17 Pro) CPU 532 25 1.9 607
    GPU 2878 56 0.3 1450
    Linux (Arm 2.3 및 2.8GHz, NVIDIA GeForce RTX 4090) CPU 260 35 4 1628
    GPU 11234 143 0.1 913
    macOS (MacBook Pro M4) CPU 901 42 1.1 736
    GPU 7835 160 0.1 1623
    Windows (Intel LunarLake) CPU 435 30 2.4 3505
    GPU 3751 48 0.3 3540
    IoT (Raspberry Pi 5 16GB) CPU 133 8 7.8 1546

빌드 시작

LiteRT-LM은 여러 프로그래밍 언어 및 플랫폼용 API를 제공하여 기기 내 AI 애플리케이션을 빠르게 빌드할 수 있도록 지원합니다. 시작하려면 아래 가이드를 선택하세요.

언어 상태 권장 용도 문서
CLI
안정화 버전
1분 이내에 LiteRT-LM을 시작하세요. CLI 가이드
Python
안정화 버전
데스크톱 및 Raspberry Pi에서 신속한 프로토타이핑 및 개발 Python 가이드
Kotlin
안정화 버전
네이티브 Android 앱과 JVM 기반 데스크톱 도구 코루틴에 최적화되어 있습니다. Kotlin 가이드
Swift 🚀
초기 미리보기
특화된 Metal 지원을 통한 네이티브 iOS 및 macOS 통합 Swift 가이드
JavaScript(웹) 🚀
초기 미리보기
고성능으로 웹브라우저에 직접 모델을 배포합니다. JavaScript 가이드
Flutter 🚀
커뮤니티
커뮤니티 flutter_gemma를 사용하는 크로스 플랫폼 Flutter 앱 Flutter 가이드
C++
안정화 버전
고성능, 크로스 플랫폼 핵심 로직 및 임베디드 시스템 C++ 가이드

소스에서 빌드

LiteRT-LM을 맞춤설정하거나 특정 하드웨어 구성에 맞게 빌드하려면 소스 코드에서 직접 컴파일하면 됩니다. 환경을 설정하고 프레임워크를 빌드하는 단계별 안내는 GitHub의 LiteRT-LM 빌드 및 실행 가이드를 참고하세요.

지원되는 백엔드 및 플랫폼

가속 Android iOS macOS Windows Linux IoT
CPU
GPU -
NPU - - 🚀 - -

지원되는 모델

다음 표에는 LiteRT-LM에서 지원하는 모델이 나열되어 있습니다. 자세한 성능 수치와 모델 카드는 Hugging Face의 LiteRT 커뮤니티를 참고하세요.

모델 유형 크기(MB) 세부정보 기기 CPU 미리 채우기 (tk/s) CPU 디코딩 (tk/s) GPU Prefill (tk/s) GPU 디코딩 (tk/s)
Gemma4-E2B 채팅 2583 모델 카드 Samsung S26 Ultra 557 47 3808 52
iPhone 17 Pro 532 25 2878 57
MacBook Pro M4 901 42 7835 160
Gemma4-E4B 채팅 3654 모델 카드 Samsung S26 Ultra 195 18 1293 22
iPhone 17 Pro 159 10 1189 25
MacBook Pro M4 277 27 2560 101
Gemma-3n-E2B 채팅 2965 모델 카드 MacBook Pro M3 233 28 - -
Samsung S24 Ultra 111 16 816 16
Gemma-3n-E4B 채팅 4235 모델 카드 MacBook Pro M3 170 20 - -
Samsung S24 Ultra 74 9 548 9
Gemma3-1B 채팅 1005 모델 카드 Samsung S24 Ultra 177 33 1191 24
FunctionGemma 기본 289 모델 카드 Samsung S25 Ultra 2238 154 - -
phi-4-mini 채팅 3906 모델 카드 Samsung S24 Ultra 67 7 314 10
Qwen2.5-1.5B 채팅 1598 모델 카드 Samsung S25 Ultra 298 34 1668 31
Qwen3-0.6B 채팅 586 모델 카드 Vivo X300 Pro 165 9 580 21
Qwen2.5-0.5B 채팅 521 모델 카드 Samsung S24 Ultra 251 30 - -

문제 신고

버그가 발생하거나 기능 요청이 있는 경우 LiteRT-LM GitHub 문제에 신고하세요.