नीचे दिए गए दस्तावेज़ में LiteRT के 8-बिट के लिए, खास जानकारी दी गई है क्वांटाइज़ेशन स्कीम. इसका मकसद, हार्डवेयर डेवलपर की मदद करना है, ताकि वे क्वांटाइज़्ड LiteRT मॉडल के साथ अनुमान के लिए हार्डवेयर की सुविधा.
खास जानकारी के बारे में खास जानकारी
हम एक खास जानकारी दे रहे हैं और हम सिर्फ़ कुछ गारंटी दे सकते हैं तय करें. हम यह भी समझते हैं कि अलग-अलग हार्डवेयर सेटिंग और पाबंदियां लागू होती हैं, जिनकी वजह से थोड़ा बदलाव हो सकता है जो शर्त के मुताबिक होते हैं और जो बिट के हिसाब से एकदम सटीक नहीं होते हैं. हालाँकि, यह ज़्यादातर मामलों में स्वीकार किया जा सकता है (और हम इस बात की जांच करते हैं कि हमारी जानकारी के सर्वश्रेष्ठ में, प्रति-संक्रिया सहिष्णुता शामिल है यह डेटा कई मॉडल से इकट्ठा किया जाता है), मशीन लर्निंग का नेचर (और डीप लर्निंग), मुश्किल गारंटी नहीं दी जा सकती.
8-बिट क्वांटाइज़ेशन, फ़्लोटिंग पॉइंट वैल्यू का अनुमान लगाने के लिए इनका इस्तेमाल करता है फ़ॉर्मूला का इस्तेमाल करें.
\[real\_value = (int8\_value - zero\_point) \times scale\]
हर ऐक्सिस (कन्वर्ज़न इवेंट में हर चैनल को भी कहते हैं) या हर टेंसर वेट को इससे दिखाया जाता है
[-127, 127] की श्रेणी में int8 दो के पूरक मान शून्य-बिंदु के बराबर हैं
से 0 तक. हर टेंसर के ऐक्टिवेशन/इनपुट को int8 दो के पूरक से दिखाया जाता है
[-128, 127] की रेंज में शून्य पॉइंट के साथ, [-128, 127] में मौजूद वैल्यू.
कुछ खास कार्रवाइयों के कुछ अन्य अपवाद भी हैं, जिनके बारे में नीचे बताया गया है.
हस्ताक्षर किया गया पूर्णांक बनाम बिना हस्ताक्षर वाला पूर्णांक
LiteRT क्वांटाइज़ेशन के लिए, मुख्य रूप से टूल और कर्नेल को प्राथमिकता दी जाएगी
8-बिट के लिए int8 क्वांटाइज़ेशन. यह सिमेट्रिक सिस्टम की सुविधा के लिए है
क्वांटाइज़ेशन को शून्य-पॉइंट से दिखाया जा रहा है, जो 0 के बराबर है. इसके अलावा, कई और
int8xint8 जमा करने के लिए, बैकएंड में अतिरिक्त ऑप्टिमाइज़ेशन हैं.
हर ऐक्सिस बनाम हर टेंसर
हर टेंसर क्वांटाइज़ेशन का मतलब है कि हर एक स्केल और/या ज़ीरो-पॉइंट हर
पूरे टेंसर के लिए. हर एक्सिस क्वांटाइज़ेशन का मतलब है कि एक स्केल और/या
quantized_dimension में हर स्लाइस के लिए zero_point. क्वांटाइज़्ड डाइमेंशन
टेन्सर के आकार का डाइमेंशन बताता है, जो स्केल और शून्य-पॉइंट को दिखाता है
के मुताबिक हैं. उदाहरण के लिए, टेंसर t, जिसमें dims=[4, 3, 2, 1] है
क्वांटाइज़ेशन पैरामीटर: scale=[1.0, 2.0, 3.0], zero_point=[1, 2, 3],
quantization_dimension=1 की गिनती t के दूसरे डाइमेंशन में की जाएगी:
t[:, 0, :, :] will have scale[0]=1.0, zero_point[0]=1
t[:, 1, :, :] will have scale[1]=2.0, zero_point[1]=2
t[:, 2, :, :] will have scale[2]=3.0, zero_point[2]=3
अक्सर, quantized_dimension, वैल्यू के तौर पर output_channel होता है
संवलन, लेकिन सिद्धांत के रूप में यह ऐसा आयाम हो सकता है जो प्रत्येक
कर्नेल के ज़रिए लागू करने में डॉट-प्रॉडक्ट, जिससे क्वांटाइज़ेशन की ज़्यादा जानकारी होती है
इन सुझावों का पालन नहीं किया जा सकता. सटीक होने में इससे काफ़ी सुधार किए गए हैं.
TFLite, कई तरह के कामों के लिए हर-ऐक्सिस पर काम करती है. इस समय इस दस्तावेज़ में, Conv2d और depthwiseConv2d के लिए सहायता मौजूद है.
सिमेट्रिक बनाम ऐसिमेट्रिक
ऐक्टिवेशन, ऐसिमेट्रिक होते हैं: उनका ज़ीरो-पॉइंट,
int8 रेंज [-128, 127] को हस्ताक्षर किया गया. कई ऐक्टिवेशन, एसिमेट्रिक होते हैं और
ज़ीरो-पॉइंट का इस्तेमाल करके, अपनी परफ़ॉर्मेंस को बेहतर बनाने के लिए
प्रिसिज़न का बाइनरी बिट. क्योंकि ऐक्टिवेशन को सिर्फ़ कॉन्स्टेंट से गुणा किया जाता है
नहीं, तो स्थिर शून्य-बिंदु मान को काफ़ी हद तक ऑप्टिमाइज़ किया जा सकता है.
भार सममित होते हैं: बल पर शून्य-बिंदु 0 के बराबर होना चाहिए. वज़न की वैल्यू यह हैं को डाइनैमिक इनपुट और ऐक्टिवेशन वैल्यू से गुणा किया जाता है. इसका मतलब है कि वज़न के शून्य-बिंदु को इसके साथ गुणा करने पर होने वाली अपरिहार्य रनटाइम लागत ऐक्टिवेशन वैल्यू. शून्य-पॉइंट 0 को लागू करने से, हम इस लागत से बच सकते हैं.
गणित की व्याख्या: यह arXiv:1712.05877, अंतर को छोड़कर हैं, तो हम स्केल वैल्यू को हर ऐक्सिस के हिसाब से होने देते हैं. यह आसानी से एक आम बात हो जाती है, क्योंकि अनुसरण करता है:
$A$, क्वांटाइज़्ड ऐक्टिवेशन का $m \times n$ मैट्रिक्स है. 
 अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है
$B$, मात्रा वाले वज़न का $n \times p$ का मैट्रिक्स है. 
 अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है
$A$, $a_j$ की $j$ th पंक्ति को इसके $k$th कॉलम से गुणा करें
$B$, $b_k$, दोनों की लंबाई $n$. मात्रा वाले पूर्णांक की वैल्यू और
शून्य-पॉइंट वाले मान $q_a$, $z_a$, और $q_b$, $z_b$ हैं.
\[a_j \cdot b_k = \sum_{i=0}^{n} a_{j}^{(i)} b_{k}^{(i)} = \sum_{i=0}^{n} (q_{a}^{(i)} - z_a) (q_{b}^{(i)} - z_b) = \sum_{i=0}^{n} q_{a}^{(i)} q_{b}^{(i)} - \sum_{i=0}^{n} q_{a}^{(i)} z_b - \sum_{i=0}^{n} q_{b}^{(i)} z_a + \sum_{i=0}^{n} z_a z_b\]
के साथ मैथजैक्स यहां फ़ेल हो जाता है\(\sum_{i=0}^{n} q_{a}^{(i)} q_{b}^{(i)}\) टर्म को खत्म नहीं किया जा सकता, क्योंकि इनपुट वैल्यू और वज़न के वैल्यू का डॉट प्रॉडक्ट परफ़ॉर्म करना.
\(\sum_{i=0}^{n} q_{b}^{(i)} z_a\) और \(\sum_{i=0}^{n} z_a z_b\) शर्तें यह ऐसे कॉन्सटेंट से बना होता है जो हर अनुमान के लिए एक जैसे बने रहते हैं. इसलिए, हो सकता है कि पहले से कैलकुलेट किया जा सकता है.
\(\sum_{i=0}^{n} q_{a}^{(i)} z_b\) शब्द के हर अनुमान का हिसाब लगाया जाना चाहिए क्योंकि ऐक्टिवेशन हर अनुमान को बदल देता है. अहमियत को लागू करके सिमेट्रिक तरीके से इस शब्द की लागत हटाई जा सकती है.
int8 क्वांटाइज़्ड ऑपरेटर की खास बातें
नीचे हमने अपने int8 tflite कर्नेल के लिए क्वांटाइज़ेशन की ज़रूरतों के बारे में बताया है:
ADD
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
AVERAGE_POOL_2D
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
CONCATENATION
  Input ...:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
CONV_2D
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1 (Weight):
    data_type  : int8
    range      : [-127, 127]
    granularity: per-axis (dim = 0)
    restriction: zero_point = 0
  Input 2 (Bias):
    data_type  : int32
    range      : [int32_min, int32_max]
    granularity: per-axis
    restriction: (scale, zero_point) = (input0_scale * input1_scale[...], 0)
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
DEPTHWISE_CONV_2D
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1 (Weight):
    data_type  : int8
    range      : [-127, 127]
    granularity: per-axis (dim = 3)
    restriction: zero_point = 0
  Input 2 (Bias):
    data_type  : int32
    range      : [int32_min, int32_max]
    granularity: per-axis
    restriction: (scale, zero_point) = (input0_scale * input1_scale[...], 0)
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
FULLY_CONNECTED
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1 (Weight):
    data_type  : int8
    range      : [-127, 127]
    granularity: per-axis (dim = 0)
    restriction: zero_point = 0
  Input 2 (Bias):
    data_type  : int32
    range      : [int32_min, int32_max]
    granularity: per-tensor
    restriction: (scale, zero_point) = (input0_scale * input1_scale[...], 0)
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
L2_NORMALIZATION
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
    restriction: (scale, zero_point) = (1.0 / 128.0, 0)
LOGISTIC
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
    restriction: (scale, zero_point) = (1.0 / 256.0, -128)
MAX_POOL_2D
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
MUL
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
RESHAPE
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
RESIZE_BILINEAR
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
SOFTMAX
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
    restriction: (scale, zero_point) = (1.0 / 256.0, -128)
SPACE_TO_DEPTH
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
TANH
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
    restriction: (scale, zero_point) = (1.0 / 128.0, 0)
PAD
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
GATHER
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
BATCH_TO_SPACE_ND
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
SPACE_TO_BATCH_ND
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
TRANSPOSE
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
MEAN
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
SUB
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
SUM
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
SQUEEZE
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
LOG_SOFTMAX
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
    restriction: (scale, zero_point) = (16.0 / 256.0, 127)
MAXIMUM
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
ARG_MAX
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
MINIMUM
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
LESS
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
PADV2
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
GREATER
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
GREATER_EQUAL
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
LESS_EQUAL
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
SLICE
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  restriction: Input and outputs must all have same scale/zero_point
EQUAL
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
NOT_EQUAL
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Input 1:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
SHAPE
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
QUANTIZE (Requantization)
  Input 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor
  Output 0:
    data_type  : int8
    range      : [-128, 127]
    granularity: per-tensor