語言偵測指南

範例 UI:顯示法文輸入句,並在輸出內容中正確識別為法文。

您可以使用 MediaPipe Language Detector 工作,找出一段文字的語言。此工作會使用機器學習 (ML) 模型處理文字資料,並輸出預測結果清單,每個預測結果都包含 ISO 639-1 語言代碼和機率。

試試看吧!

開始使用

請按照下列目標平台的導入指南操作,開始使用此工作。這些平台專屬指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:

任務詳細資料

本節說明此工作的功能、輸入內容、輸出內容和設定選項。

功能

  • 分數門檻:依據預測分數篩選結果
  • 標籤許可清單和拒絕清單:指定偵測到的類別
工作輸入內容 任務輸出
Language Detector 接受下列輸入資料類型:
  • 字串
語言偵測器會輸出預測結果清單,其中包含:
    • 語言代碼:ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) 語言 / 語言代碼 (例如「en」代表英文、「uz」代表烏茲別克文、「ja-Latn」代表日文 (羅馬拼音)) 的字串。
    • 機率:此預測的可信度分數,以零和一之間的機率表示為浮點值。

設定選項

此工作提供下列設定選項:

選項名稱 說明 值範圍 預設值
max_results 設定要傳回的最高分數語言預測值選用數量上限。如果這個值小於零,系統會傳回所有可用的結果。 任何正數 -1
score_threshold 設定預測分數門檻,覆寫模型中繼資料中提供的門檻 (如果有)。低於這個值的結果會遭到拒絕。 任何浮點 未設定
category_allowlist 設定可用的語言代碼清單 (選用)。如果不為空白,系統會篩除語言預測結果中語言代碼不在這個集合中的項目。這個選項與 category_denylist 互斥,如果同時使用這兩個選項,會導致錯誤。 任何字串 未設定
category_denylist 設定不允許的語言代碼選用清單。如果不為空白,系統會篩除語言代碼位於此組的語言預測。這個選項與 category_allowlist 互斥,如果同時使用這兩個選項,會導致錯誤。 任何字串 未設定

模型

您開始使用此任務進行開發時,我們會提供建議的預設模型。

這個模型的建構方式是輕量型 (315 KB),並使用以嵌入為主的類神經網路分類架構。這個模型會使用 ISO 639-1 語言代碼識別語言,可識別 110 種語言。如需模型支援的語言清單,請參閱標籤檔案,其中會依據 ISO 639-1 代碼列出語言。

模型名稱 輸入形狀 量化類型 模型資訊卡 版本
語言偵測器字串 UTF-8 無 (float32) info 最新

工作基準

以下是根據上述預先訓練模型,針對整個管道的作業基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。

模型名稱 CPU 延遲時間 GPU 延遲時間
語言偵測器 0.31 毫秒 -