您可以使用 MediaPipe Language Detector 工作,找出一段文字的語言。此工作會使用機器學習 (ML) 模型處理文字資料,並輸出預測結果清單,每個預測結果都包含 ISO 639-1 語言代碼和機率。
開始使用
請按照下列目標平台的導入指南操作,開始使用此工作。這些平台專屬指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:
任務詳細資料
本節說明此工作的功能、輸入內容、輸出內容和設定選項。
功能
- 分數門檻:依據預測分數篩選結果
- 標籤許可清單和拒絕清單:指定偵測到的類別
工作輸入內容 | 任務輸出 |
---|---|
Language Detector 接受下列輸入資料類型:
|
語言偵測器會輸出預測結果清單,其中包含:
|
設定選項
此工作提供下列設定選項:
選項名稱 | 說明 | 值範圍 | 預設值 |
---|---|---|---|
max_results |
設定要傳回的最高分數語言預測值選用數量上限。如果這個值小於零,系統會傳回所有可用的結果。 | 任何正數 | -1 |
score_threshold |
設定預測分數門檻,覆寫模型中繼資料中提供的門檻 (如果有)。低於這個值的結果會遭到拒絕。 | 任何浮點 | 未設定 |
category_allowlist |
設定可用的語言代碼清單 (選用)。如果不為空白,系統會篩除語言預測結果中語言代碼不在這個集合中的項目。這個選項與 category_denylist 互斥,如果同時使用這兩個選項,會導致錯誤。 |
任何字串 | 未設定 |
category_denylist |
設定不允許的語言代碼選用清單。如果不為空白,系統會篩除語言代碼位於此組的語言預測。這個選項與 category_allowlist 互斥,如果同時使用這兩個選項,會導致錯誤。 |
任何字串 | 未設定 |
模型
您開始使用此任務進行開發時,我們會提供建議的預設模型。
語言偵測器模型 (建議)
這個模型的建構方式是輕量型 (315 KB),並使用以嵌入為主的類神經網路分類架構。這個模型會使用 ISO 639-1 語言代碼識別語言,可識別 110 種語言。如需模型支援的語言清單,請參閱標籤檔案,其中會依據 ISO 639-1 代碼列出語言。
模型名稱 | 輸入形狀 | 量化類型 | 模型資訊卡 | 版本 |
---|---|---|---|---|
語言偵測器 | 字串 UTF-8 | 無 (float32) | info | 最新 |
工作基準
以下是根據上述預先訓練模型,針對整個管道的作業基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。
模型名稱 | CPU 延遲時間 | GPU 延遲時間 |
---|---|---|
語言偵測器 | 0.31 毫秒 | - |