语言检测指南

示例界面:显示法语输入句子,输出中正确识别为法语。

借助 MediaPipe 语言检测器任务,您可以识别一段文本的语言。此任务使用机器学习 (ML) 模型处理文本数据,并输出预测列表,其中每个预测都包含 ISO 639-1 语言代码和概率。

试试吧!

开始使用

如需开始使用此任务,请按照适用于目标平台的以下任一实现指南操作。以下平台专用指南将引导您完成此任务的基本实现,包括推荐的模型,以及包含推荐配置选项的代码示例:

任务详情

本部分介绍了此任务的功能、输入、输出和配置选项。

功能

  • 得分阈值 - 根据预测得分过滤结果
  • 标签许可名单和拒绝名单 - 指定检测到的类别
任务输入 任务输出
语言检测器接受以下输入数据类型:
  • 字符串
语言检测器会输出一个预测结果列表,其中包含:
    • 语言代码:ISO 639-1 (https://zh.wikipedia.org/wiki/ISO_639-1%E4%BB%A3%E7%A0%81%E8%A1%A8) 语言 / 语言区域代码(例如,英语为“en”、乌兹别克语为“uz”、日语(罗马音)为“ja-Latn”)的字符串。
    • 概率:此预测的置信度得分,表示为介于 0 到 1 之间的概率浮点值。

配置选项

此任务具有以下配置选项:

选项名称 说明 值范围 默认值
max_results 设置可选的要返回的得分最高的语言预测的数量上限。如果此值小于零,则返回所有可用结果。 任何正数 -1
score_threshold 设置预测得分阈值,该阈值会替换模型元数据中提供的阈值(如果有)。低于此值的结果将被拒绝。 任何浮点数 未设置
category_allowlist 设置允许的语言代码的可选列表。如果不为空,系统会滤除语言代码不在该集合中的语言预测结果。此选项与 category_denylist 互斥,同时使用这两个选项会导致错误。 任何字符串 未设置
category_denylist 设置不允许使用的语言代码的选填列表。如果不为空,系统会滤除语言代码在此集中的语言预测。此选项与 category_allowlist 互斥,同时使用这两个选项会导致错误。 任何字符串 未设置

模型

当您开始使用此任务进行开发时,我们会提供一个默认的推荐模型。

此模型旨在打造轻量级模型(315 KB),并采用基于嵌入的神经网络分类架构。该模型使用 ISO 639-1 语言代码识别语言,可识别 110 种语言。如需查看该模型支持的语言列表,请参阅标签文件,其中按 ISO 639-1 代码列出了各个语言。

模型名称 输入形状 量化类型 模型卡片 版本
语言检测器 字符串 UTF-8 无(float32) 信息 最新

任务基准

下面是基于上述预训练模型的整个流水线的任务基准。延迟时间结果是使用 CPU / GPU 在 Pixel 6 上的平均延迟时间。

模型名称 CPU 延迟时间 GPU 延迟时间
语言检测器 0.31 毫秒 -