Руководство по определению языка

Пример пользовательского интерфейса, который показывает правильное введенное предложение на французском языке. в выводе идентифицирован как французский.

Задача MediaPipe Language Detector позволяет определить язык фрагмента текста. Эта задача работает с текстовыми данными с помощью модели машинного обучения (ML) и выводит список прогнозов, где каждый прогноз состоит из языкового кода ISO 639-1 и вероятности.

Попробуйте!

Начать

Начните использовать эту задачу, следуя одному из этих руководств по реализации для вашей целевой платформы. Эти руководства для конкретных платформ покажут вам базовую реализацию этой задачи, включая рекомендуемую модель и пример кода с рекомендуемыми параметрами конфигурации:

Подробности задачи

В этом разделе описаны возможности, входы, выходы и параметры конфигурации этой задачи.

Функции

  • Порог оценки — фильтрация результатов на основе оценок прогноза.
  • Пометить список разрешенных и список запрещенных — укажите обнаруженные категории.
Входные данные задачи Результаты задачи
Language Detector принимает следующий тип входных данных:
  • Нить
Language Detector выводит список прогнозов, содержащий:
    • Код языка: код языка/локали ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) (например, «en» для английского языка, «uz» для узбекского языка, «ja-Latn» для японского языка). (ромаджи)) как строка.
    • Вероятность: показатель достоверности этого прогноза, выраженный как вероятность между нулем и единицей в виде значения с плавающей запятой.

Варианты конфигурации

Эта задача имеет следующие параметры конфигурации:

Название опции Описание Диапазон значений Значение по умолчанию
max_results Устанавливает необязательное максимальное количество возвращаемых языковых подсказок с наибольшим количеством оценок. Если это значение меньше нуля, возвращаются все доступные результаты. Любые положительные числа -1
score_threshold Устанавливает порог оценки прогноза, который переопределяет тот, который указан в метаданных модели (если таковые имеются). Результаты ниже этого значения отклоняются. Любой плавающий Не установлено
category_allowlist Устанавливает дополнительный список разрешенных языковых кодов. Если оно не пусто, языковые прогнозы, код языка которых отсутствует в этом наборе, будут отфильтрованы. Эта опция является взаимоисключающей с category_denylist , и использование обеих приводит к ошибке. Любые строки Не установлено
category_denylist Устанавливает дополнительный список кодов языков, которые не разрешены. Если не пусто, языковые прогнозы, код языка которых находится в этом наборе, будут отфильтрованы. Этот параметр является взаимоисключающим с category_allowlist , и использование обоих приводит к ошибке. Любые строки Не установлено

Модели

Мы предлагаем рекомендуемую модель по умолчанию, когда вы начинаете разработку с этой задачей.

Эта модель имеет небольшой вес (315 КБ) и использует архитектуру классификации нейронных сетей на основе внедрения. Модель идентифицирует язык с помощью языкового кода ISO 639-1 и может идентифицировать 110 языков. Список языков, поддерживаемых моделью, см. в файле меток , в котором языки перечислены по их коду ISO 639-1.

Название модели Введите форму Тип квантования Модель карты Версии
Детектор языка строка UTF-8 нет (с плавающей запятой32) информация Последний

Тесты задач

Вот тесты задач для всего конвейера, основанные на предварительно обученных моделях. Результатом задержки является средняя задержка на Pixel 6 с использованием ЦП/ГП.

Название модели Задержка процессора Задержка графического процессора
Детектор языка 0,31 мс -