Guide de détection de la langue pour le Web

La tâche MediaPipe Language Detector vous permet d'identifier la langue d'un extrait de texte. Ces instructions vous expliquent comment utiliser Language Detector pour les applications Web et JavaScript. L'exemple de code décrit dans ces instructions est disponible sur GitHub.

Vous pouvez voir cette tâche en action en regardant la démo. Pour en savoir plus sur les fonctionnalités, les modèles et les options de configuration de cette tâche, consultez la présentation.

Exemple de code

L'exemple de code pour Language Detector fournit une implémentation complète de cette tâche en JavaScript à titre de référence. Ce code vous aide à tester cette tâche et à commencer à créer votre propre fonctionnalité de détection de langue. Vous pouvez afficher, exécuter, et modifier l' exemple à l'aide de votre navigateur Web.

Configuration

Cette section décrit les étapes clés pour configurer votre environnement de développement et vos projets de code spécifiquement pour utiliser Language Detector. Pour obtenir des informations générales sur la configuration de votre environnement de développement pour utiliser les tâches MediaPipe, y compris les exigences concernant la version de la plate-forme, consultez le guide de configuration pour le Web.

Packages JavaScript

Le code Language Detector est disponible via le @mediapipe/tasks-text package. Vous pouvez trouver et télécharger ces bibliothèques à partir des liens fournis dans le guide de configuration de la plate-forme.

Vous pouvez installer les packages requis avec le code suivant pour la préparation locale à l'aide de la commande suivante :

npm install @mediapipe/tasks-text

Si vous souhaitez déployer sur un serveur, vous pouvez utiliser un service de réseau de diffusion de contenu (CDN), tel que jsDelivr, pour ajouter du code directement à votre page HTML, comme suit :

<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-text@latest/index.js"
    crossorigin="anonymous"></script>
</head>

Modèle

La tâche MediaPipe Language Detector nécessite un modèle entraîné compatible avec cette tâche. Pour en savoir plus sur les modèles entraînés disponibles pour Language Detector, consultez la section Modèles de la présentation de la tâche.

Sélectionnez et téléchargez un modèle, puis stockez-le dans le répertoire de votre projet :

<dev-project-root>/app/shared/models

Spécifiez le chemin d'accès au modèle avec le paramètre modelAssetPath de l'objet baseOptions, comme indiqué ci-dessous :

baseOptions: {
        modelAssetPath: `/app/shared/models/language_detector.tflite`
      }

Créer la tâche

Utilisez l'une des fonctions LanguageDetector.createFrom...() de Language Detector pour préparer la tâche à l'exécution des inférences. Vous pouvez utiliser la fonction createFromModelPath() avec un chemin d'accès relatif ou absolu au fichier de modèle entraîné. L'exemple de code ci-dessous montre comment utiliser la fonction createFromOptions(). Pour en savoir plus sur la configuration des tâches, consultez Options de configuration.

Le code suivant montre comment créer et configurer cette tâche.

async function createDetector() {
  const textFiles = await FilesetResolver.forTextTasks(
      "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-text@latest/wasm/");
  languageDetector = await languageDetector.createFromOptions(
    textFiles,
    {
      baseOptions: {
        modelAssetPath: `https://storage.googleapis.com/mediapipe-models/language_detector/language_detector/float32/1/language_detector.tflite`
      },
    }
  );
}
createDetector();

Options de configuration

Cette tâche comporte les options de configuration suivantes pour les applications Web et JavaScript :

Nom de l'option Description Plage de valeurs Valeur par défaut
maxResults Définit le nombre maximal facultatif de prédictions de langue les mieux notées à renvoyer. Si cette valeur est inférieure à zéro, tous les résultats disponibles sont renvoyés. Tout nombre positif -1
scoreThreshold Définit le seuil de score de prédiction qui remplace celui fourni dans les métadonnées du modèle (le cas échéant). Les résultats inférieurs à cette valeur sont rejetés. Tout nombre à virgule flottante Non défini
categoryAllowlist Définit la liste facultative des codes de langue autorisés. Si elle n'est pas vide, les prédictions de langue dont le code de langue ne figure pas dans cet ensemble sont filtrées. Cette option s'exclut mutuellement avec categoryDenylist. L'utilisation des deux entraîne une erreur. Toute chaîne Non défini
categoryDenylist Définit la liste facultative des codes de langue qui ne sont pas autorisés. Si elle n'est pas vide, les prédictions de langue dont le code de langue figure dans cet ensemble sont filtrées. Cette option s'exclut mutuellement avec categoryAllowlist. L'utilisation des deux entraîne une erreur. Toute chaîne Non défini

Préparer les données

Language Detector fonctionne avec des données de texte (string). La tâche gère le prétraitement des données d'entrée, y compris la tokenisation et le prétraitement des tenseurs. Tout le prétraitement est géré dans la fonction detect. Il n'est pas nécessaire de prétraiter le texte d'entrée au préalable.

const inputText = "The input text for the detector.";

Exécuter la tâche

Language Detector utilise la fonction detect pour déclencher des inférences. Pour la détection de langue, cela signifie renvoyer les langues possibles pour le texte d'entrée.

Le code suivant montre comment exécuter le traitement avec le modèle de tâche :

// Wait to run the function until inner text is set
const detectionResult = languageDetector.detect(inputText);

Gérer et afficher les résultats

La tâche Language Detector génère un LanguageDetectorResult composé d'une liste de prédictions de langue ainsi que des probabilités associées. Voici un exemple des données de sortie de cette tâche :

LanguageDetectorResult:
  LanguagePrediction #0:
    language_code: "fr"
    probability: 0.999781

Ce résultat a été obtenu en exécutant le modèle sur le texte d'entrée : "Il y a beaucoup de bouches qui parlent et fort peu de têtes qui pensent.".

Pour obtenir un exemple du code requis pour traiter et visualiser les résultats de cette tâche, consultez l' exemple.