מדריך לזיהוי שפה

דוגמה לממשק משתמש שבו מוצג משפט קלט בצרפתית שמזוהה בצורה נכונה כצרפתית בפלט.

המשימה 'זיהוי שפה' ב-MediaPipe מאפשרת לזהות את השפה של קטע טקסט. המשימה הזו פועלת על נתוני טקסט באמצעות מודל למידת מכונה (ML), ומפיקה רשימה של תחזיות, שבהן כל תחזית מורכבת מקוד שפה לפי תקן ISO 639-1 וסבירות.

רוצים לנסות?

תחילת העבודה

כדי להתחיל להשתמש במשימה הזו, פועלים לפי אחד מהמדריכים הבאים להטמעה בפלטפורמת היעד. המדריכים הספציפיים לפלטפורמות האלה כוללים הנחיות להטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמת קוד עם אפשרויות ההגדרה המומלצות:

פרטי המשימה

בקטע הזה מוסבר על היכולות, הקלט, הפלט והאפשרויות להגדרה של המשימה הזו.

תכונות

  • סף ניקוד – סינון התוצאות על סמך ציונים של תחזיות
  • תיוג של רשימת ההיתרים ורשימת הדחייה – מציינים את הקטגוריות שזוהו
קלט של משימות פלט של משימות
הכלי לזיהוי שפות מקבל את סוגי נתוני הקלט הבאים:
  • מחרוזת
הכלי לזיהוי שפה מניב רשימה של תחזיות שמכילות:
    • קוד שפה: קוד שפה או קוד אזור לפי תקן ISO 639-1‏ (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) כמחרוזת (למשל 'en' לאנגלית, 'uz' לאוזבקית, 'ja-Latn' ליפנית (רומאג'י)).
    • הסתברות: ציון הוודאות של התחזית הזו, שמבוטא כהסתברות בין אפס לאחד כערך של נקודה צפה.

אפשרויות הגדרה

למשימה הזו יש את אפשרויות ההגדרה הבאות:

שם האפשרות תיאור טווח ערכים ערך ברירת מחדל
max_results הגדרת המספר המקסימלי האופציונלי של תחזיות השפות עם הדירוג הגבוה ביותר שיוחזר. אם הערך הזה נמוך מאפס, כל התוצאות הזמינות יחזרו. מספרים חיוביים -1
score_threshold הגדרת הסף של ציון התחזית, שמבטל את הסף שצוין במטא-נתונים של המודל (אם קיים). תוצאות מתחת לערך הזה נדחות. כל ערך צף לא מוגדר
category_allowlist הגדרת רשימה אופציונלית של קודי השפות המותרים. אם הערך לא ריק, תתבצע סינון של תחזיות השפה שקוד השפה שלהן לא נמצא בקבוצה הזו. האפשרות הזו לא תואמת לאפשרות category_denylist, ושימוש בשתיהן גורם לשגיאה. מחרוזות כלשהן לא מוגדר
category_denylist מגדיר את הרשימה האופציונלית של קודי השפות שאסור להשתמש בהם. אם הערך לא ריק, תחזיות השפה שקוד השפה שלהן נמצא בקבוצה הזו יסוננו. האפשרות הזו לא תואמת לאפשרות category_allowlist, ושימוש בשתיהן גורם לשגיאה. מחרוזות כלשהן לא מוגדר

דגמים

כשמתחילים לפתח באמצעות המשימה הזו, אנחנו מציעים מודל מומלץ שמוגדר כברירת מחדל.

המודל הזה נועד להיות קל (315KB) והוא מבוסס על ארכיטקטורת סיווג של רשת עצבית שמבוססת על הטמעה (embedding). המודל מזהה את השפה באמצעות קוד שפה לפי תקן ISO 639-1, והוא יכול לזהות 110 שפות. רשימת השפות שנתמכות במודל מופיעה בקובץ התוויות, שבו השפות מפורטות לפי קוד ISO 639-1.

שם דגם צורת הקלט סוג הקידוד כרטיס מודל גרסאות
זיהוי שפה מחרוזת UTF-8 none (float32) info חדש

נקודות השוואה של משימות

בהמשך מפורטות נקודות השוואה של המשימות לצינור עיבוד הנתונים כולו, על סמך המודלים המאומןים מראש שצוינו למעלה. תוצאת זמן האחזור היא זמן האחזור הממוצע ב-Pixel 6 באמצעות מעבד או יחידת עיבוד גרפי (GPU).

שם דגם זמן האחזור של המעבד (CPU) זמן אחזור של GPU
זיהוי שפה 0.31 אלפיות השנייה -