Google AI Edge Portal 소개: 대규모로 엣지 AI를 벤치마킹합니다. 비공개 미리보기 기간에 액세스 권한을 요청하려면 가입하세요.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

언어 감지 가이드

출력에서 프랑스어로 올바르게 식별된 프랑스어 입력 문장을 보여주는 UI 예시입니다.

MediaPipe Language Detector 태스크를 사용하면 텍스트의 언어를 식별할 수 있습니다. 이 태스크는 머신러닝 (ML) 모델을 사용하여 텍스트 데이터를 처리하고 예측 목록을 출력합니다. 여기서 각 예측은 ISO 639-1 언어 코드와 확률로 구성됩니다.

사용해 보기

시작하기

대상 플랫폼에 관한 다음 구현 가이드 중 하나에 따라 이 작업을 시작합니다. 다음 플랫폼별 가이드에서는 권장 모델, 권장 구성 옵션이 포함된 코드 예시 등 이 작업의 기본 구현을 안내합니다.

Android - 코드 예 - 가이드
Python - 코드 예시 - 가이드
웹 - 코드 예 - 가이드

태스크 세부정보

이 섹션에서는 이 태스크의 기능, 입력, 출력, 구성 옵션을 설명합니다.

기능

점수 기준: 예측 점수를 기준으로 결과를 필터링합니다.
라벨 허용 목록 및 차단 목록 - 감지된 카테고리 지정

태스크 입력	태스크 출력
언어 감지기는 다음 입력 데이터 유형을 허용합니다. 문자열	언어 감지기는 다음을 포함하는 예측 목록을 출력합니다. 언어 코드: ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) 언어 / 언어 코드 (예: 영어의 경우 'en', 우즈베키스탄의 경우 'uz', 일본어 (로마자)의 경우 'ja-Latn')를 문자열로 나타냅니다. 확률: 이 예측의 신뢰도 점수로, 0과 1 사이의 확률로 부동 소수점 값으로 표현됩니다.

태스크 입력

태스크 출력

언어 감지기는 다음 입력 데이터 유형을 허용합니다.

문자열

언어 감지기는 다음을 포함하는 예측 목록을 출력합니다.

언어 코드: ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) 언어 / 언어 코드 (예: 영어의 경우 'en', 우즈베키스탄의 경우 'uz', 일본어 (로마자)의 경우 'ja-Latn')를 문자열로 나타냅니다.

확률: 이 예측의 신뢰도 점수로, 0과 1 사이의 확률로 부동 소수점 값으로 표현됩니다.

구성 옵션

이 태스크에는 다음과 같은 구성 옵션이 있습니다.

옵션 이름	설명	값 범위	기본값
`max_results`	반환할 점수가 가장 높은 언어 예측의 최대 개수를 설정합니다(선택사항). 이 값이 0보다 작으면 사용 가능한 모든 결과가 반환됩니다.	모든 양수	`-1`
`score_threshold`	모델 메타데이터에 제공된 값 (있는 경우)을 재정의하는 예측 점수 기준점을 설정합니다. 이 값 미만의 결과는 거부됩니다.	모든 부동 소수점 수	설정되지 않음
`category_allowlist`	허용되는 언어 코드의 선택적 목록을 설정합니다. 비어 있지 않으면 이 세트에 언어 코드가 없는 언어 예측이 필터링됩니다. 이 옵션은 `category_denylist`와 상호 배타적이며 둘 다 사용하면 오류가 발생합니다.	모든 문자열	설정되지 않음
`category_denylist`	허용되지 않는 언어 코드 목록(선택사항)을 설정합니다. 비어 있지 않으면 이 세트에 언어 코드가 있는 언어 예측이 필터링됩니다. 이 옵션은 `category_allowlist`와 상호 배타적이며 둘 다 사용하면 오류가 발생합니다.	모든 문자열	설정되지 않음

모델

이 태스크로 개발을 시작할 때 기본 권장 모델이 제공됩니다.

언어 감지기 모델 (권장)

이 모델은 가볍게 (315KB) 빌드되며 임베딩 기반 신경망 분류 아키텍처를 사용합니다. 이 모델은 ISO 639-1 언어 코드를 사용하여 언어를 식별하며 110개 언어를 식별할 수 있습니다. 모델에서 지원하는 언어 목록은 ISO 639-1 코드별로 언어가 나열된 라벨 파일을 참고하세요.

모델 이름	입력 셰이프	양자화 유형	모델 카드	버전
언어 감지기	문자열 UTF-8	없음 (float32)	정보	최신

작업 벤치마크

다음은 위의 사전 학습된 모델을 기반으로 한 전체 파이프라인의 태스크 벤치마크입니다. 지연 시간 결과는 CPU / GPU를 사용하는 Pixel 6의 평균 지연 시간입니다.

모델 이름	CPU 지연 시간	GPU 지연 시간
언어 감지기	0.31ms	-