Amazon Transcribe - Developer Guide · 2020-01-02 · Amazon Transcribe Developer Guide...

208
Amazon Transcribe Developer Guide

Transcript of Amazon Transcribe - Developer Guide · 2020-01-02 · Amazon Transcribe Developer Guide...

  • Amazon TranscribeDeveloper Guide

  • Amazon Transcribe Developer Guide

    Amazon Transcribe: Developer GuideCopyright © 2020 Amazon Web Services, Inc. and/or its affiliates. All rights reserved.

    Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's,in any manner that is likely to cause confusion among customers, or in any manner that disparages or discreditsAmazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may notbe affiliated with, connected to, or sponsored by Amazon.

  • Amazon Transcribe Developer Guide

    Table of Contents¿Qué es Amazon Transcribe? .............................................................................................................. 1

    Reconocimiento de voces ............................................................................................................ 2Transcripción de canales de audio independientes .......................................................................... 2Transcripción de audio en streaming ............................................................................................. 3Vocabulario personalizado ........................................................................................................... 3¿Es la primera vez que usa Amazon Transcribe? ............................................................................ 3

    Funcionamiento .................................................................................................................................. 4Entrada de voz .......................................................................................................................... 6Transcripción de números ............................................................................................................ 6Transcripciones alternativas ......................................................................................................... 7Identificación de locutores .......................................................................................................... 10Transcripción de audio en streaming ........................................................................................... 11Identificación de canales ............................................................................................................ 11Vocabularios personalizados ....................................................................................................... 13

    Creación de un vocabulario personalizado con una lista ......................................................... 14Creación de un vocabulario personalizado con una tabla ........................................................ 15Conjuntos de caracteres de los vocabularios personalizados ................................................... 16

    Filtrado de vocabulario .............................................................................................................. 45Cola de trabajos ....................................................................................................................... 46

    Políticas de IAM para la cola de trabajos ............................................................................. 47Introducción ..................................................................................................................................... 49

    Paso 1: Configuración de una cuenta .......................................................................................... 49Suscríbase a AWS ............................................................................................................ 49Creación de un usuario de IAM .......................................................................................... 49Paso siguiente .................................................................................................................. 50

    Paso 2: Configuración de la AWS CLI ......................................................................................... 50Paso siguiente .................................................................................................................. 51

    Paso 3: Introducción al uso de la consola .................................................................................... 51Creación de un trabajo de transcripción ............................................................................... 51Visualización de un trabajo de transcripción .......................................................................... 52

    Paso 4: Introducción al uso de la API .......................................................................................... 55Introducción (AWS CLI) ..................................................................................................... 55Introducción (SDK for Python) ............................................................................................ 57

    Paso 5: Introducción al audio en streaming .................................................................................. 59Transcripción de streaming ................................................................................................................ 63

    Codificación de secuencias de eventos ........................................................................................ 65Uso de streaming de WebSocket ................................................................................................ 66

    Añadir una política para solicitudes de WebSocket a su rol de IAM ........................................... 67Crear una URL prefirmada ................................................................................................. 67Gestionar la respuesta de actualización de WebSocket ........................................................... 71Realizar una solicitud de streaming de WebSocket ................................................................ 71Gestionar una respuesta de streaming de WebSocket ............................................................ 72Gestionar los errores de streaming de WebSocket ................................................................. 72

    Uso de streaming de HTTP/2 ..................................................................................................... 73Solicitud de streaming ....................................................................................................... 73Respuesta de streaming .................................................................................................... 76Solicitud y respuesta de ejemplo ......................................................................................... 77Cliente de reintento de HTTP/2 ........................................................................................... 79Uso del cliente de reintentos de HTTP/2 .............................................................................. 85

    Amazon Transcribe Medical ............................................................................................................... 88¿Qué es Amazon Transcribe Medical? ......................................................................................... 88

    Aviso importante ............................................................................................................... 88Transcripción de audio en streaming ................................................................................... 88Especialidades admitidas ................................................................................................... 88

    iii

  • Amazon Transcribe Developer Guide

    ¿Es la primera vez que usa Amazon Transcribe Medical? ....................................................... 89Funcionamiento ........................................................................................................................ 89

    Características de Amazon Transcribe Medical ...................................................................... 89Transcripción de audio en streaming ................................................................................... 89Transcripción de números .................................................................................................. 89

    Introducción ............................................................................................................................. 91Configurar una cuenta ....................................................................................................... 91Introducción (consola) ........................................................................................................ 92

    Uso de streaming de WebSocket ................................................................................................ 93Añadir una política para solicitudes de WebSocket a su rol de IAM ........................................... 93Crear una URL prefirmada ................................................................................................. 93Gestionar la respuesta de actualización de WebSocket ........................................................... 97Codificación de secuencias de eventos ................................................................................ 98Realizar una solicitud de streaming de WebSocket ............................................................... 100Gestionar una respuesta de streaming de WebSocket .......................................................... 100Gestionar los errores de streaming de WebSocket ............................................................... 100

    Seguridad ...................................................................................................................................... 102Protección de los datos ............................................................................................................ 102

    Cifrado en reposo ........................................................................................................... 103Cifrado en tránsito ........................................................................................................... 103Administración de claves .................................................................................................. 103

    Administración de identidades y accesos .................................................................................... 104Público .......................................................................................................................... 105Autenticación con identidades ........................................................................................... 105Administración de acceso mediante políticas ....................................................................... 107Funcionamiento de Amazon Transcribe con IAM .................................................................. 109Ejemplos de políticas basadas en identidad ........................................................................ 111Solución de problemas ..................................................................................................... 114

    Monitorización de Amazon Transcribe ........................................................................................ 116Monitorización de Amazon Transcribe con CloudTrail ........................................................... 117Eventos de CloudWatch ................................................................................................... 119

    Validación de la conformidad .................................................................................................... 121Resiliencia .............................................................................................................................. 122Seguridad de la infraestructura .................................................................................................. 122

    Directrices y cuotas ......................................................................................................................... 123Regiones admitidas ................................................................................................................. 123Limitación controlada ............................................................................................................... 123Directrices .............................................................................................................................. 123Cuotas ................................................................................................................................... 123

    Historial de revisión ......................................................................................................................... 125Referencia de la API ....................................................................................................................... 129

    Actions .................................................................................................................................. 129Amazon Transcribe Service .............................................................................................. 129Amazon Transcribe Streaming Service ............................................................................... 173

    Data Types ............................................................................................................................ 177Amazon Transcribe Service .............................................................................................. 178Amazon Transcribe Streaming Service ............................................................................... 191

    Common Errors ...................................................................................................................... 200Common Parameters ............................................................................................................... 201

    AWS Glossary ................................................................................................................................ 204

    iv

  • Amazon Transcribe Developer Guide

    ¿Qué es Amazon Transcribe?Amazon Transcribe utiliza tecnologías de aprendizaje automático avanzadas para reconocer la voz enarchivos de audio y transcribirla a texto. Puede utilizar Amazon Transcribe para convertir audio a texto ypara crear aplicaciones que incorporen el contenido de archivos de audio. Por ejemplo, puede transcribir lapista de audio de una grabación de vídeo para crear los subtítulos del vídeo.

    Puede utilizar Amazon Transcribe para transcribir los siguientes idiomas a texto:

    • Árabe del Golfo (ar-AE)• Árabe estándar moderno (ar-SA)• Chino mandarín, continental (zh-CN)• Neerlandés (nl-NL)• Inglés de Australia (en-AU)• Inglés del Reino Unido (en-GB)• Inglés de la India (en-IN)• Inglés de Irlanda (en-IE)• Inglés de Escocia (en-AB)• Inglés de Estados Unidos (en-US)• Inglés de Gales (en-WL)• Español (es-ES)• Español de EE. UU. (es-US)• Francés (fr-FR)• Francés de Canadá (fr-CA)• Persa (fa-IR)• Alemán (de-DE)• Alemán suizo (de-CH)• Hebreo (he-IL)• Hindi de la India (hi-IN)• Indonesio (id-ID)• Italiano (it-IT)• Japonés (ja-JP)• Coreano (ko-KR)• Malayo (ms-MY)• Portugués (pt-PT)• Portugués de Brasil (pt-BR)• Ruso (ru-RU)• Tamil (ta-IN)• Telugu (te-IN)• Turco (tr-TR)

    Puede transcribir la transmisión de audio en los siguientes idiomas:

    • Inglés de Australia (en-AU)

    1

  • Amazon Transcribe Developer GuideReconocimiento de voces

    • Inglés del Reino Unido (en-GB)• Inglés de Estados Unidos (en-US)• Francés (fr-FR)• Francés de Canadá (fr-CA)• Español de EE. UU. (es-US)

    Puede utilizar Amazon Transcribe junto con otros servicios de AWS para crear aplicaciones. Por ejemplo,puede hacer lo siguiente:

    • Utilizar Amazon Transcribe para convertir la voz en texto, enviar el texto a Amazon Translate paratraducirlo a otro idioma y, a continuación, enviar el texto traducido a Amazon Polly para que lo lea.

    • Utilice Amazon Transcribe para transcribir grabaciones de llamadas al servicio de atención al clientepara su análisis. Después de transcribir una grabación, envíe la transcripción a Amazon Comprehendpara identificar palabras clave, temas o sentimientos.

    • Utilizar Amazon Transcribe para transcribir transmisiones en directo como, por ejemplo, de televisión,para proporcionar subtítulos en tiempo real.

    Para utilizar Amazon Transcribe, almacene el archivo de audio en un bucket de Amazon S3. La salida deltrabajo de transcripción también se almacena en un bucket de S3. El contenido entregado en los bucketsde Amazon S3 podría incluir datos de los clientes. Para obtener más información sobre cómo eliminarinformación confidencial, consulte ¿Cómo puedo vaciar un bucket de S3? o ¿Cómo elimino un bucket deS3?.

    Reconocimiento de vocesAmazon Transcribe puede identificar las distintas voces de un clip de audio, una técnica conocida comodiarización o identificación de voces. Al activar la identificación de voces, Amazon Transcribe incluye unatributo que identifica a cada voz del clip de audio. Puede utilizar la identificación de voces para:

    • identificar al cliente y al representante del servicio de atención en una llamada de atención al clientegrabada

    • identificar personajes para subtítulos• identificar al ponente y a quienes formulan preguntas en una conferencia de prensa o en una

    conferencia grabada

    Puede especificar el número de voces que desea que Amazon Transcribe reconozca en un clip de audio.

    Transcripción de canales de audio independientesPara crear una transcripción para cada canal o una sola secuencia de sonido grabado, en un archivo deaudio, utilice la identificación de canales. Con la identificación de canales, Amazon Transcribe devuelvedos o más transcripciones: una transcripción combinada de todos los canales de audio y una transcripciónde cada canal de audio.

    Utilice la identificación de canales cuando el audio esté en varios canales. Por ejemplo, utilice laidentificación de canales:

    • Cuando la grabación tenga un representante del servicio de atención al cliente en un canal y un clienteen otro canal

    • Cuando transcriba un podcast en el que el anfitrión se graba en un canal y el invitado en otro

    2

    https://docs.aws.amazon.com/AmazonS3/latest/user-guide/empty-bucket.htmlhttps://docs.aws.amazon.com/AmazonS3/latest/user-guide/delete-bucket.htmlhttps://docs.aws.amazon.com/AmazonS3/latest/user-guide/delete-bucket.html

  • Amazon Transcribe Developer GuideTranscripción de audio en streaming

    Para obtener más información acerca de la identificación de canales, consulte Identificación decanales (p. 11).

    Transcripción de audio en streamingPuede utilizar Amazon Transcribe para transcribir audio en streaming en tiempo real. Puede enviar aAmazon Transcribe una secuencia de audio y Amazon Transcribe devuelve un flujo de objetos JSON quecontienen la transcripción del audio.

    Para obtener más información acerca de cómo procesar secuencias de audio, consulte Transcripción destreaming (p. 63).

    Vocabulario personalizadoCree un vocabulario personalizado para ayudar a Amazon Transcribe a reconocer palabras que seanespecíficas de su caso de uso y a mejorar la precisión en la conversión de voz a texto. Por ejemplo, podríacrear un vocabulario personalizado que incluya palabras y frases específicas de un sector.

    Utilice un vocabulario personalizado para ayudar a Amazon Transcribe a reconocer:

    • palabras que no se están reconociendo• palabras desconocidas que sean específicas de su dominio

    Para obtener más información acerca de la creación de un vocabulario personalizado, consulteVocabularios personalizados (p. 13).

    ¿Es la primera vez que usa Amazon Transcribe?Si es un usuario nuevo, le recomendamos que lea las siguientes secciones en orden:

    1. Cómo funciona Amazon Transcribe (p. 4): introducción a Amazon Transcribe.2. Introducción a Amazon Transcribe (p. 49): explica cómo configurar una cuenta de AWS y cómo

    utilizar Amazon Transcribe.3. Referencia de la API (p. 129): contiene documentación de referencia sobre las operaciones de

    Amazon Transcribe.

    3

  • Amazon Transcribe Developer Guide

    Cómo funciona Amazon TranscribeAmazon Transcribe analiza archivos de audio que contienen voz y utiliza tecnologías de aprendizajeautomático avanzadas para transcribir los datos de voz a texto. Una vez hecho esto, puede utilizar latranscripción como cualquier otro documento de texto.

    Para transcribir un archivo de audio, Amazon Transcribe utiliza tres operaciones:

    • StartTranscriptionJob (p. 162): inicia un trabajo asíncrono para transcribir la voz de un archivo de audioa texto.

    • ListTranscriptionJobs (p. 153): muestra una lista de los trabajos de transcripción que se han iniciado.Puede especificar el estado de los trabajos que desea que devuelva la operación. Por ejemplo, puedeobtener una lista de todos los trabajos pendientes, o una lista de los trabajo finalizados.

    • GetTranscriptionJob (p. 144): devuelve el resultado de un trabajo de transcripción. La respuestaincluye un enlace a un archivo JSON que contiene los resultados.

    Para transcribir audio en streaming a texto, Amazon Transcribe proporciona una operación:

    • StartStreamTranscription (p. 174): inicia una secuencia de audio HTTP/2 bidireccional en la que setransmite audio a Amazon Transcribe y los resultados de la transcripción se transmiten a la aplicación.

    También puede iniciar una transmisión del protocolo WebSocket para enviar a Amazon Transcribe. Paraobtener más información, consulte Uso de streaming de Amazon Transcribe con WebSockets (p. 66).

    Puede utilizar Amazon Transcribe para crear y administrar vocabularios personalizados para su solución.Un vocabulario personalizado ofrece a Amazon Transcribe más información acerca de cómo procesar vozen el clip de audio.

    • CreateVocabulary (p. 131): crea un vocabulario personalizado que puede utilizar en sus trabajos detranscripción.

    • DeleteVocabulary (p. 140): elimina un vocabulario personalizado de su cuenta.• GetVocabulary (p. 147): obtiene información acerca de un vocabulario personalizado y una URL que

    se puede utilizar para descargar el contenido de un vocabulario.• ListVocabularies (p. 156): obtiene una lista de vocabularios personalizados de su cuenta.• UpdateVocabulary (p. 167): actualiza un vocabulario existente.

    Es posible transcribir voz en cualquiera de los siguientes idiomas:

    • Árabe del Golfo (ar-AE)• Árabe estándar moderno (ar-SA)• Chino mandarín continental (zh-CN)• Neerlandés (nl-NL)• Inglés de Australia (en-AU)• Inglés del Reino Unido (en-GB)• Inglés de la India (en-IN)• Inglés de Irlanda (en-IE)

    4

  • Amazon Transcribe Developer Guide

    • Inglés de Escocia (en-AB)• Inglés de Estados Unidos (en-US)• Inglés de Gales (en-WL)• Francés (fr-FR)• Francés de Canadá (fr-CA)• Persa (fa-IR)• Alemán (de-DE)• Alemán suizo (de-CH)• Hebreo (he-IL)• Hindi de la India (hi-IN)• Indonesio (id-ID)• Italiano (it-IT)• Japonés (ja-JP)• Coreano (ko-KR)• Malayo (ms-MY)• Portugués (pt-PT)• Portugués de Brasil (pt-BR)• Ruso (ru-RU)• Español (es-ES)• Español de EE. UU. (es-US)• Tamil (ta-IN)• Telugu (te-IN)• Turco (tr-TR)

    Puede utilizar la transcripción de streaming en los siguientes idiomas:

    • Inglés de Australia (en-AU)• Inglés del Reino Unido (en-GB)• Inglés de Estados Unidos (en-US)• Francés (fr-FR)• Francés de Canadá (fr-CA)• Español de EE. UU. (es-US)

    Temas• Entrada de voz (p. 6)• Transcripción de números (p. 6)• Transcripciones alternativas (p. 7)• Identificación de locutores (p. 10)• Transcripción de audio en streaming (p. 11)• Identificación de canales (p. 11)• Vocabularios personalizados (p. 13)• Filtrado de vocabulario (p. 45)

    5

  • Amazon Transcribe Developer GuideEntrada de voz

    • Cola de trabajos (p. 46)

    Entrada de vozPara transcribir un archivo de audio, utilice un trabajo de transcripción. Almacene el archivo como un objetoen un bucket de Amazon S3. El archivo de entrada debe cumplir las siguientes condiciones:

    • Tener el formato FLAC, MP3, MP4 o WAV• Tener menos de 4 horas de longitud o menos de 2 Gb de datos de audio.

    Es necesario especificar el idioma y el formato del archivo de entrada.

    Para obtener resultados óptimos:

    • Utilice un formato sin pérdida, como FLAC o WAV, con codificación PCM de 16 bits.• Utilice una velocidad de muestreo de 8000 Hz para audio de teléfono.

    Transcripción de númerosAl transcribir audio en inglés de EE. UU., inglés de Australia, inglés de Reino Unido o inglés de la India conla operación StartTranscriptionJob (p. 162), los números se transcriben como dígitos en lugar de comopalabras. En cuanto a la transcripción de streaming, los números se transcriben como dígitos únicamentecon audio en inglés de EE. UU. e inglés de Reino Unido. Por ejemplo, el número hablado "one thousandtwo hundred forty two» (mil doscientos cuarenta y dos) se transcribe como "1242".

    En todos los demás idiomas los números se transcriben como palabras.

    Los números se transcriben de acuerdo con las reglas siguientes:

    Regla Descripción

    Convertir números cardinales mayores de 10 ennúmeros

    • "Fifty five" > 55• "a hundred" > 100• "One thousand and thirty one" > 1031• "One hundred twenty-three million four hundred

    fifty six thousand seven hundred eight nine" >123,456,789

    Convertir números cardinales seguidos de "million"o "billion" a numerales seguidos de una palabracuando "million" o "billion" no vaya seguido de unnúmero.

    • "one hundred million" > 100 million• "one billion" > 1 billion• "two point three million" > 2.3 million

    Convertir números ordinales mayores de 10 ennúmeros

    • "Forty third" > 43rd• "twenty sixth avenue" > 26 avenue

    Convertir fracciones a su formato numérico. • "a quarter" > 1/4• "three sixteenths" > 3/16• "a half" > 1/2• "a hundredth" > 1/100

    6

  • Amazon Transcribe Developer GuideTranscripciones alternativas

    Regla Descripción

    Convertir números menores de 10 en dígitos si hayvarios números consecutivos.

    • "three four five" > 345• "My phone number is four two five five five five

    one two one two" > 4255551212

    Los decimales se indican mediante "dot" o "point". • "three hundred and three dot five" > 303.5• "three point twenty three" > 3.23• "zero point four" > 0.4• "point three" > 0.3

    Convertir la expresión "percent" después de unnúmero al signo de porcentaje (%).

    • "twenty three percent" > 23%• "twenty three point four five percent" > 23.45%

    Convertir las palabras "dollar", "US dollar","Australian dollar", "AUD" o "USD" detrás de unnúmero a un símbolo de dólar ($) delante delnúmero.

    • "one dollar and fifteen cents" > $1.15• "twenty three USD" > $23• "twenty three Australian dollars" > $23

    Convertir las palabras "pounds”, "British pounds" o"GDB" detrás de un número a un símbolo de libra(£) delante del número.

    • "twenty three pounds" > £23• "I have two thousand pounds" > I have £2,000• "five pounds thirty three pence" > £5.33

    Convertir las palabras "rupees", "Indian rupees" o"INR" detrás de un número a un símbolo de rupia(#) delante del número.

    • "twenty three rupees" > #23• "fifty rupees thirty paise" > #50.30

    Convertir horas en números. • "seven a m eastern standard time" > 7 a.m.eastern standard time

    • "twelve thirty p m" > 12:30 p.m.

    Combinar años expresados como dos dígitos encuatro.

    Solo válido para los siglos XX, XXI y XXII.

    • "nineteen sixty two" > 1962• "the year is twenty twelve" > the year is 2012• "twenty nineteen" > 2019• "twenty one thirty" > 2130

    Convertir fechas en números. • "May fifth twenty twelve" > May 5th 2012• "May five twenty twelve" > May 5 2012• "five May twenty twelve" > 5 May 2012

    Separar intervalos de números por la palabra "to". • "twenty three to thirty seven" > 23 to 37

    Transcripciones alternativasCuando Amazon Transcribe transcribe un archivo de audio, devuelve la transcripción con el nivel deconfianza más alto. Puede especificar que Amazon Transcribe devuelva otras transcripciones con nivelesde confianza más bajos. Utilice transcripciones alternativas para ver diferentes interpretaciones del audiotranscrito. Por ejemplo, si utiliza una aplicación que permite que una persona revise la transcripción, puedepresentar las transcripciones alternativas para que esa persona elija. Las transcripciones alternativas soloestán disponibles en la operación StartTranscriptionJob (p. 162).

    Puede configurar Amazon Transcribe para devolver la transcripción alternativa a través de la consola o dela API de Amazon Transcribe. Para obtener transcripciones alternativas a través de la API, establezca elcampo ShowAlternatives en true y el campo MaxAlternatives en el número de alternativas que se

    7

  • Amazon Transcribe Developer GuideTranscripciones alternativas

    devolverán cuando llame a la operación StartTranscriptionJob (p. 162). Puede especificar que AmazonTranscribe devuelva hasta 10 transcripciones alternativas.

    Puede combinar transcripciones alternativas con identificación de interlocutores y de canales. Haytranscripciones alternativas disponibles en todos los idiomas admitidos.

    Las alternativas se presentan en el nivel de segmento de la transcripción. Los segmentos se definena través de las pausas naturales del habla, como un cambio de interlocutor o una pausa en el audio.Por ejemplo, la frase hablada «Está lloviendo hoy en Seattle, pero no en Portland» se divide en dossegmentos: «Está lloviendo hoy en Seattle» y «pero no en Portland».

    Amazon Transcribe devuelve una transcripción general del archivo de audio en la respuesta. Si AmazonTranscribe está configurado para devolver alternativas, la transcripción general se construye a partir desegmentos alternativos con el nivel de confianza más alto. Las transcripciones alternativas se devuelvenen la estructura segments del JSON de salida. Si Amazon Transcribe no encuentra alternativas, devuelvemenos alternativas que el número especificado en el campo MaxAlternatives.

    A continuación se muestra la salida JSON de Amazon Transcribe. Es la salida de transcripción de estaentrada: "Uh, can just call this number if I don't pick up, just leave a voicemail and I'll get back to you (Oh,puedes llamar a este número si no contesto, solo deja un mensaje de voz y te llamaré). Okay (Vale). Andthat's the number (Aquí tienes el número). The 1166 number, you mean? (¿Te refieres al número 1166?)"

    A continuación se muestra la salida JSON con el campo ShowAlternatives establecido en false.

    { "results": { "transcripts": [ "Uh, you can just call this number if I don't pick up and leave a voicemail and I'll get back to you. Okay. And that's the number. The 1166 number, you mean" ], "items": [ { "start_time": 12.35, "end_time": 12.57, "alternatives": [ { "confidence": 0.9989, "content": "Uh" } ], "type": "pronunciation" }, Items removed for brevity. ] }}

    A continuación se muestra la salida JSON de la misma entrada con ShowAlternatives establecido entrue y MaxAlternatives establecido en 2.

    { "results": { "transcripts": [ "Uh, you can just call this number if I don't pick up and leave a voicemail and I'll get back to you. Okay. And that's the number. The 1166 number, you mean" ], "items": [ { "start_time": 12.35, "end_time": 12.57, "alternatives": [ {

    8

  • Amazon Transcribe Developer GuideTranscripciones alternativas

    "confidence": 0.9989, "content": "Uh" } ], "type": "pronunciation" }, Items removed for brevity.. ], "segments": [ { "start_time": 11.84, "end_time": 19.665, "alternatives": [ { "transcript": "Uh, you can just call this number if I don't pick up and leave a voicemail and I'll get back to you.", "items": [ { "start_time": 12.35, "end_time": 12.57, "confidence": 0.9989, "content": "Uh", "type": "pronunciation" }, Items removed for brevity. { "start_time": 16.42, "end_time": 16.52, "confidence": 0.7572, "content": "and", "type": "pronunciation" }, Items removed for brevity. ] }, { "transcript": "Uh, you can just call this number if I don't pick up, just leave a voicemail and I'll get back to you.", "items": [ { "start_time": 12.35, "end_time": 12.57, "confidence": 0.9989, "content": "Uh", "type": "pronunciation" }, Items removed for brevity.. { "start_time": 16.42, "end_time": 16.52, "content": ",", "type": "punctuation" }, { "start_time": 16.42, "end_time": 16.52, "confidence": 0.8934, "content": "just", "type": "punctuation" }, Items removed for brevity.. ] }, Alternatives removed for brevity. ] },

    9

  • Amazon Transcribe Developer GuideIdentificación de locutores

    Segments removed for brevity.. ] }}

    Identificación de locutoresPuede hacer que Amazon Transcribe identifique las distintas voces de un clip de audio, un procesoconocido como diarización o identificación de voces. Al habilitar la identificación de voces, AmazonTranscribe etiqueta cada fragmento con la voz que ha identificado.

    Puede especificar que Amazon Transcribe identifique entre dos y diez voces en el clip de audio. El mejorrendimiento se obtiene cuando el número de voces que solicita identificar coincide con el número de vocesen el audio de entrada.

    Para activar la identificación de voces, establezca el campo MaxSpeakerLabels y ShowSpeakerLabelsdel campo Settings al realizar una llamada a la operación StartTranscriptionJob (p. 162). Debeconfigurar ambos campos o Amazon Transcribe devolverá una excepción.

    Cuando Amazon Transcribe finaliza un trabajo de transcripción, crea un archivo JSON que contiene losresultados y guarda el archivo en un bucket de S3. El archivo se identifica mediante una URI específica delusuario. Utilice la URI para obtener los resultados.

    A continuación se muestra el archivo JSON para un archivo de audio breve:

    { "jobName": "job ID", "accountId": "account ID", "results": { "transcripts": [{ "transcript": "Professional answer." }], "speaker_labels": { "speakers": 1, "segments": [{ "start_time": "0.000000", "speaker_label": "spk_0", "end_time": "1.430", "items": [{ "start_time": "0.100", "speaker_label": "spk_0", "end_time": "0.690" }, { "start_time": "0.690", "speaker_label": "spk_0", "end_time": "1.210" }] }] }, "items": [{ "start_time": "0.100", "end_time": "0.690", "alternatives": [{ "confidence": "0.8162", "content": "Professional" }], "type": "pronunciation" }, { "start_time": "0.690", "end_time": "1.210",

    10

  • Amazon Transcribe Developer GuideTranscripción de audio en streaming

    "alternatives": [{ "confidence": "0.9939", "content": "answer" }], "type": "pronunciation" }, { "alternatives": [{ "content": "." }], "type": "punctuation" }] }, "status": "COMPLETED"}

    Transcripción de audio en streamingLa transcripción de streaming toma una secuencia de datos de audio y la transcribe en tiempo real. Utilizaflujos HTTP/2 o WebSocket para que los resultados de la transcripción se devuelvan a la aplicación almismo tiempo que se envía más audio a Amazon Transcribe. Utilice transcripción de streaming cuandodesee que los resultados de la transcripción de audio en vivo estén disponibles inmediatamente, o cuandotenga un archivo de audio que desee procesar a medida que se transcribe.

    Puede utilizar la transcripción de streaming con los siguientes idiomas:

    • Inglés de Australia (en-AU)• Inglés del Reino Unido (en-GB)• Inglés de Estados Unidos (en-US)• Francés (fr-FR)• Francés de Canadá (fr-CA)• Español de EE. UU. (es-US)

    Para obtener más información, consulte Transcripción de streaming (p. 63).

    Identificación de canalesSi un archivo de audio tiene varios canales que desea transcribir en transcripciones distintas queidentifiquen el canal que contiene la voz, use la identificación de canales. Por ejemplo, si tiene unrepresentante del servicio de atención al cliente en un canal y un cliente en otro, utilice la identificación decanales para crear una transcripción que se identifique mediante cada canal y una única transcripción quecombine ambos canales.

    Amazon Transcribe divide el archivo de audio en varios canales y transcribe los canales por separado.Después de transcribir todos los canales, Amazon Transcribe combina también las transcripciones paracrear una sola transcripción. Devuelve todas las transcripciones en un único archivo de resultados.

    Los enunciados de las voces se ordenan por hora de inicio. Un enunciado es una unidad de voz en elcanal de audio que normalmente está separado de otros enunciados por un silencio. Si un enunciadode un canal se solapa con otro de otro canal, Amazon Transcribe los ordena en la transcripción por sushoras de inicio. Los enunciados que se solapan en el audio de entrada no se solapan en la salida de latranscripción.

    Puede activar la identificación de canales en la consola de Amazon Transcribe o con la API. En laconsola, elija Channel identification (Identificación de canales) cuando cree el trabajo de transcripción.

    11

  • Amazon Transcribe Developer GuideIdentificación de canales

    Si utiliza la API, configure la marca ChannelIdentification cuando llame a la operaciónStartTranscriptionJob (p. 162).

    A continuación, se muestra la salida abreviada de una conversación en dos canales:

    { "jobName": "job id", "accountId": "account id", "results": { "transcripts": [ { "transcript": "When you try ... It seems to ..." } ], "channel_labels": { "channels": [ { "channel_label": "ch_0", "items": [ { "start_time": "12.282", "end_time": "12.592", "alternatives": [ { "confidence": "1.0000", "content": "When" } ], "type": "pronunciation" }, { "start_time": "12.592", "end_time": "12.692", "alternatives": [ { "confidence": "0.8787", "content": "you" } ], "type": "pronunciation" }, { "start_time": "12.702", "end_time": "13.252", "alternatives": [ { "confidence": "0.8318", "content": "try" } ], "type": "pronunciation" }, Transcription abbreviated ] }, { "channel_label": "ch_1", "items": [ { "start_time": "12.379", "end_time": "12.589", "alternatives": [ { "confidence": "0.5645", "content": "It"

    12

  • Amazon Transcribe Developer GuideVocabularios personalizados

    } ], "type": "pronunciation" }, { "start_time": "12.599", "end_time": "12.659", "alternatives": [ { "confidence": "0.2907", "content": "seems" } ], "type": "pronunciation" }, { "start_time": "12.669", "end_time": "13.029", "alternatives": [ { "confidence": "0.2497", "content": "to" } ], "type": "pronunciation" }, Transcription abbreviated ] }}

    Vocabularios personalizadosTemas

    • Creación de un vocabulario personalizado con una lista (p. 14)• Creación de un vocabulario personalizado con una tabla (p. 15)• Conjuntos de caracteres de los vocabularios personalizados (p. 16)

    Puede proporcionar a Amazon Transcribe más información acerca de cómo procesar la voz en su archivode entrada creando un vocabulario personalizado. Un vocabulario personalizado es una lista de palabrasespecíficas que desea que Amazon Transcribe reconozca en la entrada de audio. Normalmente estánformados por frases y palabras de dominios específicos, palabras que Amazon Transcribe no reconoce onombres propios.

    Los vocabularios personalizado funcionan mejor cuando se utilizan para palabras o frases específicas.Le recomendamos que cree diferentes vocabularios pequeños personalizados para grabaciones deaudio específicas en lugar de crear un único vocabulario con muchos términos y utilizarlo con todas lasgrabaciones. Puede tener hasta 100 vocabularios en la cuenta. El límite de tamaño de un vocabulariopersonalizado es de 50 Kb.

    El vocabulario personalizado se especifica en un archivo de texto. Puede utilizar una lista de palabras ouna tabla de cuatro columnas, lo que le ofrece mayor control sobre la entrada y salida de palabras en elvocabulario personalizado.

    Para obtener más información sobre la creación de vocabularios personalizados, consulte Creación de unvocabulario personalizado con una lista (p. 14) y Creación de un vocabulario personalizado con unatabla (p. 15).

    13

  • Amazon Transcribe Developer GuideCreación de un vocabulario personalizado con una lista

    Para crear un vocabulario personalizado, utilice la operación CreateVocabulary (p. 131) o la consola deAmazon Transcribe. Después de enviar la solicitud CreateVocabulary, Amazon Transcribe procesael vocabulario. Para ver el estado de procesamiento del vocabulario, utilice la consola o la operaciónGetVocabulary (p. 147).

    Note

    Si carga el vocabulario personalizado a través de la consola de Amazon Transcribe, deberáutilizar una lista de vocabulario en lugar de una tabla. Si desea utilizar la consola para crear unvocabulario personalizado que emplee una tabla, el archivo de origen debe estar en un bucket deAmazon S3.

    Para utilizar el vocabulario personalizado, defina el campo VocabularyName de Settings cuando llamea la operación StartTranscriptionJob (p. 162) o seleccione el vocabulario en la consola cuando cree eltrabajo de transcripción.

    Creación de un vocabulario personalizado con unalistaPuede crear un vocabulario personalizado utilizando una lista de palabras o frases en un archivo de texto.Puede incluir cada palabra en su propia línea o colocar varias palabras en una sola línea separadasmediante comas.

    Cada entrada debe contener:

    • Menos de 256 caracteres, guiones incluidos• Solo caracteres del conjunto de caracteres permitido

    Para ver los caracteres válidos, consulte Conjuntos de caracteres de los vocabulariospersonalizados (p. 16).

    Si una entrada de la lista es una frase, separe las palabras de la frase con guiones. Por ejemplo, si la frasees Los Angeles, debería incluirla en el archivo como Los-Angeles.

    Escriba separado mediante puntos los acrónimos u otras palabras cuyas letras deban pronunciarsepor separado; por ejemplo, A.B.C. o F.B.I.. Para especificar el plural de un acrónimo en inglés (porejemplo, "ABCs"), separe la "s" del acrónimo con un guion: A.B.C.-s. Puede utilizar letras mayúsculas ominúsculas para especificar los acrónimos. Las siglas pueden utilizarse en los siguientes idiomas:

    • Neerlandés• Todas las variantes del inglés• Todas las variantes del francés• Todas las variantes del alemán• Hindi• Indonesio• Italiano• Malayo• Todas las variantes del portugués• Todas las variantes del español• Turco

    En el ejemplo siguiente, se muestra un archivo de entrada con las palabras y frases del vocabulario endiferentes líneas:

    14

    https://console.aws.amazon.com/transcribe/https://console.aws.amazon.com/transcribe/

  • Amazon Transcribe Developer GuideCreación de un vocabulario personalizado con una tabla

    Los-AngelesF.B.I.Etienne

    En el ejemplo siguiente, se muestra un archivo de entrada con las palabras y frases del vocabularioseparadas por comas en una única línea:

    Los-Angeles,F.B.I.,Etienne

    Creación de un vocabulario personalizado con unatablaPuede generar un vocabulario personalizado creando una tabla en un archivo de texto. Cada fila de latabla será una palabra o frase que irá seguida de los campos opcionales IPA, SoundsLike y DisplayAs.Cada campo debe contener:

    • Menos de 256 caracteres, guiones incluidos• Solo caracteres del conjunto de caracteres permitido

    Para ver los conjuntos de caracteres válidos, consulte Conjuntos de caracteres de los vocabulariospersonalizados (p. 16).

    Sitúe cada palabra o frase del archivo de texto en una línea diferente. Separe los campos con caracteresde tabulación. Guarde el archivo con la extensión .txt en un bucket de Amazon S3 que esté en la mismaregión en la que está llamando a la API.

    Los siguientes ejemplos son archivos de entrada en formato de texto. En los ejemplos, se utilizan espaciospara alinear las columnas. Los archivos de entrada deben utilizar caracteres de tabulación para separar lascolumnas. Incluya espacios solo en las columnas DisplayAs e IPA. Si copia estos ejemplos, elimine losespacios adicionales entre las columnas y sustituya "[Tabulación]" por un carácter de tabulación.

    Phrase [TAB]IPA [TAB]SoundsLike[TAB]DisplayAsLos-Angeles[TAB] [TAB] [TAB]Los AngelesF.B.I. [TAB]ɛ f b i aɛ[TAB] [TAB]FBIEtienne [TAB] [TAB]eh-tee-en [TAB]

    Las columnas pueden especificarse en cualquier orden. A continuación, se muestran también algunasestructuras válidas para el archivo de entrada del vocabulario personalizado.

    Phrase [TAB]SoundsLike[TAB]IPA [TAB]DisplayAsLos-Angeles[TAB] [TAB] [TAB]Los AngelesF.B.I [TAB] [TAB]ɛ f b i aɛ[TAB]FBIEtienne [TAB]eh-tee-en [TAB] [TAB]

    DisplayAs [TAB]SoundsLike[TAB]IPA [TAB]PhraseLos Angeles[TAB] [TAB] [TAB]Los-AngelesFBI [TAB] [TAB]ɛ f b i aɛ[TAB]F.B.I. [TAB]eh-tee-en [TAB] [TAB]Etienne

    • Phrase (Frase): palabra o frase que debería reconocerse.

    15

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Si la entrada es una frase, separe las palabras con guiones (-). Por ejemplo, escriba Los Angelescomo Los-Angeles.

    Escriba separados por puntos los acrónimos u otras palabras cuyas letras deben pronunciarsepor separado; por ejemplo, A.B.C. o F.B.I.. Para especificar el plural de un acrónimo en inglés(por ejemplo, "ABCs"), separe la "s" del acrónimo con un guion: "A.B.C.-s". Puede utilizar letrasmayúsculas o minúsculas para especificar los acrónimos. Para obtener una lista de los idiomas queadmiten los acrónimos, consulte Creación de un vocabulario personalizado con una lista (p. 14).

    El campo Phrase es obligatorio. Puede utilizar cualquiera de los caracteres permitidos en el idioma deentrada. Para ver una lista de los caracteres permitidos, consulte las distintas idiomas. Si no especifica elcampo DisplayAs, Amazon Transcribe utilizará el contenido del campo Phrase en el archivo de salida.

    • IPA: para especificar la pronunciación de la palabra o frase, puede incluir caracteres en este campoutilizando el Alfabeto Fonético Internacional (IPA). El campo IPA no puede contener espacios iniciales ofinales y solamente debe utilizarse un espacio para separar cada fonema de la entrada. Por ejemplo, eninglés, la frase Los-Angeles debería especificarse como l ɔ s æ n ɔ ɔ l ɔ s. La frase F.B.I.,tendría que especificarse como ɔ f b i aɔ.

    Si no se especifica el contenido del campo IPA, debe incluirse un campo IPA vacío. Si se especifica elcampo IPA, no se puede especificar el campo SoundsLike.

    Para ver una lista de los caracteres de IPA permitidos en un lenguaje específico, consulte la tabla decada idioma.

    • SoundsLike (Suena como): puede dividir una palabra o una frase en fragmentos más pequeños e indicarla pronunciación de cada fragmento utilizando el alfabeto estándar del idioma para imitar el sonido dela palabra. Por ejemplo, en inglés, puede proporcionar sugerencias sobre la pronunciación de la fraseLos-Angeles de este modo: loss-ann-gel-es. La sugerencia de la palabra Etienne sería eh-tee-en. Separe cada parte de la sugerencia con un guion (-).

    Si no especifica el campo SoundsLike, debe incluir un campo SoundsLike vacío. Si especifica elcampo SoundsLike, no puede especificar el campo IPA.

    Puede utilizar cualquiera de los caracteres permitidos en el idioma de entrada. Para ver una lista de loscaracteres permitidos, consulte las distintas idiomas.

    • DisplayAs (Mostrar como): define el aspecto que tendrá la palabra o la frase en la salida. Por ejemplo, sila palabra o frase es Los-Angeles, puede indicar que debe mostrarse como "Los Angeles" para que elguion no aparezca en la salida.

    Si no especifica el campo DisplayAs, Amazon Transcribe utilizará en la salida el contenido del campoPhrase del archivo de entrada.

    Puede utilizar cualquier carácter UTF-8 en el campo DisplayAs.

    Conjuntos de caracteres de los vocabulariospersonalizadosAmazon Transcribe limita los caracteres que pueden utilizarse para crear vocabularios personalizados.Puede utilizar los siguientes conjuntos de caracteres en cada idioma.

    Temas• Conjunto de caracteres del árabe (p. 17)• Conjunto de caracteres para chino (p. 18)• Conjunto de caracteres del neerlandés (p. 19)• Juego de caracteres en inglés (p. 21)

    16

    https://en.wikipedia.org/wiki/International_Phonetic_Alphabet

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    • Conjunto de caracteres del persa (p. 22)• Conjunto de caracteres para francés (p. 23)• Conjunto de caracteres del alemán (p. 25)• Conjunto de caracteres del hebreo (p. 26)• Conjunto de caracteres hindi (p. 27)• Conjunto de caracteres del indonesio (p. 29)• Conjunto de caracteres para italiano (p. 30)• Conjunto de caracteres del chino (p. 32)• Conjunto de caracteres del coreano (p. 33)• Conjunto de caracteres del malayo (p. 34)• Conjunto de caracteres para portugués (p. 35)• Conjunto de caracteres para ruso (p. 37)• Conjunto de caracteres para español (p. 38)• Conjunto de caracteres del tamil (p. 39)• Conjunto de caracteres del telugu (p. 41)• Conjunto de caracteres del turco (p. 44)

    Conjunto de caracteres del árabeEn los vocabularios personalizados del árabe, puede utilizar los siguientes caracteres Unicode en loscampos Phrase y SoundsLike. También puede usar el guion (-) para separar palabras.

    Carácter Código Carácter Código

    ء 0621 س 0633

    آ 0622 ش 0634

    أ 0623 ص 0635

    ؤ 0624 ض 0636

    إ 0625 ط 0637

    ئ 0626 ظ 0638

    ا 0627 ع 0639

    ب 0628 غ 063A

    ة 0629 ف 0641

    ت 062A ق 0642

    ث 062B ك 0643

    ج 062C ل 0644

    ح 062D م 0645

    خ 062E ن 0646

    د 062F ه 0647

    17

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    ذ 0630 و 0648

    ر 0631 ى 0649

    ز 0632 ي 064A

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada del vocabulario:

    Carácter Código Carácter Código

    a 0061 tˤ 0074 02E4

    aː 0061 02D0 u 0075

    b 0062 uː 0075 02D0

    d 0064 v 0076

    dˤ 0064 02E4 w 0077

    f 0066 x 0078

    h 0068 z 007A

    i 0069 zˤ 007A 02E4

    iː 0069 02D0 ð 00F0

    j 006A ðˤ 00F0 02E4

    k 006B ħ 0127

    l 006C ɣ 0263

    m 006D ɪ 026A

    n 006E ɫ 026B

    p 0070 ʃ 0283

    q 0071 ʒ 0292

    r 0072 ʔ 0294

    s 0073 ʕ 0295

    sˤ 0073 02E4 θ 03B8

    t 0074 χ 03C7

    Conjunto de caracteres para chinoEn el caso de los vocabularios personalizados del chino, el campo Phrase puede utilizar cualquiera de loscaracteres enumerados en el siguiente archivo en GitHub.

    • chinese-character-set.txt

    18

    https://github.com/awsdocs/amazon-transcribe-developer-guide/blob/master/doc_source/chinese-character-set.txt

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    El campo SoundsLike puede contener las sílabas en pinyin enumeradas en el siguiente archivo enGitHub.

    • pinyin-set.txt

    Cuando utilice sílabas en pinyin en el campo SoundsLike, separe las sílabas con un guión (-).

    Amazon Transcribe representa los cuatro tonos del chino mandarín con números. En la siguiente tabla, semuestra cómo se asignan las marcas tonales para la palabra "ma".

    Tono Marca tonal Número de tono

    Tono 1 mā ma1

    Tono 2 má ma2

    Tono 3 mǎ ma3

    Tono 4 mà ma4

    Los vocabularios personalizados del chino no utilizan el campo IPA, pero debe incluir el encabezado IPAen la tabla de vocabulario.

    El siguiente ejemplo es un archivo de entrada en formato de texto. En el ejemplo, se utilizan espacios paraalinear las columnas. Los archivos de entrada deben utilizar caracteres de tabulación para separar lascolumnas. Incluya espacios solo en la columna DisplayAs.

    Phrase SoundsLike IPA DisplayAsɛɛ kang1-jian4ɛɛ qian3-ze2ɛɛɛɛ guo2-fang2-da4-chen2ɛɛɛɛɛ shi4-jie4-bo4-lan3-hui4 ɛɛɛ

    Conjunto de caracteres del neerlandésEn los vocabularios personalizados del neerlandés, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    Carácter Código Carácter Código

    à 00E0 î 00EE

    á 00E1 ï 00EF

    â 00E2 ñ 00F1

    19

    https://github.com/awsdocs/amazon-transcribe-developer-guide/blob/master/doc_source/pinyin-set.txt

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    ä 00E4 ò 00F2

    ç 00E7 ó 00F3

    è 00E8 ô 00F4

    é 00E9 ö 00F6

    ê 00EA ù 00F9

    ë 00EB ú 00FA

    ì 00EC û 00FB

    í 00ED ü 00FC

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada del vocabulario:

    Carácter Código Carácter Código

    a: 0061 003A z 007A

    bː 0062 02D0 ø: 00F8 003A

    b 0062 ŋ 014B

    d 0064 œy 0153 0079

    eː 0065 02D0 œː 0153 02D0

    f 0066 ɑ 0251

    g 0067 ɔ 0254

    i 0069 ɔu 0254 0075

    j 006A ɔː 0254 02D0

    k 006B ə 0259

    l 006C ɛ 025B

    m 006D ɛ: 025B 003A

    n 006E ɛi 025B 0069

    oː 006F 02D0 ɦ 0266

    p 0070 ɪ 026A

    s 0073 ɲ 0272

    t 0074 ɾ 027E

    u 0075 ʃ 0283

    v 0076 ʏ 028F

    20

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    w 0077 ʒ 0292

    y 0079 χ 03C7

    Juego de caracteres en inglésEn el caso de los vocabularios personalizados del inglés, puede utilizar los siguientes caracteres en loscampos Phrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada del vocabulario:

    Carácter Código Carácter Código

    aʊ 0061 028A w 0077

    aɪ 0061 026A z 007A

    b 0062 æ 00E6

    d 0064 ð 00F0

    eɪ 0065 026A ŋ 014B

    f 0066 ɑ 0251

    g 0067 ɔ 0254

    h 0068 ɔɪ 0254 026A

    i 0069 ə 0259

    j 006A ɛ 025B

    k 006B ɝ 025D

    l 006C ɡ 0261

    l̩ 006C 0329 ɪ 026A

    m 006D ɹ 0279

    n 006E ʃ 0283

    n̩ 006E 0329 ʊ 028A

    oʊ 006F 028A ʌ 028C

    p 0070 ʍ 028D

    21

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    s 0073 ʒ 0292

    t 0074 ʤ 02A4

    u 0075 ʧ 02A7

    v 0076 θ 03B8

    Conjunto de caracteres del persaEn los vocabularios personalizados del persa, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    Carácter Código Carácter Código

    ء 0621 ظ 0638

    آ 0622 ع 0639

    أ 0623 غ 063A

    ؤ 0624 ف 0641

    ئ 0626 ق 0642

    ا 0627 ل 0644

    ب 0628 م 0645

    ت 062A ن 0646

    ث 062B ه 0647

    ج 062C و 0648

    ح 062D َ 064E

    خ 062E ُ 064F

    د 062F ِ 0650

    ذ 0630 ّ 0651

    ر 0631 پ 067E

    ز 0632 چ 0686

    س 0633 ژ 0698

    ش 0634 ک 06A9

    ص 0635 گ 06AF

    ض 0636 ی 06CC

    ط 0637    

    22

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo devocabulario:

    Carácter Código Carácter Código

    b 0062 u 0075

    d 0064 v 0076

    f 0066 z 007A

    g 0067 æ 00E6

    h 0068 ɒ 0252

    i 0069 ɛ 025B

    j 006A ɾ 027E

    k 006B ʁ 0281

    l 006C ʃ 0283

    m 006D ʒ 0292

    n 006E ʔ 0294

    o 006F ʔ 0294

    p 0070 ʤ 02A4

    s 0073 ʧ 02A7

    t 0074 χ 03C7

    Conjunto de caracteres para francésEn los vocabularios personalizados del francés, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    Carácter Código Carácter Código

    À 00C0 à 00E0

    Â 00C2 â 00E2

    Ç 00C7 ç 00E7

    È 00C8 è 00E8

    23

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    É 00C9 é 00E9

    Ê 00CA ê 00EA

    Ë 00CB ë 00EB

    Î 00CE î 00EE

    Ï 00CF ï 00EF

    Ô 00D4 ô 00F4

    Ö 00D6 ö 00F6

    Ù 00D9 ù 00F9

    Û 00DB û 00FB

    Ü 00DC ü 00FC

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo devocabulario:

    Carácter Código Carácter Código

    a 0061 z 007A

    b 0062 ã 00E3

    d 0064 õ 00F5

    e 0065 ø 00F8

    f 0066 ŋ 014B

    i 0069 œ 0153

    j 006A œ̃ 0153 0303

    k 006B ɐ 0250

    l 006C ɔ 0254

    m 006D ə 0259

    n 006E ɛ 025B

    o 006F ɡ 0261

    p 0070 ɥ 0265

    s 0073 ɲ 0272

    t 0074 ʁ 0281

    u 0075 ʃ 0283

    v 0076 ʒ 0292

    24

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    w 0077 ẽ 1EBD

    y 0079    

    Conjunto de caracteres del alemánEn los vocabularios personalizados del alemán, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    Carácter Código Carácter Código

    ä 00E4 Ä 00C4

    ö 00F6 Ö 00D6

    ü 00FC Ü 00DC

    ß 00DF    

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada del vocabulario:

    Carácter Código Carácter Código

    a 0061 ts 0074 0073

    aɪ 0061 026A uː 0075 02D0

    aʊ 0061 028A v 0076

    aː 0061 02D0 x 0078

    b 0062 z 007A

    d 0064 yː 0079 02D0

    eː 0065 02D0 ã 00E3

    f 0066 ç 00E7

    g 0067 øː 00F8 02D0

    h 0068 ŋ 014B

    iː 0069 02D0 œ 0153

    25

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    j 006A ɐ̯ 0250 032F

    k 006B ɔ 0254

    l 006C ɔʏ 0254 028F

    l̩ 006C 0329 ə 0259

    m 006D ɛ 025B

    m̩ 006D 0329 ɛː 025B 02D0

    n 006E ɪ 026A

    n̩ 006E 0329 ʁ 0281

    oː 006F 02D0 ʃ 0283

    p 0070 ʊ 028A

    pf 0070 0066 ʏ 028F

    s 0073 ʧ 02A7

    t 0074    

    Conjunto de caracteres del hebreoEn los vocabularios personalizados del hebreo, puede utilizar los siguientes caracteres Unicode en loscampos Phrase y SoundsLike:

    Carácter Código Carácter Código

    - 002D ם 05DD

    א 05D0 מ 05DE

    ב 05D1 ן 05DF

    ג 05D2 נ 05E0

    ד 05D3 ס 05E1

    ה 05D4 ע 05E2

    ו 05D5 ף 05E3

    ז 05D6 פ 05E4

    ח 05D7 ץ 05E5

    ט 05D8 צ 05E6

    י 05D9 ק 05E7

    ך 05DA ר 05E8

    כ 05DB ש 05E9

    26

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    ל 05DC ת 05EA

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada del vocabulario:

    Carácter Código Carácter Código

    a 0061 p 0070

    b 0062 s 0073

    d 0064 t 0074

    e 0065 u 0075

    f 0066 v 0076

    g 0067 w 0077

    h 0068 z 007A

    i 0069 ŋ 014B

    j 006A ɣ 0263

    k 006B ʃ 0283

    l 006C ʒ 0292

    m 006D ʔ 0294

    n 006E χ 03C7

    o 006F    

    Conjunto de caracteres hindiEn los vocabularios personalizados del hindi, puede utilizar los siguientes caracteres Unicode en loscampos Phrase y SoundsLike:

    Carácter Código Carácter Código

    - 002D थ 0925

    . 002E द 0926

    ँ 0901 ध 0927

    ं 0902 न 0928

    ः 0903 प 092A

    अ 0905 फ 092B

    आ 0906 ब 092C

    27

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    इ 0907 भ 092D

    ई 0908 म 092E

    उ 0909 य 092F

    ऊ 090A र 0930

    ऋ 090B ल 0932

    ए 090F व 0935

    ऐ 0910 श 0936

    ओ 0913 ष 0937

    औ 0914 स 0938

    क 0915 ह 0939

    ख 0916 ा 093E

    ग 0917 ि 093F

    घ 0918 ी 0940

    ङ 0919 ु 0941

    च 091A ू 0942

    छ 091B ृ 0943

    ज 091C ॅ 0945

    झ 091D े 0947

    ञ 091E ै 0948

    ट 091F ॉ 0949

    ठ 0920 ो 094B

    ड 0921 ौ 094C

    ढ 0922 ् 094D

    ण 0923 ज़ 095B

    त 0924    

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    aː 0097 0720 ŋ 0331

    b 0098 ɖ 0598

    28

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    bʱ 0098 0689 ɔː 0596 0720

    d 0100 ɖʱ 0598 0689

    dʱ 0100 0689 ə 0601

    eː 0101 0720 ɛː 0603 0720

    f 0102 ɡ 0609

    iː 0105 0720 ɡʱ 0609 0689

    j 0106 ɦ 0614

    k 0107 ɪ 0618

    kʰ 0107 0688 ɲ 0626

    l 0108 ɳ 0627

    m 0109 ɾ 0638

    n 0110 ʂ 0642

    oː 0111 0720 ʃ 0643

    p 0112 ʈ 0648

    pʰ 0112 0688 ʈʰ 0648 0688

    r 0114 ʊ 0650

    s 0115 ʋ 0651

    t 0116 ʤ 0676

    tʰ 0116 0688 ʤʱ 0676 0689

    uː 0117 0720 ʧ 0679

    z 0122 ʧʰ 0679 0688

    Conjunto de caracteres del indonesioEn los vocabularios personalizados del indonesio, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    29

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    a 0061 r 0072

    ai 0061 0069 s 0073

    au 0061 0075 t 0074

    b 0062 tʃ 0074 0283

    d 0064 u 0075

    d 0064 v 0076

    e 0065 w 0077

    f 0066 x 0078

    h 0068 y 0079

    i 0069 ŋ 014B

    j 006A ɔ 0254

    k 006B ə 0259

    l 006C ɛ 025B

    m 006D ɡ 0261

    n 006E ɣ 0263

    o 006F ɪ 026A

    oi̯ 006F 0069 032F ɲ 0272

    p 0070 ʃ 0283

    q 0071 ʊ 028A

    Conjunto de caracteres para italianoEn los vocabularios personalizados del italiano, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    Carácter Código Carácter Código

    À 00C0 à 00E0

    30

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    Ä 00C4 ä 00E4

    Ç 00C7 ç 00E7

    È 00C8 è 00E8

    É 00C9 é 00E9

    Ê 00CA ê 00EA

    Ë 00CB ë 00EB

    Ì 00CC ì 00EC

    Ò 00D2 ò 00F2

    Ù 00D9 ù 00F9

    Ü 00DC ü 00FC

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 0061 ss 0073 0073

    b 0062 t 0074

    bb 0062 0062 tt 0074 0074

    d 0064 u 0075

    dd 0064 0064 v 0076

    e 0065 vv 0076 0076

    f 0066 w 0077

    ff 0066 0066 z 007A

    gg 0067 0067 ɔ 0254

    i 0069 ɛ 025B

    j 006A ɡ 0261

    k 006B ɲ 0272

    kk 006B 006B ɲɲ 0272 0272

    l 006C ʃ 0283

    ll 006C 006C ʃʃ 0283 0283

    m 006D ʎ 028E

    mm 006D 006D ʎʎ 028E 028E

    31

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    n 006E ʣ 02A3

    nn 006E 006E ʣʣ 02A3 02A3

    o 006F ʤ 02A4

    p 0070 ʤʤ 02A4 02A4

    pp 0070 0070 ʦ 02A6

    r 0072 ʦʦ 02A6 02A6

    rr 0072 0072 ʧ 02A7

    s 0073 ʧʧ 02A7 02A7

    Conjunto de caracteres del chinoPara vocabularios personalizados de japonés, los campos Phrase y DisplayAs pueden utilizarcualquiera de los caracteres enumerados en el siguiente archivo en GitHub.

    • japanese-character-set.txt

    Amazon Transcribe admite caracteres romaji en el campo SoundsLike. Puede utilizar los siguientescaracteres en minúsculas:

    • a - k• m - p• r - w• y - z

    Representar vocales largas duplicando la vocal:

    Vocal Representación

    ā aa

    ē ee

    ī ii

    ō oo

    ū uu

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 0061 p 0070

    32

    https://github.com/awsdocs/amazon-transcribe-developer-guide/blob/master/doc_source/japanese-character-set.txt

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    aː 0061 02D0 s 0073

    b 0062 t 0074

    d 0064 ts 0074 0073

    dz 0064 007A tɕ 0074 0255

    dʑ 0064 0291 w 0077

    e 0065 z 007A

    eː 0065 02D0 ç 00E7

    g 0067 ŋ 014B

    h 0068 ɕ 0255

    i 0069 ɯ 026F

    iː 0069 02D0 ɯː 026F 02D0

    j 006A ɴ 0274

    k 006B ɸ 0278

    m 006D ɾ 027E

    n 006E ʑ 0291

    o 006F ʔ 0294

    oː 006F 02D0    

    Conjunto de caracteres del coreanoEn los vocabularios personalizados del coreano, puede utilizar cualquier sílaba del hangul en los camposPhrase y SoundsLike. Para obtener más información, consulte en Wikipedia el artículo sobre las sílabasdel hangul.

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 00061 s# 0073 0348

    e 00065 t 0074

    h 00068 tɕ 0074 0255

    i 00069 tɕʰ 0074 0255 02B0

    je 006A 0065 tʰ 0074 02B0

    jo 006A 006F t# 0074 0348

    ju 006A 0075 t#ɕ 0074 0348 0255

    33

    https://en.wikipedia.org/wiki/Hangul_Syllableshttps://en.wikipedia.org/wiki/Hangul_Syllables

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    jɛ 006A 025B u 0075

    jʌ 006A 028C we 0077 0065

    ja 006A 0061 wi 0077 0069

    k 006B wɛ 0077 025B

    kʰ 006B 02B0 wʌ 0077 028C

    k# 006B 0348 wa 0077 0061

    l 006C ø 00F8

    m 006D ŋ 0014B

    n 006E ɛ 0025B

    o 006F ɯ 026F

    p 0070 ɯi 006F 0069

    pʰ 0070 02B0 ɾ 027E

    p# 0070 0348 ʌ 028C

    s 0073    

    Conjunto de caracteres del malayoEn los vocabularios personalizados del malayo, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    F 0046 r 0072

    a 0061 s 0073

    ai 0061 0069 t 0074

    au 0061 0075 tʃ 0074 0283

    b 0062 v 0076

    d 0064 w 0077

    34

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    dʒ 0064 0292 x 0078

    e 0065 y 0079

    h 0068 ŋ 014B

    i 0069 ɔ 0254

    j 006A ə 0259

    k 006B ɛ 025B

    l 006C ɡ 0261

    m 006D ɣ 0263

    n 006E ɪ 026A

    o 006F ɲ 0272

    oi̯ 006F 0069 32F ʃ 0283

    p 0070 ʊ 028A

    q 0071 ʊi 028A 0069

    Conjunto de caracteres para portuguésEn el caso de los vocabularios personalizados del portugués, puede utilizar los siguientes caracteres en loscampos Phrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    Carácter Código Carácter Código

    À 00C0 à 00E0

    Á 00C1 á 00E1

    Â 00C2 â 00E2

    Ã 00C3 ã 00E3

    Ä 00C4 ä 00E4

    Ç 00C7 ç 00E7

    È 00C8 è 00E8

    É 00C9 é 00E9

    35

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    Ê 00CA ê 00EA

    Ë 00CB ë 00EB

    Í 00CD í 00ED

    Ñ 00D1 ñ 00F1

    Ó 00D3 ó 00F3

    Ô 00D4 ô 00F4

    Õ 00D5 õ 00F5

    Ö 00D6 ö 00F6

    Ú 00DA ú 00FA

    Ü 00DC ü 00FC

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 0061 v 0076

    b 0062 w 0077

    d 0064 w̃ 0077 0303

    e 0065 z 007A

    f 0066 õ 00F5

    g 0067 ĩ 00129

    i 0069 ũ 00169

    j 006A ɐ̃ 0250 0303

    k 006B ɔ 0254

    l 006C ɛ 025B

    m 006D ɲ 0272

    n 006E ɾ 027E

    o 006F ʁ 0281

    p 0070 ʃ 0283

    s 0073 ʎ 028E

    t 0074 ʒ 0292

    tʃ 0074 0283 ʤ 02A4

    36

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    u 0075 ẽ 1EBD

    Conjunto de caracteres para rusoEn los vocabularios personalizados del ruso, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    Carácter Código Carácter Código

    ' 0027 п 043F

    - 002D р 0440

    . 002E с 0441

    а 0430 т 0442

    б 0431 у 0443

    в 0432 ф 0444

    г 0433 х 0445

    д 0434 ц 0446

    е 0435 ч 0447

    ж 0436 ш 0448

    з 0437 щ 0449

    и 0438 ъ 044A

    й 0439 ы 044B

    к 043A ь 044C

    л 043B э 044D

    м 043C ю 044E

    н 043D я 044F

    о 043E ё 0451

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    b 0062 t 0074

    bʲ 0062 02B2 tʃ 0074 0283

    d 0064 tʲ 0074 02B2

    37

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    dʲ 0064 02B2 u 0075

    f 0066 v 0076

    fʲ 0066 02B2 vʲ 0076 02B2

    g 0067 x 0078

    gʲ 067 02B2 xʲ 0078 02B2

    i 0069 z 007A

    j 006A zʲ 007A 02B2

    k 006B æ 00E6

    kʲ 006B 02B2 ə 0259

    l 006C ɛ 025B

    lʲ 006C 02B2 ɨ 0268

    m 006D ʃ 0283

    mʲ 006D 02B2 ʃʲ 0283 02B2

    n 006E ʊ 028A

    nʲ 006E 02B2 ʌ 028C

    p 0070 ʒ 0292

    pʲ 0070 02B2 ˈi 02C8 0069

    r 0072 ˈo 02C8 006F

    rʲ 0072 02B2 ˈv 02C8 0075

    s 0073 ˈɛ 02C8 025B

    sʲ 0073 02B2 ˈɨ 02C8 0268

    ts 0074 0073 ˈa 02C8 0061

    Conjunto de caracteres para españolEn los vocabularios personalizados del español, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    38

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    Á 00C1 á 00E1

    É 00C9 é 00E9

    Í 00CD ë 00ED

    Ó 00D3 ó 0XF3

    Ú 00DA ú 00FA

    Ñ 00D1 ñ 0XF1

    ü 00FC    

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 0061 r 0072

    b 0062 s 0073

    d 0064 t 0074

    e 0065 u 0075

    f 0066 v 0076

    g 0067 w 0077

    h 0068 x 0078

    i 0069 z 007A

    j 006A ŋ 014B

    k 006B ɲ 0272

    l 006C ɾ 027E

    m 006D ʃ 0283

    n 006E ʝ 029D

    o 006F ʧ 02A7

    p 0070 θ 03B8

    Conjunto de caracteres del tamilEn los vocabularios personalizados del tamil, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    39

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    அ 0B85 ர 0BB0

    ஆ 0B86 ல 0BB2

    இ 0B87 வ 0BB5

    ஈ 0B88 ழ 0BB4

    உ 0B89 ள 0BB3

    ஊ 0B8A ற 0BB1

    எ 0B8E ன 0BA9

    ஏ 0B8F ஜ 0B9C

    ஐ 0B90 # 0BB6

    ஒ 0B92 ஷ 0BB7

    ஓ 0B93 ஸ 0BB8

    ஔ 0B94 ஹ 0BB9

    ஃ 0B83 ் 0BCD

    க 0B95 ா 0BBE

    ங 0B99 ி 0BBF

    ச 0B9A ீ 0BC0

    ஞ 0B9E ு 0BC1

    ட 0B9F ூ 0BC2

    ண 0BA3 ெ 0BC6

    த 0BA4 ே 0BC7

    ந 0BA8 ை 0BC8

    ப 0BAA ொ 0BCA

    ம 0BAE ோ 0BCB

    ய 0BAF ௌ 0BCC

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 0061 v 0076

    aː 0061 02D0 w 0077

    b 0062 z 007A

    40

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    d 0064 æ 00E6

    dʒ 0064 0292 ð 00F0

    e 0065 ŋ 014B

    f 0066 ɑ 0251

    g 0067 ɔ 0254

    h 0068 ə 0259

    i 0069 ɛ 025B

    iː 0069 02D0 ɡ 0261

    j 006A ɪ 026A

    k 006B ɭ 026D

    l 006C ɲ 0272

    m 006D ɳ 0273

    n 006E ɹ 0279

    n̪ 006E 032A ɹ 0279

    o 006F ɹ̩ 0279 0329

    oː 006F 02D0 ɾ 027E

    p 0070 ʂ 0282

    r 0072 ʃ 0283

    s 0073 ʈ 0288

    t 0074 ʊ 028A

    t̪ 0074 032A ʋ 028B

    tʃ 0074 0283 ʌ 028C

    u 0075 ʒ 0292

    uː 0075 02D0 θ 03B8

    Conjunto de caracteres del teluguEn los vocabularios personalizados del telugu, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    Carácter Código Carácter Código

    - 002D త 0C24

    ఁ 0C01 థ 0C25

    41

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Carácter Código Carácter Código

    ం 0C02 ద 0C26

    ః 0C03 ధ 0C27

    అ 0C05 న 0C28

    ఆ 0C06 ప 0C2A

    ఇ 0C07 ఫ 0C2B

    ఈ 0C08 బ 0C2C

    ఉ 0C09 భ 0C2D

    ఊ 0C0A మ 0C2E

    ఋ 0C0B య 0C2F

    ఌ 0C0C ర 0C30

    ఎ 0C0E ఱ 0C31

    ఏ 0C0F ల 0C32

    ఐ 0C10 ళ 0C33

    ఒ 0C12 వ 0C35

    ఓ 0C13 శ 0C36

    ఔ 0C14 ష 0C37

    క 0C15 స 0C38

    ఖ 0C16 హ 0C39

    గ 0C17 ా 0C3E

    ఘ 0C18 ి 0C3F

    ఙ 0C19 ీ 0C40

    చ 0C1A ు 0C41

    ఛ 0C1B ూ 0C42

    జ 0C1C ృ 0C43

    ఝ 0C1D ౄ 0C44

    ఞ 0C1E ే 0C47

    ట 0C1F ై 0C48

    ఠ 0C20 ొ 0C4A

    డ 0C21 ో 0C4B

    ఢ 0C22 ౌ 0C4C

    ణ 0C23 ్ 0C4D

    42

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    d̪ 0064 032A ð 00F0

    d̪̤ 0064 032A 0324 ŋ 014B

    dʒ 0064 0292 ɑ 0251

    dʒ̤ 0064 0292 0324 ɔ 0254

    e 0065 ɖ 0256

    eː 0065 02D0 ɖ̤ 0256 0324

    f 0066 ə 0259

    h 0068 ɛ 025B

    i 0069 ɡ 0261

    iʐ 0069 0290 ɡ̤ 0261 0324

    j 006A ɪ 026A

    k 006B ɭ 026D

    kʰ 006B 02B0 ɲ 0272

    l 006C ɳ 0273

    m 006D ɹ 0279

    n 006E ɹ̩ 0279 0329

    o 006F ɽ 027D

    oː 006F 02D0 ʂ 0282

    p 0070 ʃ 0283

    pʰ 0070 02B0 ʈ 0288

    r 0072 ʈʰ 0288 02B0

    s 0073 ʊ 028A

    t 0074 ʋ 028B

    t̪ 0074 032A ʌ 028C

    t̪ʰ 0074 032A 02B0 ʒ 0292

    t 0074 θ 03B8

    tʃʰ 0074 0283 02B0    

    43

  • Amazon Transcribe Developer GuideConjuntos de caracteres de los vocabularios personalizados

    Conjunto de caracteres del turcoEn los vocabularios personalizados del turco, puede utilizar los siguientes caracteres en los camposPhrase y SoundsLike:

    • a - z• A - Z• ' (apóstrofo)• - (guion)• . (punto)

    También puede utilizar los siguientes caracteres Unicode en los campos Phrase y SoundsLike:

    Carácter Código Carácter Código

    Ç 00C7 ö 00F6

    Ö 00D6 û 00FB

    Ü 00DC ü 00FC

    â 00E2 Ğ 011E

    ä 00E4 ğ 011F

    ç 00E7 İ 0130

    è 00E8 ı 0131

    é 00E9 Ş 015E

    ê 00EA ş 015F

    í 00ED š 0161

    î 00EE ž 017E

    ó 00F3    

    Puede utilizar los siguientes caracteres del Alfabeto Fonético Internacional en el campo IPA del archivo deentrada:

    Carácter Código Carácter Código

    a 0061 u 0075

    aː 0061 02D0 uː 0075 02D0

    b 0062 v 0076

    c 0063 w 0077

    d 0064 y 0079

    e 0065 yː 0079 02D0

    eː 0065 02D0 z 007A

    44

  • Amazon Transcribe Developer GuideFiltrado de vocabulario

    Carácter Código Carácter Código

    f 0066 ø 00F8

    g 0067 øː 00F8 02D0

    h 0068 ŋ 014B

    i 0069 ɟ 025F

    iː 0069 02D0 ɣ 0263

    j 006A ɫ 026B

    k 006B ɯ 026F

    l 006C ɯː 026F 02D0

    m 006D ɾ 027E

    n 006E ʃ 0283

    o 006F ʒ 0292

    oː 006F 02D0 ʔ 0294

    p 0070 ʤ 02A4

    s 0073 ʧ 02A7

    t 0074    

    Filtrado de vocabularioMientras transcribe un trabajo, Amazon Transcribe puede comprobar la transcripción de determinadaspalabras, como palabras soeces, que no desea incluir en la transcripción. Durante la transcripciónAmazon Transcribe filtra estas palabras de la transcripción. Puede elegir eliminar palabras por completo oreemplazar las palabras filtradas por texto de marcador de posición.

    Para omitir o editar palabras específicas de la transcripción, cree una colección de palabras queAmazon Transcribe filtra de la transcripción. Especifique la lista de palabras en un archivo detexto que almacena en un bucket de S3 o proporcione una lista de palabras mediante la operaciónCreateVocabularyFilter (p. 135). A continuación, se muestra un ejemplo de una lista de palabras parafiltrar de la transcripción.

    word1word2word3...wordn

    Cada línea contiene una sola palabra y termina con un carácter de nueva línea (n). Las palabras nodistinguen mayúsculas de minúsculas: "palabra1" y "PALABRA1" se consideran la misma palabra.

    Para utilizar un filtro al transcribir un archivo de audio, especifique el nombre del filtro que se utilizará alcrear el trabajo con la consola o con la API. La salida de la transcripción se modifica para eliminar laspalabras filtradas. Puede elegir enmascarar la palabra o puede eliminar completamente la palabra de latranscripción. Si elige enmascarar palabras, Amazon Transcribe sustituye la palabra por tres asteriscos("***").

    45

  • Amazon Transcribe Developer GuideCola de trabajos

    Por ejemplo, considere la transcripción de la frase "I said, I don't like word1!" Si elige enmascarar palabras,la salida es

    I said, I don't like ***!

    Si elige eliminar palabras, la salida es

    I said, I don't like!

    Amazon Transcribe no filtra palabras que aparecen dentro de otras palabras. Por ejemplo, la palabra"upword1" no se filtra, ni es "up-word1".

    Los filtros se crean con la consola o con la API de Amazon Transcribe. En ambos casos, debeproporcionar una lista de palabras para eliminar de la transcripción.

    Para usar la API, llame a la operación CreateVocabularyFilter (p. 135) y pase el nombre del filtro y laubicación del bucket de S3 donde se almacena el archivo de entrada, o pase el nombre del filtro y la listade palabras que desea añadir. Utilice el GetVocabularyFilter (p. 150) para monitorizar el progreso de lacreación del filtro.

    Para usar la consola, elija Vocabulary filtering (Filtrado de vocabulario) y, a continuación, elija Createvocabulary filter (Crear filtro de vocabulario). Asigne un nombre al filtro y elija el origen de palabras parael filtro. Cuando utiliza la consola, puede almacenar el archivo de texto para el filtro en un bucket deS3 o puede cargar el archivo desde el equipo local. Elija Create (Crear) para crear la colección. Puedemonitorizar el progreso de creación de la colección mediante la lista de filtros de vocabulario.

    Puede administrar su filtro de vocabulario usando la consola o la API. Puede usar ambos para mostrar losfiltros de vocabulario de su cuenta, obtener detalles de los distintos filtros y eliminar filtros de su cuenta.

    Cola de trabajosCuando envía trabajos de transcripción a Amazon Transcribe, existe un límite para el número total detrabajos que se pueden ejecutar a la vez. De forma predeterminada, hay 100 ranuras para trabajos.Cuando se alcanza el límite, debe esperar hasta que uno o más trabajos hayan terminado y liberar unaranura antes de poder enviar su siguiente trabajo.

    Para poner en cola los trabajos de modo que se ejecuten en cuanto esté disponible una ranura,puede utilizar la cola de trabajos. La cola de trabajos crea una cola en su nombre que contiene lostrabajos. Cuando una ranura está disponible, Amazon Transcribe toma el siguiente trabajo de la cola einmediatamente comienza a procesarlo. Para permitir que se envíen y procesen recursos para nuevostrabajos, Amazon Transcribe utiliza el 90 por ciento de las ranuras para procesar trabajos en la cola.

    Puede activar la cola de trabajos con la consola o puede establecer el campoAllowDeferredExecution del parámetro JobExecutionSettings en true cuando llame a laoperación StartTranscriptionJob (p. 162).

    Cuando envía un trabajo con la cola de trabajos activada, ocurre una de las siguientes cosas.

    • Si hay ranuras disponibles, el trabajo se procesa inmediatamente.• Si no hay ranuras disponibles, el trabajo se envía a una cola. Cuando haya ranuras vacantes, los

    trabajos se eliminarán de la cola en el orden denominado FIFO (primero en entrar, primero en salir).

    Puede ver el progreso de un trabajo en cola mediante la consola o mediante la operaciónGetTranscriptionJob (p. 144). Cuando se pone en cola un trabajo, el campo Status del objetoTranscriptionJob devuelto por la operación StartTranscriptionJob se establece en QUEUED.

    46

  • Amazon Transcribe Developer GuidePolíticas de IAM para la cola de trabajos

    El estado cambia a IN_PROGRESS cuando Amazon Transcribe comienza a procesar el audio y, acontinuación, cambia a COMPLETED o FAILED al finalizar el procesamiento. Puede utilizar el campoTranscriptionJobName con la operación GetTranscriptionJob para monitorizar el estado de untrabajo.

    Puede enviar hasta 10 000 trabajos a la cola. Si supera los 10 000 trabajos, recibirá una excepciónLimitExceededConcurrentJobException.

    Políticas de IAM para la cola de trabajosPara utilizar la cola de trabajos, debe proporcionar a Amazon Transcribe un rol de acceso a los datosque permita transcribir el acceso al archivo de audio. Puede elegir el rol de acceso a los datos mediantela consola o utilizar el campo DataAccessRoleArn del parámetro JobExecutionSettings de laoperación StartTranscriptionJob para especificar el rol que se va a utilizar.

    Las p