Módulo 1: guia de preparação
MÓDULO DE APRENDIZADO
Visão geral
O selo Amazon Textract e workloads .NET demonstra proficiência com o serviço Amazon Textract e workloads .NET. Este guia de preparação explica o que você precisa saber para passar na avaliação, tópico por tópico, com recursos que você pode revisar. Você também deve ter experiência prática no uso do serviço, seja com suas próprias aplicações, seja com um tutorial da AWS.
Depois de se preparar, avance para o Módulo 2 para fazer o exame de avaliação.
Objetivo
O Textract é um serviço de machine learning (ML) que extrai automaticamente textos, manuscritos e dados de documentos digitalizados, como PDFs e imagens. Esse recurso vai além do simples reconhecimento óptico de caracteres (OCR) para identificar, entender e extrair dados de formulários e tabelas. O Textract usa o machine learning para ler e processar qualquer tipo de documento, extraindo com precisão textos, manuscritos, tabelas e outros dados sem esforço manual.
Vídeo: What is Amazon Textract?
Benefícios
Com o Textract, você pode obter esses benefícios:
- Promover maior eficiência nos negócios e tomada de decisões mais rápida, reduzindo os custos.
- Extrair informações importantes com alta precisão de praticamente qualquer documento.
- Aumentar ou reduzir verticalmente a escala do pipeline de processamento de documentos para se adaptar rapidamente às demandas do mercado.
- Automatizar o processamento de dados com segurança com padrões de privacidade, criptografia e conformidade de dados.
Recursos
Os recursos do Textract incluem:
- Integração da detecção de texto de documentos em suas aplicações. O Textract elimina a complexidade da criação de recursos de detecção de texto em suas aplicações, disponibilizando uma análise avançada e precisa com uma API simples.
- Análise de documentos escalável: o Textract permite que você analise e extraia dados rapidamente de milhões de documentos, o que pode acelerar a tomada de decisões.
- Vários idiomas. O Textract é compatível com inglês, espanhol, alemão, italiano, francês e português.
- Vários formatos de documentos. O Textract pode processar documentos em PDF, TIFF, JPEG e PNG.
Definição de preço
Você deve estar familiarizado com o modelo de definição de preço e o nível gratuito do Amazon Textract. Com o Textract, você paga apenas pelo que usa. Não há taxas mínimas nem compromissos antecipados. O Textract cobra apenas pelas páginas processadas, independentemente de você extrair texto, texto com tabelas, dados de formulários, consultas ou processar faturas e documentos de identidade.
- Taxas variáveis por API. O Textract contém 5 APIs (Detect Document Text, Analyze Document, Analyze Expense, Analyze ID, Analyze Lending), cada uma com taxas específicas cobradas por 1.000 páginas.
- As tarifas podem variar entre as regiões da AWS.
- Você paga uma taxa reduzida depois de atingir um limite mensal. Ao atingir o limite mensal de uma API, você paga uma tarifa mais baixa pelo restante do mês. Por exemplo, a API Detect Document cobra menos após seu primeiro milhão de documentos em um mês. Os limites e as taxas são diferentes para cada API.
- O nível gratuito da AWS dura 3 meses e oferece um número variável de páginas gratuitas por API. Por exemplo, você recebe 1.000 páginas/mês gratuitamente para a API Detect Document Text e 100 páginas/mês para a API Analyze Expense.
- Você pode usar a Calculadora de Preços da AWS na página de preços para estimar seus custos.
Casos de uso
Veja a seguir os casos de uso comuns do Amazon Textract:
- Criar um índice de pesquisa inteligente. Com o Textract, você pode criar bibliotecas de texto detectado em arquivos de imagem e PDF.
- Usar a extração inteligente de texto para processamento de linguagem natural (PLN). O Textract oferece controle sobre como o texto é agrupado como uma entrada para aplicações de PNL. Ele pode extrair texto na forma de palavras e linhas. Ele também agrupa o texto por células da tabela se a análise da tabela de documentos estiver ativada.
- Acelerar a captura e a normalização de dados de diferentes fontes. O Textract permite a extração de dados de texto e tabulares de uma ampla variedade de documentos, como documentos financeiros, relatórios de pesquisa e notas médicas.
- Automatizar a captura de dados de formulários. O Textract permite que dados estruturados sejam extraídos de formulários. Com as APIs, é possível criar recursos de extração em fluxos de trabalho comerciais existentes para que os dados do usuário enviados por meio de formulários possam ser extraídos em um formato utilizável.
- Automatizar a classificação e a extração de documentos. Com a API de processamento de documentos Analyze Lending do Textract, você pode automatizar a classificação de documentos do Lending em várias classes de documentos e, em seguida, encaminhar automaticamente as páginas classificadas para a operação de análise correta para processamento adicional.
Os casos de uso do Textract no setor incluem o seguinte.
- Serviços financeiros: extraia com precisão dados críticos de negócios, como taxas de hipoteca, nomes de candidatos e totais de faturas em uma variedade de formulários financeiros para processar solicitações de empréstimos e hipotecas em minutos.
- Saúde e ciências biológicas: atenda melhor seus pacientes e seguradoras extraindo dados importantes de pacientes de formulários de registro de saúde, pedidos de seguro e formulários de pré-autorização. Mantenha os dados organizados e em seu contexto original e elimine a revisão manual do conteúdo gerado.
- Setor público: extraia facilmente dados relevantes de formulários relacionados ao governo, como empréstimos para pequenas empresas, declarações de impostos federais ou aplicações comerciais com alto grau de precisão.
Guia do desenvolvedor - What is Amazon Textract?
Página de detalhes do produto Amazon Textract - Casos de uso
Recursos
Você deve entender esses recursos:
1. Reconhecimento óptico de caracteres. O Amazon Textract usa a tecnologia de reconhecimento óptico de caracteres (OCR) para detectar automaticamente texto impresso, manuscritos e números na digitalização ou renderização de um documento, como um documento legal ou a digitalização de um livro.
Guia do desenvolvedor - Detecting Text
2.Analyze Lending. A API Analyze Lending do Textract é uma API de processamento pré-configurado, inteligente e gerenciado de documentos que automatiza totalmente a extração de informações de pacotes de empréstimos. Basta fazer o upload de documentos de empréstimos hipotecários para a API Analyze Lending e seus modelos pré-criados de machine learning classificarão e dividirão o pacote de documentos por tipo de documento.
Guia do desenvolvedor - Analyze Lending
3. Extração de formulários. É possível detectar pares de chave-valor nas imagens de um documento e reter o contexto sem intervenção manual. Um par de chave-valor é um conjunto de itens de dados vinculados. Por exemplo, em um documento, o campo “Nome” é a chave e “Jane” é o valor. Isso faz com que seja fácil importar os dados extraídos para um banco de dados ou fornecê-los como uma variável em uma aplicação.
Guia do desenvolvedor - Analyzing Documents - Extração de formulários
4. Extração de tabelas. O Textract preserva a composição dos dados armazenados nas tabelas durante a extração. Isso é útil para documentos compostos majoritariamente por dados estruturados, como relatórios financeiros ou registros médicos com tabelas em colunas e linhas. É possível carregar os dados extraídos em um banco de dados usando um esquema predefinido. Por exemplo, as linhas de números e quantidades de itens em um relatório de inventário reterão a associação para que uma aplicação de gerenciamento de inventário possa facilmente incrementar os totais do item.
Guia do desenvolvedor - Tables
5. Detecção de assinatura. O Textract oferece a capacidade de detectar assinaturas em qualquer documento ou imagem. Isso facilita a detecção automática de assinaturas em documentos como cheques, formulários de solicitação de empréstimos e declarações. A localização das assinaturas e pontuações de confiança associadas estão incluídas na resposta da API.
Guia do desenvolvedor - Analyzing Documents - Assinaturas
6. Extração baseada em queries. O Textract oferece a flexibilidade de especificar os dados que você precisa extrair dos documentos usando queries. É possível especificar as informações necessárias na forma de perguntas em linguagem natural (por exemplo, “Qual é o nome do cliente”) e receber as informações exatas (por exemplo, “João da Silva”) como parte da resposta da API. Não é necessário conhecer a estrutura dos dados no documento (tabela, formulário, campo implícito, dados aninhados) ou preocupar-se com as variações entre versões e formatos do documento. As queries do Textract são treinadas previamente em uma grande variedade de documentos, inclusive holerites, extratos bancários, formulários W-2, formulários de solicitação de empréstimo, letras hipotecárias, documentos de sinistros e cartões de seguros. A flexibilidade oferecida pelas queries do Textract reduz a necessidade de implementar pós-processamento, dependência de revisões manuais dos dados extraídos ou a necessidade de treinar modelos de ML. A extração de queries só está disponível na detecção de documentos em inglês.
Guia do desenvolvedor - Analyzing Documents - Queries
7. Reconhecimento de manuscritos: muitos documentos, como formulários médicos de admissão e candidaturas de emprego, incluem texto manuscrito e impresso. O Amazon Textract pode extrair ambos os textos a partir de documentos em inglês com altas taxas de confiabilidade, seja texto escrito sem formatação ou em tabelas. Os documentos também podem conter uma mistura de texto digitado e manuscrito.
Guia do desenvolvedor - What is Amazon Textract?
8. Faturas e recibos. Faturas e recibos podem ter uma grande variedade de formatos, o que dificulta e aumenta o tempo para extrair manualmente dados em escala. O Amazon Textract usa machine learning (ML) para compreender o contexto das faturas e recibos e extrai automaticamente os dados relevantes, como o nome do vendedor, número da fatura, preço dos itens, valor total e modo de pagamento. Quando você envia uma fatura ou um recibo para a API AnalyzeExpense, ela retorna uma série de objetos ExpenseDocument. Cada ExpenseDocument é ainda segregada em LineItemGroups e SummaryFields.
Guia do desenvolvedor - Análise de faturas e recibos
Objetos de resposta de faturas e recibos
9. Documentos de identidade. O Textract usa machine learning (ML) para compreender o contexto dos documentos de identidade, como o passaporte e a carteira de habilitação dos EUA, sem a necessidade de recorrer a modelos ou configuração. Você pode extrair automaticamente informações específicas como a data de vencimento ou a data de nascimento, além de identificar e extrair de forma inteligente as informações implícitas, como nome e endereço. Ao usar a Analyze ID, negócios que oferecem serviços de verificação de identidade, e aqueles das áreas de finanças, saúde e seguros, podem automatizar facilmente a criação de contas, agendamento de compromissos, candidaturas a emprego, e muito mais, ao permitir que os clientes enviem uma foto ou digitalização do documento de identidade.
Guia do desenvolvedor - Análise de documentos de identidade
10. Fluxo de trabalho integrado de revisão humana. O Textract está integrado diretamente com o Amazon Augmented AI (Amazon A2I) para que seja possível implementar facilmente a análise humana de texto impresso e manuscrito extraído de documentos. Escolha o limite de confiança da aplicação, e todas as previsões com confiança abaixo do limite são enviadas automaticamente para a análise revisão para validação. Também é possível especificar quais pares valor-chave devem ser enviados para revisão humana e configurar o A2I para enviar os documentos selecionados aleatoriamente para revisão.
AWS SDK para .NET
Use o AWS SDK para .NET para interagir com o Textract a partir do código .NET. Você deve conhecer as principais classes e métodos do SDK usados para comportar os recursos listados acima em Recursos.
- Para usar o SDK, adicione o pacote AWSSDK.Textract do NuGet ao seu projeto em C#.
- Para trabalhar com o Textract, instancie uma instância do AmazonTextractClient e chame seus métodos.
- Alguns métodos do SDK, com nomes terminados em Async, são chamados de forma assíncrona com a palavra-chave C# await.
- Use o padrão padrão do SDK de criar objetos de solicitação para passar para métodos e processar os objetos de resposta retornados. A documentação do SDK para um método descreve seus objetos de solicitação e resposta. O objeto de solicitação e resposta tem o mesmo nome raiz do método que eles comportam. Por exemplo, os objetos de solicitação e resposta do método detectDocumentTextAsync são chamados de DetectDocumentTextRequest e DetectDocumentTextResponse.
using (var textractClient = new AmazonTextractClient(RegionEndpoint.USEast1))
{
var bytes = File.ReadAllBytes("example.png");
Console.WriteLine("Detect Document Text");
var detectResponse = await textractClient.DetectDocumentTextAsync(new DetectDocumentTextRequest
{
Document = new Document
{
Bytes = new MemoryStream(bytes)
}
});
foreach (var block in detectResponse.Blocks)
{
Console.WriteLine($"Type {block.BlockType}, Text: {block.Text}");
}
}
Operações síncronas e assíncronas
As operações do Textract são agrupadas nos tipos “síncronas” e “assíncronas”. Isso não tem relação com os métodos assíncronos do C#.
- Operações “síncronas” retornam resultados quase em tempo real. A função delas é detectar e analisar texto em documentos de uma única página.
- As operações “assíncronas” são executadas em segundo plano. A função delas é o processamento de documentos de várias páginas. Por exemplo, um arquivo PDF com mais de 1.000 páginas leva muito tempo para ser processado, mas o processamento assíncrono do arquivo PDF permite que sua aplicação realize outras tarefas enquanto a operação é concluída. Esses nomes de métodos começam com a palavra “Start”, como StartDocumentAnalysis.
Guia do desenvolvedor - Processamento de documentos com operações síncronas
Guia do desenvolvedor - Processamento de documentos com operações assíncronas
Linhas e palavras de texto
As operações do Textract retornam o texto detectado em uma lista de objetos Block. Esses objetos representam linhas de texto ou palavras textuais que são detectadas em uma página de documento. Uma lista de objetos PAGE, LINE. e WORD é retornada com relacionamentos pai-filho.
Caixas delimitadoras
As operações do Textract retornam a localização e a geometria dos itens encontrados na página de um documento. Todos os dados extraídos são retornados com coordenadas da caixa delimitadora: estruturas de polígonos envolvendo cada parte de dado identificado, como uma palavra, uma linha, uma tabela ou células individuais dentro de uma tabela. Isso ajuda a auditar a origem de uma palavra ou número no documento fonte e orienta o usuário quando os resultados de busca oferecem digitalizações de documentos originais. Por exemplo, ao fazer uma busca em registros médicos por detalhes do histórico do paciente, é possível localizar facilmente o documento fonte e fazer anotações para buscas futuras.
Guia do desenvolvedor - Localização do item em uma página de documento
Limites de confiança ajustáveis
Ao extrair informações de documentos, o Textract retorna uma pontuação de confiança para tudo que ele identifica, o que permite tomar decisões conscientes sobre como usar os resultados. Por exemplo, se uma informação for extraída de registros fiscais e for necessário garantir que ela seja de alta precisão, é possível marcar qualquer item com uma pontuação de confiança abaixo de 95% para que ele seja analisado por um ser humano. É possível definir um limite inferior para outros documentos nos quais os erros têm consequências negativas menores, como no processamento de curriculum ou na digitalização de registros arquivados.
Guia do desenvolvedor - Melhores práticas para o Amazon Textract - Usar as pontuações de confiança
Handling Throttled Calls and Dropped Connections
Uma operação do Textract pode falhar se você exceder o número máximo de transações por segundo (TPS), o que faz com que o serviço restrinja sua aplicação, ou ela pode falhar quando sua conexão cair. Você pode gerenciar o controle de utilização e as conexões interrompidas ao tentar automaticamente a operação novamente. Especifique o número de novas tentativas incluindo o parâmetro Config ao criar o cliente do Amazon Textract. A AWS recomenda uma contagem de novas tentativas de 5. O AWS SDK repete uma operação pelo número especificado de vezes antes de falhar e gerar uma exceção.
Guia do desenvolvedor - Handling Throttled Calls and Dropped Connections
Amazon Textract endpoints and quotas
Cotas
Seu uso do Amazon Textract está sujeito a cotas. Existem dois tipos de cotas:
- As cotas definidas não podem ser alteradas. Isso inclui formatos de arquivo aceitos, tamanho do arquivo e limites de contagem de páginas, limites específicos de PDF, tamanho e rotação da imagem, tamanho dos caracteres, conjunto de caracteres e tipos de ID.
- As cotas padrão podem ser visualizadas ou alteradas por meio do console Service Quotas. As cotas do TPS determinam com que frequência você pode solicitar que o Textract processe um novo documento. O limite de tarefas simultâneas define quantas tarefas podem ser executadas em paralelo em um determinado momento.
Você pode estimar suas necessidades de cotas com a Calculadora de Service Quotas.
Práticas recomendadas
É preciso estar familiarizado com as seguintes práticas recomendadas para o Textract:
- Forneça um documento de entrada ideal: uma imagem de alta qualidade de pelo menos 150 DPI, em um idioma e formato compatíveis com o Textract.
- Use pontuações de confiança. Leve em consideração as pontuações de confiança retornadas pelas operações da API do Textract e a sensibilidade de seu caso de uso. O limite ideal depende da aplicação. Em aplicações que são sensíveis a erros de detecção (falsos positivos), aplique um limite mínimo de pontuação de confiança.
- Considere usar revisão humana. Você pode incorporar a revisão humana em seus fluxos de trabalho. Isso é especialmente importante para aplicações confidenciais, como processos de negócios que envolvem decisões financeiras.
Guia do desenvolvedor - Best Practices for Amazon Textract
Experiência prática
É preciso ter experiência no uso do Textract para extrair textos, manuscritos e dados de documentos. Você pode usar os tutoriais e demonstrações abaixo se não tiver uma aplicação com a qual trabalhar.
Tutoriais
Extract text and structured data (tutorial do console da AWS)
Hello, Textract! (tutorial de codificação)
Exemplos de aplicações
Assistente de conversão de texto em fala da AWS
Vídeos da comunidade
Intro to Textract and .NET 6 - EP01 de Tom Moore
Intro to Textract and .NET 6 - EP02 de Tom Moore
Experiência com a AWS
Iniciante ou intermediário
Experiência com .NET
Intermediário
Tempo para a conclusão
Até 3 horas, dependendo da experiência anterior
Serviços usados
Amazon Textract
Data da última atualização
7 de julho de 2022
Módulos
Este tutorial está dividido nos módulos a seguir. Leia os módulos na íntegra ou dê uma olhada geral, com base na sua experiência e preparação.
- Guia de preparação (3 horas).
- Avaliação de habilidades: avaliar o Amazon Textract e workloads .NET