Yandex ensinou redes neurais a decifrar registros de arquivo com ortografia complexa
Miscelânea / / April 03, 2023
Manuscritos históricos, difíceis de serem analisados por uma pessoa, são quase instantaneamente convertidos por inteligência artificial em texto impresso.
Yandex lançou um novo serviço chamado Archive Search, que usa redes neurais para decifrar registros de arquivo com ortografia pré-revolucionária complexa.
O serviço fornece acesso a mais de 2,5 milhões de páginas de documentos históricos com transcrições de texto. Seu algoritmo, construído com base em um sistema de reconhecimento óptico de caracteres, leva em consideração as peculiaridades da caligrafia, reconhece letras que perderam sua relevância e compreende a estrutura especial dos documentos de arquivo.
Os especialistas da empresa treinaram a rede neural em uma matriz de dados de centenas de milhares de linhas manuscritas de textos reais dos séculos 18 a 19 e dezenas de milhões de exemplos gerados.
Manuscritos difíceis de analisar por uma pessoa despreparada, a tecnologia Yandex quase instantaneamente se transforma em texto impresso. Graças a isso, no banco de dados do serviço, você pode encontrar rapidamente documentos com menção ao sobrenome, localidade ou qualquer outra palavra.
A "pesquisa em arquivos" aumentará a eficiência do trabalho de historiadores, sociólogos, demógrafos, genealogistas e ajudará quem busca informações sobre sua família.
O primeiro fundo apresentado no serviço foi o Arquivo Principal de Moscou - foi em seus materiais que os desenvolvedores treinaram a rede neural. O banco de dados também contém documentos dos arquivos das regiões de Orenburg e Novgorod. Com o tempo, o número de armazenamentos e arquivos digitalizados disponíveis aumentará.
Você pode pesquisar materiais do século 18 ao início do século 20, que são mais populares entre os usuários. São registos paroquiais, folhas de confissão e relatórios de revisão com os resultados do recenseamento da população. Os documentos podem ser encontrados no catálogo ou através da barra de pesquisa. Existem filtros por anos, arquivos, fundos e inventários.
Ao lado da varredura de cada página, é exibida uma decodificação linha a linha feita por redes neurais. Se você passar o mouse sobre o fragmento desejado, ele será imediatamente destacado na cópia digital.