Google introduziu a rede neural Imagen
Miscelânea / / May 24, 2022
E faz isso pelo menos tão bem quanto DALL-E 2.
Google anunciado Imagen é uma rede neural que converte uma consulta de texto em imagens. É um concorrente direto DALL-E2 do OpenAI - que funciona ainda melhor em alguns cenários.
Para reconhecer uma consulta de texto, a rede neural usa grandes modelos de linguagem - algoritmos de processamento de fala natural como GPT-3 também são baseados neles.
O sistema funciona em três etapas. O primeiro desenha uma pequena imagem de 64 x 64 pixels, que é refinada até que a rede neural possa alterá-la para melhor corresponder à solicitação original. A imagem é então dimensionada para 256 x 256 pixels e o Imagen refina os detalhes. Na terceira etapa, a mesma coisa já é repetida com a tela do tamanho final - 1024 x 1024 pixels.
O texto do estudo observa que o Imagen lida com a compreensão de consultas complexas melhor do que o DALL-E 2. Por exemplo, para a consulta “Panda faz latte art”, DALL-E 2 retornou exclusivamente latte art com pandas, enquanto a rede neural do Google conseguiu produzir resultados principalmente corretos:
Mas o Google também admite que nenhuma dessas redes neurais poderia lidar com a consulta “astronauta andando a cavalo”: ambas teimosamente colocam o astronauta no cavalo, e não vice-versa. Ambos obviamente têm espaço para crescer.
Os resultados da avaliação do visualizador independente mostram que o Imagen supera o DALL-E 2 em termos de precisão e relevância. E embora essa comparação possa ser considerada subjetiva, tais resultados ainda são impressionantes, visto que DALL-E 2 até agora tem sido um ideal inatingível que outras redes neurais de natureza semelhante não poderiam igualar. destino.
De qualquer forma, o Imagen continua sendo um projeto experimental por enquanto, ao qual usuários comuns não podem acessar. Não está claro quanto tempo levará até que o Google crie um serviço de acesso aberto baseado nele.
Leia também🧐
- Nova rede neural Paint Transformer transforma uma foto em um objeto de pintura
- Polaroid do futuro: a nova rede neural da NVIDIA transforma imagens 2D em modelos 3D
- A Sber lançou a rede neural ruDALL-E, que gera imagens de acordo com a descrição
Melhor oferta da semana: descontos no AliExpress, Lamoda, Mixit e outras lojas