Os investigadores da Apple desenvolveram um sistema de inteligência artificial (IA) chamado ReALM (Reference Resolution as Language Modeling) que visa melhorar a forma como os assistentes de voz entendem e respondem aos comandos.
O novo sistema tem como objetivo capacitar a IA a conseguir ler e compreender o contexto do que o utilizador vê no seu ecrã, permitindo uma interação mais simples e eficaz com o sistema ao poupar ao utilizador a tarefa de descrever, em texto ou em voz, o que está a visualizar.
A nova ferramenta da Apple compreende referências ambíguas no ecrã, bem como contextos de conversação, permitindo interações mais naturais com assistentes de voz, de acordo com a tecnológica.
O ReALM baseia-se em grandes modelos de linguagem para converter tarefas complexas de referência -incluindo a compreensão de referências a elementos visuais num ecrã – a resolução num problema de modelagem de linguagem pura. Isto permite que o sistema ofereça benefícios significativos de desempenho em comparação com os métodos existentes.
“Ser capaz de compreender o contexto, incluindo referências, é essencial para uma assistente de conversação”, explicaram os investigadores da Apple. “Permitir que o utilizador faça perguntas sobre o que vê no ecrã é uma etapa crucial para garantir uma verdadeira experiência natural com assistentes de voz”, acrescentam.
Este anúncio vem reforçar a estratégia da tecnológica em continuar a investir no setor da inteligência artificial, de forma a tornar sistemas como a Siri em ferramentas mais sensíveis ao contexto. De acordo com os investigadores, “o nosso modelo supera substancialmente o desempenho do GPT-4”.
Apesar disso, os investigadores admitem existir ainda algumas limitações nesta tecnologia, nomeadamente no que toca a referências visuais mais complexas como a distinção de várias imagens.
De acordo com Tim Cook, CEO da Apple, “estamos entusiasmados em partilhar os detalhes do nosso trabalho contínuo em IA ainda este ano”.