De acordo com a PANews, a série Qwen3.5-Omni inclui as versões Plus, Flash e Light, todas com suporte para um contexto de 256k. O modelo consegue processar mais de 10 horas de entrada de áudio e mais de 400 segundos de entrada audiovisual a 720p (1 FPS).
Foi submetido a um extenso pré-treino multimodal com grandes quantidades de texto, dados visuais e mais de 100 milhões de horas de dados audiovisuais, demonstrando capacidades de perceção e geração multimodal excecionais. Comparativamente ao seu antecessor, o Qwen3-Omni,
o modelo Qwen3.5-Omni possui capacidades multilingues significativamente melhoradas, suportando o reconhecimento de voz em 113 línguas e dialetos e a geração de voz em 36 línguas e dialetos.
