À son tour, xAI introduit un modèle d'IA multimodal. Une première génération incarnée par Grok-1.5 Vision alias Grok-1.5V. Pour le moment en preview, ce grand modèle de langage multimodal débarque seulement quelques jours après Grok 1.5.

" En plus de ses puissantes capacités de texte, Grok (ndlr : le chatbot d'IA générative) peut désormais traiter une grande variété d'informations visuelles, notamment des documents, des diagrammes, des graphiques, des captures d'écran et des photos ", écrit l'entreprise d'IA fondée par Elon Musk.

Des exemples mis en avant sont la transformation d'un organigramme présenté sur un tableau blanc en code python, la conversion d'un tableau en un fichier au format CSV, la génération d'une petite histoire à partir d'un dessin d'enfant, l'identification de l'objet le plus grand parmi plusieurs objets d'une photo.

xAI sort son benchmark pour briller

xAI propose une comparaison des résultats sur différents benchmarks entre Grok-1.5V et d'autres modèles de langage multimodaux : GPT-4V (OpenAI), Claude 3 Sonnet et Claude 3 Opus (Anthropic), Gemini Pro 1.5 (Google).

Grok 1.5V se classerait premier sur TextVQA (Text-based Visual Question Answering ; raisonner visuellement à partir de texte dans des images) et MathVista (raisonner mathématiquement dans des contextes visuels), mais serait toutefois légèrement décroché sur DocVQA (répondre à des questions sur des images de documents).

xai-grok-1-5-vision-benchmarks

Avec RealWorldQA et pour une évaluation de la compréhension spatiale du monde réel, Grok-1.5V est largement placé en tête. En soulignant que ce nouveau benchmark a été conçu… par xAI qui le met à disposition de la communauté.

" La version initiale de RealWorldQA comprend plus de 700 images, avec une question et une réponse facilement vérifiable pour chaque image. Le jeu de données est constitué d'images anonymisées prises sur des véhicules, ainsi que d'autres images du monde réel. "

Bientôt pour les utilisateurs de Grok

Si xAI indique que Grok-1.5V sera bientôt disponible pour de premiers testeurs et les utilisateurs actuels de Grok, aucun calendrier précis de déploiement n'est cependant mentionné.

Au cours des prochains mois, l'évolution des capacités multimodales de Grok est promise en matière d'audio et de vidéo.

N.B. : Source images : xAI.