Il y a beaucoup de tendances dans l’IA génératrice en ce moment. Il y a les modèles de raisonnement comme O3 d’Openai, qui « réfléchissent » à chaque étape d’un problème avant qu’il ne réponde. Il existe également des fonctionnalités de « recherche approfondie » qui peuvent compiler des informations à partir du Web pour générer des rapports pour vous.
Mais peut-être que la tendance qui est la plus « futuriste » de tous est le mode vocal. C’est le futur 2013 Son Promis: un chatbot à qui vous pouvez parler comme n’importe quelle autre personne. Le chatbot ne dit rien de différent de ce qu’il serait si vous discutiez sur du texte; Cependant, il répond dans une voix « réaliste » et « naturelle », ce qui pourrait créer l’illusion que vous parlez à une personne, pas un robot.
Je n’ai jamais trouvé la fonctionnalité particulièrement engageante, même à partir de grands noms comme Chatgpt. La technologie est impressionnante, bien sûr, mais il est toujours douloureusement évident à mon oreille que je parle à un bot. Les entreprises d’IA n’ont pas pu secouer ces bizarreries d’identification, mais cela n’a pas empêché les gens de nouer des « relations » avec les chatbots – même en tombant amoureux d’eux.
Ce qui est plus impressionnant pour moi, c’est le composant « Vision » de la fonctionnalité. Certains chatbots peuvent non seulement vous parler, mais aussi accéder à votre appareil photo pour voir ce que vous voyez et incorporer ces informations dans ses réponses. Chatgpt et Gemini offrent ces fonctionnalités, et maintenant, Grok aussi.
Grok peut voir
Grok est le dernier chatbot pour obtenir cette capacité en mode vocal. Le développeur XAI Ebby Amir a annoncé la fonctionnalité, surnommée « Grok Vision », sur X mardi, notant que Grok Vision prend en charge l’audio multilingue ainsi que la recherche en temps réel. Cependant, ces dernières fonctionnalités sont exclusives aux abonnés de Supergrok.
Ce tweet n’est actuellement pas disponible. Il peut être chargé ou a été supprimé.
La fonctionnalité est déjà en direct de mon côté. Vous pouvez y accéder en appuyant sur l’option de mode vocal existant. Si vous n’avez pas déjà utilisé cette fonctionnalité, vous devrez accorder la permission de Grok pour accéder au microphone de votre appareil. Après cela, vous pourrez commencer à discuter immédiatement.
Cependant, pour accéder à la vision, vous devrez appuyer sur l’icône de la caméra dans le coin inférieur gauche. Ici, permettez à Grok d’accéder à votre appareil photo. Une fois le flux en direct, vous pouvez commencer à demander à Grok ce qu’il voit.
Je ne suis pas très désireux d’envoyer mon flux vidéo en direct directement à XAI, alors j’ai gardé mon téléphone directement sur la table, donc le flux vidéo était tout noir. Grok, à son crédit, a essayé sérieusement de m’aider à résoudre le problème, suggérant qu’il pourrait y avoir quelque chose de mal avec la caméra, ou que mon environnement était trop sombre. Lorsque je l’ai informé que j’avais en fait pris mon téléphone dans l’espace avec moi, il a « ri » et j’ai conclu que cela devait être le problème: « Ha, espace extérieur, hein? Ce flux noir a du sens maintenant – pas de lumière là-bas, et que la caméra n’est probablement pas conçue pour cet environnement. Vous pourriez avoir besoin d’un appareil de qualité spatiale pour obtenir un flux approprié. »
Ceci est la deuxième grande baisse des fonctionnalités pour Grok ce mois-ci. La semaine dernière, XAI a déployé une fonction de mémoire pour le bot, ce qui lui permet d’accéder à des conversations passées pour des réponses plus pertinentes.