J'ai testé Grok 3, et cela ne vaut pas la hausse des prix

J’ai testé Grok 3, et cela ne vaut pas la hausse des prix

Avatar de Maxence

Plus tôt cette semaine, XAI a publié Grok 3, l’IA la plus avancée de l’entreprise, avec un modèle de raisonnement et une fonctionnalité DeepSearch. La société affirme qu’il s’agit de « l’IA la plus intelligente du monde », et Elon lui-même dit que cela « surpasse tout ce qui a été publié » jusqu’à présent. Mais est-ce vraiment le musk « au maximum de la vérité ».

Eh bien, pour le gâter pour vous, non. Pas encore. Ce qui est dommage, car Grok est coûteux – au-delà d’un essai gratuit limité, il nécessite soit un abonnement à 40 € / mois X +, contre 22 € grâce au nouveau modèle, soit à un abonnement Supergrok de 30 € / mois.

À la fois de mes tests ainsi que des expériences d’experts, j’ai du mal à croire que l’IA « basée » vaut ce coût. Il n’y a pas de modèle de raisonnement révolutionnaire ou révolutionnaire que nous n’avons pas déjà vu auparavant ici. Grok 3 hallucine également périodiquement, comme tout autre modèle d’IA, mais cela ne veut pas dire que cela ne s’est pas amélioré.

Dans les propres tests de référence de X, Grok 3 bat essentiellement tous les modèles sauf le prochain modèle O3 d’Openai. Mais du point de vue de l’utilisateur, une application AI va bien au-delà des repères.

Un bon chatbot d’IA est un produit mature et bien équilibré. Après avoir dépensé mon propre argent pour tester cela, je n’ai tout simplement pas l’impression de l’obtenir ici, surtout lorsque la compétition propose des produits similaires ou même meilleurs pour beaucoup moins.

Grok 3 a techniquement rattrapé

Il est préférable de laisser de côté les affirmations bizarres d’Elon lors de l’évaluation de Grok 3. Le voyant objectivement, il est impressionnant que Grok 3 ait rattrapé d’être à la frontière du pouvoir de l’IA, et étonnamment rapidement (Grok 2 n’a jamais été dans les grandes ligues).

Grok 3 a été formé à l’aide de 200 000 GPU NVIDIA H100 et utilise plus de 10 fois le calcul comme Grok 2. Tout ce pouvoir signifie gains. Grok 3 est maintenant assez rapide et très utilisable pour les tâches quotidiennes régulières. Les réponses régulières sont rapides, bien que la fonctionnalité de réflexion (qui donne des réponses légèrement plus détaillées) prend régulièrement environ 2 minutes pour revenir avec une réponse, alors soyez prêt à attendre.

De plus, il peut faire des recherches approfondies en utilisant des sources Web et dispose également d’un modèle de raisonnement spécifique. Cela signifie qu’il peut cracher de longs rapports et décomposer les invites en processus étape par étape afin qu’il puisse se corriger. Le modèle O3 d’Openai, qui se sortira en entier bientôt, dépasse toujours Grok 3 dans les références, mais c’est une amélioration significative par rapport à son prédécesseur.

Mais alors que les graphiques disent que Grok 3 est censé surpasser le chatppt, les gemini et le sonnet dans des tâches lourdes de calcul liées aux mathématiques, aux sciences et au codage, les rapports initiaux des experts n’encouragent pas exactement la confiance.

Par exemple, x utilisateur, PDG de l’IA et Youtuber Theo Browne a comparé les réponses à un défi de codage entre Grok 3, O3-Mini et Claude 3.5 Sonnet, et Grok 3 a mis en œuvre assez misérablement, en ne fonctionnant pas sans bugs pendant plus de quelques secondes .

Andrej Karpathy, auparavant directeur de l’IA à Tesla, a déclaré à l’inverse que Grok 3 avait assez bien fonctionné dans ses tests, mais que ses compétences se trouvaient quelque part entre Deepseek R1 et O1-Pro d’Openai. Certainement pas la tête de classe, et rien que vous ne pouvez pas déjà faire avec les outils existants.

Mais un test, même quelques-uns d’entre eux, ne peut pas vraiment déterminer comment un modèle d’IA fonctionne. J’ai eu de la chance moi-même, mais surtout pour des tâches plus légères. Il peut être utile lors de la recherche de quel nouveau purificateur d’air acheter, par exemple, ou lorsqu’il apprend avec désinvolture un nouveau sujet. Mais ce n’est pas exactement quelque chose pour lequel je suis prêt à ouvrir mon portefeuille.

Grok n’est pas « basé », c’est en fait assez ennuyeux

Avant le lancement de Grok 3, Musk a fait un gros problème sur la façon dont il est « basé ». Si vous ne savez pas ce que signifie ce que signifie (chanceux), c’est un terme d’argot pour, essentiellement, partager votre opinion sans égard pour les autres. À titre d’exemple, Musk a partagé une capture d’écran montrant une réponse provocante de Grok où elle a appelé la publication technologique les informations « poubelles », entre autres insultes.

Mais quand j’ai posé la même question, il est revenu avec une réponse nuancée et équilibrée, sans appeler les informations pour une grande partie de quoi que ce soit. La seule critique que cela a eu était que le site Web « peut parfois ressentir un peu de niche ou trop centré sur la Silicon Valley » et « en termes de biais, il penche pragmatique plutôt qu’idéologique ». C’est une prise assez timide, si vous me demandez.

J’ai obtenu des résultats similaires dans d’autres tests. Grok ne prendrait pas de côté dans le procès Justin Baldoni contre Blake Lively. Et quand j’ai posé une question politique comme « Pourquoi Kamala Harris a-t-elle perdu l’élection présidentielle américaine », j’ai obtenu une réponse tout aussi modérée, citant des « frustrations économiques ». Les rapports d’Axios correspondent également à ce que j’ai trouvé.

Peut-être que Grok récompense les excentricités d’Elon est une bonne chose, mais ce n’est certainement pas ce que son maître dit est.

En ce qui concerne DeepSearch, l’outil de génération de rapport de Grok fonctionne de la même manière que la fonctionnalité de recherche approfondie, principalement gratuite de perplexity. En tant qu’humble journaliste technologique, c’est quelque chose que j’ai pu me tester. J’ai dirigé deux requêtes, une pour un voyage que ma famille prévoit pour la fin de l’année, et une pour un vélo hybride urbain.

Dans les deux cas, Perplexity Ai a fait un peu mieux que Grok sur la plupart des tâches. Avec la question de voyage, j’ai obtenu essentiellement le même itinéraire des deux produits, mais Perplexity Ai a fait un meilleur travail à la mise en forme.

Grok est allé au-delà de la recommandation d’autres options dans le sud de l’Inde, ce que la perplexité vient de fournir des questions de suivi. Donc, je dois lui donner des accessoires là-bas.

En ce qui concerne les recherches sur le shopping, cependant, Grok a foiré la recommandation du produit supérieur. Le produit qu’il a suggéré n’est tout simplement pas disponible en Inde, où j’habite, et les autres options ne veulent tout simplement pas que je cherchais.

Perplexity IA, en attendant, m’a surpris avec son premier choix, quelque chose que je ne savais pas à ce sujet qui vérifie la plupart de mes boîtes. Ses autres options étaient également intéressantes, et il n’incluait rien qui n’est pas disponible en Inde. Grok et Perplexity ont fait un bon travail pour expliquer ce que je devrais rechercher lors de l’achat d’un vélo urbain, donc des points égaux là-bas, mais ce dernier était juste beaucoup plus utilisable.

Sur la base de mes tests, j’ai l’impression que la perplexité AI a toujours un avantage sur Grok 3 en ce qui concerne les recherches approfondies qui sont réellement utiles à la personne moyenne. Qu’il s’agisse d’un voyage, d’une recherche de shopping ou d’une compréhension des nouvelles ou des concepts, la perplexité fait un travail plus nuancé. En ce qui concerne la vitesse pure, Grok est plus rapide et n’a pas peur de fournir des liens dans le texte lui-même, mais dans la perplexité, cliquer sur le texte lié se développe en fait sur le sujet dans le rapport.

Perplexity a également plus d’options d’exportation. Vous pouvez télécharger votre rapport en tant que PDF, dans Markdown ou créer une page partageable (voici mon rapport pour la recherche sur le cycle urbain si vous êtes intéressé). Dans Grok, tout ce que vous pouvez faire est de copier le texte.

Qu’est-ce que tout cela signifie? Eh bien, bien que Grok soit certainement utilisable, il est un peu décevant de voir que son offre payante ne parvient pas à suivre une alternative gratuite. C’est quelque chose que je pense que je continue de tomber ici.

Grok 3 ne vaut pas le prix d’entrée

À l’heure actuelle, nous sommes au milieu du cycle de battage médiatique de Grok 3. Grok 3 lui-même s’améliore tous les jours, mais comme les choses se trouvent, il n’est pas nécessaire que vous manquiez et annulez vos abonnements Chatgpt Plus ou Perplexity Pro. À bien des égards, Grok est bon, mais pas que bien.

Si vous le souhaitez, vous pouvez essayer temporairement Grok 3 gratuitement, car X permet un accès gratuit limité jusqu’à ce que ses serveurs ne puissent pas gérer la charge. Quand cette période se terminera? Qui sait. Selon le compte X de Musk, il ne sera gratuit que pour un « court laps de temps ».

De plus, à part les performances du modèle, Grok 3 manque également certaines des caractéristiques d’une application AI plus établie. Il n’y a pas de mode vocal, et tout ce à quoi vous avez accès en ce moment est le modèle complet Grok 3. Le plus rapide Grok 3 Mini est encore à libérer, et il n’y a pas non plus API pour Grok 3.

Lorsque vous considérez le prix de l’accès complet, Grok 3 est encore moins logique. 40 € par mois pour le plan X Premium + est le double de la norme de l’industrie de 20 € pour Gemini Advanced, Chatgpt Plus et Perplexity Pro. Et une fois cette période d’essai gratuite terminée, le plan X-Premium + coûteux sera le seul moyen d’accéder à Grok 3 jusqu’à ce que l’abonnement de Supergrok à 30 € soit mis en ligne pour tout le monde (le plan Supergrok ne vous donne qu’un accès à Grok 3, mais aucune de la prime X fonctionnalités).

Et en l’état, vous n’obtenez pas vraiment le double de l’argent. En fait, dans de nombreux cas, vous pouvez obtenir en utilisant un modèle gratuit comme Deepseek R1 à la place (cependant, vous pourriez avoir une meilleure expérience de l’utiliser via une application tierce).

Total
0
Shares
Previous Post
«Batman Ninja contre Yakuza League» révèle un nouveau Joker & amp; Affiche de Harley Quinn et les fans l'aiment
Avatar de Maxence

«Batman Ninja contre Yakuza League» révèle un nouveau Joker & amp; Affiche de Harley Quinn et les fans l’aiment

Next Post
Téléchargez vos livres Kindle pendant que vous le pouvez encore
Avatar de Maxence

Téléchargez vos livres Kindle pendant que vous le pouvez encore

Related Posts