ChatGPT peut-il remplacer ton bilan psychologique ?

Hier, je reçois un message d’un DRH.

« Pierre, on a trouvé un super outil d’évaluation ! C’est une IA qui fait passer des tests de personnalité en 5 minutes. Plus besoin de psychologue, c’est automatisé et ça coûte trois fois rien ! »

😭

Bon alors, comment te dire ?…

On va parler de ce qui sépare un vrai test psychométrique d’un horoscope déguisé en science.

Parce que oui, entre un test validé scientifiquement et un questionnaire pondu par une IA en 30 secondes, il y a le même écart qu’entre un chirurgien et quelqu’un qui a regardé Grey’s Anatomy.

Spoiler : les deux peuvent te faire une incision, mais un seul sait ce qu’il fait.

Alors aujourd’hui, on va faire le ménage dans tout ça.

Pour qu’un test psychométrique soit fiable, il doit respecter 3 critères scientifiques non négociables.

Pas « un peu », pas « à peu près ».
Complètement.

👇

Premier critère : la validité

La validité, c’est simple : est-ce que ton test mesure vraiment ce qu’il prétend mesurer ?

Parce que tu peux créer un questionnaire de 50 questions sur « l’intelligence émotionnelle » en 2 heures sur ChatGPT.
Mais si tes questions mesurent en réalité la capacité à bien paraître en société, t’as juste créé un test de bullshit.

La validité se décline en plusieurs types :

🔹 Validité de contenu : Tes items couvrent-ils vraiment toutes les facettes du concept mesuré ?
Si tu évalues le leadership avec 3 questions sur « aimes-tu diriger ? », c’est mort.

🔹 Validité de construit : Ton test mesure-t-il bien le concept théorique que tu vises ?
Il faut des analyses factorielles, des corrélations avec d’autres outils validés, des études longitudinales.

🔹 Validité prédictive : Tes résultats permettent-ils de prédire des comportements réels ?
Un test d’orientation qui ne prédit pas mieux qu’un tirage au sort, ça sert à rien.

Exemple concret : Un test de « motivation au travail » qui ne corrèle pas avec l’engagement réel des salariés, c’est juste un quiz de magazine féminin version corporate.

Deuxième critère : la fidélité

La fidélité, c’est la stabilité de ton test.

Si tu passes le même test deux fois à une semaine d’intervalle et que tu obtiens des résultats complètement différents, c’est pas un test, c’est une roulette russe psychologique.

La fidélité se mesure de plusieurs façons :

🔹 Cohérence interne : Les items de ton test mesurent-ils tous la même chose ?
On calcule ça avec le coefficient alpha de Cronbach (minimum 0,70 pour être acceptable).

🔹 Stabilité temporelle : Les résultats sont-ils stables dans le temps ?
Un test-retest avec un coefficient de corrélation supérieur à 0,80, c’est le minimum syndical.

🔹 Fidélité inter-juges : Si plusieurs évaluateurs analysent les mêmes réponses, arrivent-ils aux mêmes conclusions ?

Exemple : Tu passes un test de personnalité lundi, il te dit que t’es introverti. Tu le repasses vendredi, il te dit que t’es extraverti. Félicitations, tu viens de perdre ton temps avec un outil aussi fiable qu’un horoscope.

Troisième critère : l’étalonnage

L’étalonnage, c’est ce qui permet de situer tes résultats par rapport à une population de référence.

Sans étalonnage, ton score ne veut strictement rien dire.

Tu obtiens 75/100 à un test d’anxiété ?
C’est beaucoup ? C’est peu ?
Par rapport à qui ? À quoi ?

Un bon étalonnage nécessite :

🔹 Un échantillon représentatif : Minimum plusieurs centaines de personnes, idéalement plusieurs milliers, qui représentent la diversité de la population cible (âge, sexe, CSP, niveau d’études…).

🔹 Des normes actualisées : Un étalonnage de 1985, c’est périmé. Les normes psychologiques évoluent avec la société.

🔹 Des groupes de référence pertinents : Comparer un cadre sup de 45 ans avec des étudiants de 20 ans, ça n’a aucun sens.

Exemple concret : WorkSens Pro, notre test sur le sens au travail, a été étalonné sur plus de 1 200 personnes représentatives de la population active française. Chaque score est situé par rapport à des groupes pertinents. C’est pas du luxe, c’est de la rigueur.

Le piège des tests « IA » ?

Ils zappent allègrement ces trois critères.

L’IA peut générer des questions qui sonnent bien.
Elle peut même analyser des patterns dans les réponses.

Mais elle ne peut pas :
→ Valider scientifiquement un construit théorique
→ Garantir la stabilité temporelle des mesures
→ Créer un étalonnage représentatif

Résultat ? Des outils qui ressemblent à des tests mais qui n’en sont pas.

Des questionnaires qui te donnent l’illusion de la science sans en avoir la substance.

C’est comme la différence entre un diagnostic médical et un quiz BuzzFeed « Quel type de malade es-tu ? ».

Alors la prochaine fois qu’on te propose un « test psychométrique révolutionnaire créé par IA », pose ces 3 questions :

Où sont les études de validité publiées dans des revues scientifiques à comité de lecture ?
Quels sont les coefficients de fidélité (alpha de Cronbach, test-retest) ?
Sur quel échantillon et quand a été réalisé l’étalonnage ?

Si la personne bafouille ou te sort « c’est propriétaire », tu as ta réponse.

Chez Eudonia, on crée des tests psychométriques depuis 20 ans.

Chaque outil respecte ces 3 critères fondamentaux.
Parce qu’on joue pas avec la psychologie des gens.

Un test mal conçu, c’est pas juste « moins bien ».
C’est potentiellement dangereux.

Ça peut orienter quelqu’un vers la mauvaise voie.
Recruter la mauvaise personne.
Passer à côté d’un vrai problème.

La science, c’est pas négociable.

Et toi, le dernier test que t’as passé, il respectait ces critères ?

PS : Si tu veux comprendre comment on construit un vrai test psychométrique, n’hésite pas à me contacter.

❝ L’IA est au cœur des pensées. L’Humain est plus que jamais sollicité. ❞