merged · bêta fermée · 2026

La pré-sélection technique — sans entretien.

Fini Leetcode : un seul exercice calibré dans un vrai dépôt. Le candidat ouvre une pull request. Le système évalue tout automatiquement : tests, périmètre des changements, qualité des commits, réponses à la revue.

pour les équipes RH

~2 minpour évaluer une PR
87 %précision de la grille
0 hde temps Senior
pull request · #42open
@@ src/billing/invoice.ts @@
   const amount = base * qty;
−  const tax = amount * 0.2;
+  const tax = calcTax(amount, country);

+  // edge case: UA VAT exemption
+  if (country === 'UA' && isExempt(plan)) {
+    return amount;
+  }
   return amount + tax;
testsCI au vert87/87
diffPérimètre du diff3 fichiers, +24 −4
llmGrille (LLM juge)4.6 / 5.0
senior · legacy-invoicePASS

Problème

Les entretiens techniques sont cassés. Tout le monde le sait, personne ne change rien.

Leetcode mesure la préparation à Leetcode. System design — l'art de dessiner des boîtes. Behavioral — celui de raconter des histoires STAR. Aucun ne montre comment une personne travaille réellement au quotidien.

Et en 2026, même cette illusion de signal s'est effondrée : Copilot et Cursor bouclent l'exercice classique en 10 minutes. Pendant ce temps, vos Seniors enchaînent des dizaines d'appels de pré-sélection par mois et voient leur temps partir en fumée.

MéthodeCoût
Pré-sélection Leetcode2–4 h / candidat
Entretien System design1–2 h / candidat
Behavioral (STAR)1 h / candidat
Pré-sélection PR merged~2 min, en automatique

* Coût estimé pour la pré-sélection d'un candidat, temps d'ingénieur inclus

Comment ça marche

Quatre étapes. Zéro heure d'ingénieur.

  1. 01
    30 s
    pour configurer

    Le recruteur attribue un exercice

    Depuis le catalogue, selon le niveau du candidat (Junior / Middle / Senior) et votre stack. Sans appel, sans whiteboard. 30 secondes dans le portail.

  2. 02
    45–120 min
    temps candidat

    Le candidat ouvre une pull request

    Il récupère un dépôt privé avec un contexte réel. L'IA est autorisée — les exercices sont conçus pour qu'elle soit nécessaire, mais jamais suffisante.

  3. 03
    ~2 min
    après soumission

    Le système évalue automatiquement

    Tests CI, périmètre du diff, qualité des commits, réponses à la revue automatique. Un LLM juge relit l'intégralité de la PR selon une grille structurée.

  4. 04
    immédiat
    rapport disponible

    Le recruteur reçoit un rapport classé

    Scores par critère, lien vers la PR, points forts et points faibles. Il ne reste qu'un entretien final avec l'équipe, centré sur le fit culturel.

Niveaux

L'exercice se calibre sur le niveau visé.

Notre vrai moat, c'est la conception des exercices. Nous ne luttons pas contre l'IA : nous faisons simplement en sorte que, sans compréhension du système, elle se réduise à une machine à écrire. Chaque exercice est calibré à la main, sur de vrais candidats.

Junior
45 min

Ajoutez une fonctionnalité dans un dépôt propre

Un petit projet avec ses propres conventions. Il faut lire le README, ne rien casser au passage, écrire un test. Cursor y arrive — nous écartons ceux qui n'y arrivent pas, même avec lui.

Signaux clés

  • Lit les consignes30%
  • Ne casse pas l'existant40%
  • Écrit un test30%
Score attendu2.0–3.5 / 5.0
Middle
90 min

Reproduisez un bug et corrigez-le

Un dépôt plus gros, un énoncé volontairement flou : « les utilisateurs signalent que Y se comporte bizarrement dans le cas Z ». L'IA ne sait pas quoi corriger — il faut remonter à la cause.

Signaux clés

  • Décomposition35%
  • Choix du niveau de correction35%
  • Justification dans la PR30%
Score attendu3.0–4.5 / 5.0
Senior
120 min

Du legacy avec dette architecturale

L'exercice : « livrez la fonctionnalité de manière à pouvoir l'étendre à W dans six mois, sans tout réécrire ». Design doc obligatoire dans la PR — l'IA écrira le code, mais ne prendra pas les décisions à la place de l'humain.

Signaux clés

  • Trade-offs40%
  • Extensibilité35%
  • Qualité du rationale25%
Score attendu3.5–5.0 / 5.0
NOTE

L'IA est autorisée, et même attendue. Une solution Claude « à l'aveugle » plafonne à 30–40 / 100 : les tests cassent sur les edge cases, la description de PR est vide, les commits se résument à un gros blob. La grille mesure la compréhension du système, pas le fait d'avoir écrit du code.

Ce que nous mesurons vraiment

Un « CI vert », c'est seulement 20 % du signal.

Les 80 % restants, c'est ce qu'un LLM juge, armé d'une grille structurée, fait mieux qu'un intervieweur humain : il lit toute la PR, la description, l'historique des commits, les réponses aux commentaires. Sans fatigue, sans biais.

45%
CI automatique
55%
LLM juge
Poids de la grille100 % au total
CI automatique
  • Tests au vert
    Déterministe, sans biais d'échantillonnage
    20%
  • Périmètre et taille du diff
    Changements minimaux, sans retouches superflues
    15%
  • Qualité des commits
    Atomic commits, Conventional Commits
    10%
LLM juge
  • Rationale dans la description de PR
    Le « pourquoi » est-il explicité, pas seulement le « quoi » ?
    20%
  • Décomposition de l'exercice
    Cheminement de pensée, étapes de résolution
    20%
  • Trade-offs et architecture
    Alternatives envisagées, choix assumé
    15%

* Les poids se règlent au niveau du template d'exercice

Pour qui

Le développeur est l'utilisateur. Le Hiring Manager est le payeur.

Chaque rôle y trouve son compte : le développeur, une évaluation asynchrone et honnête, sans live-coding ; le manager, du temps rendu à son équipe et une short-list finale de meilleure qualité.

Développeurs

0
live-coding caméra allumée
~2 min
de la soumission au rapport
  • Vous ne codez pas sous pression en 45 minutes : vous prenez l'exercice et avancez à votre rythme.
  • L'assistant IA n'est pas interdit, il est attendu. Votre Cursor / Claude / Copilot habituel reste branché.
  • Vous voyez la grille avant de commencer : ce qui est évalué, les signaux qui comptent. Aucun « vibe check ».

Responsables ingénierie

40+ h
rendues à l'équipe chaque mois
1
réunion au lieu de 4 à 6 rounds
  • Votre équipe ne brûle plus 40 heures par mois en appels de pré-sélection.
  • La décision, en réunion finale, porte sur la personne — plus sur ses bases techniques.
  • Vous voyez comment le candidat réfléchit et justifie ses choix, pas seulement ce qu'il a livré.

Les objections, franchement

Cinq choses que vous êtes en train de vous dire.

01Résistance à l'IA
Et si le candidat se contente de refiler l'exercice à Claude ?
Qu'il le fasse. Les exercices sont conçus pour qu'une solution IA « à l'aveugle » plafonne à 30–40 / 100 : les tests cassent sur les edge cases, la description de PR est vide, les commits se résument à un seul gros blob, les réponses à la revue automatique restent génériques. Nous ne mesurons pas « il a écrit du code », mais « il a compris le système ».
02Sécurité
Vos exercices vont fuiter sur internet et dans les données d'entraînement des modèles.
Chaque exercice est paramétré : un seul template génère des dizaines de variantes, avec des seeds, des noms et des accents d'exigences différents. Une solution publique pour une version précise ne passera pas les autres. À cela s'ajoute une option d'exercices privés, sur votre propre code, pour le plan enterprise.
03Format
Un Senior ne fera jamais un devoir à la maison de trois heures.
Nous sommes d'accord. Pour les Seniors, un autre format : session en binôme de 45 minutes. Il partage son écran, résout avec l'IA, le système capte la télémétrie (temps de réflexion, recherches, réécritures). Ça tient dans un calendrier, et ça mesure bien plus qu'un entretien classique.
04Processus
Ça ne remplace pas l'entretien final avec l'équipe ?
Nous ne supprimons pas l'entretien. Nous supprimons l'étape où vous engloutissez 40 heures d'ingénieur à filtrer des personnes qui, tout simplement, ne savent pas programmer. Le fit culturel et la question « ai-je envie de travailler 5 ans avec cette personne ? » restent, eux, en rendez-vous humain.
05Concurrents
En quoi c'est mieux que HackerRank / CodeSignal / Codility ?
Eux mesurent du Leetcode, en 2026. Nous mesurons du vrai travail : une PR dans un vrai dépôt, avec un vrai contexte, évaluée à la grille par un LLM juge. Ce n'est plus la même catégorie de produit — c'est du work-sample assessment pour l'ère de l'IA.

Blog

Essais sur le recrutement à l'ère de l'IA.

Pratique de la pré-sélection, grilles de LLM juge, rapports ouverts de la bêta fermée, guides pour recruteurs et candidats — sans marketing et sans « book a demo ».

Tous les articles

Démo

Voyons ce que ça donne sur votre stack.

15 minutes. Vous nous dites qui vous recrutez. Nous vous montrons à quoi ressemblerait la pré-sélection avec merged, à la place des appels. Des exemples d'exercices sur votre stack atterrissent dans votre boîte mail le jour même.

  • Bêta fermée, marché ukrainien
  • Sans acompte, sans contrat
  • Réponse sous 24 heures

Alternative

Pas envie de remplir un formulaire ? Écrivez-nous directement : [email protected]

Comment vous appeler
Nom de votre organisation
Nous vous répondrons à cette adresse
Facultatif
Nous préparerons une démo vraiment pertinente

Nous ne transmettons pas vos données à des tiers et ne vous enverrons pas de spam. Désinscription en un clic, à tout moment.