merged · bêta fermée · 2026

La pré-sélection technique — sans entretien.

Fini Leetcode : un seul exercice calibré dans un vrai dépôt. Le candidat ouvre une pull request. Le système évalue tout automatiquement : tests, périmètre des changements, qualité des commits, réponses à la revue.

Accéder au portail Voir comment ça marche

pour les équipes RH

~2 minpour évaluer une PR

87 %précision de la grille

0 hde temps Senior

pull request · #42open

@@ src/billing/invoice.ts @@
   const amount = base * qty;
−  const tax = amount * 0.2;
+  const tax = calcTax(amount, country);

+  // edge case: UA VAT exemption
+  if (country === 'UA' && isExempt(plan)) {
+    return amount;
+  }
   return amount + tax;

tests✔CI au vert87/87

diff✔Périmètre du diff3 fichiers, +24 −4

llm✔Grille (LLM juge)4.6 / 5.0

senior · legacy-invoicePASS

Problème

Les entretiens techniques sont cassés. Tout le monde le sait, personne ne change rien.

Leetcode mesure la préparation à Leetcode. System design — l'art de dessiner des boîtes. Behavioral — celui de raconter des histoires STAR. Aucun ne montre comment une personne travaille réellement au quotidien.

Et en 2026, même cette illusion de signal s'est effondrée : Copilot et Cursor bouclent l'exercice classique en 10 minutes. Pendant ce temps, vos Seniors enchaînent des dizaines d'appels de pré-sélection par mois et voient leur temps partir en fumée.

Méthode	Ce qu'elle mesure	Qualité du signal	Coût
Pré-sélection Leetcode	La préparation à Leetcode	Faible	2–4 h / candidat
Entretien System design	L'art de dessiner des diagrammes	Moyen	1–2 h / candidat
Behavioral (STAR)	L'art du récit	Faible	1 h / candidat
Pré-sélection PR merged	Le vrai travail dans un dépôt	Élevé	~2 min, en automatique

* Coût estimé pour la pré-sélection d'un candidat, temps d'ingénieur inclus

Comment ça marche

Quatre étapes. Zéro heure d'ingénieur.

01
30 s
pour configurer
Le recruteur attribue un exercice
Depuis le catalogue, selon le niveau du candidat (Junior / Middle / Senior) et votre stack. Sans appel, sans whiteboard. 30 secondes dans le portail.
02
45–120 min
temps candidat
Le candidat ouvre une pull request
Il récupère un dépôt privé avec un contexte réel. L'IA est autorisée — les exercices sont conçus pour qu'elle soit nécessaire, mais jamais suffisante.
03
~2 min
après soumission
Le système évalue automatiquement
Tests CI, périmètre du diff, qualité des commits, réponses à la revue automatique. Un LLM juge relit l'intégralité de la PR selon une grille structurée.
04
immédiat
rapport disponible
Le recruteur reçoit un rapport classé
Scores par critère, lien vers la PR, points forts et points faibles. Il ne reste qu'un entretien final avec l'équipe, centré sur le fit culturel.

Niveaux

L'exercice se calibre sur le niveau visé.

Notre vrai moat, c'est la conception des exercices. Nous ne luttons pas contre l'IA : nous faisons simplement en sorte que, sans compréhension du système, elle se réduise à une machine à écrire. Chaque exercice est calibré à la main, sur de vrais candidats.

Junior

45 min

Ajoutez une fonctionnalité dans un dépôt propre

Un petit projet avec ses propres conventions. Il faut lire le README, ne rien casser au passage, écrire un test. Cursor y arrive — nous écartons ceux qui n'y arrivent pas, même avec lui.

Signaux clés

Lit les consignes30%
Ne casse pas l'existant40%
Écrit un test30%

Score attendu2.0–3.5 / 5.0

Middle

90 min

Reproduisez un bug et corrigez-le

Un dépôt plus gros, un énoncé volontairement flou : « les utilisateurs signalent que Y se comporte bizarrement dans le cas Z ». L'IA ne sait pas quoi corriger — il faut remonter à la cause.

Signaux clés

Décomposition35%
Choix du niveau de correction35%
Justification dans la PR30%

Score attendu3.0–4.5 / 5.0

Senior

120 min

Du legacy avec dette architecturale

L'exercice : « livrez la fonctionnalité de manière à pouvoir l'étendre à W dans six mois, sans tout réécrire ». Design doc obligatoire dans la PR — l'IA écrira le code, mais ne prendra pas les décisions à la place de l'humain.

Signaux clés

Trade-offs40%
Extensibilité35%
Qualité du rationale25%

Score attendu3.5–5.0 / 5.0

NOTE

L'IA est autorisée, et même attendue. Une solution Claude « à l'aveugle » plafonne à 30–40 / 100 : les tests cassent sur les edge cases, la description de PR est vide, les commits se résument à un gros blob. La grille mesure la compréhension du système, pas le fait d'avoir écrit du code.

Ce que nous mesurons vraiment

Un « CI vert », c'est seulement 20 % du signal.

Les 80 % restants, c'est ce qu'un LLM juge, armé d'une grille structurée, fait mieux qu'un intervieweur humain : il lit toute la PR, la description, l'historique des commits, les réponses aux commentaires. Sans fatigue, sans biais.

45%

CI automatique

55%

LLM juge

Poids de la grille100 % au total

CI automatique

Tests au vert
Déterministe, sans biais d'échantillonnage
20%
Périmètre et taille du diff
Changements minimaux, sans retouches superflues
15%
Qualité des commits
Atomic commits, Conventional Commits
10%

LLM juge

Rationale dans la description de PR
Le « pourquoi » est-il explicité, pas seulement le « quoi » ?
20%
Décomposition de l'exercice
Cheminement de pensée, étapes de résolution
20%
Trade-offs et architecture
Alternatives envisagées, choix assumé
15%

* Les poids se règlent au niveau du template d'exercice

Pour qui

Le développeur est l'utilisateur. Le Hiring Manager est le payeur.

Chaque rôle y trouve son compte : le développeur, une évaluation asynchrone et honnête, sans live-coding ; le manager, du temps rendu à son équipe et une short-list finale de meilleure qualité.

Développeurs

live-coding caméra allumée

~2 min

de la soumission au rapport

Vous ne codez pas sous pression en 45 minutes : vous prenez l'exercice et avancez à votre rythme.
L'assistant IA n'est pas interdit, il est attendu. Votre Cursor / Claude / Copilot habituel reste branché.
Vous voyez la grille avant de commencer : ce qui est évalué, les signaux qui comptent. Aucun « vibe check ».

Responsables ingénierie

40+ h

rendues à l'équipe chaque mois

réunion au lieu de 4 à 6 rounds

Votre équipe ne brûle plus 40 heures par mois en appels de pré-sélection.
La décision, en réunion finale, porte sur la personne — plus sur ses bases techniques.
Vous voyez comment le candidat réfléchit et justifie ses choix, pas seulement ce qu'il a livré.

Les objections, franchement

Cinq choses que vous êtes en train de vous dire.

Et si le candidat se contente de refiler l'exercice à Claude ?: Qu'il le fasse. Les exercices sont conçus pour qu'une solution IA « à l'aveugle » plafonne à 30–40 / 100 : les tests cassent sur les edge cases, la description de PR est vide, les commits se résument à un seul gros blob, les réponses à la revue automatique restent génériques. Nous ne mesurons pas « il a écrit du code », mais « il a compris le système ».
Vos exercices vont fuiter sur internet et dans les données d'entraînement des modèles.: Chaque exercice est paramétré : un seul template génère des dizaines de variantes, avec des seeds, des noms et des accents d'exigences différents. Une solution publique pour une version précise ne passera pas les autres. À cela s'ajoute une option d'exercices privés, sur votre propre code, pour le plan enterprise.
Un Senior ne fera jamais un devoir à la maison de trois heures.: Nous sommes d'accord. Pour les Seniors, un autre format : session en binôme de 45 minutes. Il partage son écran, résout avec l'IA, le système capte la télémétrie (temps de réflexion, recherches, réécritures). Ça tient dans un calendrier, et ça mesure bien plus qu'un entretien classique.
Ça ne remplace pas l'entretien final avec l'équipe ?: Nous ne supprimons pas l'entretien. Nous supprimons l'étape où vous engloutissez 40 heures d'ingénieur à filtrer des personnes qui, tout simplement, ne savent pas programmer. Le fit culturel et la question « ai-je envie de travailler 5 ans avec cette personne ? » restent, eux, en rendez-vous humain.
En quoi c'est mieux que HackerRank / CodeSignal / Codility ?: Eux mesurent du Leetcode, en 2026. Nous mesurons du vrai travail : une PR dans un vrai dépôt, avec un vrai contexte, évaluée à la grille par un LLM juge. Ce n'est plus la même catégorie de produit — c'est du work-sample assessment pour l'ère de l'IA.

Blog

Essais sur le recrutement à l'ère de l'IA.

Pratique de la pré-sélection, grilles de LLM juge, rapports ouverts de la bêta fermée, guides pour recruteurs et candidats — sans marketing et sans « book a demo ».

Tous les articles

Démo

Voyons ce que ça donne sur votre stack.

15 minutes. Vous nous dites qui vous recrutez. Nous vous montrons à quoi ressemblerait la pré-sélection avec merged, à la place des appels. Des exemples d'exercices sur votre stack atterrissent dans votre boîte mail le jour même.

Bêta fermée, marché ukrainien
Sans acompte, sans contrat
Réponse sous 24 heures

Alternative

Pas envie de remplir un formulaire ? Écrivez-nous directement : [email protected]

La pré-sélection technique — sans entretien.

Les entretiens techniques sont cassés. Tout le monde le sait, personne ne change rien.

Quatre étapes. Zéro heure d'ingénieur.

Le recruteur attribue un exercice

Le candidat ouvre une pull request

Le système évalue automatiquement

Le recruteur reçoit un rapport classé

L'exercice se calibre sur le niveau visé.

Ajoutez une fonctionnalité dans un dépôt propre

Reproduisez un bug et corrigez-le

Du legacy avec dette architecturale

Un « CI vert », c'est seulement 20 % du signal.

Le développeur est l'utilisateur. Le Hiring Manager est le payeur.

Développeurs

Responsables ingénierie

Cinq choses que vous êtes en train de vous dire.

Essais sur le recrutement à l'ère de l'IA.

Чому індустрія IT HR помре за 3 роки — і що стане на її місце

Як ми генеруємо задачі: 4-агентний Bedrock-пайплайн і новий Verifier

Як працює merged для рекрутера: від заявки до фіналу

Voyons ce que ça donne sur votre stack.