Tester l'autocorrection et le correcteur orthographique avec des donnÃ©es de fautes de frappe contrÃ´lÃ©es

La plupart des Ã©quipes testent leurs systÃ¨mes d'autocorrection et de correcteur orthographique avec le mauvais type d'erreurs. Elles appuient sur des touches au hasard, tapent dÃ©libÃ©rÃ©ment du charabia ou copient-collent une poignÃ©e de fautes d'orthographe crÃ©Ã©es manuellement. Le rÃ©sultat est une suite de tests qui ne leur dit rien sur la faÃ§on dont leur systÃ¨me fonctionnera lorsque de vrais utilisateurs taperont sur de vrais appareils.

Le problÃ¨me n'est pas un manque d'efforts. C'est un manque de donnÃ©es d'entrÃ©e rÃ©alistes. Les algorithmes d'autocorrection sont conÃ§us pour corriger les types d'erreurs que les humains commettent rÃ©ellement—frappes de touches adjacentes, transpositions, caractÃ¨res omis, lettres doublÃ©es. Lorsque vous testez avec des erreurs qu'aucun humain ne produirait, vous mesurez la capacitÃ© de votre systÃ¨me Ã gÃ©rer des scÃ©narios qui ne se produiront jamais en production. Pendant ce temps, les erreurs que vos utilisateurs feront rÃ©ellement restent non testÃ©es.

Cet article explique pourquoi les donnÃ©es de fautes de frappe rÃ©alistes sont importantes pour les tests de qualitÃ©, pourquoi la mutation alÃ©atoire de caractÃ¨res Ã©choue en tant que stratÃ©gie de test, et comment construire des jeux de donnÃ©es de test contrÃ´lÃ©s et reproductibles en utilisant la gÃ©nÃ©ration d'erreurs basÃ©e sur la physique.

Pourquoi les erreurs alÃ©atoires Ã©chouent pour les tests

L'approche la plus courante pour gÃ©nÃ©rer des donnÃ©es de test pour les systÃ¨mes de correcteur orthographique et d'autocorrection est la substitution alÃ©atoire de caractÃ¨res. On choisit un mot, on choisit une position, on Ã©change un caractÃ¨re alÃ©atoire. “keyboard” devient “keybzard” ou “keyb$ard.” La logique semble valable : vous introduisez des erreurs, et le systÃ¨me devrait les dÃ©tecter.

Mais cette approche prÃ©sente trois problÃ¨mes fondamentaux.

Les erreurs alÃ©atoires ne correspondent pas aux schÃ©mas humains

Lorsqu'un humain tape mal “keyboard,” l'erreur suit la physique du mouvement des doigts. Le “o” pourrait devenir un “p” ou un “i” parce que ces touches sont adjacentes sur une disposition QWERTY. Il ne deviendra pas un “z” ou un “$” car aucun glissement de doigt ne pourrait produire cette substitution. La mutation alÃ©atoire de caractÃ¨res ignore cela complÃ¨tement. Elle traite chaque substitution possible comme Ã©galement probable, produisant des erreurs physiquement impossibles pour un dactylographe humain.

L'autocorrection est calibrÃ©e pour des schÃ©mas rÃ©alistes

Les algorithmes modernes d'autocorrection utilisent des modÃ¨les probabilistes qui tiennent compte de la gÃ©omÃ©trie du clavier. Ils savent que “e” et “r” sont adjacents, donc “thr” est une faute de frappe plausible de “the.” Ils savent que “q” et “w” sont voisins, donc ils pondÃ¨rent ces substitutions plus fortement lors du classement des candidats de correction. Lorsque vous testez avec des erreurs alÃ©atoires—des substitutions que l'algorithme n'a jamais Ã©tÃ© conÃ§u pour rencontrer—vous ne testez pas les chemins de code qui comptent. Votre systÃ¨me pourrait obtenir un score parfait sur les erreurs alÃ©atoires et tout de mÃªme Ã©chouer sur les frappes de touches adjacentes qui constituent la majoritÃ© des fautes de frappe rÃ©elles.

Les donnÃ©es irrÃ©alistes donnent une fausse confiance

C'est la consÃ©quence la plus dangereuse. Une suite de tests remplie de mutations alÃ©atoires de caractÃ¨res produira des taux de rÃ©ussite qui semblent excellents. Votre autocorrecteur gÃ¨re “keybzard” parfaitement—il n'y a qu'une seule correction plausible. Mais en production, les utilisateurs tapent “keybiard” ou “keyboadr,” et l'ambiguÃ¯tÃ© est bien plus Ã©levÃ©e. Plusieurs corrections valides existent. L'autocorrecteur pourrait choisir la mauvaise, ou ne pas corriger du tout, parce que le schÃ©ma d'erreur rÃ©el est plus difficile Ã rÃ©soudre que les schÃ©mas alÃ©atoires avec lesquels vous avez testÃ©. Votre suite de tests disait que tout allait bien. Vos utilisateurs savent que ce n'est pas le cas.

GÃ©nÃ©ration contrÃ´lÃ©e d'erreurs

Des tests d'autocorrection efficaces nÃ©cessitent des donnÃ©es d'entrÃ©e qui reflÃ¨tent ce que les utilisateurs tapent rÃ©ellement. Un simulateur d'erreurs clavier basÃ© sur la physique produit des erreurs ancrÃ©es dans l'adjacence des touches, les zones de toucher de l'appareil, la vitesse de frappe et les contraintes biomÃ©caniques des mains interagissant avec les pÃ©riphÃ©riques de saisie. Cela signifie aussi la capacitÃ© de contrÃ´ler et reproduire ces erreurs avec prÃ©cision.

ReproductibilitÃ© basÃ©e sur les seeds

L'un des plus grands dÃ©fis des tests de qualitÃ© est la reproductibilitÃ©. Si vous gÃ©nÃ©rez un ensemble de variantes de fautes de frappe pour une exÃ©cution de test, vous devez gÃ©nÃ©rer les mÃªmes variantes exactes lorsque vous relancez le test aprÃ¨s une correction de bogue. La gÃ©nÃ©ration alÃ©atoire d'erreurs rend cela difficile sans une gestion soigneuse des seeds. Les gÃ©nÃ©rateurs basÃ©s sur la physique comme LikelyTypo supportent la gÃ©nÃ©ration dÃ©terministe basÃ©e sur les seeds : le mÃªme texte d'entrÃ©e, le mÃªme profil, le mÃªme appareil et le mÃªme seed produiront toujours une sortie identique. Cela signifie que vos cas de test sont stables, versionnables et dÃ©boguables.

Types d'erreurs ciblÃ©s

DiffÃ©rentes fonctionnalitÃ©s d'autocorrection gÃ¨rent diffÃ©rents types d'erreurs. Votre logique de correction des touches adjacentes doit Ãªtre testÃ©e avec des erreurs de touches adjacentes. Votre dÃ©tection des transpositions a besoin de paires de caractÃ¨res transposÃ©s. Votre gestion des omissions a besoin de caractÃ¨res omis. Un gÃ©nÃ©rateur d'erreurs contrÃ´lÃ© vous permet de vous concentrer sur des catÃ©gories d'erreurs spÃ©cifiques—substitutions de touches adjacentes, omissions de caractÃ¨res, frappes doublÃ©es, transpositions, erreurs d'espacement—afin de pouvoir tester chaque chemin de correction de maniÃ¨re isolÃ©e avant de les combiner.

ScÃ©narios de test spÃ©cifiques aux appareils

Un Ã©cran tactile de tÃ©lÃ©phone produit des erreurs fondamentalement diffÃ©rentes de celles d'un clavier physique. La zone de toucher sur un tÃ©lÃ©phone est plus large, donc les erreurs de touches adjacentes ont un rayon plus grand. La saisie au pouce sur un tÃ©lÃ©phone introduit des erreurs d'espacement qui se produisent rarement sur un clavier de bureau. Les claviers de tablettes produisent encore une autre distribution d'erreurs. Si votre autocorrecteur dessert plusieurs plateformes, vos donnÃ©es de test doivent reflÃ©ter les schÃ©mas d'erreurs spÃ©cifiques Ã chaque appareil. Tester avec un seul ensemble gÃ©nÃ©rique d'erreurs signifie que vous ne validez l'expÃ©rience que d'une seule plateforme.

Construire un jeu de donnÃ©es de test

Le processus de construction d'un jeu de donnÃ©es de test de fautes de frappe contrÃ´lÃ©es avec l'outil web LikelyTypo suit un flux de travail simple. Voici comment les Ã©quipes de qualitÃ© peuvent l'aborder.

Commencez par des phrases reprÃ©sentatives

Commencez par le texte que vos utilisateurs tapent rÃ©ellement. Pour un moteur de recherche, cela signifie des requÃªtes courantes. Pour une application de messagerie, cela signifie des phrases conversationnelles. Pour un Ã©diteur de documents, cela signifie de la prose de la longueur d'un paragraphe. Le texte d'entrÃ©e doit reflÃ©ter les schÃ©mas d'utilisation rÃ©els de votre produit, pas des chaÃ®nes de test artificielles. Puisez dans les analyses, les transcriptions de recherche utilisateur ou les contenus d'exemple qui correspondent au vocabulaire et Ã la structure de phrases de votre audience.

GÃ©nÃ©rez des variantes avec diffÃ©rents profils

Ouvrez le gÃ©nÃ©rateur LikelyTypo et collez votre texte reprÃ©sentatif. Puis gÃ©nÃ©rez des variantes de fautes de frappe en utilisant diffÃ©rents profils de saisie. Un dactylographe soigneux produit des erreurs diffÃ©rentes de celles d'un dactylographe rapide. Un dactylographe qui cherche et frappe fait des erreurs diffÃ©rentes de quelqu'un qui utilise ses dix doigts. En gÃ©nÃ©rant des variantes avec plusieurs profils, vous construisez un jeu de donnÃ©es de test qui couvre l'Ã©ventail des comportements de saisie de vos utilisateurs.

Variez le modÃ¨le d'appareil

Pour chaque ensemble de phrases, gÃ©nÃ©rez des variantes en utilisant diffÃ©rents modÃ¨les d'appareils. Les erreurs d'Ã©cran tactile de tÃ©lÃ©phone mettront Ã l'Ã©preuve votre autocorrecteur mobile d'une maniÃ¨re que les erreurs de clavier de bureau ne pourront pas. Si votre produit fonctionne sur plusieurs plateformes, chaque plateforme a besoin de sa propre portion du jeu de donnÃ©es de test gÃ©nÃ©rÃ©e avec le modÃ¨le d'appareil appropriÃ©.

Verrouillez les seeds pour les tests de rÃ©gression

Une fois que vous avez un ensemble de variantes gÃ©nÃ©rÃ©es qui offre une bonne couverture, enregistrez les valeurs des seeds. Ces seeds rendent votre jeu de donnÃ©es de test entiÃ¨rement dÃ©terministe. Lorsque vous corrigez un bogue dans votre logique d'autocorrection et devez vÃ©rifier la correction, rÃ©gÃ©nÃ©rez exactement les mÃªmes variantes de fautes de frappe en utilisant les mÃªmes seeds. Vos tests de rÃ©gression seront stables et significatifs parce que les donnÃ©es d'entrÃ©e sont identiques d'une exÃ©cution Ã l'autre.

Structurez votre jeu de donnÃ©es de test de maniÃ¨re Ã pouvoir filtrer par type d'erreur. Regroupez les erreurs de touches adjacentes sÃ©parÃ©ment des transpositions, les omissions sÃ©parÃ©ment des insertions. Cela vous permet d'exÃ©cuter des suites de tests ciblÃ©es contre des fonctionnalitÃ©s d'autocorrection spÃ©cifiques et d'identifier rapidement quel chemin de correction Ã©choue lorsqu'une rÃ©gression apparaÃ®t.

ConsidÃ©rez la phrase “The quick brown fox jumps over the lazy dog.” Un gÃ©nÃ©rateur de mutations alÃ©atoires pourrait produire “Thx quicj broen fox.” Ces erreurs ne vous disent rien d'utile. Personne ne tapera jamais “thx” en voulant dire “the”—la touche “x” n'est nulle part prÃ¨s de la touche “e”.

Un gÃ©nÃ©rateur basÃ© sur la physique produit des erreurs comme “Thr quick brown fox jumps over teh lazy dog.” Le “e” est devenu un “r” (adjacent sur QWERTY). Le “the” est devenu “teh” (caractÃ¨res transposÃ©s, l'une des erreurs rÃ©elles les plus courantes). Ce sont les erreurs que votre autocorrecteur doit gÃ©rer, car ce sont les erreurs que vos utilisateurs feront.

La diffÃ©rence entre ces deux entrÃ©es de test est la diffÃ©rence entre tester ce qui compte et tester ce qui est commode. Les donnÃ©es alÃ©atoires sont faciles Ã gÃ©nÃ©rer mais inutiles pour la validation. Les donnÃ©es basÃ©es sur la physique nÃ©cessitent un outil appropriÃ© mais produisent des cas de test qui correspondent directement aux scÃ©narios de production.

Si votre Ã©quipe teste l'autocorrection, le correcteur orthographique ou la validation de saisie, la qualitÃ© de vos donnÃ©es de test dÃ©termine la qualitÃ© de vos rÃ©sultats. Les mutations alÃ©atoires de caractÃ¨res vous donneront des tests qui passent et des utilisateurs qui Ã©chouent. Les erreurs basÃ©es sur la physique vous donneront des cas de test qui reflÃ¨tent la rÃ©alitÃ©.

La dÃ©monstration interactive de LikelyTypo vous permet de gÃ©nÃ©rer des donnÃ©es de fautes de frappe contrÃ´lÃ©es et reproductibles en quelques secondes. Collez votre texte reprÃ©sentatif, sÃ©lectionnez un appareil et un profil de saisie, dÃ©finissez un seed pour la reproductibilitÃ© et gÃ©nÃ©rez les erreurs rÃ©alistes dont votre pipeline de qualitÃ© a besoin. Basculez entre les modÃ¨les d'appareils pour construire des jeux de tests spÃ©cifiques par plateforme. Ajustez les profils pour couvrir diffÃ©rents comportements de saisie. Chaque variante gÃ©nÃ©rÃ©e est basÃ©e sur la physique du clavier, pas sur du bruit alÃ©atoire.

GÃ©nÃ©rez des variantes de fautes de frappe contrÃ´lÃ©es et reproductibles pour les tests d'autocorrection et de correcteur orthographique. Des erreurs basÃ©es sur la physique pour plusieurs appareils et profils de saisie.

Vos utilisateurs ne tapent pas du charabia alÃ©atoire. Ils font des erreurs prÃ©visibles, rÃ©gies par la physique, sur des appareils spÃ©cifiques avec des habitudes de saisie spÃ©cifiques. Vos donnÃ©es de test devraient faire de mÃªme.

Tester l'autocorrection et le correcteur orthographique avec des donnÃ©es de fautes de frappe contrÃ´lÃ©es

Pourquoi les erreurs alÃ©atoires Ã©chouent pour les tests

Les erreurs alÃ©atoires ne correspondent pas aux schÃ©mas humains

L'autocorrection est calibrÃ©e pour des schÃ©mas rÃ©alistes

Les donnÃ©es irrÃ©alistes donnent une fausse confiance

GÃ©nÃ©ration contrÃ´lÃ©e d'erreurs

ReproductibilitÃ© basÃ©e sur les seeds

Types d'erreurs ciblÃ©s

ScÃ©narios de test spÃ©cifiques aux appareils

Construire un jeu de donnÃ©es de test

Commencez par des phrases reprÃ©sentatives

GÃ©nÃ©rez des variantes avec diffÃ©rents profils

Variez le modÃ¨le d'appareil

Verrouillez les seeds pour les tests de rÃ©gression

Organisez par catÃ©gorie d'erreur

A quoi ressemblent de bonnes donnÃ©es de test

CrÃ©ez vos donnÃ©es de test

CrÃ©ez vos donnÃ©es de test

Articles connexes

Tester l'autocorrection et le correcteur orthographique avec des donnÃ©es de fautes de frappe contrÃ´lÃ©es

Pourquoi les erreurs alÃ©atoires Ã©chouent pour les tests

Les erreurs alÃ©atoires ne correspondent pas aux schÃ©mas humains

L'autocorrection est calibrÃ©e pour des schÃ©mas rÃ©alistes

Les donnÃ©es irrÃ©alistes donnent une fausse confiance

GÃ©nÃ©ration contrÃ´lÃ©e d'erreurs

ReproductibilitÃ© basÃ©e sur les seeds

Types d'erreurs ciblÃ©s

ScÃ©narios de test spÃ©cifiques aux appareils

Construire un jeu de donnÃ©es de test

Commencez par des phrases reprÃ©sentatives

GÃ©nÃ©rez des variantes avec diffÃ©rents profils

Variez le modÃ¨le d'appareil

Verrouillez les seeds pour les tests de rÃ©gression

Organisez par catÃ©gorie d'erreur

A quoi ressemblent de bonnes donnÃ©es de test

CrÃ©ez vos donnÃ©es de test

CrÃ©ez vos donnÃ©es de test

Articles connexes

AlÃ©atoire vs rÃ©aliste : pourquoi la plupart des gÃ©nÃ©rateurs de fautes de frappe se trompent

La mutation alÃ©atoire de caractÃ¨res Ã©choue pour les tests d'autocorrection