Nouveaux dictionnaires français pour Firefox et OOo
Modérateurs : nico@nc, Mori, jpj, myahoo
-
- Tyrannosaurus Rex
- Messages : 2390
- Inscription : 26 juin 2006, 12:50
Même si on en parle pas trop de ton dico, depuis que je suis tombé récemment sur le sujet des dicos, et que j'ai enfin compris cette histoire de réforme, je me suis empressé d'installer silencieusement ton dico dans TB et OOo. Et ce n'est pas parce qu'on ne dit rien que l'on ne reconnait pas le travail accompli. MERCI.
-
- Iguane
- Messages : 515
- Inscription : 28 janv. 2005, 16:39
De l'amour à la haine, il n'y a qu'un pas...
Je n'ai pas suivi les discussions sur le forum d'OOo (ni celle-ci d'ailleurs
), mais les incompréhensions sont toujours tristes.
Il ne faut pas confondre bénévole et personne travaillant pour gagner sa croûte. Le second n'a rien de répréhensible, mais le premier n'est par définition pas obligé de faire ce qu'il fait, ce qui est une raison supplémentaire pour l'en remercier.
Donc si tu en as assez de t'en occuper, il ne faut surtout pas te forcer.
Mais si l'envie te vient d'y retravailler un peu, à mon avis la combinaison des deux dictionnaires serait sûrement bienvenue.
Merci pour le travail accompli !
Je n'ai pas suivi les discussions sur le forum d'OOo (ni celle-ci d'ailleurs


Il ne faut pas confondre bénévole et personne travaillant pour gagner sa croûte. Le second n'a rien de répréhensible, mais le premier n'est par définition pas obligé de faire ce qu'il fait, ce qui est une raison supplémentaire pour l'en remercier.

Donc si tu en as assez de t'en occuper, il ne faut surtout pas te forcer.
Mais si l'envie te vient d'y retravailler un peu, à mon avis la combinaison des deux dictionnaires serait sûrement bienvenue.
Merci pour le travail accompli !

Venez traduire des extensions sur BabelZilla
Oui oui, moi je veux bien, et il n'y a pas besoin d'être discretjpj a écrit :Tu considères qu'il est au point (autant que peut l'être un dictionnaire) et je suppose qu'il sera compatible avec Firefox et Thunderbird 3. On peut donc supposer que rien ne s'oppose à ce qu'il soit sur EGO (appel du pied très discret à Calimo)

Simplement ce serait beaucoup mieux si ça se retrouvait ici : https://addons.mozilla.org/fr/firefox/browse/type:3 (et pour Thunderbird aussi). L'idéal serait de pouvoir remplacer les deux autres dictionnaires (pour ça il faudrait peut-être rajouter les mots de la réforme et on aurait quelque chose de vraiment bien).
Le truc, c'est qu'il faut pousser les bons rouages. Ce qui n'est pas toujours (j'en entend qui murmurent "jamais" là-bas au fond


En tous cas, ce serait dommage que ces modifications se "perdent" parce qu'elles ne sont pas arrivées aux bonnes personnes

Comme c'est un dictionnaire "MySpell", ne faudrait-il pas contacter directement l'équipe de MySpell ?
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Salut,
J'ai des travaux extérieurs à effectuer dès que la météo voudra bien le permettre : une plate-forme à refaire complètement parce que le roofing a été posé sur du Linex qui maintenant tombe en miettes.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Il est surtout nécessaire que maintenant je me change les idées.jpj a écrit : Et même si tu t'y remets par la suite, il faut prendre un peu de distance et ne pas se consacrer à un tel travail 22 heures sur 24.
J'ai des travaux extérieurs à effectuer dès que la météo voudra bien le permettre : une plate-forme à refaire complètement parce que le roofing a été posé sur du Linex qui maintenant tombe en miettes.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
Alala... la colère, c'est mal... mais compréhensible.
Je ne sais pas ce qui s'est passé sur ce forum, mais est-ce vraiment la faute de ce modérateur si tu as tout arrêté, ou bien la décision était déjà prise dans ta tête ?
'fin, trève de psychologie à 2 balles, c'est dommage, mais bon, ça ne m'étonne pas de toi, tu n'as toujours recherché que la gloire de toute façon...
Désolé, c'était plus fort que moi !
Bon, et bien il fallait bien que ça s'arrête un jour. Espérons que quelqu'un le reprenne d'ici quelques années... Un grand merci pour tout ce que t'as fait, et n'hésite pas à rester pas loin du forum (ici, ou sur le sous-forum Tribune libre ou Nouvelles et rumeurs). Tout message sera le bienvenue !
Je ne sais pas ce qui s'est passé sur ce forum, mais est-ce vraiment la faute de ce modérateur si tu as tout arrêté, ou bien la décision était déjà prise dans ta tête ?

'fin, trève de psychologie à 2 balles, c'est dommage, mais bon, ça ne m'étonne pas de toi, tu n'as toujours recherché que la gloire de toute façon...
Désolé, c'était plus fort que moi !

Bon, et bien il fallait bien que ça s'arrête un jour. Espérons que quelqu'un le reprenne d'ici quelques années... Un grand merci pour tout ce que t'as fait, et n'hésite pas à rester pas loin du forum (ici, ou sur le sous-forum Tribune libre ou Nouvelles et rumeurs). Tout message sera le bienvenue !
Désolé de ne pas avoir répondu pendant quelques jours, j'étais à quelques kilomètres de Liège
(aux Francofolies de Spa en fait).
Vazkor, quel que soit son accueil par OOo, ton dictionnaire figure bien sur la page indiquée par jpj — http://extensions.geckozone.org/Dictionnaires
Vu sa réaction à ta première annonce, je pense que Pascal fera tout ce qui est en son pouvoir pour qu'il soit également proposé sur https://addons.mozilla.org/fr/firefox/browse/type:3 . Ça c'est pour le court terme.
Si tu en as marre de travailler sur les dictionnaires (et je te comprends !) ce n'est pas si grave. Tout le monde peut voir que tu as énormément fait avancer les choses dans le bon sens, et cela facilitera d'autant le travail de celui qui voudra poursuivre la maintenance de ce dictionnaire, même si ce n'est plus toi.
Bon courage pour la météo parce que ça a pas l'air de se stabiliser
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4

Vazkor, quel que soit son accueil par OOo, ton dictionnaire figure bien sur la page indiquée par jpj — http://extensions.geckozone.org/Dictionnaires
Vu sa réaction à ta première annonce, je pense que Pascal fera tout ce qui est en son pouvoir pour qu'il soit également proposé sur https://addons.mozilla.org/fr/firefox/browse/type:3 . Ça c'est pour le court terme.
Si tu en as marre de travailler sur les dictionnaires (et je te comprends !) ce n'est pas si grave. Tout le monde peut voir que tu as énormément fait avancer les choses dans le bon sens, et cela facilitera d'autant le travail de celui qui voudra poursuivre la maintenance de ce dictionnaire, même si ce n'est plus toi.
Bon courage pour la météo parce que ça a pas l'air de se stabiliser

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Oui oui, c'est les vacances, profite, et ils semblent enfin annoncer le beau à partir de demain (bon, après, ça dépend où évidemment)Rpkx a écrit :Il est surtout nécessaire que maintenant je me change les idées.

Non, pas quelqu'un, mais quelques-uns ! C'est toujours le problème quand on est seul, on doit tout faire (j'en connais quelque chose avec les extensionspirlouy a écrit :Espérons que quelqu'un le reprenne

La seule solution est de monter une équipe (et sur un sujet aussi spécifique que celui-ci, ce n'est pas évident). Comme ça quand un se lasse, le projet ne tombe pas à l'eau en entier

Edit : avant de le mettre sur Liberté d'extension, ce serait bien de savoir comment il sera intégré sur Mozilla Add-ons (en remplacement du dico myspell ou comme dico supplémentaire ? Mises à jour éventuelles ? Changement de l'id ? Etc.).

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Salut,
J'ai suivi l'excellent conseil de jpj et contacté directement Sophie Gautier, du projet OpenOffice francophone.
Elle m'a déjà gentiment remercié en me demandant de changer la licence de GPL en LGPL. Je doute là que j'y sois autorisé parce que je reprends de grandes parties du dictionnaire précédent même si j'ai remanié toute la liste de mots. Puis-je me considérer comme l'auteur de cette nouvelle version, ou tout au plus coauteur ?
Elle me signale que le dictionnaire serait déjà proposé au téléchargement sur le site d'OpenOffice.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
J'ai suivi l'excellent conseil de jpj et contacté directement Sophie Gautier, du projet OpenOffice francophone.
Elle m'a déjà gentiment remercié en me demandant de changer la licence de GPL en LGPL. Je doute là que j'y sois autorisé parce que je reprends de grandes parties du dictionnaire précédent même si j'ai remanié toute la liste de mots. Puis-je me considérer comme l'auteur de cette nouvelle version, ou tout au plus coauteur ?
Elle me signale que le dictionnaire serait déjà proposé au téléchargement sur le site d'OpenOffice.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
Non, tu ne peux changer la licence que si tu as l'accord de tous les contributeurs... (à moins qu'il n'y ait d'exception entre GPL et LGPL ?)
Il faudrait donc voir comment est distribué le dico Myspell actuellement... si c'est en GPL (ce qui est le cas), je ne vois pas pourquoi tu devrais en changer...
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Il faudrait donc voir comment est distribué le dico Myspell actuellement... si c'est en GPL (ce qui est le cas), je ne vois pas pourquoi tu devrais en changer...

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Salut,
Ce que tu me dis ici ne fait que confirmer ce problème qui a été discuté sur le forum francophone d'OpenOffice.
J'ai dit clairement à Sophie Gautier qu'elle pouvait modifier la licence si elle le jugeait nécessaire. Moi je me fous éperdument de quelle sera la licence définitive.
Je ne suis pas juriste et je ne saisis pas très bien les nuances entre les licences GPL et LGPL (qui s'appliquerait plutôt à des bibliothèques).
Je laisse faire OpenOffice. A eux de prendre leurs responsabilités.
Il ne manquerait plus, après m'être tapé tout ce boulot, que je voie des avocats de Christophe Pythoud, du Projet GUTenberg ou de Myspell venir me chercher misère.
Personnellement je préfère qu'aucun dictionnaire ne soit incorporé d'office dans la suite OpenOffice et que l'utilisateur ait le choix d'installer uniquement ceux dont il a besoin.
La première chose que je fais d'ailleurs après installation d'une nouvelle version c'est de virer tous les dictionnaires à l'exception des seuls dictionnaires en_US, en_GB
Je ne vois pas pourquoi un dictionnaire thaï est installé d'office, ainsi que d'autres dont je ne peux identifier la langue qu'en lisant les fichiers readme*.txt
Ce n'est pas tellement pour la place que je gagne dans le dossier des dictionnaires (environ 54 522 Ko au départ) que pour y voir plus clair.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Ce que tu me dis ici ne fait que confirmer ce problème qui a été discuté sur le forum francophone d'OpenOffice.
J'ai dit clairement à Sophie Gautier qu'elle pouvait modifier la licence si elle le jugeait nécessaire. Moi je me fous éperdument de quelle sera la licence définitive.
Je ne suis pas juriste et je ne saisis pas très bien les nuances entre les licences GPL et LGPL (qui s'appliquerait plutôt à des bibliothèques).
Je laisse faire OpenOffice. A eux de prendre leurs responsabilités.
Il ne manquerait plus, après m'être tapé tout ce boulot, que je voie des avocats de Christophe Pythoud, du Projet GUTenberg ou de Myspell venir me chercher misère.
Personnellement je préfère qu'aucun dictionnaire ne soit incorporé d'office dans la suite OpenOffice et que l'utilisateur ait le choix d'installer uniquement ceux dont il a besoin.
La première chose que je fais d'ailleurs après installation d'une nouvelle version c'est de virer tous les dictionnaires à l'exception des seuls dictionnaires en_US, en_GB
Je ne vois pas pourquoi un dictionnaire thaï est installé d'office, ainsi que d'autres dont je ne peux identifier la langue qu'en lisant les fichiers readme*.txt
Ce n'est pas tellement pour la place que je gagne dans le dossier des dictionnaires (environ 54 522 Ko au départ) que pour y voir plus clair.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Dernière modification par Rpkx le 23 juil. 2007, 18:11, modifié 1 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
La LGPL est la licence d'OO.o. Elle est plus souple que la GPL en ce sens qu'elle permet l'inclusion dans un programme propriétaire (par exemple : StarOffice, dérivé d'OO.o).Rpkx a écrit :Je ne suis pas juriste et je ne saisi pas très bien les nuances entre les licences GPL et LGPL (qui s'appliquerait plutôt à des bibliothèques).
À partir de là, je préfère ne pas m'avancer plus et éviter de dire des bêtises

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Bonjour,
Si j’ai bien compris, pour que tout le monde soit content, il faudrait que ce dictionnaire soit sous triple licence GPL (pour tout le monde), LGPL (pour OpenOffice.Org) et MPL (pour Mozilla).
De toute façon, tu ne peux rien faire d’autre que transmettre le dictionnaire avec la licence d’origine car seul l’auteur ou les auteurs de la première version peuvent modifier cette fichue licence. Ton dictionnaire a donc hérité de la GPL et doit être fourni dans les mêmes conditions.
Je me demande, mais sans en être certain, si la meilleure solution ne serait pas d’inclure un fichier texte dans le xpi (Firefox et Thunderbird) et le zip (OOo) disant que tu acceptes que ce dictionnaire passe sous triple licence si les détenteur de la licence originelle décident de la modifier (on appelle cela "botter en touche", je crois).
Ensuite, la Fondation Mozilla et OpenOffice.org ont des juristes et du "poids"; c’est plutôt à eux d’agir auprès des détenteurs des droits du premier dictionnaire. C’est d’ailleurs encore beaucoup plus l’intérêt d’OOo que de Mozilla, la correction orthographique étant beaucoup plus "stratégique" pour un traitement de texte que pour un navigateur ou même un courrielleur. L’absence d’installation automatique du dictionnaire français est un reproche suffisamment récurrent pour qu’OOo essaie d’obtenir cette modification.
A+
Si j’ai bien compris, pour que tout le monde soit content, il faudrait que ce dictionnaire soit sous triple licence GPL (pour tout le monde), LGPL (pour OpenOffice.Org) et MPL (pour Mozilla).
De toute façon, tu ne peux rien faire d’autre que transmettre le dictionnaire avec la licence d’origine car seul l’auteur ou les auteurs de la première version peuvent modifier cette fichue licence. Ton dictionnaire a donc hérité de la GPL et doit être fourni dans les mêmes conditions.
Je me demande, mais sans en être certain, si la meilleure solution ne serait pas d’inclure un fichier texte dans le xpi (Firefox et Thunderbird) et le zip (OOo) disant que tu acceptes que ce dictionnaire passe sous triple licence si les détenteur de la licence originelle décident de la modifier (on appelle cela "botter en touche", je crois).
Ensuite, la Fondation Mozilla et OpenOffice.org ont des juristes et du "poids"; c’est plutôt à eux d’agir auprès des détenteurs des droits du premier dictionnaire. C’est d’ailleurs encore beaucoup plus l’intérêt d’OOo que de Mozilla, la correction orthographique étant beaucoup plus "stratégique" pour un traitement de texte que pour un navigateur ou même un courrielleur. L’absence d’installation automatique du dictionnaire français est un reproche suffisamment récurrent pour qu’OOo essaie d’obtenir cette modification.
A+
► Si votre problème est [Résolu], svp, marquez-le.
► Pas de support par mp, l’aide se fait sur le forum.
► Pas de support par mp, l’aide se fait sur le forum.
Salut,
Ce que je ferai probablement assez vite, tant que j'ai encore cela en tête, c'est une petite synthèse de ce qu'il faut faire et surtout éviter si on veut se lancer dans la correction d'un dictionnaire.
En expliquant ma méthode de travail, bien rodée en un an, je ferai gagner pas mal de temps à celui qui voudrait s'y mettre.
J'ai déjà des notes que je peux réutiliser.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Ce que je ferai probablement assez vite, tant que j'ai encore cela en tête, c'est une petite synthèse de ce qu'il faut faire et surtout éviter si on veut se lancer dans la correction d'un dictionnaire.
En expliquant ma méthode de travail, bien rodée en un an, je ferai gagner pas mal de temps à celui qui voudrait s'y mettre.
J'ai déjà des notes que je peux réutiliser.
@+
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
Salut,
J'ai déjà commencé à m'en occuper. Voici déjà un premier jet, histoire d'éclairer votre lanterne.
La base c'est un gros document reference.pdf de 460 Ko rédigé par Christophe Pythoud en 1999, suite de son travail de fin d'études à l'université de Lausanne (et non Genève).
Pour la partie fichier dic, c'est pratiquement applicable tel quel. Par contre pour le fichier aff, tout est présenté pour ISpell sous UNIX donc avec une présentation complètement inversée des affixes, même si les règles sont les mêmes.
J'en ai déjà fait un extrait, au format HTML, permettant d'aller directement à la bonne règle, qui est commentée.
Il me reste à décrire ma méthode pour manipuler, trier, triturer la liste de mots efficacement.
En gros il vous faut un éditeur de texte puissant comme UltraEdit (shareware), PSPad (freeware), qui permet l'édition en mode colonne et qui a de bonnes possibilités de tri, recherche et remplacement y compris en utilisant des expressions régulières. Avec le bloc-notes de Windows ou Wordpad c'est impensable, d'autant plus qu'il faut modifier (éventuellement convertir) un fichier au format UNIX.
Mon problème, au départ, c'est que la liste de mots du dictionnaire officiel contenait des drapeaux un peu placés n'importe comment avec des répétitions et des erreurs. Dans une telle liste, il était impossible de trouver facilement les erreurs dans les lemmes et surtout dans les drapeaux.
Il m'a donc fallu l'afficher en remplaçant le slash (séparant les lemmes des drapeaux) par une tabulation de 32 caractères + slash pour aligner ceux-ci en une colonne.
Ensuite j'ai fait un tri sur cette colonne et j'ai repéré des séquences anormales.
J'ai fait des remplacements à la volée, pour éliminer les drapeaux en double et avoir enfin une présentation normalisée de ceux-ci (préfixes puis suffixes, du genre Mjnmtlu pour un verbe au présent commençant par une voyelle). Travail assez long, fastidieux mais plutôt mécanique.
Cela étant fait, les anomalies me sautaient aux yeux quand par exemple, deux verbes similaires d'après leur catégorie grammaticale (intransitif, transitif direct ou indirect) n'étaient pas suivis des mêmes drapeaux.
Mieux, je repérais facilement des erreurs du genre lemme à l'infinitif suivi d'un drapeau x, marque du futur.
Après cela "il a suffi " (euphémisme) de faire défiler des centaines de fois toute la liste de plus de 82.000 lemmes pour vérifier les affixes utilisés et corriger les erreurs (ajout, suppression ou remplacement de drapeaux).
(ici, je devrai développer...)
Pendant des mois, j'ai testé le dictionnaire sur différents forums en faisant mine de citer les messages postés mais aussi sur plusieurs centaines d'articles Wikipédia que j'ai encore corrigés.
Chaque fois qu'un mot correct était souligné à tort je le copiais dans un fichier txt, puis je vérifiais sa présence dans le dico et je corrigeais les drapeaux si nécessaire.
Finalement, ces derniers mois, j'ai confronté le dictionnaire à d'énormes listes de mots que j'ai récupérées sur le Web : une liste d'un certain Ward Grady (du projet GUTenberg) de 130.000 mots, une liste d'ABU-CNAM de plus de 230.000 mots déclinés et enfin celle que j'ai récupérée sur mon PC, la liste de 403.000 mots déclinés du dictionnaire Aspell utilisée par UltraEdit.
Maintenant je peux dire que peu de mots usuels manquent et que seulement pour quelques verbes très rares présents dans le dictionnaire, j'ai fait l'impasse sur leur conjugaison complète.
Mais c'est une histoire sans fin, pas plus tard qu'hier en relisant un document qu'une amie a tapé sur mon PC, je constate que "logopède" est absent alors que "lagopède" s'y trouve.
Je vais mettre cela mieux en musique et je proposerai le tuto sur mon site.
@+
Edité : un petit tutoriel au format HTML est déjà disponible sur mon site avec le document reference.pdf original, uniquement pour ceux qui veulent comprendre comment fonctionnent les affixes.
http://perso.latribu.com/rocky2/dicos_fr/tutoriel.zip
Préparez la boîte d'Aspirine, mettez-vous à l'aise et ...
Bonne lecture !
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
J'ai déjà commencé à m'en occuper. Voici déjà un premier jet, histoire d'éclairer votre lanterne.
La base c'est un gros document reference.pdf de 460 Ko rédigé par Christophe Pythoud en 1999, suite de son travail de fin d'études à l'université de Lausanne (et non Genève).
Pour la partie fichier dic, c'est pratiquement applicable tel quel. Par contre pour le fichier aff, tout est présenté pour ISpell sous UNIX donc avec une présentation complètement inversée des affixes, même si les règles sont les mêmes.
J'en ai déjà fait un extrait, au format HTML, permettant d'aller directement à la bonne règle, qui est commentée.
Il me reste à décrire ma méthode pour manipuler, trier, triturer la liste de mots efficacement.
En gros il vous faut un éditeur de texte puissant comme UltraEdit (shareware), PSPad (freeware), qui permet l'édition en mode colonne et qui a de bonnes possibilités de tri, recherche et remplacement y compris en utilisant des expressions régulières. Avec le bloc-notes de Windows ou Wordpad c'est impensable, d'autant plus qu'il faut modifier (éventuellement convertir) un fichier au format UNIX.
Mon problème, au départ, c'est que la liste de mots du dictionnaire officiel contenait des drapeaux un peu placés n'importe comment avec des répétitions et des erreurs. Dans une telle liste, il était impossible de trouver facilement les erreurs dans les lemmes et surtout dans les drapeaux.
Il m'a donc fallu l'afficher en remplaçant le slash (séparant les lemmes des drapeaux) par une tabulation de 32 caractères + slash pour aligner ceux-ci en une colonne.
Ensuite j'ai fait un tri sur cette colonne et j'ai repéré des séquences anormales.
J'ai fait des remplacements à la volée, pour éliminer les drapeaux en double et avoir enfin une présentation normalisée de ceux-ci (préfixes puis suffixes, du genre Mjnmtlu pour un verbe au présent commençant par une voyelle). Travail assez long, fastidieux mais plutôt mécanique.
Cela étant fait, les anomalies me sautaient aux yeux quand par exemple, deux verbes similaires d'après leur catégorie grammaticale (intransitif, transitif direct ou indirect) n'étaient pas suivis des mêmes drapeaux.
Mieux, je repérais facilement des erreurs du genre lemme à l'infinitif suivi d'un drapeau x, marque du futur.
Après cela "il a suffi " (euphémisme) de faire défiler des centaines de fois toute la liste de plus de 82.000 lemmes pour vérifier les affixes utilisés et corriger les erreurs (ajout, suppression ou remplacement de drapeaux).
(ici, je devrai développer...)
Pendant des mois, j'ai testé le dictionnaire sur différents forums en faisant mine de citer les messages postés mais aussi sur plusieurs centaines d'articles Wikipédia que j'ai encore corrigés.
Chaque fois qu'un mot correct était souligné à tort je le copiais dans un fichier txt, puis je vérifiais sa présence dans le dico et je corrigeais les drapeaux si nécessaire.
Finalement, ces derniers mois, j'ai confronté le dictionnaire à d'énormes listes de mots que j'ai récupérées sur le Web : une liste d'un certain Ward Grady (du projet GUTenberg) de 130.000 mots, une liste d'ABU-CNAM de plus de 230.000 mots déclinés et enfin celle que j'ai récupérée sur mon PC, la liste de 403.000 mots déclinés du dictionnaire Aspell utilisée par UltraEdit.
Maintenant je peux dire que peu de mots usuels manquent et que seulement pour quelques verbes très rares présents dans le dictionnaire, j'ai fait l'impasse sur leur conjugaison complète.
Mais c'est une histoire sans fin, pas plus tard qu'hier en relisant un document qu'une amie a tapé sur mon PC, je constate que "logopède" est absent alors que "lagopède" s'y trouve.
Je vais mettre cela mieux en musique et je proposerai le tuto sur mon site.
@+
Edité : un petit tutoriel au format HTML est déjà disponible sur mon site avec le document reference.pdf original, uniquement pour ceux qui veulent comprendre comment fonctionnent les affixes.
http://perso.latribu.com/rocky2/dicos_fr/tutoriel.zip
Préparez la boîte d'Aspirine, mettez-vous à l'aise et ...
Bonne lecture !
Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5
Dernière modification par Rpkx le 26 juil. 2007, 11:33, modifié 2 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
Qui est en ligne ?
Utilisateurs parcourant ce forum : Aucun utilisateur inscrit et 3 invités