Nouveaux dictionnaires français pour Firefox et OOo

Vos requêtes concernant Mozilla Firefox, le navigateur Gecko alternatif, ne trouvèrent point de réponses lorsque vous cherchâtes ? Toute l'équipe Geckozone est prête à vous aider.

Modérateurs : nico@nc, Mori, jpj, myahoo

Rpkx
Varan
Messages : 1202
Inscription : 13 nov. 2006, 14:39

Message par Rpkx »

Salut,
Question : les espaces obligatoires avant les points d'interrogation et d'exclamation (ainsi que les deux-points) sont-ils gérés ?
Non, c'est un problème de typographie et non d'orthographe.
Plus grave, OpenOffice tout comme Firefox ne gèrent pas encore correctement les traits d'union.
Essayer de taper Lassay-les-Châteaux et vous verrez que Lassay est souligné, alors que ce mot composé est bien dans le dictionnaire fr.dic
J'ai contourné ce problème mineur (selon moi) en ajoutant les mots isolés non connus, dont Lassay dans ma version et en retirant tous les mots composés.
Cela a pour conséquence que vous pouvez aussi taper Châteaux les Lassay avec ou sans traits d'union. Mais vous devez quand même vous relire...
C'est pour cela que des deux dictionnaires disponibles sur addons.mozilla.org, celui tenant compte de la réforme est plus léger.
fr-FR.dic contenait 92482 lignes + la ligne d'en-tête avant que je ne le modifie.
fr.dic en contient encore 91773 + la ligne d'en-tête.

La différence de 709 lignes n'est pas vraiment significative.
Je n'ai pas encore comparé les deux fichiers pour voir d'où cela provient. Voilà seulement deux jours que je me repenche sur ce dictionnaire réforme 1990.

Ce qui m'a surtout frappé, c'est que l'auteur du dictionnaire réforme 1990 a assez fort modifié le fichier aff :
- en supprimant des règles pour des préfixes non utilisées (ce que j'ai aussi fait pour la version définitive de mon fichier aff)
- en modifiant quelques lignes pour tenir compte de la réforme.
- en supprimant ou déplaçant dans les règles des suffixes u et g un tas de lignes correspondant à des verbes irréguliers comme servir vaincre coudre moudre normalement pas concernés par la réforme (là, je comprends beaucoup moins ses raisons).
Pourtant, c'est Toubon.
C'est aussi ce que je pensais au début du mois avant de tester mon dictionnaire avec la liste de 250.000 mots déclinés de l'ABU-CNAM. J'ai dû ajouter un tas de formes 3 p.sing. et pl. du futur, du conditionnel et des 3 p.pl. du passé simple et supprimer des /p après certains indicatifs présents.
La difficulté avec des fichiers dictionnaires de cette taille c'est qu'il est impossible de se représenter pour chaque lemme toutes les formes qui vont en dériver.
Pour les élisions, il y aura toujours des cas de figure pas prévus. Pas plus tard qu'hier, j'ai tapé "jusqu'il y a peu..." et "jusqu'il" a été souligné, parce que ce cas n'est pas prévu. D'habitude on a plutôt "jusqu'à ce qu'il... "

@+

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Dernière modification par Rpkx le 26 juil. 2007, 09:40, modifié 2 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
myahoo
Animal mythique
Messages : 8279
Inscription : 02 sept. 2005, 00:13

Message par myahoo »

Rpkx a écrit :Pas plus tard qu'hier, j'ai tapé "jusqu'il y a peu..." et "jusqu'il" a été souligné, parce que ce cas n'est pas prévu. D'habitude on a plutôt "jusqu'à ce qu'il... "
Ah oui, et hier c'est presqu'aujourd'hui :D Enfin bravo quand même pour tout ce travail, ça méritera de nombreux avis positifs de notre part !

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr-FR; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Rpkx
Varan
Messages : 1202
Inscription : 13 nov. 2006, 14:39

Message par Rpkx »

Salut,

"presqu'aujourd'hui" est aussi une combinaison non prévue...

Pour le problème de l'élision, il est bien qu'un maximum de formes soient présentes pour éviter une faute comme " il s'absentais " par exemple, mais il faut bien s'arrêter quelque part.
On ne peut pas mettre toutes les formes déclinées de tous les mots y compris les plus rares.
Et pour les élisions non présentes, le vérificateur les souligne pour attirer notre attention. Si on a un doute, on peut toujours ajouter une espace après l'apostrophe pour vérifier que cela ne vient pas du mot qui la suit.

Tout à fait entre nous, au départ je pensais que corriger ce dico me prendrait peu de temps et je l'ai fait d'abord pour moi-même.

@+

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Dernière modification par Rpkx le 12 juil. 2007, 11:56, modifié 1 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
BadPotato
Gecko
Messages : 81
Inscription : 18 avr. 2007, 00:24

Message par BadPotato »

décidément, je l'ai télécharger il y a quelques heures et finalement, je crois que je fait encore moins de fautes que je pensais :D

sinon, je me demandais... est-ce qu'il aurait un endroit ou on peut poster les exception qui ne sont pas encore corrigé?

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3
myahoo
Animal mythique
Messages : 8279
Inscription : 02 sept. 2005, 00:13

Message par myahoo »

BadPotato a écrit :sinon, je me demandais... est-ce qu'il aurait un endroit ou on peut poster les exception qui ne sont pas encore corrigé?
Je dirais "ici", puisque le sujet a été lancé. À plusieurs, on sait en avoir des idées :wink !

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr-FR; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Rpkx
Varan
Messages : 1202
Inscription : 13 nov. 2006, 14:39

Message par Rpkx »

Salut,

Moi, je veux bien que vous proposiez des mots à ajouter au dictionnaire et je peux continuer à m'en occuper.
Mais des mots qui intéressent certains n'en intéresseront pas d'autres.
Méfiez-vous tout particulièrement de mots plutôt rares mais proches de mots courants.
Un exemple typique : dans le dictionnaire français classique, je trouvais "détaler" et "détaller" (dont je ne suis même pas sûr qu'il existe). J'ai supprimé "détaller" et toute sa conjugaison sans la moindre hésitation, pour éviter qu'en pensant taper "je détale" je double le "l" et que cette faute d'attention ne me soit pas signalée.

Pour ceux qui n'ont pas de dictionnaire électronique installé et n'ont pas envie de consulter un dictionnaire papier, je signale un dico pas mal fait de TV5 Monde, le Mediadico, avec ses rubriques Définitions, synonymes, style, conjugaison, et les traductions de et vers l'anglais.
http://www.tv5.org/TV5Site/lf/langue_francaise.php

En cadeau, sur mon site, je viens de vous mettre les deux fichiers du dictionnaire français réforme 1990 que j'ai corrigé rapidement : nettoyage des drapeaux doublés, erronés ou inutiles, remise en ordre des drapeaux et correction de quelques rares fautes d'orthographe trouvées dans les lemmes.
Attention : il faut aussi remplacer le fichier fr.aff, parce que
- j'ai renommé le PFX C en PFX V, pour me permettre la comparaison des dictionnaires fr-FR.dic et fr.dic
- j'ai ajouté les sections MAP et REP comme il me l'a été suggéré sur le forum francophone d'OpenOffice. Je ne sais si c'est vraiment utile, mais en tout cas cela ne gêne pas.
http://perso.latribu.com/rocky2/dico_fr ... r_1990.zip
Attention : ce dictionnaire n'a pas été testé intensivement comme le dictionnaire classique.


Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Dernière modification par Rpkx le 12 juil. 2007, 10:47, modifié 1 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
Benoit
Administrateur
Messages : 4894
Inscription : 19 juil. 2003, 10:59

Message par Benoit »

Rpkx a écrit :Pour ceux qui n'ont pas de dictionnaire électronique installé et n'ont pas envie de consulter un dictionnaire papier, je signale un dico pas mal fait de TV5 Monde, le Mediadico, avec ses rubriques Définitions, synonymes, style, conjugaison, et les traductions de et vers l'anglais.
http://www.tv5.org/TV5Site/lf/langue_francaise.php
Tellement pas mal fait qu'il est intégré dans Firefox par défaut, il suffit de dérouler la liste des moteurs de recherche en haut à droite :)

J'ai vu que plusieurs fois tu parlais d'un dictionnaire "fusionné" (classique+réforme 1990). Est-ce que tu étais arrivé au bout de ce travail ? J'avoue que j'ai moi-même voulu essayer mais que j'ai abandonné devant son importance (puisqu'on ne partait pas des mêmes affixes). Pourtant, c'est cette forme qui conviendrait le mieux pour les utilisateurs de Firefox qui se fichent de savoir en quelle année a été réformée l'orthographe de tel ou tel mot. Ça permettrait d'avoir un seul dictionnaire qui ne soulignerait ni "évènement" ni "boîte", sans cette distinction artificielle qui n'a aucun intérêt autre qu'académique.
♫ Li tens s'en veit, je n'ai riens fais ;
Li tens revient, je ne fais riens. ♪
teoli2003
Animal mythique
Messages : 7580
Inscription : 13 nov. 2005, 09:23

Message par teoli2003 »

Rpkx a écrit : Pour le problème de l'élision, il est bien qu'un maximum de formes soient présentes pour éviter un faute comme " il s'absentais " par exemple, mais il faut bien s'arrêter quelque part.
Je sais que myspell n'est plus développé et une version plus performante, hunspell, qui est plus efficace pour les langues agglutinantes comme le hongrois va la remplacer (quand je ne sais pas).

Heureusement les dictionnaires aspell sont utilisables avec hunspell. Mais est-ce que les améliorations qui y sont permettraient de traiter les élisions de manière plus efficace peut-être?

[Edité: c'est déjà le dictionnaire par défaut de OpenOffice; il semble plus performant également pour les mots composés.]

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
La liberté n'est jamais accordée de bon gré par l'oppresseur; elle doit être exigée par l'opprimé (Martin Luther King).
Les convictions sont des ennemis de la vérité plus dangereux que les mensonges. (Nietzsche).
Native Mozillian.
pirlouy
Tyrannosaurus Rex
Messages : 3648
Inscription : 03 nov. 2005, 05:05

Message par pirlouy »

myahoo a écrit :Pourtant, c'est Toubon :mrgreen:
Il semble plutôt que ce soit Rocard.
Son but était (normalement) de rendre l'orthgraphe plus facile… Mais au vu des "corrections" faites, ça se discutera encore et encore.
Toutes les corrections sont logiques... Si tu ne les trouves pas logiques, c'est que tu t'es habitué à une écriture, c'est tout ! :twisted:

BadPotato a écrit :décidément, je l'ai télécharger il y a quelques heures et finalement, je crois que je fait encore moins de fautes que je pensais :D

sinon, je me demandais... est-ce qu'il aurait un endroit ou on peut poster les exception qui ne sont pas encore corrigé?
téléchargé, exceptions, corrigées

:mrgreen:
Rpkx
Varan
Messages : 1202
Inscription : 13 nov. 2006, 14:39

Message par Rpkx »

Salut,
Benoit a écrit :J'ai vu que plusieurs fois tu parlais d'un dictionnaire "fusionné" (classique+réforme 1990). Est-ce que tu étais arrivé au bout de ce travail ? J'avoue que j'ai moi-même voulu essayer mais que j'ai abandonné devant son importance...
J'avais déjà essayé l'année dernière et je viens de regarder à nouveau, mais c'est difficile à réaliser sans reprendre tout depuis le début avec un nouveau fichier aff adapté.
En fait, Laurent Godard, l'auteur du nouveau dictionnaire a non seulement modifié des règles mais il a utilisé des drapeaux avec certains lemmes qui ne l'était pas avec ceux de l'ancien et pas dans le même ordre.
Il m'a été assez facile de nettoyer le nouveau dictionnaire des drapeaux en excès et de les réordonner comme dans l'ancien.
En fusionnant les listes il est facile d'éliminer les lignes identiques par un simple tri, mais on se retrouve avec un paquet de lemmes en double ou même en triple avec des drapeaux différents et d'autres inutiles parce que ces formes sont générées par les affixes. Comme ces dernières se trouvent dispersées dans tout le fichier dic elles ne sont pas faciles à retrouver.

Finalement je préfère avoir les deux dictionnaires installés et lancer le nouveau dictionnaire en cas de doute. Changer de dictionnaire est facile avec l'extension Dictionary switcher
Teoli2003 a écrit :Mais est-ce que les améliorations qui y sont permettraient de traiter les élisions de manière plus efficace peut-être?
J'ai effectué tous mes tests avec le même dictionnaire sur des listes de mots copiées dans un document d'OpenOffice. Je n'ai pas remarqué de grosses différences, sauf au niveau de l'autocorrection. L'élision et les mots composés sont aussi mal gérés que dans Firefox. Il faudrait peut-être convertir le dictionnaire en Unicode pour profiter de l'amélioration des performances.

@+


Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Dernière modification par Rpkx le 24 janv. 2008, 08:16, modifié 1 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
teoli2003
Animal mythique
Messages : 7580
Inscription : 13 nov. 2005, 09:23

Message par teoli2003 »

Pour info, hunspell sera utilisé par Firefox 3: https://bugzilla.mozilla.org/show_bug.cgi?id=319778 (si tout va bien il devrait être inclu dans la prochaine alpha7).

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
La liberté n'est jamais accordée de bon gré par l'oppresseur; elle doit être exigée par l'opprimé (Martin Luther King).
Les convictions sont des ennemis de la vérité plus dangereux que les mensonges. (Nietzsche).
Native Mozillian.
Benoit
Administrateur
Messages : 4894
Inscription : 19 juil. 2003, 10:59

Message par Benoit »

Rpkx a écrit :Finalement je préfère avoir les deux dictionnaires installés et lancer le nouveau dictionnaire en cas de doute. Changer de dictionnaire est facile avec l'extension Dictionary switcher
C'est quand même pas ce que je conseillerais à M. Tout-le-monde :)

Je vois que tu as été confronté aux mêmes difficultés que moi. J'avais également pris contact avec Laurent Godard pour essayer de savoir ce qu'ils avaient changé exactement (ce n'est pas lui qui s'en était occupé personnellement je crois), mais je n'ai plus eu de réponse après quelques échanges.

Maintenant que tu as travaillé sur les deux, tu dirais qu'il est plus facile d'ajouter la nouvelle orthographe dans le "classique", ou l'orthographe classique dans le "nouveau" dictionnaire ? J'ai l'impression que l'idée d'une fusion est un peu vaine, mais on pourrait par contre partir de la liste des 800 mots les plus courants (c'est encore beaucoup !) affectés par la réforme, voir s'ils sont dans le dictionnaire et les dédoubler le cas échéant.

Je crains de ne pas avoir la possibilité de le faire moi-même, mais c'est pour avoir le plus de pistes possibles — on pourrait réessayer de le proposer comme projet sponsorisé par le Google Summer of Code pour des étudiants l'été prochain.
♫ Li tens s'en veit, je n'ai riens fais ;
Li tens revient, je ne fais riens. ♪
Rpkx
Varan
Messages : 1202
Inscription : 13 nov. 2006, 14:39

Message par Rpkx »

Benoit a écrit :
Rpkx a écrit :Finalement je préfère avoir les deux dictionnaires installés et lancer le nouveau dictionnaire en cas de doute. Changer de dictionnaire est facile avec l'extension Dictionary switcher
C'est quand même pas ce que je conseillerais à M. Tout-le-monde
Cela fait maintenant 55 ans que j'ai appris à lire et écrire, et j'ai lu énormément surtout pendant ma jeunesse. Pendant ma carrière, j'ai réétudié les difficultés de la langue française. J'en suis arrivé à n'avoir plus que très rarement recours à mon brave dictionnaire orthographique Dournon sauf quand j'ai un doute en voyant des fautes commises par d'autres.

La vérification français classique m'est quand même agréable pour souligner mes fautes de frappe.
Le nouveau dico me sert seulement quand je vérifie des textes écrits par d'autres, et encore parce que j'ai retenu l'essentiel des modifications apportées par la réforme.
Maintenant que tu as travaillé sur les deux, tu dirais qu'il est plus facile d'ajouter la nouvelle orthographe dans le "classique", ou l'orthographe classique dans le "nouveau" dictionnaire ?
Je partirais sans hésiter de ma version du dictionnaire classique et de son fichier d'affixes.
Tout simplement parce que celui-là je l'ai testé pendant un an et finalement avec la liste de mots communs d'ABU-CNAM, alors que pour la nouvelle orthographe nous ne disposons pas d'un telle liste de mots déclinés.

Les 26 listes disponibles : http://abu.cnam.fr/DICO/donner-dico-uncompress.html
Je peux vous fournir la liste complète que j'ai utilisée pour mes tests.

La liste des huit cents mots affectés que tu cites ne reprend pas toutes les formes déclinées et pas les conjugaisons.



Je pense finalement que la "fusion" devrait se faire en deux étapes:
- récupérer du nouveau dictionnaires les non-verbes qui ont été ajoutés (néologismes, mots manquants et nouvelle orthographe)
Cela n'est pas trop difficile si les drapeaux sont ordonnés de la même manière, puisqu'il ne faut comparer que les lemmes sans drapeaux ou ayant des drapeaux parmi LMFGSX, et ceux qui ont des drapeaux de préfixes D et T principalement.
On reprendrait ainsi déjà une bonne part des nouvelles graphies.
- vérifier les autres mots.
Pour les verbes, le problème est plus compliqué, à cause des différences d'affixes, mais la nouvelle orthographe affecte surtout les futur et conditionnel présents des verbes en é qui devient è.
Pour cela nous avons la chance que le Médiadico donne la nouvelle conjugaison de ces verbes

Pour le fichier d'affixes revoir les règles et ajouter certaines lignes pour les cas particuliers de la nouvelle orthographe (éventuellement créer un nouveau SFX spécial)

La liste des huit cents mots peut être très utile, à condition de la trier et de la développer un peu.
http://sweet.ua.pt/~fmart/aparo.htm#mots
Comme pour la liste d'ABU-CNAM, j'ai cette liste au format txt.

@+

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)
pirlouy
Tyrannosaurus Rex
Messages : 3648
Inscription : 03 nov. 2005, 05:05

Message par pirlouy »

Benoît voulait dire que les gens n'installeront jamais 2 dictionnaires... Ils ne comprendraient même pas pourquoi. N'oublie pas:

"Il ne faut jamais prendre les gens pour des cons mais il ne faut pas oublier qu'ils le sont !" (les inconnus) :mrgreen:

Plus sérieusement, nous, on essaye de faire au plus simple pour l'utilisateur lambda, donc on ne lui proposera qu'un dictionnaire, c'est comme ça. :wink:
max la menace

Message par max la menace »

@ Rpkx
juste ce message pour te remercier toi et tes semblables qui passaient des heures à travailler pour le bien collectif.
bravo pour ton boulot!
a+

Message envoyé avec : Mozilla/5.0 (X11; U; Linux i686; fr; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4
Répondre

Qui est en ligne ?

Utilisateurs parcourant ce forum : luanmeteore, Semrush [Bot] et 3 invités