Polémique sur les dictionnaires.

Quand tout est (trop ?) bien organisé, il y a besoin d'une ouverture. Ici on parle de tout, mais pas de n'importe quoi, vous êtes prévenus.
pirlouy
Tyrannosaurus Rex
Messages : 3648
Enregistré le : 03 nov. 2005, 05:05

Message par pirlouy » 07 juil. 2008, 20:31

Flamme a écrit :Comment envisagez-vous ce découpage?
Que voulez-vous dans le dictionnaire de base?
Bin, 1 dictionnaire principal qui comprend des mots "normaux", çad pas des mots bizarres (mais pourtant corrects) qui risquent d'être proposés lors d'une correction.
Combien de sous-modules désirez-vous?
Lesquels?
En gros, où met-on quoi?
Bin après, on peut faire un dico des noms propres, 1 dico pour les anglicismes; et puis d'autres auxquels je ne pense pas aujourd'hui...
ecjs a écrit :Pourquoi ne pas tout simplement élaborer un dictionnaire dont le but serait uniquement correctif, et conçu à partir des fautes les plus courantes et les moins évidentes ?
à la wiki ou au système Babelzilla ? Pourquoi pas...
Mais comment être sûr que les gens ne vont pas faire n'importe quoi...

En tout cas, c'est pas une mauvaise idée du tout. Le plus dur sera d'avoir "l'architecture" web...

Benoit
Administrateur
Messages : 4894
Enregistré le : 19 juil. 2003, 10:59

Message par Benoit » 07 juil. 2008, 23:28

ecjs a écrit :Pourquoi ne pas tout simplement élaborer un dictionnaire dont le but serait uniquement correctif, et conçu à partir des fautes les plus courantes et les moins évidentes ?
Je ne comprends pas très bien ce que tu veux dire, le dictionnaire ne reprend pas les fautes mais les mots corrects. Si on ne met pas dedans les mots faciles à orthographier, ils se retrouveront soulignés en rouge ; ce qui n'est certainement pas le but.
♫ Li tens s'en veit, je n'ai riens fais ;
Li tens revient, je ne fais riens. ♪

Flamme
Lézard vert
Messages : 150
Enregistré le : 12 juin 2005, 19:46

Message par Flamme » 08 juil. 2008, 06:51

Bonjour à tous,

Vu que mes questions semblent paralyser la plupart (ou bien sont-ils tous partis à la plage? :roll: ), je vais proposer ma vision de l'affaire.

1. Français de base:
- Le français courant
- le français pas forcément courant mais qui ne sème pas la confusion avec le français courant
- une base de noms propres (villes, prénoms, fleuves, continents, etc.)
- argot de base
- une base minime de personnages historiques ?

2. Français rare:
- les mots rares susceptibles d'être confondus avec des mots courants
- les mots vraiment rares, désuets. En passant en revue tous les verbes du Bescherelle, j'en ai vu plus d'un. Déflaquer que mentionne Vazkor en fait partie.
- ancien argot

3. Français émergent:
- néologismes/barbarismes douteux
- anglicismes
- nouvel argot

4. Extension noms propres
Il s'agit bien d'une extension à ce qui existera dans le dictionnaire de base. Ce dictionnaire est susceptible d'être très vaste, car les noms propres sont, je crois, bien plus nombreux que les noms communs.
- les 36000 communes de France (moins les 400 dans le dico de base),
- les x milles communes de Belgique, du Québec et de Suisse (moins celles du dico de base),
- une liste d'éléments géographiques plus complète,
- une liste de prénoms plus étendue,
- personnages historiques
- les marques/produits les plus connues : Windows, Firefox, Renault, Toyota, Coca-Cola, etc.
- les bizarreries : ftp, http, xml et autres acronymes pas beaux,
- j'en oublie sûrement.
Il faudra faire attention à ce dico, car il est susceptible de vite devenir fourre-tout.
A priori, je suis toujours opposé à l'intégration des noms de célébrités ou personnages de romans.


Vous remarquerez que je ne propose pas de dictionnaire spécifique pour les métiers. Il me semble que nul ne peut se passer du vocabulaire d'au moins un métier et qu'il me paraît vain de vouloir créer un dico de vocabulaire pour chaque métier. Tout ça serait donc inclus dans le dictionnaire de base et probablement une partie dans le français émergent.

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9) Gecko/2008052906 Firefox/3.0

Omnisilver
Tyrannosaurus Rex
Messages : 2359
Enregistré le : 26 juin 2004, 19:44

Message par Omnisilver » 10 juil. 2008, 10:30

Ça m'a l'air d'être une bonne organisation ! Mais dans le français de base tu y inclus la réforme 1990 ?

Juste une question : est-ce qu'un grand nombre de mots dans le dictionnaire joue sur les performances de la correction orthographique (en terme de rapidité) ?

Flamme
Lézard vert
Messages : 150
Enregistré le : 12 juin 2005, 19:46

Message par Flamme » 10 juil. 2008, 11:32

Je ne sais pas si l'organisation est bonne. Ce qui est sûr, c'est que ça ne suscite pas l'enthousiasme des intéressés... :?

En ce qui concerne la réforme, j'aurais dû préciser qu'il y aurait 3 dictionnaires de base: le Classique, le Réformé et le Fusionné.
Ce qui porte donc le nombre de dictionnaires à 6, ce qui me semble déjà pas mal. Ça ne va pas forcément simplifier la vie de tous les utilisateurs, amha.

L'impact de la taille d'un dico, c'est surtout sur la mémoire. La vitesse de correction n'en est probablement guère affectée.

Les intéressés feraient bien de dire maintenant ce qu'ils en pensent. Si ça leur convient (ou s'ils ne disent rien), je vais proposer aussi ce schéma aux gens d'OOo, et voir ce qu'il en sort.

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9) Gecko/2008052906 Firefox/3.0

pirlouy
Tyrannosaurus Rex
Messages : 3648
Enregistré le : 03 nov. 2005, 05:05

Message par pirlouy » 10 juil. 2008, 12:24

Personnellement, je suis contre ces 3 versions.

Il ne devrait y avoir que le "fusionné"; en tout cas, si les 3 sont proposés, c'est le "fusionné" qui doit être mis par défaut, puisque les 2 écritures sont justes, il ne faudrait pas souligner un mot sous prétexte qu'il ne s'écrit comme ça que depuis 1990...

Flamme
Lézard vert
Messages : 150
Enregistré le : 12 juin 2005, 19:46

Message par Flamme » 10 juil. 2008, 13:20

Ce n'est pas moi qui décide quelle version est intégrée par défaut dans OpenOffice.org et dans Firefox/Thunderbird (même si je suis d'accord avec le choix du dictionnaire fusionné).
Au début, je n'avais produit qu'un dico Classique et un dico réformé. C'est au moment de l'intégration dans OOo que la question s'est posée, et on a souhaité avoir un dico fusionné, ce que j'ai fait au dernier moment.
Je me borne simplement à essayer de proposer ce qui est réclamé.

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9) Gecko/2008052906 Firefox/3.0

Yoko
Varan
Messages : 1203
Enregistré le : 13 nov. 2005, 11:47

Message par Yoko » 11 juil. 2008, 00:26

J'ai mis du temps à répondre j'en suis désolé j'avais pas accès à internet.

En réfléchissant à ce qu'il faudrait je me suis demandé quel était la notion de module du dictionnaire :
  • soit on considère que ce sont des options du dictionnaires;
  • soit l'objectif est de pouvoir mutualiser les modules (je dis peut être des bétise il y a peut être un autre mécanisme de mutualisation possible);
  • soit (c'est le plus compliqué) on fait un truc entre les deux.
Pour moi la base doit être constitué simplement du sous ensemble valide en français avec ou sans réforme. On ne met pas de mot rares. Ce dico doit être petit pour être léger et pouvoir s'incorporer dans de l'embarqué.

Un dictionnaire des mots rares (ou verbe).
Un dictionnaire des noms propres et uniquement ceux-ci.
Un dictionnaire "autre" qui contient les acronymes, anglisismes, thermes techniques non incorporé dans la langue française.

Un terme dusé ça me dérange pas qu'il ne soit pas incorporé, je pense que c'est s'éparpiller pour rien que de les prendre en compte. Mis à part les verbes ce sont des mots que l'utilisateur peut ajouter à la main sans problème je pense.

Message envoyé avec : Mozilla/5.0 (X11; U; Linux i686; fr; rv:1.8.1.12) Gecko/20080208 IceWeasel/2.0.0.12 (Zenwalk GNU Linux)
Membre auto-bannis du forum

Rpkx
Varan
Messages : 1202
Enregistré le : 13 nov. 2006, 14:39

Message par Rpkx » 18 juil. 2008, 00:03

Bonjour,

Je vous lis depuis quelque temps mais je n'interviens plus puisque ce que je dis on le prend pour du poivre et du sel...

Ajouter des mots aux dictionnaires existants n'a pas de sens si on ne tient pas compte de leur utilisation réelle dans la langue littéraire et parlée.

Il faudrait élaguer ces dictionnaires des mot vraiment trop exotiques... pour éviter de masquer des fautes de frappe de l'utilisateur lambda.

Combien de fois avez-vous tapé "gadolinium" ou "berkelium", jamais sans doute, alors des "ébaudir" ...

Savez-vous qu'en étudiant les fréquences de mots publiées par Lexique (des linguistes et pas des amateurs comme nous), même la conjugaison complète du verbe "aimer" ne se retrouve pas au complet dans un corpus cumulé de 32 millions de mots d'œuvres littéraires et 50 millions de mots de sous-titres de films. Les formes "aimas", "aimâtes", "aimasses" et "aimassiez" manquent.

Des tas de mots semblant courants (parce qu'on en connaît la conjugaison) ont une fréquence de 0.01 soit 1 occurrence sur 200 millions de mots.

Ceci est peut-être la dernière contribution sur ce fil de discussion de celui sans qui dicollecte en serait encore à demander des suggestions de mots à insérer dans le dico.

@+



Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1
Modifié en dernier par Rpkx le 18 juil. 2008, 10:31, modifié 1 fois.
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)

Yoko
Varan
Messages : 1203
Enregistré le : 13 nov. 2005, 11:47

Message par Yoko » 18 juil. 2008, 00:32

Yoko a écrit :Pour moi la base doit être constitué simplement du sous ensemble valide en français avec ou sans réforme. On ne met pas de mot rares. Ce dico doit être petit pour être léger et pouvoir s'incorporer dans de l'embarqué.
Comment on dit déjà ? Parle à mon cul...

Bref tout ça pour dire, Rpkx, que des divergences ça arrive tout le temps que ce soit dans une communauté Open Source, dans un service au boulot, dans un groupe d'amis. Tu semble être assez borné pour faire un excellent Torvald, Stallman ou De Raadth (ça n'est pas une critique j'ai cité les 3 figures les plus emblématiques et que je respecte le plus du web).

1/(2*10^6) je n'ai aucune idée de si ça fais peut. Des mots tel "gadolinium" ou "berkelium" n'ont quasiment aucune chance d'être confondu avec d'autres mots.

D'autres pourront me dire que si je me trompe mais de ces mots rares combien posent problème lors d'un ajout manuel ? Quel type de personne les utilisent ? Des litérraires ? ont-ils besoin de hunspell pour leur dire autre chose que des faute de frappe ? Sont-ils a même de les ajouter eux même ?

Message envoyé avec : Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.1) Gecko/2008071420 Iceweasel/3.0.1 (Debian-3.0.1-1)
Membre auto-bannis du forum

Benoit
Administrateur
Messages : 4894
Enregistré le : 19 juil. 2003, 10:59

Message par Benoit » 18 juil. 2008, 11:00

Rpkx a écrit :Combien de fois avez-vous tapé "gadolinium" ou "berkelium", jamais sans doute, alors des "ébaudir" ...
C'est vrai que je préfère utiliser esbaudir.

Bon, sinon il me semble que l'utilisation du tableau périodique des éléments fait encore partie de la matière du secondaire, au moins dans les filières scientifiques.

Et je ne vois pas avec quoi d'autre on pourrait confondre ce genre de mots.

P.S. Il me semble qu'il faudrait ajouter certains noms propres du libre comme « Torvalds » et « de Raadt » au dictionnaire :P
♫ Li tens s'en veit, je n'ai riens fais ;
Li tens revient, je ne fais riens. ♪

Yoko
Varan
Messages : 1203
Enregistré le : 13 nov. 2005, 11:47

Message par Yoko » 18 juil. 2008, 11:52

Benoit a écrit :P.S. Il me semble qu'il faudrait ajouter certains noms propres du libre comme « Torvalds » et « de Raadt » au dictionnaire :P
Espèce de grincheux :oops:

Message envoyé avec : Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.1) Gecko/2008071420 Iceweasel/3.0.1 (Debian-3.0.1-1)
Membre auto-bannis du forum

Rpkx
Varan
Messages : 1202
Enregistré le : 13 nov. 2006, 14:39

Message par Rpkx » 18 juil. 2008, 12:47

Bonjour Benoit,

Mais à côté de esbaudir, ébaudir il y a ébaubir et là on risque de confondre.

Pour berkelium, moi-même je me suis trompé, puisque le dictionnaire classique de dicollecte donne berkélium/S. Berkelium c'est l'orthographe anglaise !

Je ne vois pas pourquoi dicollecte a mis le drapeau S, on ne dira jamais des berkéliums. Le berkélium a des isotopes, mais alors on parlera des isotopes du Bk ou du Bk 243 à 249
Pour le gadolinium, il n'y avait pas de risque puisque mon mémoire de licence était justement une étude des complexes du gadolinium avec un acide organique au nom à coucher dehors.

Dans mon dictionnaire, le berkélium n'est pas présent parce que j'ai volontairement exclu les transuraniens.
Pas la peine de reprendre tous ces oiseaux rares venant après l'uranium et le plutonium (N=94). Si un chimiste les cite, j'ose espérer qu'il sait écrire leurs noms correctement...
Voir le tableau périodique pour les habitants de ce zoo.

J'ai le même point de vue pour tout le jargon médical.

Là où dicollecte et moi ne sommes pas d'accord c'est sur la pertinence d'inclure des mots exotiques. Il faut bien s'arrêter quelque part... et moi je me suis contenté de corriger le dictionnaire de Christophe Pythoud en ajoutant quelques mots maintenant courants qu'il n'avait pas repris.

Pour ceux que cela pourrait intéresser j'ai mis sur mon site la liste des 130.000 mots de Lexique 3 avec leur fréquence cumulée triés en ordre décroissant des fréquences sur deux millions de mots :
col 1 _FreqCumulées, somme des colonnes 4 et 5
col 2 _Mots
col 3 _CGram, catégorie grammaticale
col 4 FreqFilms2pm, fréquence des mots par million dans les sous-titres de films (± 50 millions de mots)
col 5 FreqLivrespm, fréquences par million dans un corpus de textes littéraires de ±37 millions de mots)
col 6 _TriFreqTot (pour ma facilité)

Pour en savoir plus sur Lexique

@+

P. S. : Benoit et transuraniens sont soulignés par mon dictionnaire et le dictionnaire classique de dicollecte ???

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.0; fr; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1
Il n'y a que deux choses infinies: l'univers et la bêtise humaine et encore, pour l'univers, je ne suis pas sûr (Einstein)

Flamme
Lézard vert
Messages : 150
Enregistré le : 12 juin 2005, 19:46

Message par Flamme » 18 juil. 2008, 13:58

Il y a plusieurs mois de ça (un an?), j'avais ôté les pluriels des noms des éléments, jugeant moi aussi que ça ne servait à rien. Les dictionnaires proposaient parfois le pluriel, parfois pas. Bref, c'était incohérent.
Mais ensuite, on m'a demandé de les (re)mettre (un prof ou quelqu'un travaillant sur le sujet, je présume au vu de ses propositions) et j'ai suivi, car il est vrai que ces noms ne sont pas invariables. Or, ne mettre ces mots qu'au singulier sous-entendrait qu'ils sont invariables, ce qui n'est pas le cas.

Sinon, il y a Benoît dans le dico (avec accent circonflexe). Les variantes orthographiques, c'est une plaie amha... (en plus, on va me gueuler dessus si je les ajoute... forcément, ça alourdit :roll: )

En ce qui concerne l'utilisation des dicos, ce que j'ai constaté, c'est plutôt que les utilisateurs ne se posent pas de question. Le logiciel doit forcément répondre à leurs besoins, quels qu'ils soient.
Par exemple, dernièrement, quelqu'un qui découvrait OOo m'a dit: "putain, mais il est nul OpenOffice. Y connait pas le mot XXXXXXXXXXX". (désolé, j'ai oublié ce que c'était. Un truc pas courant.) Deux minutes plus tard, "whaaa, mais il est vraiment mauvais. Y connait pas non plus XXXXXXXXXX!" (Coup de déprime et soupir de ma part. La personne ignorait que je m'occupais de ça.) Dans la demi-heure qui a suivi, une dizaine de plaintes ont fusé. Je pense qu'il va vite revenir à Word.

Autre exemple. Là, ce sont deux de mes amis.
Moi (voyant plein de fautes dans les textes qu'ils m'ont envoyés): "Pourquoi tu ne corriges pas les fautes? Tu as installé le dico?
- Ha non, moi, je désactive le correcteur. Ça m'énerve de voir du rouge partout."
L'autre ami : "Moi non plus, je ne m'en sers pas. Ça gêne la lecture." (Lui aussi aurait besoin de l'activer, comme vous l'imaginez, même s'il fait moins de fautes que le premier.)
Étonnement de ma part. Ce ne sont donc pas forcément ceux qui en ont le plus besoin qui utilisent le correcteur!

Enfin, j'aurais très bien pu faire la faute de Vazkor en écrivant berkelium sans accent. Je ne prétends pas connaître tout ça par cœur. Je fais aussi pas mal de fautes de frappe. Et je ne suis guère attentif à ce que je tape (plus dur de relire sur écran, je trouve). Le correcteur m'est indispensable pour repérer vite mes étourderies, et je suis plutôt exigeant. L'imparfait du subjonctif me sert très souvent, voire presque tout le temps. (Non, ce n'est pas une blague.)

Chacun n'utilise que 5% du dico, mais ce ne sont bien sûr pas les même 5%.
En 2007, les stats de téléchargement d'OOo (version fr) sont de 225000 par mois. Je ne sais pas combien ça fait d'utilisateurs (il y a ceux qui installent sans utiliser, ceux qui téléchargent une fois et qui installent sur X postes en entreprise, les linuxiens qui ne sont pas dans les stats, les miroirs sur les sites comme Clubic, etc.) mais je ne pense pas qu'il soit irréaliste de penser qu'il y a un million d'utilisateurs francophones. Tout ce monde aux besoins divers tape sans difficulté bien plus de 200 millions de mots (ça fait 200 mots par personne). Autrement dit, il m'apparaît que la complétude est utile.

Je n'ai jamais caché que je faisais d'abord un dico pour OOo. Maintenant, avec la modularité qui va venir à plus ou moins long terme, j'espère que ça satisfera tout le monde. Enfin, je n'espère pas trop, je vous rassure. :roll:

Malheureusement, la licence de Lexique (comme les licences des autres ressources intéressantes, comme celles du CNTRL) est trop restrictive.

Message envoyé avec : Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9) Gecko/2008052906 Firefox/3.0

Benoit
Administrateur
Messages : 4894
Enregistré le : 19 juil. 2003, 10:59

Message par Benoit » 18 juil. 2008, 17:12

Rpkx a écrit :Dans mon dictionnaire, le berkélium n'est pas présent parce que j'ai volontairement exclu les transuraniens.
Pas la peine de reprendre tous ces oiseaux rares venant après l'uranium et le plutonium (N=94). Si un chimiste les cite, j'ose espérer qu'il sait écrire leurs noms correctement...
Voir le tableau périodique pour les habitants de ce zoo.
Je serais prudent avec ce genre de limite arbitraire. Par exemple, sur ce site que j'ai découvert il n'y a pas longtemps, on peut apprendre que l'américium (N=95) est utilisé dans les détecteurs de fumée domestiques. Pas aussi impressionnant que le plutonium, mais en pratique on risque plus de tomber dessus dans sa vie de tous les jours.

Concernant ébaudir et ébaubir, est-ce que ce ne serait pas le second qui serait à retirer plutôt que le premier ? Je n'ai jamais entendu quelqu'un dire qu'il s'ébaubissait avant ces discussions sur le dictionnaire.
Et en même temps, vu le niveau de langage, j'aurais tendance à dire que quelqu'un qui ferait involontairement la confusion entre les deux n'aurait que ce qu'il mérite. Quand on utilise ce genre de mots on se doit d'être pédant jusqu'au bout :)
♫ Li tens s'en veit, je n'ai riens fais ;
Li tens revient, je ne fais riens. ♪

Répondre

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité