7
mar/10
0

Toute recherche scientifique digne de ce nom doit ouvrir son code informatique

TenSafeFrogs - CC byVoici un récent article du Guardian qui tourne paradoxalement autour du logiciel libre et des formats ouverts mais sans véritablement les nommer.

Nous avons cependant jugé qu’il avait son intérêt dans la mesure où la science et la recherche ont désormais de plus en plus recourt à l’informatique pour traiter des données et en tirer analyses et conclusions1.

Or comment voulez-vous que l’on puisse valider les résultats si les applications utilisées sont propriétaires ou si les chercheurs eux-mêmes ne mettent pas le code de leur programme à disposition ?

L’article s’appuie sur la récente affaire dite du « Climategate » qui a fait grand bruit outre-Manche (et étrangement peu de cas chez nos grands médias français).

Quand recherche sérieuse rime avec libération du code informatique

If you’re going to do good science, release the computer code too

Darrel Ince – 5 février 2010 – The Guardian
(Traduction Framalang : Kovalsky et Olivier)

Les programmes informatiques prennent chaque jour plus de place dans le travail scientifique. Mais partie prenante dans les conditions de l’expérience vous devez pouvoir les vérifier comme en atteste la bataille qui se joue autour des données sur le changement climatique.

On retiendra de l’affaire concernant la révélation publique des e-mails et des documents de l’Unité de Recherche Climatique de l’Université d’East Anglia qu’ils mettent en lumière le rôle du code informatique dans la recherche climatique. Il y a notamment une série de « README » produite par un programmeur de l’UEA connu sous le nom de « Harry ». Ces notes sont celles de quelqu’un qui lutte avec du code ancien non-documenté, et des données manquantes. Et pourtant, on parle bien d’un élément de l’une des trois bases de données climatiques principales dont se sont servis les chercheurs du monde entier pour en tirer analyses et conclusions.

Beaucoup de scientifiques du climat ont refusé de publier leur programme informatique. À mes yeux, ça n’est ni scientifique, ni responsable, parce que les logiciels scientifiques sont réputés pour leur manque de fiabilité.

L’Histoire nous a appris à ne pas faire une confiance aveugle aux logiciels scientifiques. Par exemple le Professeur Les Hatton, un expert international en tests logiciels, résident de l’Université du Kent et de Kingston, a mené une analyse approfondie de plusieurs millions de lignes de code scientifique. Il a montré que les logiciels présentaient un nombre exceptionnellement élevé d’erreurs détectables.

Par exemple, les erreurs de communication entre les modules de logiciels qui envoient les données d’une partie d’un programme à une autre se produisent à une fréquence de 1 pour 7 communications en moyenne dans le langage de programmation Fortran, et de 1 pour 37 communications dans le langage C. C’est d’autant plus inquiétant qu’une seule et unique erreur est susceptible d’invalider un programme informatique. Plus grave encore, il a découvert que la précision des résultats chute de six chiffres significatifs à un chiffre significatif après traitement par certains programmes.

Les travaux d’Hatton et d’autres chercheurs indiquent que les logiciels scientifiques sont souvent de mauvaise qualité. Il est stupéfiant de constater que cette recherche a été menée sur des logiciels scientifiques commerciaux, produits par des ingénieurs logiciels soumis à un régime de tests, d’assurance qualité et à une discipline de contrôle des modifications plus connue sous le nom de gestion de configuration.

À l’opposé, les logiciels scientifiques développés dans nos universités et nos instituts de recherches sont souvent produits, sans assurance qualité, par des scientifiques qui n’ont pas de formation en ingénierie logicielle et donc, sans aucun doute, l’occurence des erreurs sera encore plus élevée. Les fichiers « Harry ReadMe » de l’Unité de Recherche Climatique sont une preuve flagrante de ces conditions de travail. Ils résument les frustrations d’un programmeur dans sa tentative de conformer ses séries de données à une spécification.

Le code informatique est au coeur d’un problème scientifique. La science se définit par sa potentielle remise en cause : si vous érigez une théorie et que quelqu’un prouve qu’elle est fausse, alors elle s’écroule et on peut la remplacer. C’est comme cela que fonctione la science : avec transparence, en publiant chaque détail d’une expérience, toutes les équations mathématiques ou les données d’une simulation. Ce-faisant vous acceptez et même encouragez la remise en question.

Cela ne semble pas être arrivé dans la recherche climatique. De nombreux chercheurs ont refusé de publier leur programme informatique, même ceux qui sont encore utilisés et qui ne sont pas sujet à des accords commerciaux. Le Professeur Mann, par exemple, refusa tout d’abord de fournir le code, employé pour construire en 1999 le graphique en cross de hockey, qui a démontré que l’impact de l’homme sur le réchauffement climatique est un artefact unique de la dernière décennie (il l’a finalement publié en 2005).

La situation n’est pas aussi désastreuse pour tous les travaux académiques. Certaines revues, économiques et économétriques par exemple, imposent que l’auteur soumette ses données et ses programmes au journal avant publication. Un cas fondamental en mathématiques a également fait parler de lui : la preuve « par ordinateur » de la conjoncture des quatre couleurs par Appel et Haken. Cette démonstration a partagé la communauté scientifique puisque pour la première fois le problème de la validation du théorème s’est trouvé déplacé vers le problème de la validation de l’algorithme d’exploration et de sa réalisation sous forme de programme. Bien que critiquée pour son manque d’élégance, la preuve n’en était pas moins correcte et le programme informatique, publié et donc vérifiable.

Des organismes et des individus, ralliés à l’idée du quatrième paradigme, attachent beaucoup d’importance au problème de l’informatique scientifique à grande échelle et à la publication des données. C’était l’idée de Jim Gray, un chercheur expérimenté de Microsoft, qui a identifié le problème bien avant le Climategate. Actuellement, la recherche consacrée aux mécanismes qui pourraient faire du Web un dépôt pour les publications scientifiques est très active, elle englobe également les logiciels et la formidable quantité de données qu’ils consomment et génèrent. Un certain nombre de chercheurs mettent au point des systèmes qui montre le progrès d’une idée scientifique, des premières ébauches d’idées jusqu’à la publication papier2. Les problèmes rencontrées avec la recherche climatique apporteront un élan à ce travail pour qu’il soit accéléré.

Donc, si vous publiez des articles de recherche qui s’appuient sur des programmes informatiques, si vous prétendez faire de la science mais que vous refusez de publier les programmes en votre possession, je ne peux vous considérer comme un scientifique. J’en irais même jusqu’à dire qu’à mes yeux les publications basées sur ces programmes seront nulles et non avenues.

Je trouve incroyable qu’une faute de frappe puisse être à l’origine d’une erreur dans un programme, un programme qui pourrait à son tour être à l’origine de décisions portant sur des milliards d’euros, et le pire, c’est que la fréquence de ces erreurs est élevée. Les algorithmes (ou copules gaussiennes), sur lesquels se sont appuyées les banques pour s’assurer que les crédits sub-prime étaient sans risque pour eux, ont été publiées. La facture était salée. La facture du changement climatique sera aussi élevée. Raison de plus pour qu’aucune erreur dans les calculs ne soit tolérée là non plus.

Notes

1 Crédit photo : TenSafeFrogs (Creative Commons By)

2 Voir à ce sujet l’article du Framablog : Première démonstration « open source » d’un théorème mathématique.

Aller a la Source

5
mar/10
0

Geektionnerd : Ballot Screen

« Toute la vie est une affaire de choix. Cela commence par : la tétine ou le téton ? Et cela s’achève par : Le chêne ou le sapin ? » Pierre Desproges

Geektionnerd - Simon Gee Giraudot - CC by-sa

Geektionnerd - Simon Gee Giraudot - CC by-sa

Geektionnerd - Simon Gee Giraudot - CC by-sa

Crédit : Simon Gee Giraudot (Creative Commons By-Sa)

Aller a la Source

22
fév/10
0

L’Affaire Copyright ou les aventures de Tintin au pays des ayants droit

L'Affaire Copyright - Couverture - PiccoloNous avons déjà eu l’occasion de le signaler dans notre billet sur Le Petit Prince. Fixer arbitrairement à une très longue période de 70 ans la durée des droits patrimoniaux après la mort de l’auteur au bénéfice des ayants droit est devenu quelque peu problématique à l’ère du réseau.

Ce qui se voulait au départ un équilibre équitable entre les droits du public et celui du créateur penche désormais très clairement en faveur du second (et de sa progéniture) sans autre réelle justification que le contrôle et le profit.

D’ailleurs à ce propos une petite parenthèse mathématique. Sans remonter le temps juste après la Révolution française où cette durée n’était que de 10 ans, on peut faire remarquer qu’en 1900 la durée était de 50 ans mais avec une espérance de vie dépassant à peine les 40 ans. Or aujourd’hui on a non seulement rallongé la durée des droits à 70 ans, mais l’espérance de vie approche les 80 ans1.

Conclusion : Les ayants droit ont gagné en un siècle 20+40, soit 60 ans de plus en moyenne pour exploiter les œuvres !

Tout ceci n’est guère raisonnable. D’autant que cela aiguise les appétits des enfants et petits-enfants du créateur dans ce qui peut devenir là une source de revenus suffisante pour bien vivre, sans autre travail que de veiller jalousement au patrimoine du génie de la famille.

Capitaine HaddockCela leur fait même parfois un peu tourner la tête. Nous avions évoqué brièvement le cas de l‘anarchiste Léo Ferré, qui doit s’en retourner dans sa tombe. Mais la palme revient peut-être aux ayants droit de Tintin, ou plutôt de son papa Hergé, enfin surtout de ses héritiers, en l’occurrence sa veuve et son nouveau mari par l’entremise de la Société Moulinsart chargée de l’exploitation commerciale de l’œuvre du célèbre dessinateur.

Cette société a l’honneur d’un article sur Wikipédia. Extrait :

La gestion de l’œuvre d’Hergé reste très controversée par certains tintinophiles qui l’estiment parfois trop stricte, trop commerciale, voire maladroite. Le prix élevé des produits dérivés, le contrôle rigoureux des sites internet amateurs ou encore les ratés de certains projets (l’adaptation de Tintin au cinéma et le musée Hergé par exemple) sont souvent pointés du doigt. Ainsi, en octobre 2009, Moulinsart SA a fait condamner en appel le romancier Bob Garcia à une amende de plus de 48 000 euros pour des vignettes qu’il avait citées dans un ouvrage pour enfants édités à seulement 500 exemplaires, voire pour des vignettes qui n’étaient pas citées du tout dans les ouvrages de l’auteur. Celui-ci n’étant pas solvable, la société n’hésitera pas à faire saisir sa maison.

Pour en savoir plus sur cette sombre histoire, voir Moulinsart l’a tué, presque sur La république des livres, le blog de Pierre Assouline (l’un des biographes d’Hergé soit dit en passant).

Capitaine HaddockIl faut bien comprendre que la moindre reproduction de vignettes est interdite par les avocats de Moulinsart : « une vignette de bande dessinée est une œuvre à part entière, or une œuvre à part entière ne peut pas être citée (…) il y a environ mille vignettes par album, il y a donc mille dessins protégés par des droits d’auteur » (source JDD).

Impossible donc a priori de faire état d’un « droit de courte citation graphique ». Ainsi les quelques imagettes qui illustrent ce billet, d’un Capitaine Haddock abasourdi par la situation, sont en théorie illégales, sauf à penser qu’elles ne sont que des parties de vignettes et donc en quelque sorte des citations de vignettes (qu’elles proviennent indûment d’une photo d’exposition placée sous Creative Commons n’arrange évidemment rien à l’affaire).

Mais il n’y a pas que Bob Garcia qui ait eu à subir la vindicte de Moulinsart SA. On peut citer également les difficultés actuelles des éditions Bédéstory.

BédéStoryBédéStory publie sous le titre générique « Comment Hergé a créé… » des études portant sur la genèse de l’œuvre d’Hergé : Comment Hergé a créé Tintin au Congo, Comment Hergé a créé Tintin en Amérique, et ainsi de suite.

Des titres proches des originaux, quelques vignettes reprises çà et là, et c’est la sanction : Moulinsart SA attaque pour rien moins que contrefaçon ! Heureusement le tribunal (d’Évry) a logiquement débouté et condamné Moulinsart pour procédure abusive et ordonné la main-levée des ouvrages.

Mais cela n’a pas suffit. Ils ont en effet fait pression sur les distributeurs dont la FNAC et Amazon, pour qu’ils ne proposent plus la dite collection dans leur catalogue, une lettre non équivoque de Moulinsart à la FNAC ayant été interceptée. BédéStory s’en insurge : « Nous tenons à dénoncer avec force les méthodes commerciales scandaleuses utilisées par Moulinsart pour nous éliminer du marché sans le moindre jugement défavorable à notre encontre, ainsi que l’attitude lamentable de la FNAC qui n’a pas daigné répondre à notre demande d’explication. »

Capitaine HaddockL’ironie de l’histoire c’est que BédéStory a également publié tout récemment un album aux éditions « Parodisiaques » (histoire que ce soit bien clair) dont le titre, dans ce contexte, ne passe pas inaperçu : L’affaire copyright.

En voici sa présentation, parce que je ne vais pas me gêner pour en faire la publicité (la couverture, tout en haut, et la page de garde, tout en bas, sont de Piccolo) :

Dix scénaristes et dessinateurs de bande dessinée (Calza, Chabaud, Di Martino, Domas, Fortin, Mibé, Piccolo, Sen et Roulin) rendent hommage à Hergé à travers de courtes histoires parodiques (Brocante à Moulinsart, Tartarin et les cent dalles du pharaon, On a zappé sur Saturne, Cauchemar à Moulinbar, Remue-ménage à Moul1sard, Crincrin au chômage, Crincrin chez le psychanalyste, Les Aventures de Crincrin, Pinpin et la fin de l’or noir) en 52 pages quadri étonnantes d’imagination et d’humour. Ce recueil est le premier album parodique exclusivement consacré à Tintin.

Or, cette fois-ci, l’ouvrage ne va pas être retiré de la circulation, il ne va tout simplement pas être référencé !

Ces petits récits (dont la plupart ont déjà été publiées précédemment avec l’accord écrit de Moulinsart). ne constituent pas des suites des Aventures de Tintin. Elles sont des hommages très respectueux à l’œuvre de Hergé et à Tintin, réalisées avec passion et talent par une dizaine d’auteurs vraiment tintinophiles. Elles ne contiennent aucune violence, ni racisme, ni allusion politique, etc. et ne peuvent en aucun cas faire de tort à l’image de Tintin. Elles s’inscrivent parfaitement dans le strict droit de l’exception de parodie.

Or, la Fnac (et la plupart des grandes librairies bédé, sites de vente en ligne, etc.) refusent purement et simplement de référencer l’ouvrage « suite aux pressions et menaces de Moulinsart ». Donc, cette fois Moulinsart fait l’économie d’un procès. Il suffit que leurs avocats envoient des lettres types de menace pour que commercialisation de cet ouvrage – parfaitement légal – soit définitivement compromise.

Faute de trouver une meilleure solution pour l’instant, BédéStory a décidé de proposer cet ouvrage en vente directe à nos quelques clients fidèles et aux quelques libraires qui ont encore un peu de dignité.

Cet album vous intéresse ? Un message de soutien ?

Vous pouvez leur écrire à : bedestory AT gmail.com.

Tiens, il me vient en mémoire ce chinois qui, un sabre à la main, poursuivait Tintin dans Le lotus bleu : « Il faut trouver la voie ! Moi je l’ai trouvée. Il faut donc que vous la trouviez aussi… Je vais d’abord vous couper la tête. Ensuite, vous trouverez la vérité ! ».

Ce chinois était devenu fou. Lui aussi.

L'Affaire Copyright - Page de garde - Piccolo

Notes

1 Les sources de ma parenthèse mathématique proviennent de cet article mais surtout de ce graphique.

Aller a la Source