FRFAM.COM >> Science >> Technologie

Lorsque les formats de fichiers disparaissent (et que les données sont perdues)

Microsoft Word n'a pas pu ouvrir ses propres documents d'environ 1989 en 2017. Une loi fondamentale n'est-elle pas violée ici ?

Je ne suis pas le premier à écrire sur la technologie et à tirer la sonnette d'alarme sur les données manquantes. Le problème peut être décrit comme "la tendance des fichiers informatiques à devenir inaccessibles parce que le support sur lequel ils sont stockés n'est plus utilisable ou disponible." Pendant des années, nous avons confié nos textes, documents commerciaux, musique et art à des supports désormais désaffectés. comme les cartes perforées, les bandes magnétiques, les disquettes et les disques zip. Et si vous pensez que nous utiliserons des CD et des DVD-ROM pendant encore longtemps, vous vous trompez.

C'est comme si nous découvrions soudainement que tous nos tournevis ne correspondent plus aux billions de vis qui maintiennent nos structures ensemble

Aujourd'hui, j'invente quelque chose d'encore plus sinistre qui peut m'empêcher de dormir la nuit :la disparition des formats de fichiers. Il ne s'agit pas de préoccupations concernant les supports sur lesquels nous écrivons nos données, mais du format de ces données elles-mêmes.

Le problème m'a frappé comme un marteau lorsque j'ai essayé d'ouvrir d'anciens documents enregistrés dans Microsoft Word plus tôt cette année. Cela n'a pas fonctionné! Microsoft Word n'a pas pu ouvrir ses propres documents d'environ 1989 en 2017. N'y a-t-il pas ici violation d'une loi fondamentale ? Vous avez oublié une forme de garantie implicite ? C'est comme se réveiller le matin pour constater que tous nos tournevis ne correspondent plus aux billions de vis qui maintiennent nos structures ensemble.

Lorsque les formats de fichiers disparaissent (et que les données sont perdues)

Pendant les dix premières années de ma carrière, juste après avoir quitté l'université, j'ai travaillé à New York sur Broadway en tant qu'arrangeur et chef d'orchestre pour des comédies musicales. J'ai passé des années de ma vie à écrire des partitions avec des logiciels comme Professional Composer, Deluxe Music Construction Set et HB Engraver. Chaque partition m'a pris des heures et des heures et des heures. Aujourd'hui, je ne peux plus les ouvrir † À part ceux que j'ai imprimés, je ne pourrai plus jamais les revoir. Le logiciel avec lequel ils ont été écrits a disparu depuis longtemps - et avec lui toutes les notes et tous les accords qui sont maintenant enfermés dans leurs documents pour toujours.

Alors, comment pouvons-nous nous attendre à ce que les générations futures puissent accéder à nos pièces de théâtre, romans, photos, vidéos et autres produits de notre créativité ?

Vous savez qui passe beaucoup de temps à répondre à cette question ? La Bibliothèque du Congrès, la bibliothèque nationale des États-Unis. Il travaille actuellement sur un processus de numérisation de plusieurs millions de dollars de 70 millions de manuscrits, 14 millions de photographies et 800 000 livres rares. L'idée est de les conserver et de les rendre accessibles au public sur internet.

Il y a quelques années, j'ai eu la chance d'interviewer Helena Zinkham. Elle est responsable du département des estampes et des photos de la bibliothèque. Elle a souligné que non seulement le papier est l'un des meilleurs formats de document, mais que le papier plus ancien reste le meilleur de tous. "Le papier était beaucoup plus solide dans les années 1400, 1500, 1600 parce qu'il était fait de tissu, de vieux chiffons, de lin ou de coton", m'a-t-elle dit. "Mais au 19ème siècle, pour permettre la production de masse de papier, des produits chimiques ont commencé à être utilisés dans le processus de production." Ces produits chimiques ont entraîné un déclin plus rapide.

Lorsque les formats de fichiers disparaissent (et que les données sont perdues)

Donc, si vous êtes la Bibliothèque du Congrès et que vous êtes bien conscient de la disparition des formats de fichiers, et que vous espérez conserver votre collection pour les prochaines générations pour économiser, à quoi devrait ressembler votre plan de numérisation ? Quel format de fichier pouvons-nous espérer qu'il ne disparaisse pas d'ici deux cents ans ?

Eh bien, tout d'abord, pour un format ouvert choisir, un format qui n'est ni détenu ni associé à une société de logiciels. La Bibliothèque du Congrès a choisi le format TIFF pour numériser des photos, des livres et des documents. Zinkham :"Cela nous donne le meilleur espoir de conserver ces fichiers pendant de nombreuses années."

Et cela, s'avère-t-il, est la clé :la reconversion est intégrée dans les plans de la bibliothèque. Lorsque la bibliothèque a lancé le programme de numérisation au milieu des années 1990, la résolution était encore très faible – 420 par 560 pixels pour une photo entière. Aujourd'hui, chaque scan fait plusieurs milliers de pixels de haut et de large.

Bien sûr, cela signifie que le travail de conversion des formats de fichiers ne se termine jamais. Déjà, la Bibliothèque du Congrès renumérise des documents et des images clés pour tirer parti des avancées en termes de profondeur de bits et de résolution, et prévoit de continuer à le faire de temps à autre.

Cela devrait également être notre stratégie. Si j'avais ouvert ces documents Word 1.0 et les avais sauvegardés toutes les quelques années avec des versions successives de Word, je les aurais encore aujourd'hui. Je n'étais pas assez diligent pour convertir mes fichiers simplement parce que je ne voyais pas le problème. Maintenant, vous n'avez plus cette excuse.

Ajout :les anciens documents .doc qui ne peuvent plus être lus par les versions ultérieures de Word, seraient généralement toujours ouverts avec les éditeurs Open Source (Linux).


[]