Il testo originale di questo articolo è reperibile a questo sito
Che stiate scrivendo un articolo, modificando un'immagine, costruendo una pagina web, ascoltando un brano musicale o guardando un film sul vostro computer, avete a che fare con dei file. Perchè questi file possano essere aperti, letti o modificati tramite i vostri programmi preferiti, è necessario che abbiano un formato. Un formato è ciò che permette a un'applicazione d'interpretare i dati bruti contenuti in un file. Un formato è in altri termini, il modo di rappresentazione di questi dati. Spesso i formati dei file sono indicati tramite la loro estensione: il suffisso - spesso di tre lettere - con cui termina il nome di un file. Per esempio: lamiapagina.htm è un documento scritto in linguaggio HTML. Esistono formati specifici per le immagini (per esempio JPEG, PNG, GIF, TIF, BMP), per testo non formattato (ASCII, spesso indicato con l'estensione .txt), per testi formattati (HTML, RTF, DOC) per testi impaginati pronti alla stampa (PDF, PS).
Per poter lavorare con un file, avrete bisogno nella maggior parte dei casi di un programma o di un'applicazione che permetta di leggere, modificare o salvare i dati contenuti in questo file.
Diremo che un formato è aperto se il modo di rappresentazione dei
suoi dati è trasparente e/o la sua specifica è di pubblico dominio. Si
tratta generalmente (ma non esclusivamente) di standard fissati da
autorità pubbliche e/o istituzioni internazionali il cui scopo è quello
di fissare norme che assicurino l'interoperabilità tra software. Non
mancano tuttavia casi di formati aperti promossi da aziende, che hanno
deciso di rendere pubblica la specifica dei propri formati.
Si noti che un formato aperto può essere tanto codificato in modo
trasparente (ovvero leggibile tramite un qualsiasi editor di testo: è il
caso dei linguaggi di markup) quanto in formato binario (illeggibile in
un editor di testo, ma trasparente alla luce della sua specifica
pubblica: è il caso di formati aperti come il PDF o il PNG).
Diremo che un formato è proprietario se il modo di rappresentazione
dei suoi dati è opaco e la sua specifica non è pubblica. Si tratta in
genere di un formato sviluppato da un'azienda di software per codificare
i dati di una specifica applicazione che essa produce: solo i prodotti
di questa azienda potranno leggere correttamente e completamente i dati
contenuti in un file a formato proprietario. I formati proprietari
possono inoltre essere protetti da un brevetto e possono imporre il
versamento di royalty a chi ne fa uso.
Nota terminologica: in questo documento chiameremo formato proprietario ciò che altri chiamano formato chiuso.
Non intendiamo affatto suggerire tramite la nostra scelta terminologica
che tutto ciò che non è proprietario appartiene al mondo degli standard
pubblici. Abbiamo sottolineato nel paragrafo precedente che esistono
diversi formati a specifica pubblica (= "aperti") che sono stati
sviluppati da imprese produttrici di software. La differenza tra aperto e
proprietario (o chiuso, che dir si voglia) consiste esclusivamente
nell'esistenza o nella non esistenza di una specifica pubblica del
formato.
I formati proprietari sono oggi molto diffusi, dal momento che sono
utilizzati da un gran numero di programmi per l'edizione e la
manipolazione di testo, immagini e contenuto multimediale. Un formato
proprietario codifica i dati in modo tale che il file risultante sarà
leggibile soltanto con il programma con cui è stato creato. Al
contrario, un formato aperto garantisce che il file possa essere letto
tramite qualsiasi programma creato a tale scopo.
La differenza tra un formato aperto e un formato proprietario può passare inosservata finchè si fa un uso locale
dei propri file. Per uso locale intendiamo un uso personale o un uso
con altri utenti con cui esista un implicito accordo sul tipo di
programmi disponibili per aprire i file.
Non appena l'uso non è più locale e possiamo parlare di scambio
di file (la loro pubblicazione in rete, la loro diffusione, il loro
scambio in attachment ad un messaggio di posta elettronica, in breve
tutte le forme di comunicazione per le quali non sussiste un implicito
accordo con i destinatari sul tipo di programmi da utilizzare per aprire
i file), la distinzione tra formato aperto e formato proprietario
diventa cruciale.
I formati proprietari possono essere utilizzati localmente senza rischi da un utente isolato per uso personale o da una comunità di utenti che abbiano preliminarmente stabilito di servirsi di questi formati per un lavoro collaborativo. Scambiare file è invece una pratica sociale i cui effetti non riguardano ù l'utente isolato, ma l'insieme dei possibili destinatari dei file. Scambiare file richiede la conversione del formato originario in un formato appropriato allo scambio.
I formati aperti sono per definizione formati di scambio: garantiscono accessibilità, interoperabilità e perennità del contenuto.
More:
Embrace and Extend Strategies [en]
Un formato proprietario codifica delle informazioni che non sono
pubblicamente accessibili (in quanto codificate in modo non trasparente e
in assenza di specifiche pubbliche del formato). In molti casi, solo il
produttore del software e proprietario del formato, che possiede la
chiave per la decifrazione completa dei dati, può accedere a queste
informazioni.
Spesso, al momento del salvataggio, il programma aggiunge ai file
informazioni che non sono generalmente accessibili all'utente comune,
quali il nome dell'autore, il numero di serie del programma, il tipo di
sistema operativo, la macchina su cui l'utente lavora, la cartella in
cui si trova il file etc. Alcune di queste informazioni sono talvolta
codificate in modo trasparente all'insaputa dell'autore stesso e
diventano così perfettamente accessibili a chiunque: l'aneddoto del
manifesto politico anonimo diffuso in formato MSWord che conteneva il
nome dell'autore perfettamente leggibile nelle proprietà del documento è
forse il caso più celebre delle conseguenze inattese dell'uso di
formati proprietari come formati di scambio.
Delle conseguenze ben più gravi vanno previste qualora non si tratti di
semplice violazione della privacy di dati personali, ma di diffusione
d'informazioni militari o di segreti commerciali. E' insomma abbastanza
curioso che si accetti senza discussione che i documenti prodotti nel
Ministero della Difesa di un Paese X contengano una parte accessible
solo a una società privata di un Paese Y.
Diffondere documenti e file in formato proprietario significa diffondere
informazioni di cui nessuno - con l'eccezione del produttore del
formato - può conoscere l'esatto contenuto.
More:
Dècouvrir des informations invisibles [fr]
Les vices cachès des .doc [fr]
La maggior parte dei virus oggi in circolazione sono veicolati da
file scambiati tra utenti. Simili virus sfruttano la vulnerabilità di
alcuni programmi o falle di sicurezza di specifici sistemi operativi per
eseguire codice dannoso all'insaputa dell'utente.
La propagazione dei virus in questi casi dipende dal fatto che la
maggioranza degli utenti si serve della stessa applicazione e scambia
dati direttamente nel formato nativo (=proprietario) di questa
applicazione. Ne segue che la maggior parte dei virus è non soltanto
specifica per piattaforma, ma spesso specifica per programma. Spesso,
abbandonare un programma e il suo formato nativo è sufficiente a rendere
un sistema immune contro un'intera classe di virus (è il caso, per
esempio, dei virus veicolati da macro MSWord).
Utilizzare formati aperti - formati indipendenti da una specifica
applicazione, interoperabili e accessibili a partire da diverse
piattaforme - indebolisce l'impatto globale dei virus et ne scoraggia la
diffusione: è molto più semplice creare un virus sfruttando le
vulnerabilità note di una singola applicazione in posizione dominante e
la mancanza di consapevolezza da parte della maggioranza degli utenti
che aggiungere codice dannoso all'interno di un formato che può essere
usato da un gran numero di applicazioni e su diversi tipi di
piattaforma.
More:
The Threat of Standardization [en]
Questo problema non è sensibile al livello del singolo utente, ma concerne in modo cruciale la comunità degli utenti. Diffondendo file in formato proprietario si obbliga implicitamente il destinatario a scegliere lo stesso software che il mittente ha utilizzato. Ciò che implicitamente si comunica inviando un file in formato proprietario è il messaggio "Munisciti dello stesso software o non potrai leggere il contenuto di questo file". Questa pratica - la stessa che si produce quando colui che diffonde un file pensa ingiustificatamente che "tutti i destinatari di questo file dispongono certamente del software richiesto" - ha una duplice conseguenza.
More:
G.Bennett - Build Systems, Not Companies, on Open Standards [en]
J.Schwartz - Open source versus open standards [en]
S.Petty - Open source vs. open standards [en]
Privilegiare formati aperti nella diffusione, pubblicazione e scambio per posta elettronica di file e documenti significa:
More: The Principles of Open Standards [en] Open Standards:Principles and Practice [en]
I formati proprietari non sono formati di scambio. La maggior
parte dei documenti in formato proprietario destinati alla diffusione o
alla pubblicazione elettronica può essere facilmente sostituita o
convertita in formati aperti che offrono le stesse caratteristiche. I
principali formati proprietari da evitare sono i seguenti:
Documenti di testo formattato MS Word (DOC)
Tavole e database MS Excel (XLS)
Presentazioni MS PowerPoint (PPS et PPT)
Immagini bitmap ad alta qualità (BMP, TIF)
Immagini vettoriali (WMF)
File audio MP3
Windows Media Audio (WMA)
Il formato di documento MS Word è un formato proprietario
semi-trasparente sviluppato dalla Microsoft. Ciò significa che una parte
delle informazioni che esso codifica sono accessibili mentre altre non
lo sono. Le stesse caratteristiche di formattazione e di impaginazione
dei documenti MS Word sono supportate dal formato aperto Ooo - uno
standard basato sull'XML e sviluppato per la suite libera OpenOffice che
risponde ai criteri di accessibilità stabiliti dal W3 consortium: il
formato OpenOffice - per le sue caratteristiche di portabilità e
compatibilità - aspira a diventare lo standard pubblico di riferimento
per i documenti formattati.
Se il testo in questione non è destinato ad essere modificato da parte
del destinatario, la soluzione ottimale è quella di utilizzare il
formato aperto HTML, leggibile con qualsiasi tipo di browser ed editore
testuale. Nel caso in cui non solo la formattazione, ma anche una
precisa impaginazione è richiesta, i formati aperti appropriati sono il
PS e il PDF. Per testi scientifici, i formati di riferimento sono il TeX
e il DVI. Una soluzione non ottimale, ma comunque migliore del formato
MSWord nel caso di un lavoro collaborativo è l'uso del formato
semi-proprietario RTF, che nella sua versione nativa ha una specifica
pubblica ed è leggibile tramite la maggioranza dei sistemi di
videoscrittura.
More:
MS-Word is Not a document exchange format [en]
We Can Put an End to Word Attachments [multilingual]
OpenOffice.org [multilingual]
Pourquoi pas Word [fr]
Les vices cachès des .doc [fr]
Il formato MS Excel è un formato proprietario sviluppato da Microsoft. La migliore alternativa aperta per salvare e pubblicare voluminose tabelle di dati testuali è utilizzare del testo bruto separato da virgole ("Comma Separated Values" - CSV) o testo separato da tabulazioni (TSV). Il CSV può essere letto, modificato e registrato con qualsiasi applicazione per la gestione di basi dati ed ha un peso molto limitato.
Sono sempre più frequenti le presentazioni Powerpoint messe in rete dagli autori. La migliore soluzione per la pubblicazione e diffusione di presentazioni in formato aperto, sempre che gli effetti di transizione ed animazione non siano necessari, è il formato PDF che offre un eccellente alternativa sia in termini di qualità (i grafici vettoriali possono essere ingranditi senza limiti) e di portabilità (l'impaginazione e la formattazione non rischiano di cambiare su piattaforme diverse).
Per immagini che richiedono una definizione cromatica più fine formati proprietari come il BMP o il TIF possono essere sostituiti dallo standard aperto JPEG.
Il formato vettoriale proprietario WMF può essere sostituito con il suo equivalente aperto, il formato SVG.
MP3 sta per MPEG1 Layer 3. Benchè estremamente diffuso e standard di
fatto per contenuti audio, l'MP3 è un formato di compressione audio
lossy proprietario. Infatti anche se è uno standard documentato del
gruppo MPEG (Moving Picture Coding Experts Group) il suo sviluppo è
dovuto in gran parte al lavoro del Fraunhofer Institute che ha protetto
il suo lavoro con dei brevetti. In seguito il Fraunhofer Institute ha
unito i suoi brevetti con quelli di Thomson Multimedia (RCA),
cominciando a esigere royalties per l'uso del formato. Attualmente 18
brevetti coprono gran parte di ciò che riguarda l'MP3 encoding. In
pratica è impossibile implementare l'utilizzo degli MP3 senza usare
qualche parte di questi brevetti. Altre compagnie detengono ugualmente
brevetti sull'MP3 e in futuro nessuno vieta loro di esigere delle
royalties.
L'MP3 può essere sostituito con il suo diretto equivalente aperto, il formato Ogg Vorbis (.OGG) o dal Musepack (.MPC), un formato sempre aperto e lossy ma che predilige la qualità.
More:
MPEG (Moving Picture Coding Experts Group)
MP3 and Patents
Fraunhofer Institute: MPEG Audio Layer 3
Il modo più semplice di leggere, salvare e diffondere del testo è quello di utilizzare il formato ASCII
Testo semplice (ASCII)
Se avete bisogno di diffondere o pubblicare documenti formattati le
migliore soluzione per portabilità e compatibilità è il formato HTML.
Hyper Text Markup Language (HTML)
L'edizione e formattazione di documenti scientifici può avvalersi di un formato aperto dedicato, il TeX
TeX, LaTeX et Device Independent Format (DVI)
Se avete bisogno di inviare file di documento per un lavoro
collaborativo e non potete manipolare file in formato HTML, una
soluzione accettabile benchè non ottimale è quella di utilizzare un
formato semiproprietario come il Rich Text Format
Rich Text Format (RTF)
Se avete bisogno di presentare o stampare documenti impaginati e
formattati di alta qualità, i formati PostScript (PS) e Portable
Document Format (PDF) sono la soluzione che fa per voi
PostScript (PS)
Portable Document Format (PDF)
I principali formati aperti disponibili per le immagini sono i seguenti:
Joint Photographic Expert Group (JPEG)
Portable Network Graphics (PNG)
Scalable Vector Graphics (SVG)
I formati aperti audio disponibili sono i seguenti:
Ogg Vorbis (OGG)
Musepack (MPC)
Free Lossless Audio Codec (FLAC)
Speex
Se ne avete la possibilità, evitate semplicemente di usare testo
formattato: utilizzare testo semplice (in formato ASCII - spesso
indicato con l'estensione .txt) garantisce al vostro destinatario
un'accessibilità completa, indipendentemente dal software, dal sistema
operativo e dalla macchina sulla quale lavora. Nelle vostre mail, se è
il contenuto che vi interessa piuttosto che l'impaginazione, inviate il
testo direttamente nel corpo del messaggio anzichè come attachment.
Il testo ASCII non diffonde alcun virus, è estremamente leggero e può
facilmente essere utilizzato per la creazione di tabelle (tramite
separatori come virgole - CSV - o tabulazioni - TSV) che potranno essere
lette e importate da qualsiasi programma per la gestione di basi dati.
Il formato HTML è il linguaggio standard del web e la sua definizione
è fissata da un'organizzazione internazionale di standardizzazione (il
Consorzio W3). L'HTML è un formato universale estremamente flessibile,
ricco e compatto. L'HTML nativo (senza javascript) non diffonde virus e
può essere letto su qualsiasi piattaforma.
Nota: Il codice HTML prodotto da alcuni software (Word, Frontpage) è
semiproprietario, in quanto contiene delle estensioni non previste dalla
definizione ufficiale del formato, che possono rendere alcune
informazioni non visualizzabili su qualsiasi tipo di piattaforma.
W3: HyperText Markup Language (HTML)
TeX è al tempo stesso un linguaggio di formattazione di documento e un linguaggio di programmazione. Concepito all'origine per la formattazione di documenti matematici, questo linguaggio è oggi utilizzato nei campi più diversi.
LaTeX è come il TeX un formato di documento e un linguaggio di programmazione. Si tratta di una forma derivata e semplificata di TeX che permette di manipolare istruzioni di alto livello, analogamente all'HTML che è una forma derivata e semplificata dell'SGML.
DVI. Un file sorgente TeX o LateX per essere impaginato ha bisogno di essere compilato. Il risultato di questa compilazione è un file in formato DVI, leggibile su qualsiasi piattaforma. Spesso questo formato è convertito a sua volta in PDF o PS.
TeX User Group (TUG)
LaTeX Project
TeX Showcase
Il formato RTF è stato introdotto da Microsoft allo scopo di creare uno standard per testo formattato. Offre la stessa ricchezza del formato proprietario DOC pur essendo (almeno nella sua versione originaria) un formato a specifica pubblica. La maggior parte dei programmi di trattamento di testo sono in grado di leggere e scrivere in questo formato, ma poichè molti di essi tendono ad aggiungere delle estensioni proprietarie a questo formato, la sua compatibilità resta pregiudicata.
Il formato PostScript è un linguaggio di descrizione di pagina sviluppato da Adobe dal 1985, destinato alla stampa e largamente impiegato nel campo della tipografia. Offre il vantaggio di essere universale (indipendente dal formato d'origine a partire dal quale è stato prodotto) e di non trasmettere virus. A differenza del formato PDF, il PostScript non permette di copiare il testo visualizzato sullo schermo per incollarlo in un'altra applicazione. Può essere generato a partire da stampanti compatibili (opzione: 'stampa su file') e tramite il software libero Ghostscript.
PostScript Language Specifications
Il formato PDF (Portable Document Format), sviluppato da Adobe, è un formato di presentazione di documenti la cui specifica è pubblicamente disponibile. Si tratta di un formato universale (indipendente dalla piattaforma e dal software utilizzato per crearlo), compatibile con qualsiasi stampante, flessibile (permette la sostituzione di caratteri, l'inserimento di link, di segnalibri e di note) e leggibile sullo schermo tramite i plugin appropriati. Può essere generato tramite Adobe Acrobat, tramite il software libero GhostScript o direttamente nelle opzioni di salvataggio in ambienti Unix.
Il JPEG è uno dei più efficaci formati di compressione d'immagini
oggi disponibili. Questo formato aperto estremamente leggero permette di
stabilire il tasso di compressione dei dati, tenendo conto del fatto
che più alta è la compressione e maggiore sarà la degradazione
dell'immagine.
Una variante di questo formato, il JPEG progressivo, permette di
ottimizzare il tempo di caricamento dell'immagine ed è quindi
particolarmente adatta per l'uso all'interno di pagine web.
Il nuovo standard JPEG_2000, attualmente in fase di definizione,
permetterà un migliore rapporto qualità/compressione così come la
possibilità di indicizzare le immagini tramite parole chiave.
Joint Photographic Expert Group
W3: JPEG Overview and Specifications
JPEG 2000 Overview and Specifications
Il PNG-8 e il PNG-24 rappresentano la principale alternativa aperta al formato GIF, e sono stati concepiti espressamente per ottimizzare il caricamento di immagini su siti web. Permettono una compressione dei dati che non comporta alcuna perdita d'informazione e sono supportati dalla maggior parte dei navigatori. Il peso di un file PNG rimane nettamente superiore al suon equivalente in JPEG. Diversamente, il PNG sostituirà facilmente il formato GIF per immagini a 8bit e inferiori.
W3 - Portable Network Graphics: Overview and Specifications
Per quanto riguarda i formati vettoriali, un formato aperto è stato reso disponibile dal lavoro di un'èquipe di ricerca create nel 1998 presso il W3_Consortium: lo Scalable Vector Graphics (SVG). Si tratta di un formato basato su un linguaggio di markup analogo a quello di altri standard pubblici (XML, CSS, HTML) che permette la costruzione d'immagini vettoriali ideali per economizzare la banda passante, per ottimizzare l'impaginazione e permettere di ingrandire indefinitamente l'immagine senza degradazione. I grafici creati in SVG possono essere dinamici ed interattivi, permettono di raggruppare, trasformare, comporre oggetti grafici in altri oggetti e rendere ereditabili gli attributi di stile.
W3: Scalable Vector Graphics (SVG) - Overview and Specifications
Ogg Vorbis è un formato di compressione audio lossy completamente libero, aperto e unpatented. E' stato sviluppato per sostituire tutti gli attuali formati di compressione audio proprietari (MP3, WMA, ecc.).
Spieghiamo il significato del nome:Esistono moltissimi programmi e librerie per utilizzare i file Ogg Vorbis sulle più svariate piattaforme (BeOS, Java, Legacy MacOS, Linux, MacOS X, OS/2, Windows). Un esempio dei due Player più famosi che supportano questo formato sono XMMS (Linux) e WinAMP (Windows).
Il tipo MIME per l'ogg vorbis stream è: application/ogg
Ogg Vorbis (OGG)
Xiph.Org Foundation
Musepack è un formato di compressione audio che da grande importanza
alla qualità. Non è lossless, ma è progettato in modo da non accorgersi
della differenza tra il file wave originale e il più piccolo file MPC.
E' basato sugli algoritmi MPEG-1 Layer-2 / MP2, ma si è sviluppato
rapidamente migliorando parecchio ed ora è ad uno stadio avanzato che
contiene codice libero ed è molto ottimizzato.
E' il formato per chi vuole la qualità senza ricorrere ai formati
loseless, che a causa delle loro dimensioni non hanno la stessa
versatilità di trasporto e salvataggio di un formato lossy come questo.
Sono presenti Encoder e Decoder per Linux, Windows e Mac OS X.
Ci sono Plug-in per XMMS (Linux) e WinAMP (Windows) ed è inoltre
supportato da altri programmi (nativamente o tramite plug-in).
Il progetto è nato da Andree Buschmann ed ora il suo sviluppo è portato avanti da Frank Klemm.
FLAC è un formato di compressione lossless completamente libero e
aperto. Può essere usato sia con il suo contenitore nativo che con l'Ogg
container della Xiph.Org Foundation.
Attualmente è possibile utilizzarlo sotto Linux, Mac OS X e Windows ed
inoltre sono presenti due librerie Java che ne permettono l'utilizzo su
qualsiasi piattaforma sulla quale giri una Java Virtual Machine.
Free Lossless Audio Codec (FLAC)
Xiph.Org Foundation
Speex è un formato di compressione audio aperto e libero da brevetti realizzato appositamente per la voce.
L'obiettivo di questo progetto è quello di abbassere le barriere delle
applicazioni vocali fornendo un'alternativa libera alle costose
soluzioni proprietarie.
Il suo utilizzo spazia dal VoIP (Voice over IP), agli audio books,
passando per lo streaming internet e l'archiviazione di dati (ad esempio
le voice mail).
Il progetto è entrato a far parte della Xiph.Org Foundation.
A proposito di questo documento
Copyright © 2004 openformats.org
Permission is granted to copy, distribute and/or modify this document
under the terms of the GNU Free Documentation License, Version 1.2
or any later version published by the Free Software Foundation;
with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts.
A copy of the license is included in the section entitled
"GNU Free Documentation License".