convertire_pdf_html_calibre

convertire_pdf_html_calibre

 

Convertire un file PDF in Word o per altro formato software è uno degli obbiettivi che, solitamente i neofiti, non riescono a portare a termine. Copiare un estratto da un documento PDF è una azione non banale, considerando che tale formato è stato studiato proprio per evitare il copia-incolla del testo o delle immagini salvate. Tuttavia è anche il mezzo che più facilmente viene utilizzato per spostare informazioni sul web, in grado di essere letto anche dai browser senza bisogno di alcun software esterno e, soprattutto, mantenendo su ogni piattaforma di lettura lo stesso layout, impaginazione e testo deciso dall’autore.

Quando si riesce a copiare il testo di un documento PDF su un editor di testo, notiamo come inevitabilmente tutta l’impaginazione della pagina venga persa, facendo saltare le interlinee, i ritorni a capo e gli elementi grafici: la soluzione auspicata sarebbe quella di potere esportare il documento PDF in HTML. Per capire come fare, bisogna prima conoscere la natura del PDF: si tratta infatti di un formato creato per mimare una pagina stampata, ed è per questo che è definito un formato output, cioè di sola “visuale” piuttosto che di input, ovvero modificabile. Un PDF è in pratica una mappa che contiene l’esatta posizione dei caratteri (compresa la punteggiatura) e delle immagini che indica come tali elementi dovranno essere visualizzati. In molti casi, un PDF contiene ancora meno informazioni di quelle necessarie soprattutto se si parla di formattazione del testo. Dipende quindi dal software che si utilizza, interpretare la “Mappa” che il PDF rappresenta, e dunque un software che vuole estrarre le informazioni del PDF deve essere parimenti in grado di capire le posizioni degli elementi indicati per poterli riprodurre. Alcuni software quindi svolgono il loro compito meglio di altri, il risultato dipendendo anche da quale applicazione ha generato il PDF che si vuole convertire.

La soluzione standard sarebbe quella di utilizzare Adobe Acrobat Professional, che è esattamente in grado di convertire il PDF in HTML (e non sempre in maniera perfetta), ma è anche la soluzione più costosa. Per ottenere un risultato paragonabile senza spendere un centesimo, è possibile rivolgersi ad alcuni software distribuiti gratuitamente sul Web: promettono infatti di estrarre il testo con la formattazione intatta creando un documento finale che rispetti la sorgente ma interamente modificabile. Tra i più famosi segnaliamo Calibre, che realizza un documento RTF; Ppdftohtml/pdfreflow o ancora AbiWorld word processor, che mette a disposizione molti plugin per ogni genere di esigenza; è disponibile inoltre un plugin per l‘importazione dei file PDF in OpenOffice.

Come detto tuttavia, nessuno dei software indicati possono dare un risultato perfetto, il che significa che sarà necessario sempre un pò di lavoro aggiuntivo per ottenere esattamente la visualizzazione perfetta.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.