You are viewing a plain text version of this content. The canonical link for it is here.
Posted to utenti-it@openoffice.apache.org by Valerio Messina <ef...@iol.it> on 2013/09/15 09:58:22 UTC

[utenti-it] importare una tabella di numeri da un PDF

ciao,
mi hanno passato un PDF v1.4 da 14 pagine con dentro una tabella piena 
di numeri.
Si apre perfettamente in Draw. Ogni cella della tabella originale viene 
resa come un singolo campo testo.
Da li ho tolto gli sfondi colorati e le righe di divisione tra le righe 
e le colonne. I testi sono ancora correttamente incolonnati a tabella.
Solo che poi vorrei passare tutti i numeri in Calc per fare delle 
elaborazioni. Fosse un testo unico separato da spazi o tab, la funzione 
testo in colonne di Calc funziona alla perfezione.

Se però seleziono tutte (ma anche solo 1) le cornici di testo, faccio 
copia e poi incolla in Calc, mi trovo il testo non nelle celle, ma come 
cornice sovrapposta al foglio, su cui non posso fare calcoli.
Se guardo i tipi di dati che ho diponibili in Incolla speciale, sono 
tutti tipo "immagine" o vettoriali (Draw, Formato disegno, Metafile GDI, 
Bitmap), niente testi.

Ho provato a estrarre il testo, selezionandolo in Evince (o estraendolo 
con pdf2txt), ma così il testo viene tutto su un'unica colonna da 8000 
righe. Evidentemente la struttura del PDF è fatta in quel modo.

Qualcuno sa se esiste un modo per copiare e incollare tutte le cornici 
di testo direttamente nelle celle, tenendo l'incolonnamento?
Considerate che la tabella è divisa in 14 pagine, per cui se la 
procedura non è troppo lunga, potrei ripeterla per ogni pagina.

grazie,
Valerio

---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Valerio Messina <ef...@iol.it>.
On 15/09/2013 15:46, valerio wrote:
> se sono pubblici vuoi spedirmelo personalmente?

certo, te lo mando alla tua mail

Valerio


---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by valerio <va...@teletu.it>.
Il 15/09/2013 11:20, Valerio Messina ha scritto:
> On 15/09/2013 10:20, Picchiottino Roberto wrote:
>>      Se mai manda 2 righe con dati simili ai tuoi per capire.
>>      Non so a che punto sia il mondo open ma anche una sorta di OCR ti
>> permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.
>
> il file è da 122 kB e sono dati pubblici, lo invierei senza problemi, ma
> in questa lista pare che sia vietato allegare anche file di tipo
> documento molto piccoli.

ciao,
se sono pubblici vuoi spedirmelo personalmente?

valerio


---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Picchiottino Roberto <pi...@mbtlc.it>.

Il 15/09/2013 14:45, Valerio Messina ha scritto:
> On 15/09/2013 13:05, Picchiottino Roberto wrote:
>> Copia/incolla 2 righe del output di pdf2txt o del copia incolla da
>> evince.
>
> purtroppo la selezione per righe in questo PDF per via della sua
> struttura interna non è possibile, funziona solo quella per colonne.
> Allego il seleziona tutto, copia della prima pagina. In totale sono 14
> pagine per un totale di 8000 righe, le intestazioni di colonna si
> ripetono uguali in ogni pagina.

	Avevo capito che avevi le righe ... non saprei come aiutarti. Forse 
trovi una regolarità e riesci in qualche modo a ricomporre le colonne.

	Non so se esiste un pdf2html che ti crea una pagina html, magari riesci 
ad utilizzare le tabelle in html.

Ciao
PIcchio

-- 
Picchiottino Roberto - Monte Bianco TLC - Courmayeur
	     	     PEC: roberto.picchiottino@pecao.it
http://www.gnu.org/philosophy/no-word-attachments.it.html

---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Valerio Messina <ef...@iol.it>.
On 16/09/2013 23:27, valerio wrote:
> ho risolto in modo più semplice:
> ho aperto il pdf con okular (vedo che tu hai linux...) ho usato
> strumenti->strumento selezione tabelle.
> ho segnato le righe e le colonne come spiega la guida (facendo clik
> sulle righe della griglia), ho selezionato il tutto e copiato (ctrl+c)
> ho aperto un foglio elettronico vuoto, ho fatto incolla speciale, ho
> messo come separatore il <tab>, ho messo <testo> a tutte le intestazioni
> delle colonne...

questo sistema è decisamente il più facile.
Sarebbe bello che AOO avesse una funzione apposita per importare le 
tabelle dai PDF.

in ogni caso grazie a tutti,
Valerio


---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by valerio <va...@teletu.it>.
Il 15/09/2013 23:20, Andrea Pescetti ha scritto:
> Valerio Messina ha scritto:
>> Allego il seleziona tutto, copia della prima pagina.
>
> Se i dati sono cosi', puoi scrivere un programma di 10 righe nel
> linguaggio che preferisci, generare un file CSV e poi aprirlo con Calc.
>
> Ad esempio, fatto con PHP (che e' quello che avevo aperto ora, ma si fa

ciao,
ho risolto in modo più semplice:
ho aperto il pdf con okular (vedo che tu hai linux...) ho usato 
strumenti->strumento selezione tabelle.
ho segnato le righe e le colonne come spiega la guida (facendo clik 
sulle righe della griglia), ho selezionato il tutto e copiato (ctrl+c)
ho aperto un foglio elettronico vuoto, ho fatto incolla speciale, ho 
messo come separatore il <tab>, ho messo <testo> a tutte le intestazioni 
delle colonne...

ho fatto delle prove sul file che mi ha mandato valerio ed ha funzionato.

valerio


---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Andrea Pescetti <pe...@apache.org>.
Valerio Messina ha scritto:
> Allego il seleziona tutto, copia della prima pagina.

Se i dati sono cosi', puoi scrivere un programma di 10 righe nel 
linguaggio che preferisci, generare un file CSV e poi aprirlo con Calc.

Ad esempio, fatto con PHP (che e' quello che avevo aperto ora, ma si fa 
in Python/Perl/C/quel che vuoi, questo e' solo un esempio per 
confermarti che si fa in 10 righe):
    ---
<?php
$data = file("data.txt");
$rows = 39;
foreach ($data as $key=>$value)
   if ($key < $rows)
     $data[$key] = trim($value);
   else
     $data[$key % $rows] .= '|' . trim($value);
foreach ($data as $key=>$value)
   echo ($key < $rows ? $value . "\n" : "");
    ---

Questo produce

VOYAGER 1 Year|Day of Year|Date|Radial Distance 
(AU)|151.09|6.4|215.4|350.9|1.68|251.32|1.9|167.7|351.6
1977|237|8/25/77|1.01|169.05|4.2|167.1|2.8|1.96|293.21|0.4|113.9|3.3
1977|252|9/9/77|1.13|206.45|2.2|113.4|11.5|2.24|335.10|-0.8|57.1|12.0
1977|282|10/9/77|1.38|251.32|0.7|56.6|18.3|2.50|373.99|-1.7|358.5|18.9
1977|312|11/8/77|1.68|296.20|-0.4|357.8|23.7|2.75|411.39|-2.4|298.5|24.5
...

che poi apri con Calc mettendo "|" come separatore. Nota che c'e' un 
disallineamento nelle righe, come se ci fosse una parte con 39 righe e 
una con 37-38, dovrai aggiustarlo a mano (o spezzare il file in due ed 
eseguirlo con parametri diversi sulle due meta').

Ciao,
   Andrea.

---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Valerio Messina <ef...@iol.it>.
On 15/09/2013 13:05, Picchiottino Roberto wrote:
> Copia/incolla 2 righe del output di pdf2txt o del copia incolla da
> evince.

purtroppo la selezione per righe in questo PDF per via della sua 
struttura interna non è possibile, funziona solo quella per colonne.
Allego il seleziona tutto, copia della prima pagina. In totale sono 14 
pagine per un totale di 8000 righe, le intestazioni di colonna si 
ripetono uguali in ogni pagina.

Valerio


VOYAGER 1
Year
1977
1977
1977
1977
1977
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1980
1980
1980
1980
1980
1980
1980
1980
Day of
Year
237
252
282
312
342
7
37
67
97
127
157
187
217
247
277
307
337
2
32
62
92
122
152
182
212
242
272
302
332
362
27
57
87
117
147
177
207
237
Date
8/25/77
9/9/77
10/9/77
11/8/77
12/8/77
1/7/78
2/6/78
3/8/78
4/7/78
5/7/78
6/6/78
7/6/78
8/5/78
9/4/78
10/4/78
11/3/78
12/3/78
1/2/79
2/1/79
3/3/79
4/2/79
5/2/79
6/1/79
7/1/79
7/31/79
8/30/79
9/29/79
10/29/79
11/28/79
12/28/79
1/27/80
2/26/80
3/27/80
4/26/80
5/26/80
6/25/80
7/25/80
8/24/80
Radial
Distance
(AU)
1.01
1.13
1.38
1.68
1.98
2.28
2.57
2.85
3.11
3.37
3.61
3.85
4.07
4.29
4.5
4.7
4.89
5.08
5.27
5.38
5.49
5.61
5.75
5.91
6.08
6.26
6.45
6.66
6.87
7.09
7.32
7.55
7.79
8.04
8.29
8.54
8.8
Radial
Distance
(Million km)
151.09
169.05
206.45
251.32
296.20
341.08
384.47
426.35
465.25
504.14
540.05
575.95
608.86
641.77
673.19
703.11
731.53
759.96
788.38
804.84
821.29
839.24
860.19
884.12
909.56
936.48
964.91
996.32
1,027.74
1,060.65
1,095.06
1,129.46
1,165.37
1,202.77
1,240.17
1,277.57
1,316.46
Heliographic
Latitude
7.3
6.4
4.2
2.2
0.7
-0.4
-1.3
-2.0
-2.5
-3.0
-3.4
-3.7
-4.0
-4.2
-4.4
-4.6
-4.8
-4.9
-5.1
-5.2
-5.3
-5.4
-5.5
-5.5
-5.5
-5.5
-5.5
-5.4
-5.4
-5.3
-5.3
-5.2
-5.1
-5.0
-5.0
-4.9
-4.8
VOYAGER 2
Heliographic
Rotating
Longitude
284.7
255.2
215.4
167.1
113.4
56.6
357.8
297.7
236.6
174.9
112.6
49.9
346.9
283.6
220.1
156.5
92.7
28.7
324.6
263.3
201.9
140.4
78.6
16.7
314.6
252.2
189.7
127.0
64.2
1.1
298.0
234.6
171.2
107.6
43.9
340.1
276.1
Heliographic
Inertial
Longitude
271.9
308.0
333.7
350.9
2.8
11.5
18.3
23.7
28.1
31.9
35.1
38.0
40.5
42.8
44.8
46.7
48.4
50.0
51.5
55.7
59.8
63.8
67.6
71.2
74.6
77.8
80.8
83.7
86.3
88.8
91.2
93.4
95.4
97.4
99.2
100.9
102.5
Radial
Distance
(AU)
1.01
1.01
1.16
1.40
1.68
1.96
2.24
2.50
2.75
2.99
3.21
3.42
3.63
3.82
4.00
4.17
4.33
4.49
4.63
4.77
4.91
5.03
5.15
5.27
5.42
5.53
5.64
5.76
5.89
6.03
6.17
6.32
6.47
6.63
6.80
6.96
7.13
7.31
Radial
Distance
(Million km)
151.09
151.09
173.53
209.44
251.32
293.21
335.10
373.99
411.39
447.30
480.21
511.62
543.04
571.46
598.39
623.82
647.76
671.69
692.64
713.58
734.53
752.48
770.43
788.38
810.82
827.28
843.73
861.68
881.13
902.08
923.02
945.46
967.90
991.83
1,017.27
1,041.20
1,066.63
1,093.56
Heliographic
Latitude
7.1
7.5
6.2
3.9
1.9
0.4
-0.8
-1.7
-2.4
-3.0
-3.5
-3.9
-4.2
-4.5
-4.8
-5.0
-5.2
-5.4
-5.6
-5.7
-5.9
-6.0
-6.1
-6.2
-5.6
-5.7
-5.7
-5.7
-5.7
-5.6
-5.6
-5.5
-5.5
-5.4
-5.3
-5.2
-5.2
-5.1
Heliographic
Rotating
Longitude
123.0
289.6
258.2
216.8
167.7
113.9
57.1
358.5
298.5
237.7
176.2
114.2
51.8
349.0
286.0
222.8
159.5
95.9
32.2
328.5
264.6
200.6
136.5
72.4
9.8
307.7
245.4
183.0
120.5
57.8
355.0
292.0
228.9
165.8
102.5
39.1
335.6
272.0
Heliographic
Inertial
Longitude
257.5
276.9
311.0
335.1
351.6
3.3
12.0
18.9
24.5
29.2
33.2
36.8
39.9
42.7
45.2
47.5
49.7
51.7
53.5
55.3
56.9
58.5
60.0
61.3
64.3
67.7
71.0
74.1
77.1
79.9
82.6
85.2
87.7
90.0
92.3
94.4
96.4
98.4



---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Picchiottino Roberto <pi...@mbtlc.it>.

Il 15/09/2013 11:20, Valerio Messina ha scritto:
> On 15/09/2013 10:20, Picchiottino Roberto wrote:
>> Se mai manda 2 righe con dati simili ai tuoi per capire.
>> Non so a che punto sia il mondo open ma anche una sorta di OCR ti
>> permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.
>
> il file è da 122 kB e sono dati pubblici, lo invierei senza problemi, ma
> in questa lista pare che sia vietato allegare anche file di tipo
> documento molto piccoli.

	Copia/incolla 2 righe del output di pdf2txt o del copia incolla da evince.

> Passare dall'OCR per dati che sono cornici di testo (cioè dati in
> origine già digitali), mi pare veramente inadatto, considerando che sono
> numeri, aggiungerei un sacco di errori.

	Si. Concordo.
Ciao
PIcchio
>
> Valerio
>
>
> ---------------------------------------------------------------------
> Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
> Per informazioni: http://www.openoffice.org/it/
> Per avviare una nuova discussione: utenti-it@openoffice.apache.org
> Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
>

-- 
Picchiottino Roberto - Monte Bianco TLC - Courmayeur
	     	     PEC: roberto.picchiottino@pecao.it
http://www.gnu.org/philosophy/no-word-attachments.it.html

---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Valerio Messina <ef...@iol.it>.
On 15/09/2013 10:20, Picchiottino Roberto wrote:
>      Se mai manda 2 righe con dati simili ai tuoi per capire.
>      Non so a che punto sia il mondo open ma anche una sorta di OCR ti
> permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.

il file è da 122 kB e sono dati pubblici, lo invierei senza problemi, ma 
in questa lista pare che sia vietato allegare anche file di tipo 
documento molto piccoli.
Passare dall'OCR per dati che sono cornici di testo (cioè dati in 
origine già digitali), mi pare veramente inadatto, considerando che sono 
numeri, aggiungerei un sacco di errori.

Valerio


---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it


Re: [utenti-it] importare una tabella di numeri da un PDF

Posted by Picchiottino Roberto <pi...@mbtlc.it>.

Il 15/09/2013 09:58, Valerio Messina ha scritto:
> Ho provato a estrarre il testo, selezionandolo in Evince (o estraendolo
> con pdf2txt), ma così il testo viene tutto su un'unica colonna da 8000
> righe. Evidentemente la struttura del PDF è fatta in quel modo.

	Non e' che trovi una qualche regola per mettere tu il ; dove ti serve?

	Se mai manda 2 righe con dati simili ai tuoi per capire.

	Non so a che punto sia il mondo open ma anche una sorta di OCR ti 
permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.

Ciao
Picchio	

-- 
Picchiottino Roberto - Monte Bianco TLC - Courmayeur
	     	     PEC: roberto.picchiottino@pecao.it
http://www.gnu.org/philosophy/no-word-attachments.it.html

---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it