You are viewing a plain text version of this content. The canonical link for it is here.
Posted to utenti-it@openoffice.apache.org by Valerio Messina <ef...@iol.it> on 2013/09/15 09:58:22 UTC
[utenti-it] importare una tabella di numeri da un PDF
ciao,
mi hanno passato un PDF v1.4 da 14 pagine con dentro una tabella piena
di numeri.
Si apre perfettamente in Draw. Ogni cella della tabella originale viene
resa come un singolo campo testo.
Da li ho tolto gli sfondi colorati e le righe di divisione tra le righe
e le colonne. I testi sono ancora correttamente incolonnati a tabella.
Solo che poi vorrei passare tutti i numeri in Calc per fare delle
elaborazioni. Fosse un testo unico separato da spazi o tab, la funzione
testo in colonne di Calc funziona alla perfezione.
Se però seleziono tutte (ma anche solo 1) le cornici di testo, faccio
copia e poi incolla in Calc, mi trovo il testo non nelle celle, ma come
cornice sovrapposta al foglio, su cui non posso fare calcoli.
Se guardo i tipi di dati che ho diponibili in Incolla speciale, sono
tutti tipo "immagine" o vettoriali (Draw, Formato disegno, Metafile GDI,
Bitmap), niente testi.
Ho provato a estrarre il testo, selezionandolo in Evince (o estraendolo
con pdf2txt), ma così il testo viene tutto su un'unica colonna da 8000
righe. Evidentemente la struttura del PDF è fatta in quel modo.
Qualcuno sa se esiste un modo per copiare e incollare tutte le cornici
di testo direttamente nelle celle, tenendo l'incolonnamento?
Considerate che la tabella è divisa in 14 pagine, per cui se la
procedura non è troppo lunga, potrei ripeterla per ogni pagina.
grazie,
Valerio
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Valerio Messina <ef...@iol.it>.
On 15/09/2013 15:46, valerio wrote:
> se sono pubblici vuoi spedirmelo personalmente?
certo, te lo mando alla tua mail
Valerio
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by valerio <va...@teletu.it>.
Il 15/09/2013 11:20, Valerio Messina ha scritto:
> On 15/09/2013 10:20, Picchiottino Roberto wrote:
>> Se mai manda 2 righe con dati simili ai tuoi per capire.
>> Non so a che punto sia il mondo open ma anche una sorta di OCR ti
>> permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.
>
> il file è da 122 kB e sono dati pubblici, lo invierei senza problemi, ma
> in questa lista pare che sia vietato allegare anche file di tipo
> documento molto piccoli.
ciao,
se sono pubblici vuoi spedirmelo personalmente?
valerio
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Picchiottino Roberto <pi...@mbtlc.it>.
Il 15/09/2013 14:45, Valerio Messina ha scritto:
> On 15/09/2013 13:05, Picchiottino Roberto wrote:
>> Copia/incolla 2 righe del output di pdf2txt o del copia incolla da
>> evince.
>
> purtroppo la selezione per righe in questo PDF per via della sua
> struttura interna non è possibile, funziona solo quella per colonne.
> Allego il seleziona tutto, copia della prima pagina. In totale sono 14
> pagine per un totale di 8000 righe, le intestazioni di colonna si
> ripetono uguali in ogni pagina.
Avevo capito che avevi le righe ... non saprei come aiutarti. Forse
trovi una regolarità e riesci in qualche modo a ricomporre le colonne.
Non so se esiste un pdf2html che ti crea una pagina html, magari riesci
ad utilizzare le tabelle in html.
Ciao
PIcchio
--
Picchiottino Roberto - Monte Bianco TLC - Courmayeur
PEC: roberto.picchiottino@pecao.it
http://www.gnu.org/philosophy/no-word-attachments.it.html
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Valerio Messina <ef...@iol.it>.
On 16/09/2013 23:27, valerio wrote:
> ho risolto in modo più semplice:
> ho aperto il pdf con okular (vedo che tu hai linux...) ho usato
> strumenti->strumento selezione tabelle.
> ho segnato le righe e le colonne come spiega la guida (facendo clik
> sulle righe della griglia), ho selezionato il tutto e copiato (ctrl+c)
> ho aperto un foglio elettronico vuoto, ho fatto incolla speciale, ho
> messo come separatore il <tab>, ho messo <testo> a tutte le intestazioni
> delle colonne...
questo sistema è decisamente il più facile.
Sarebbe bello che AOO avesse una funzione apposita per importare le
tabelle dai PDF.
in ogni caso grazie a tutti,
Valerio
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by valerio <va...@teletu.it>.
Il 15/09/2013 23:20, Andrea Pescetti ha scritto:
> Valerio Messina ha scritto:
>> Allego il seleziona tutto, copia della prima pagina.
>
> Se i dati sono cosi', puoi scrivere un programma di 10 righe nel
> linguaggio che preferisci, generare un file CSV e poi aprirlo con Calc.
>
> Ad esempio, fatto con PHP (che e' quello che avevo aperto ora, ma si fa
ciao,
ho risolto in modo più semplice:
ho aperto il pdf con okular (vedo che tu hai linux...) ho usato
strumenti->strumento selezione tabelle.
ho segnato le righe e le colonne come spiega la guida (facendo clik
sulle righe della griglia), ho selezionato il tutto e copiato (ctrl+c)
ho aperto un foglio elettronico vuoto, ho fatto incolla speciale, ho
messo come separatore il <tab>, ho messo <testo> a tutte le intestazioni
delle colonne...
ho fatto delle prove sul file che mi ha mandato valerio ed ha funzionato.
valerio
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Andrea Pescetti <pe...@apache.org>.
Valerio Messina ha scritto:
> Allego il seleziona tutto, copia della prima pagina.
Se i dati sono cosi', puoi scrivere un programma di 10 righe nel
linguaggio che preferisci, generare un file CSV e poi aprirlo con Calc.
Ad esempio, fatto con PHP (che e' quello che avevo aperto ora, ma si fa
in Python/Perl/C/quel che vuoi, questo e' solo un esempio per
confermarti che si fa in 10 righe):
---
<?php
$data = file("data.txt");
$rows = 39;
foreach ($data as $key=>$value)
if ($key < $rows)
$data[$key] = trim($value);
else
$data[$key % $rows] .= '|' . trim($value);
foreach ($data as $key=>$value)
echo ($key < $rows ? $value . "\n" : "");
---
Questo produce
VOYAGER 1 Year|Day of Year|Date|Radial Distance
(AU)|151.09|6.4|215.4|350.9|1.68|251.32|1.9|167.7|351.6
1977|237|8/25/77|1.01|169.05|4.2|167.1|2.8|1.96|293.21|0.4|113.9|3.3
1977|252|9/9/77|1.13|206.45|2.2|113.4|11.5|2.24|335.10|-0.8|57.1|12.0
1977|282|10/9/77|1.38|251.32|0.7|56.6|18.3|2.50|373.99|-1.7|358.5|18.9
1977|312|11/8/77|1.68|296.20|-0.4|357.8|23.7|2.75|411.39|-2.4|298.5|24.5
...
che poi apri con Calc mettendo "|" come separatore. Nota che c'e' un
disallineamento nelle righe, come se ci fosse una parte con 39 righe e
una con 37-38, dovrai aggiustarlo a mano (o spezzare il file in due ed
eseguirlo con parametri diversi sulle due meta').
Ciao,
Andrea.
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Valerio Messina <ef...@iol.it>.
On 15/09/2013 13:05, Picchiottino Roberto wrote:
> Copia/incolla 2 righe del output di pdf2txt o del copia incolla da
> evince.
purtroppo la selezione per righe in questo PDF per via della sua
struttura interna non è possibile, funziona solo quella per colonne.
Allego il seleziona tutto, copia della prima pagina. In totale sono 14
pagine per un totale di 8000 righe, le intestazioni di colonna si
ripetono uguali in ogni pagina.
Valerio
VOYAGER 1
Year
1977
1977
1977
1977
1977
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1978
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1979
1980
1980
1980
1980
1980
1980
1980
1980
Day of
Year
237
252
282
312
342
7
37
67
97
127
157
187
217
247
277
307
337
2
32
62
92
122
152
182
212
242
272
302
332
362
27
57
87
117
147
177
207
237
Date
8/25/77
9/9/77
10/9/77
11/8/77
12/8/77
1/7/78
2/6/78
3/8/78
4/7/78
5/7/78
6/6/78
7/6/78
8/5/78
9/4/78
10/4/78
11/3/78
12/3/78
1/2/79
2/1/79
3/3/79
4/2/79
5/2/79
6/1/79
7/1/79
7/31/79
8/30/79
9/29/79
10/29/79
11/28/79
12/28/79
1/27/80
2/26/80
3/27/80
4/26/80
5/26/80
6/25/80
7/25/80
8/24/80
Radial
Distance
(AU)
1.01
1.13
1.38
1.68
1.98
2.28
2.57
2.85
3.11
3.37
3.61
3.85
4.07
4.29
4.5
4.7
4.89
5.08
5.27
5.38
5.49
5.61
5.75
5.91
6.08
6.26
6.45
6.66
6.87
7.09
7.32
7.55
7.79
8.04
8.29
8.54
8.8
Radial
Distance
(Million km)
151.09
169.05
206.45
251.32
296.20
341.08
384.47
426.35
465.25
504.14
540.05
575.95
608.86
641.77
673.19
703.11
731.53
759.96
788.38
804.84
821.29
839.24
860.19
884.12
909.56
936.48
964.91
996.32
1,027.74
1,060.65
1,095.06
1,129.46
1,165.37
1,202.77
1,240.17
1,277.57
1,316.46
Heliographic
Latitude
7.3
6.4
4.2
2.2
0.7
-0.4
-1.3
-2.0
-2.5
-3.0
-3.4
-3.7
-4.0
-4.2
-4.4
-4.6
-4.8
-4.9
-5.1
-5.2
-5.3
-5.4
-5.5
-5.5
-5.5
-5.5
-5.5
-5.4
-5.4
-5.3
-5.3
-5.2
-5.1
-5.0
-5.0
-4.9
-4.8
VOYAGER 2
Heliographic
Rotating
Longitude
284.7
255.2
215.4
167.1
113.4
56.6
357.8
297.7
236.6
174.9
112.6
49.9
346.9
283.6
220.1
156.5
92.7
28.7
324.6
263.3
201.9
140.4
78.6
16.7
314.6
252.2
189.7
127.0
64.2
1.1
298.0
234.6
171.2
107.6
43.9
340.1
276.1
Heliographic
Inertial
Longitude
271.9
308.0
333.7
350.9
2.8
11.5
18.3
23.7
28.1
31.9
35.1
38.0
40.5
42.8
44.8
46.7
48.4
50.0
51.5
55.7
59.8
63.8
67.6
71.2
74.6
77.8
80.8
83.7
86.3
88.8
91.2
93.4
95.4
97.4
99.2
100.9
102.5
Radial
Distance
(AU)
1.01
1.01
1.16
1.40
1.68
1.96
2.24
2.50
2.75
2.99
3.21
3.42
3.63
3.82
4.00
4.17
4.33
4.49
4.63
4.77
4.91
5.03
5.15
5.27
5.42
5.53
5.64
5.76
5.89
6.03
6.17
6.32
6.47
6.63
6.80
6.96
7.13
7.31
Radial
Distance
(Million km)
151.09
151.09
173.53
209.44
251.32
293.21
335.10
373.99
411.39
447.30
480.21
511.62
543.04
571.46
598.39
623.82
647.76
671.69
692.64
713.58
734.53
752.48
770.43
788.38
810.82
827.28
843.73
861.68
881.13
902.08
923.02
945.46
967.90
991.83
1,017.27
1,041.20
1,066.63
1,093.56
Heliographic
Latitude
7.1
7.5
6.2
3.9
1.9
0.4
-0.8
-1.7
-2.4
-3.0
-3.5
-3.9
-4.2
-4.5
-4.8
-5.0
-5.2
-5.4
-5.6
-5.7
-5.9
-6.0
-6.1
-6.2
-5.6
-5.7
-5.7
-5.7
-5.7
-5.6
-5.6
-5.5
-5.5
-5.4
-5.3
-5.2
-5.2
-5.1
Heliographic
Rotating
Longitude
123.0
289.6
258.2
216.8
167.7
113.9
57.1
358.5
298.5
237.7
176.2
114.2
51.8
349.0
286.0
222.8
159.5
95.9
32.2
328.5
264.6
200.6
136.5
72.4
9.8
307.7
245.4
183.0
120.5
57.8
355.0
292.0
228.9
165.8
102.5
39.1
335.6
272.0
Heliographic
Inertial
Longitude
257.5
276.9
311.0
335.1
351.6
3.3
12.0
18.9
24.5
29.2
33.2
36.8
39.9
42.7
45.2
47.5
49.7
51.7
53.5
55.3
56.9
58.5
60.0
61.3
64.3
67.7
71.0
74.1
77.1
79.9
82.6
85.2
87.7
90.0
92.3
94.4
96.4
98.4
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Picchiottino Roberto <pi...@mbtlc.it>.
Il 15/09/2013 11:20, Valerio Messina ha scritto:
> On 15/09/2013 10:20, Picchiottino Roberto wrote:
>> Se mai manda 2 righe con dati simili ai tuoi per capire.
>> Non so a che punto sia il mondo open ma anche una sorta di OCR ti
>> permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.
>
> il file è da 122 kB e sono dati pubblici, lo invierei senza problemi, ma
> in questa lista pare che sia vietato allegare anche file di tipo
> documento molto piccoli.
Copia/incolla 2 righe del output di pdf2txt o del copia incolla da evince.
> Passare dall'OCR per dati che sono cornici di testo (cioè dati in
> origine già digitali), mi pare veramente inadatto, considerando che sono
> numeri, aggiungerei un sacco di errori.
Si. Concordo.
Ciao
PIcchio
>
> Valerio
>
>
> ---------------------------------------------------------------------
> Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
> Per informazioni: http://www.openoffice.org/it/
> Per avviare una nuova discussione: utenti-it@openoffice.apache.org
> Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
>
--
Picchiottino Roberto - Monte Bianco TLC - Courmayeur
PEC: roberto.picchiottino@pecao.it
http://www.gnu.org/philosophy/no-word-attachments.it.html
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Valerio Messina <ef...@iol.it>.
On 15/09/2013 10:20, Picchiottino Roberto wrote:
> Se mai manda 2 righe con dati simili ai tuoi per capire.
> Non so a che punto sia il mondo open ma anche una sorta di OCR ti
> permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.
il file è da 122 kB e sono dati pubblici, lo invierei senza problemi, ma
in questa lista pare che sia vietato allegare anche file di tipo
documento molto piccoli.
Passare dall'OCR per dati che sono cornici di testo (cioè dati in
origine già digitali), mi pare veramente inadatto, considerando che sono
numeri, aggiungerei un sacco di errori.
Valerio
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it
Re: [utenti-it] importare una tabella di numeri da un PDF
Posted by Picchiottino Roberto <pi...@mbtlc.it>.
Il 15/09/2013 09:58, Valerio Messina ha scritto:
> Ho provato a estrarre il testo, selezionandolo in Evince (o estraendolo
> con pdf2txt), ma così il testo viene tutto su un'unica colonna da 8000
> righe. Evidentemente la struttura del PDF è fatta in quel modo.
Non e' che trovi una qualche regola per mettere tu il ; dove ti serve?
Se mai manda 2 righe con dati simili ai tuoi per capire.
Non so a che punto sia il mondo open ma anche una sorta di OCR ti
permetterebbe di fare quello che vuoi. C'e' pero' rischio di errori.
Ciao
Picchio
--
Picchiottino Roberto - Monte Bianco TLC - Courmayeur
PEC: roberto.picchiottino@pecao.it
http://www.gnu.org/philosophy/no-word-attachments.it.html
---------------------------------------------------------------------
Per cancellarsi: utenti-it-unsubscribe@openoffice.apache.org
Per informazioni: http://www.openoffice.org/it/
Per avviare una nuova discussione: utenti-it@openoffice.apache.org
Archivi: http://mail-archives.apache.org/mod_mbox/openoffice-utenti-it