You are viewing a plain text version of this content. The canonical link for it is here.
Posted to users-fr@cocoon.apache.org by Frédéric Glorieux <fr...@ajlsm.com> on 2005/06/06 11:56:14 UTC

wordGenerator, pdfGenerator ?

   Bonjour,

J'ai besoin d'extraire au moins le texte de fichiers word et pdf. Il 
faut craindre que le XML généré se résumera d'abord à un seul élément 
racine du genre <text/>.

Est-ce que cette sorte de generators auraient déjà été faits ou pensés? 
Pour l'instant je vois 2 librairies sur lesquelles s'appuyer, 
<http://www.textmining.org> et <http://www.pdfbox.org/>. Est-ce qu'il y 
aurait mieux ?


-- 
Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)



---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Nicolas Maisonneuve <n....@gmail.com>.
faut voir avec API du POI.. ca fait longtemps que je ne m'y suis plus
replongé.. mais ca m'a pas l'air d'être une fonctionnalité PAS trop
poussée, donc ca doit être possible.

On 6/24/05, Nicolas Maisonneuve <n....@gmail.com> wrote:
> faut voir avec API du POI.. ca fait longtemps que je ne m'y suis plus
> replongé.. mais ca m'a pas l'air d'être une fonctionnaltié trop
> poussée, donc ca doit être possible.
> 
> 
> On 6/21/05, Frédéric Glorieux <fr...@ajlsm.com> wrote:
> >
> > Merci Nicolas,
> >
> > > tiens , un word generator pas totalement achevé que j'avais fait y'
> > > quelques temps déjà.ca peut peut être t'aider
> > >
> > > http://issues.apache.org/bugzilla/show_bug.cgi?id=31724
> >
> > Je ne pense pas pouvoir m'y mettre ces temps ci, mais au lu de tes
> > sources, on peut déjà aller loin !
> >
> > Tables, listes, italique/gras, j'ai vu aussi que l'on pouvait prendre
> > les noms de styles (important pour de la sémantique).
> >
> > Tu as une idée s'il on peut facilement reprendre les liens a/href ? Avec
> > ça on a un word2html un peu basique mais déjà très convaincant. Il ne
> > manquerait plus que les images.
> >
> > --
> > Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)
> >
> > ---------------------------------------------------------------------
> > Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
> > Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
> > Autres commandes : mailto:users-fr-help@cocoon.apache.org
> >
> >
>

---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Nicolas Maisonneuve <n....@gmail.com>.
faut voir avec API du POI.. ca fait longtemps que je ne m'y suis plus
replongé.. mais ca m'a pas l'air d'être une fonctionnaltié trop
poussée, donc ca doit être possible.


On 6/21/05, Frédéric Glorieux <fr...@ajlsm.com> wrote:
> 
> Merci Nicolas,
> 
> > tiens , un word generator pas totalement achevé que j'avais fait y'
> > quelques temps déjà.ca peut peut être t'aider
> >
> > http://issues.apache.org/bugzilla/show_bug.cgi?id=31724
> 
> Je ne pense pas pouvoir m'y mettre ces temps ci, mais au lu de tes
> sources, on peut déjà aller loin !
> 
> Tables, listes, italique/gras, j'ai vu aussi que l'on pouvait prendre
> les noms de styles (important pour de la sémantique).
> 
> Tu as une idée s'il on peut facilement reprendre les liens a/href ? Avec
> ça on a un word2html un peu basique mais déjà très convaincant. Il ne
> manquerait plus que les images.
> 
> --
> Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)
> 
> ---------------------------------------------------------------------
> Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
> Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
> Autres commandes : mailto:users-fr-help@cocoon.apache.org
> 
>

---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Frédéric Glorieux <fr...@ajlsm.com>.
Merci Nicolas,

> tiens , un word generator pas totalement achevé que j'avais fait y'
> quelques temps déjà.ca peut peut être t'aider
> 
> http://issues.apache.org/bugzilla/show_bug.cgi?id=31724

Je ne pense pas pouvoir m'y mettre ces temps ci, mais au lu de tes 
sources, on peut déjà aller loin !

Tables, listes, italique/gras, j'ai vu aussi que l'on pouvait prendre 
les noms de styles (important pour de la sémantique).

Tu as une idée s'il on peut facilement reprendre les liens a/href ? Avec 
ça on a un word2html un peu basique mais déjà très convaincant. Il ne 
manquerait plus que les images.

-- 
Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)

---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Nicolas Maisonneuve <n....@gmail.com>.
tiens , un word generator pas totalement achevé que j'avais fait y'
quelques temps déjà.ca peut peut être t'aider

http://issues.apache.org/bugzilla/show_bug.cgi?id=31724


On 6/7/05, Frédéric Glorieux <fr...@ajlsm.com> wrote:
> 
>   Salut Malo,
> 
> > Et ceci : Jakarta POI - Java API To Access Microsoft Format Files
> > (http://jakarta.apache.org/poi/). Hors sujet pour le(s) format(s) Word ?
> 
> TextMining fait ce qu'il dit, il sort le texte d'un word correctement,
> avec des paragraphes formatés (mais rien de plus). On notera qu'il n'y a
> pas de problème d'encodage, du moins pour le français (on le doit
> certainement à POI).
> 
> En effet, le jar text textmining reprends "POI - HWPF - Java API to
> Handle Microsoft Word Files".
> 
> On notera que le projet est orphelin << What we need is someone to stand
> up, take this thing under his hood as his baby and push it forward. Ryan
> Ackley, who put a lot of effort into HWPF, is no longer on board, so
> HWPF is an orphan child waiting to be adopted. >>.
> 
> La dernière release POI date de février 2004, la liste a surtout des
> bugs, des commits et des patchs, ce qui veut dire aussi que cela
> travaille ; mais pas trop sur les traitements de textes.
> 
> Textmining fait un générateur Cocoon encore pauvre. Je suppose qu'il y a
> mieux à faire avec POI
> 
>   * baliser blocs et phrases
>   * récupérer les noms de styles (au moins les titres hiérarchiques)
>   * récupérer les URIs de lien
>   * et si possible les liens images
> 
> Les Poi y ont pensé ici,
> <http://cvs.apache.org/viewcvs.cgi/jakarta-poi/src/scratchpad/examples/src/org/apache/poi/hwpf/>,
> un Word to Forrest, pas en SAX mais avec déjà pas mal d'aide sur comment
> se servir de POI.
> 
> Mais je ne suis pas le bon parent pour adopter cela, j'ai déjà une
> famille à nourir.
> 
> 
> 
> --
> Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)
> 
> 
> 
> ---------------------------------------------------------------------
> Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
> Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
> Autres commandes : mailto:users-fr-help@cocoon.apache.org
> 
>

---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Frédéric Glorieux <fr...@ajlsm.com>.
  Salut Malo,

> Et ceci : Jakarta POI - Java API To Access Microsoft Format Files
> (http://jakarta.apache.org/poi/). Hors sujet pour le(s) format(s) Word ?

TextMining fait ce qu'il dit, il sort le texte d'un word correctement, 
avec des paragraphes formatés (mais rien de plus). On notera qu'il n'y a 
pas de problème d'encodage, du moins pour le français (on le doit 
certainement à POI).

En effet, le jar text textmining reprends "POI - HWPF - Java API to 
Handle Microsoft Word Files".

On notera que le projet est orphelin << What we need is someone to stand 
up, take this thing under his hood as his baby and push it forward. Ryan 
Ackley, who put a lot of effort into HWPF, is no longer on board, so 
HWPF is an orphan child waiting to be adopted. >>.

La dernière release POI date de février 2004, la liste a surtout des 
bugs, des commits et des patchs, ce qui veut dire aussi que cela 
travaille ; mais pas trop sur les traitements de textes.

Textmining fait un générateur Cocoon encore pauvre. Je suppose qu'il y a 
mieux à faire avec POI

  * baliser blocs et phrases
  * récupérer les noms de styles (au moins les titres hiérarchiques)
  * récupérer les URIs de lien
  * et si possible les liens images

Les Poi y ont pensé ici, 
<http://cvs.apache.org/viewcvs.cgi/jakarta-poi/src/scratchpad/examples/src/org/apache/poi/hwpf/>, 
un Word to Forrest, pas en SAX mais avec déjà pas mal d'aide sur comment 
se servir de POI.

Mais je ne suis pas le bon parent pour adopter cela, j'ai déjà une 
famille à nourir.



-- 
Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)



---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Sylvain Wallez <sy...@apache.org>.
Malo Pichot wrote:

>Sylvain Wallez a écrit :
>  
>
>>En opensource, c'est à ma connaissance ce qui revient le plus souvent
>>sur ces sujets.
>>    
>>
>
>Et ceci : Jakarta POI - Java API To Access Microsoft Format Files
>(http://jakarta.apache.org/poi/). Hors sujet pour le(s) format(s) Word ?
>  
>

Je l'utilise avec beaucoup de satisfaction pour manipuler des fichiers 
Excel, mais je ne sais pas quel niveau de support il offre pour Word.

A noter que POI permet de naviguer dans la structure des documents, ce 
qui n'est pas forcément le plus facile lorsqu'on veut seulement 
récupérer le texte :-)

Sylvain

-- 
Sylvain Wallez                        Anyware Technologies
http://apache.org/~sylvain            http://anyware-tech.com
Apache Software Foundation Member     Research & Technology Director


---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Malo Pichot <ma...@ajlsm.com>.
Sylvain Wallez a écrit :
>
> En opensource, c'est à ma connaissance ce qui revient le plus souvent
> sur ces sujets.

Et ceci : Jakarta POI - Java API To Access Microsoft Format Files
(http://jakarta.apache.org/poi/). Hors sujet pour le(s) format(s) Word ?

-- 
Malo

---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Frédéric Glorieux <fr...@ajlsm.com>.
> En opensource, c'est à ma connaissance ce qui revient le plus souvent 
> sur ces sujets.

Merci beaucoup pour cette confirmation, je pars donc là-dessus pour 
faire des générateurs. Cela ne vaut probablement pas la peine d'en faire 
des blocs cocoon, mais ce sera ici archivé pour ceux que cela intéresserait.

-- 
Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)



---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org


Re: wordGenerator, pdfGenerator ?

Posted by Sylvain Wallez <sy...@apache.org>.
Frédéric Glorieux wrote:

>
>   Bonjour,
>
> J'ai besoin d'extraire au moins le texte de fichiers word et pdf. Il 
> faut craindre que le XML généré se résumera d'abord à un seul élément 
> racine du genre <text/>.
>
> Est-ce que cette sorte de generators auraient déjà été faits ou 
> pensés? Pour l'instant je vois 2 librairies sur lesquelles s'appuyer, 
> <http://www.textmining.org> et <http://www.pdfbox.org/>. Est-ce qu'il 
> y aurait mieux ?


En opensource, c'est à ma connaissance ce qui revient le plus souvent 
sur ces sujets.

Sylvain

-- 
Sylvain Wallez                        Anyware Technologies
http://apache.org/~sylvain            http://anyware-tech.com
Apache Software Foundation Member     Research & Technology Director


---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:users-fr-unsubscribe@cocoon.apache.org
Autres commandes : mailto:users-fr-help@cocoon.apache.org