Fetch stored HTML code from a corpus or a web entity. #446

g-arcas · 2022-03-16T10:56:51Z

Bonjour.

Est-il possible (et si oui, comment) d'extraire le code HTML des pages crawlées par Hyphe, que ce soit celui d'une page en particulier, d'une web entity ou, soyons fous, de tout un corpus ?

Yomguithereal · 2022-03-16T11:15:23Z

Alors cela dépend de si Hyphe était configuré au début pour conserver le HTML des pages crawlées (par défaut ce n'est pas le cas il me semble pour des raisons de stockage/performance): https://github.com/medialab/hyphe/blob/master/config-backend.env.example#L6

Si cette option est activée, le HTML des pages est stocké gzippé dans la mongodb de Hyphe et il est possible de les extraire facilement avec minet hyphe dump.

Sinon il est toujours possible d'utiliser la même commande minet pour récupérer les urls crawlées, et les retélécharger rapidement avec minet fetch, avec les évidents problèmes méthodologiques que cela comporte vu que les pages ont pu changer depuis le crawl Hyphe.

g-arcas · 2022-03-16T12:26:03Z

Merci pour la réponse !

Je vais voir si oui ou non Hyphe est configuré pour stocker le code HTML mais de tête je dirais non.
L'option minet me semble parfaite (j'avais envisagé de créer une liste d'URL à passer à wget sinon).

boogheta added the documentation label Mar 16, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fetch stored HTML code from a corpus or a web entity. #446

Fetch stored HTML code from a corpus or a web entity. #446

g-arcas commented Mar 16, 2022

Yomguithereal commented Mar 16, 2022

g-arcas commented Mar 16, 2022

Fetch stored HTML code from a corpus or a web entity. #446

Fetch stored HTML code from a corpus or a web entity. #446

Comments

g-arcas commented Mar 16, 2022

Yomguithereal commented Mar 16, 2022

g-arcas commented Mar 16, 2022