You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Est-il possible (et si oui, comment) d'extraire le code HTML des pages crawlées par Hyphe, que ce soit celui d'une page en particulier, d'une web entity ou, soyons fous, de tout un corpus ?
The text was updated successfully, but these errors were encountered:
Si cette option est activée, le HTML des pages est stocké gzippé dans la mongodb de Hyphe et il est possible de les extraire facilement avec minet hyphe dump.
Sinon il est toujours possible d'utiliser la même commande minet pour récupérer les urls crawlées, et les retélécharger rapidement avec minet fetch, avec les évidents problèmes méthodologiques que cela comporte vu que les pages ont pu changer depuis le crawl Hyphe.
Je vais voir si oui ou non Hyphe est configuré pour stocker le code HTML mais de tête je dirais non.
L'option minet me semble parfaite (j'avais envisagé de créer une liste d'URL à passer à wget sinon).
Bonjour.
Est-il possible (et si oui, comment) d'extraire le code HTML des pages crawlées par Hyphe, que ce soit celui d'une page en particulier, d'une web entity ou, soyons fous, de tout un corpus ?
The text was updated successfully, but these errors were encountered: