author | tags |
---|---|
emchateau |
htc, ocr |
𝛱
Sur Debian
apt install libpangocairo-1.0 libxml2 libblas3 liblapack3 python3-dev python3-pi
Avec Brew
brew pango
brew cairo
brew install libxml2
brew install openblas # install libblas3
brew install lapack # install liblapack3
pyenv install 3.4-dev # install python3-dev ?
Avec Conda
curl -O https://raw.githubusercontent.com/mittagessen/kraken/master/environment.yml
conda env create -f environment.yml
#
# To activate this environment, use
#
# $ conda activate kraken
#
# To deactivate an active environment, use
#
# $ conda deactivate
PDF files have to be extracted beforehand using a tool such as pdftocairo
or pdfimages
https://gallica.bnf.fr/ark:/12148/bpt6k1040563h
https://gallica.bnf.fr/iiif/ark:/12148/bpt6k1040561p/f43/full/full/0/native p. 17
Transformer pdf en images
pdftocairo -png xxxx.pdf
Nota, cela ne fonctionne pas avec conda pour un pb de version. cf. conda-forge/paraview-feedstock#85
Sortie TXT
kraken -i sauvalT01f76.jpg sauvalT01f76.txt binarize segment ocr -m OCR17/Models/Kraken.mlmodel
Script de récupération
#!/bin/sh
if [ $# -lt 3 ]; then
echo "Usage: $0 radical seq_start seq_end"
exit
fi
radical=$1
seq_start=$2
seq_end=$3
for fichier in ($3 - $2)
do
echo $fichier
done
./seq_wget http://someaddress.com/logs/dbsclog01s%03d.log 1 50
avec wget
$ wget http://someaddress.com/logs/dbsclog01s{001..050}.log
avec curl
Tome 1
https://gallica.bnf.fr/ark:/12148/bpt6k1040561p
curl https://gallica.bnf.fr/iiif/ark:/12148/bpt6k1040561p/f[120-140]/full/full/0/native -o sauvalT01f#1.jpg
Tome 2
https://gallica.bnf.fr/ark:/12148/bpt6k1040563h/
curl https://gallica.bnf.fr/iiif/ark:/12148/bpt6k1040563h/f[17-50]/full/full/0/native -o sauvalT02f#1.jpg
Tome 3
https://gallica.bnf.fr/ark:/12148/bpt6k1040565b
curl https://gallica.bnf.fr/iiif/ark:/12148/bpt6k1040565b/f[23-50]/full/full/0/native -o sauvalT03f#1.jpg
sed 's/ſ/s/g' fichier.txt > fichier2.txt
sed -f <fichier_script> [options] 'fonctions' <fichier-entrée>
Remplacement des sauts de ligne
perl -p -0n -e 's/\n/, /g' # Le switch '-0n' indique qu'il n'y a pas de separateur de ligne en entrée, donc tout le fichier est une seule 'ligne'. Ensuite, il suffit de replacer tous les '\n' sur cette 'ligne' par la virgule (et espace comme dans l'example initial).
cat fichier |tr $'\n' ,
Concaténer fichiers
cat *.txt > all.txt
Pour un gd nb de fichiers
for i in *.txt;do cat $i >> ../output.txt;done # output in an other dir
awk 'NR>1 && FNR==1{print ""};1' ./*.html > /path/to/Final.html # make shure to output in an other dir
awk '(NR>1 && FNR==1){printf ("\n\n")};1' ./*.txt > ../sauval158-200.txt
rès de chaussée
assès
assés
d’aujour d’hui
St.
Evêque
neantmoins
Francois
Hotel
séjour
éme
prës
Li.
en 1..
apres
Ie
aprës
riviere
premiere
troisiéme
quatriéme
Cimetiere
Etaux
Etal
Cesar
Lutece
Ie Ia Iu
Préfets
Arrêts
Gentilhomme Chevalier Sénéchal Empereur
Reine Roi Roy
Capitale Royaume
Evêque Comte Duc Roy Roi Prince Orfevres Regent Chanoine Auteur Prieuré Hopitaux Communautés Chancelier Cardinal
Pont Tour Clocher Maison Palais Eglise Place Bibliotheque Couvent Abbayie Monastere Archevêché Boucherie Coulture Hôtel-Dieu Hôtel Prétoire Cimetiere Forêt Fontaine
Fils Filles
Trône
Conseiller
Religieux
Me
St
Savant Curieu
assés