Quand un serveur web tourne sur C, il est souvent intéressant d'aller aspirer le site en HTML pur, et d'en étudier un peu le contenu :
Code : Tout sélectionner
wget --reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso,*.zip' --ignore-tags=img,link,script --header="Accept: text/html" --limit-rate=200k --no-clobber --convert-links --random-wait -U "Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20100101 Firefox/10.0" -E html -r http://guinea.pig
Une fois le site ramené, on peut concaténer tous les fichiers en un, ce qui permet ensuite de faire des recherches plus rapides, et notamment d'extraire rapidement les emails d'utilisateurs, ou les mots-clés uniques pour créer un dictionnaire, par exemple...
Code : Tout sélectionner
find ./ -type f -name "*.html" -print0|xargs -0iX cat X >> all.html2
egrep -i -o "[[:alnum:]+\.\_\-]+@[[:alnum:]+\.\_\-]+\.[[:alnum:]]{2,}" all.html2 | sed '$ d' | sort -u > users.txt
cat all.html2 | sed -e 's/<[^>]*>//g' | grep -o -E '\w+'|sort -u > dico.txt