Aspirer le code HTML d'un site et concaténer le contenu des fichiers

En terme d'attaque d'une machine distante que l'on nommera C pour "Cible", la seconde chose à faire, une fois qu'on a trouvé l'adresse IP de C (via netdiscover -i interface par exemple), est d'utiliser zenmap ou tout autre scanner de ports pour trouver les services distants tournant sur C.
Quand un serveur web tourne sur C, il est souvent intéressant d'aller aspirer le site en HTML pur, et d'en étudier un peu le contenu :

Code : Tout sélectionner

wget --reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso,*.zip' --ignore-tags=img,link,script --header="Accept: text/html" --limit-rate=200k --no-clobber --convert-links --random-wait -U "Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20100101 Firefox/10.0" -E html -r http://guinea.pig

L'option -U pour user-agent permet d'émuler un appareil mobile si besoin. Cf. la https://developer.mozilla.org/fr/docs/W ... _reference pour quelques exemples.
Une fois le site ramené, on peut concaténer tous les fichiers en un, ce qui permet ensuite de faire des recherches plus rapides, et notamment d'extraire rapidement les emails d'utilisateurs, ou les mots-clés uniques pour créer un dictionnaire, par exemple...

Code : Tout sélectionner

find ./ -type f -name "*.html" -print0|xargs -0iX cat X >> all.html2
egrep -i -o "[[:alnum:]+\.\_\-]+@[[:alnum:]+\.\_\-]+\.[[:alnum:]]{2,}" all.html2 | sed '$ d' | sort -u > users.txt
cat all.html2 | sed -e 's/<[^>]*>//g' | grep -o -E '\w+'|sort -u > dico.txt

Le fichier all.html2 contient alors tout le code source du site, qu'on peut ensuite utiliser dans Kali, une distribution orientée sécurité avec tout un tas d'outils machiavéliques pour d'autres usages...