Extraiga todas las URL con hermosas sopa y python3
- 1720
- 284
- Jaime Delgadillo
El siguiente enlace extraerá todas las URL para una página web determinada.
#!/usr/bin/env python3 # Python Versión: 3.4.2 # BS4 Versión: 4.3.2-2 de Urllib.Solicitar la importación de Urlopen de BS4 Import BeautifulSoup HTML = Urlopen ("http: // gnu.org ") # Inserte su URL para extraer BSOBJ = Beautifulsoup (html.leer()); para enlace en bsobj.find_all ('a'):: imprimir(enlace.Get ('href'))
Guarde el script anterior en un archivo, por ejemplo,. extracto.py
y hazlo ejecutable:
$ chmod +x extracto-url.py
Ejecute el guión:
ps ./extracto-url.py
Tutoriales de Linux relacionados:
- Cómo construir una aplicación Tkinter utilizando un objeto orientado ..
- Cómo trabajar con la API REST de WooCommerce con Python
- Cómo configurar un servidor OpenVPN en Ubuntu 20.04
- Descargar archivo de URL en Linux usando la línea de comandos
- Una introducción a la automatización, herramientas y técnicas de Linux
- Cosas para instalar en Ubuntu 20.04
- Cómo establecer programas predeterminados utilizando alternativas de actualización en ..
- Cómo leer y crear archivos CSV usando Python
- Cómo raspar las páginas web desde la línea de comandos usando HTMLQ
- Cómo escribir extensiones de Nautilus con Nautilus-Python
- « Instalación de la herramienta Amazon S3CMD Command Line S3 en Debian Linux
- Prueba de vulnerabilidad del sistema BASH Shellshock Bug Linux »