SoloCodigo

Programación Web y Scripting => Python => Mensaje iniciado por: joy en Martes 21 de Noviembre de 2006, 15:39

Título: Error En Python Con Google
Publicado por: joy en Martes 21 de Noviembre de 2006, 15:39
Cuando ya por fin creia tener solucionado mi problema me encuentro con un gran error.
lo que quiero hacer es esto paso por paso:

-Hacer una busqueda desde python para obtener las url-s de la web que contengan recetas de cocina.

-una vez tenga este documento, parsearlo para agrupar todas las url-s que salen en el y poder bajarmelas una a una, para sacar la informacion que yo quiero. lo de parsearlo lo voy a hacer usando la libreria sgmllib y mas concretamente usando el modulo SGMLparser.

pues bien empiezo con el primer paso y ... error
INCISO
 SIGO COMO MENSAJE ADJUNTO PORQUE ME DICE QUE NO TENGO PERMISO SUFICIENTES PARA INCLUIR LINKS EN MIS MENSAJES
Título: Re: Error En Python Con Google
Publicado por: joy en Martes 21 de Noviembre de 2006, 17:39
me voy a contesar a mi misma ya que por finlo he logrado, pero si teneis una forma mejor de hacerlo dicirmelo pues nunca esta de mas saber cosas nuevas.
bueno lo he conseguido de la siguiente manera

he buscado en el manual de python, y he encontrado el siguiente
ejemplo
Código: Text
  1.  
  2. import urllib2
  3. opener = urllib2.build_opener()
  4. opener.addheaders = [('User-agent', 'Mozilla/5.0')]
  5. opener.open('http://www.example.com/')
  6.  

lo he probado con google
Código: Text
  1.  
  2. import urllib2
  3. opener = urllib2.build_opener()
  4. opener.addheaders = [('User-agent', 'Internet explorer/6.0')]
  5. f=opener.open('http://www.google.es/seach?q=LO QUE BUSCO')
  6. t=f.read
  7. f.close()
  8. print t
  9.  
  10.  


en t tengo todas las direcciones web que ha obtenido google junto con un monton de codigo codigo html, por lo que tengo un trabajo duro de parsear informacion por delante!!!!
Título: Re: Error En Python Con Google
Publicado por: su - en Jueves 23 de Noviembre de 2006, 01:50
Hola joy, veo un gran error en tu codigo, tu robot no sigue reglas, no respeta a los servidores, lee esto por favor:
http://www.robotstxt.org (http://www.robotstxt.org)
Título: Re: Error En Python Con Google
Publicado por: joy en Lunes 27 de Noviembre de 2006, 18:36
lo siento pero no me he enterado de lo que me quieres decir!!!
He leido la pagina y no he sacado mucho en claro, lo que me quieres decir que es que no voy a obtener el codigo html que yo deseo de todos los sitios a los que acceda?????
Título: Re: Error En Python Con Google
Publicado por: bob esponja en Lunes 27 de Noviembre de 2006, 19:39
http://code.google.com/apis/ajaxsearch/ (http://code.google.com/apis/ajaxsearch/)
http://code.google.com/apis/soapsearch/ (http://code.google.com/apis/soapsearch/)

yo use la segunda y esta buena
Título: Re: Error En Python Con Google
Publicado por: su - en Lunes 27 de Noviembre de 2006, 20:24
Lo que quiero decir es que eso es un robot y es claro que no usa regla alguna, la pagina que puse es.. mejor lee el FAQ:
http://www.robotstxt.org/wc/faq.html (http://www.robotstxt.org/wc/faq.html)