Tiene propósitos específicos, quiero usarlo en facebook ^_^.
Ya he pensado en el user agent, mira donde pone: "User-Agent":"Mozilla/5.0 (Windows; en-US; XP) Gecko/20101028 Firefox/3.5.15"
Espero que facebook no use mucho javascript, o tenga versión sin javascript, porque eso se sale de mis propósitos.
De todas formas, también quiero usarlo en twitter ^_^.
No me has respondido a la pregunta, pero agradezco la inteción ;)
Hablando de fallos de seguridad, no puedo ver tu adjunto, no tengo suficientes mensajes, pero si le doy a previsualizar mi respuesta sí lo veo :lol:
Entonces sí tendría propósitos específicos, cada vez que quisiera usar el crawler con un dominio tendría que hacerlo nuevo. Si quiero guardar mis mensajes privados de phpBB o los favoritos de yahoo bookmarks no quiero tener que hacer esta parte neuva, ni mirar una librería para manejar una api de un servicio que puede que ni exista (con facebook y twitter somos afortunados). El código de calidad es reusable.
hay muchos sitios que requieren hacer login para acceder a la información, sólo quiero poder hacer eso, creo que no es nada del otro mundo, no sé por qué me respondes con indirectas.
He puesto un código, que parece estar bien pero no funciona, sólo pido eso, que si alguien sabe por qué no funciona me lo diga... debería ser fácil para los expertos de aquí. Ahora incluso he conseguido acortarlo, una clase de 18 líneas no puede ser compleja.
y te he preguntado si no te servian las librerias que los propios sitios ofrecenNo, no me sirven, porque quiero poder ampliarlo para que tenga un propósito tan general como sea posible, por eso necesito que mi crawler sea capaz de hacer login.
Ni mucho menos he dicho que sea algo de otro mundo, ni me sorprende la tarea a realizar, me parece muy buena pero no de otro mundo o imposible.Si, es sencilla, ¿qué es lo que está mal?
y Pienso que si haces cosas como esta:Date cuenta que eso está fuera de la clase, incluso son dos cajas de code distintas.Código: Python
sid = findall('type="hidden" name="sid" value="([^"]+)"', data)[0]
Parece que estas buscando un control del formulario web y en cada pagina se llaman diferente, asi que de todos modos se tendra que hacer la adaptacion a cada sitio,
creo que seria complicado y al final tener que estar modificando tu metodo para cada pagina,No, la primera caja se va ampliando para que cada vez sirva para más cosas.
y si le sumas que algunas paginas hacen login con flash, o con AJAX,CAPTCHAs,Timers,IP etc..Por eso he empezado por una tan simple como un foro phpbb.
Exacto solo era una preguntaCita de: "F_Tanori"y te he preguntado si no te servian las librerias que los propios sitios ofrecenNo, no me sirven, porque quiero poder ampliarlo para que tenga un propósito tan general como sea posible, por eso necesito que mi crawler sea capaz de hacer login.
No esta mal, al contario me parece muy buena.Cita de: "F_Tanori"Ni mucho menos he dicho que sea algo de otro mundo, ni me sorprende la tarea a realizar, me parece muy buena pero no de otro mundo o imposible.Si, es sencilla, ¿qué es lo que está mal?
Lo entiendo, veo la clase, y la utilizacion no hay ningun problema en eso, pero al ser cadenas constantes, significa que tienes que colocarlo dependiendo del sitio, es decir no lo lo identificaria el bot. pero va esta bien como vasCita de: "F_Tanori"y Pienso que si haces cosas como esta:Date cuenta que eso está fuera de la clase, incluso son dos cajas de code distintas.Código: Python
sid = findall('type="hidden" name="sid" value="([^"]+)"', data)[0]
Parece que estas buscando un control del formulario web y en cada pagina se llaman diferente, asi que de todos modos se tendra que hacer la adaptacion a cada sitio,
Cita de: "F_Tanori"creo que seria complicado y al final tener que estar modificando tu metodo para cada pagina,No, la primera caja se va ampliando para que cada vez sirva para más cosas.
Claro, eso lo veo y va bienCita de: "F_Tanori"y si le sumas que algunas paginas hacen login con flash, o con AJAX,CAPTCHAs,Timers,IP etc..Por eso he empezado por una tan simple como un foro phpbb.
Mira que hay dos cajas de código.Eso lo he visto.