S0043 - Necesito el texto de una pagina web, pero ...


Me han preguntado varias veces como extraer el texto de una pagina Web, que no permite que este sea copiado por el método tradicional (copiar de la web y pegar en un archivo o procesador de textos). En verdad existen varios métodos, e incluso programas para hacerlo, pero el mas fácil que yo he encontrado es usando el excelente navegador "Avant Browser". Cada navegador tiene sus particularidades, uno es el mas seguro, otro es el mas rápido, otro el que tiene mas funciones, otro el mas stardard, otro el que acepta mas "script", otro el mas vistoso, etc.. Yo tengo varios (Mozilla Firefox, Opera, Safari, Google Crome, Avant Browser y Internet Explorer) y los uso según me convenga. En el caso que nos ocupa, el navegador "Avant Browser" tiene una opcion especial para esto. Al cargar la pagina web de la cual deseamos extraer el texto en este navegador, nos vamos al menu "Archivo" y a la opcion "Guardar como texto ...". Esta opcion te salva solo el texto de la pagina que estas viendo (sin caracteres de control alguno) y te lo deja en un archivo .txt, donde ya no hay problemas para copiar el texto y trasladarlo a otra parte.

La única recomendación es que se fijen en lo que hacen, ya que estas paginas protegidas normalmente también lo están con "Derechos de Autor".

Avant Browser como casi todos los navegadores es gratuito y esta en castellano.

No hay comentarios: