Fecha actual Mar Mar 26, 2019 8:54 pm

Crear el Motor de Búsquedas Web y Locales Propio Más Simple Existente

Registro de aplicaciones que logremos imaginar, e incluso especificaciones para lograrlo.


Usuarios leyendo este tema: Ninguno

Crear el Motor de Búsquedas Web y Locales Propio Más Simple Existente

Notapor ~ » Jue May 26, 2016 1:08 pm

Necesito basar un buscador web en buscar palabras directamente en archivos existentes, o porciones de comentarios en archivos de imagen o de otro tipo.

Parece que si dejamos de lado la capacidad de velocidad de las computadoras, lo que podríamos hacer es primero hacer una indexación general de nuestros archivos en modo web o local.

Entonces podemos indexar por extensión de archivo, y comenzar por archivos que contienen mayoritariamente texto, luego archivos binarios y empaquetados (ZIP, RAR, 7Z, TAR, ISO, NRG...).


Entonces podríamos hacer varias cosas:

- Buscar directamente el texto, en todos los idiomas y con todos los sinónimos y apuntar a dichos archivos como URLs o rutas locales.

- Hacer una caché de las palabras que encontraron directamente a qué archivos.

- Si hacemos un análisis del tema principal de un archivo o un texto, también indexar una secuencia de palabras clave categorizadas y ordenadas que demuestren el idioma, el tema, etc...
Imagen
IP for hosts file (email udocproject@yahoo.com to get updates if website becomes offline):
Código: Seleccionar todo
190.150.9.244 archefire.org



See what I'm doing in real time:
Main Desktop 1
Main Desktop 2
Avatar de Usuario
~
Site Admin
 
Mensajes: 2938
Registrado: Sab Nov 10, 2012 1:04 pm

Re: Crear el Motor de Búsquedas Web y Locales Propio Más Simple Existente

Notapor ~ » Jue May 26, 2016 1:24 pm

Realmente no entiendo para qué sirve hacer un índice de texto puro duplicando lo que contienen los diferentes archivos.
Solo veo que son una capa de indexación ultrarrápida y abreviada para eliminar metadatos y etiquetas de cualquier tipo (XML/HTML).
Entiendo que se supone que buscar directamente archivos debería ser más lento, pero con las computadoras actuales (y eventualmente implementando una pequeña caché limitada a los términos y a los archivos que producen coincidencias -hits-) esto parece ya no ser tan importante, con velocidades de varios Gigahertz y con varios núcleos corriendo en paralelo, y con la posibiliad de implementar pequeñas bases de datos sin servidores, como SQLite3, en C altamente optimizado o en Ensamblador.

Pero la ventaja de buscar archivos directamente es que podemos mantener resultados de búsqueda intrínsecamente actualizados a las últimas versiones del contenido.
Solo necesitamos una base de datos con una columna para los archivos encontrados, y para exagerar la optimización, mantener una tabla por cada extensión de archivo, o buscar otra optimización autoactualizable intrínsecamente sin índices adicionales y que a la vez evite recorrer archivos que binarios que no contienen texto.

Otra única ventaja es mantener resultados para sitios web externos, pero NO para nuestro sitio web mismo.












Lo que sí podríamos hacer es indexar un sitio web completo, mantener un disco duro de tamaño mínimo de 5 a 8 Terabytes, y buscar todos sus archivos de texto.
Entre más busquemos y más clasifiquemos con cosas como acceso repetido a una URL determinada, más mejorará la precisión de las búsquedas.
Y también podríamos mapear las URLs cacheadas con las URLs en línea, aunque es aquí donde sufrimos la desventaja de la desactualización.
Dicha desactualización puede de hecho ser una caché válida si un sitio web desaparece.
Pero ya sabemos que es un efecto inevitable para sitios y recursos web externos.


Sin embargo, para nuestro propio sitio web podemos crear un buscador web altamente eficiente y veloz que busque directamente en los archivos, además de la caché de coincidencias -hits-.
También podemos agregar muchos mirrors de forma disciplinada y controlando el mapeo de archivos cacheados con las URLs reales (dándoles bloques de mirrors o archivos por fecha, y dando acceso a estos).
Podemos guardar muchísimos sitios web en nuestros discos duros más enormes y, a medida que busquemos y encontremos los resutaldos más importantes, agregarlos a nuestro sitio web principal, aunque queden duplicados y copiados, pero será una búsqueda y un encuentro de información más eficiente, más calibrado y mejorado humanamente en su calidad.
Imagen
IP for hosts file (email udocproject@yahoo.com to get updates if website becomes offline):
Código: Seleccionar todo
190.150.9.244 archefire.org



See what I'm doing in real time:
Main Desktop 1
Main Desktop 2
Avatar de Usuario
~
Site Admin
 
Mensajes: 2938
Registrado: Sab Nov 10, 2012 1:04 pm


Volver a Ideas de Proyectos

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 14 invitados


cron