Fecha actual Jue Ago 22, 2019 5:23 pm

Guardando Acumulativamente los Sitios Web en una Base de Datos SQLite3

Foro para discutir y aprender sobre el lenguaje estándar de las bases de datos así como sus motores (SQLite, MySQL, PostgreSQL, SQL Server, Oracle, etc.).


Usuarios leyendo este tema: Ninguno

Guardando Acumulativamente los Sitios Web en una Base de Datos SQLite3

Notapor ~ » Vie Oct 09, 2015 2:17 pm

Necesito una base de datos para guardar todos los sitios web encontrados en los ranks de Alexa con el formato (Ranking, NombreDominio).

Para crear esta base de datos necesito correr el siguiente comando de SQLite3 luego de descargar y descomprimir el archivo http://s3.amazonaws.com/alexa-static/top-1m.csv.zip (para obtener top-1m.csv.zip) en el mismo directorio que dicha base de datos:

Código: Seleccionar todo
sqlite3 domains_alexaranks.db




Para crear la base de datos:

--------------------------
Código: Seleccionar todo
pragma synchronous=off;
pragma journal_mode=WAL;
pragma temp_store=FILE;
pragma encoding="UTF-8";


CREATE TABLE domains_alexaranks (

rank                     INTEGER NOT NULL,
(domain COLALTE NOCASE)  TEXT NOT NULL UNIQUE,
domain_id                INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL

);


CREATE TABLE domains_alexaranks (

rank        INTEGER NOT NULL,
domain      TEXT NOT NULL UNIQUE,
domain_id   INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL

);



CREATE TABLE domains_base_keywords (

domain_id  INTEGER NOT NULL,
keyword    TEXT UNIQUE NOT NULL

);



CREATE TABLE domains_internal_urls (

domain_id  INTEGER NOT NULL,
found_url  TEXT UNIQUE NOT NULL,
status     INTEGER

);



CREATE TABLE domains_external_urls (

domain_id  INTEGER PRIMARY KEY NOT NULL,
found_url  TEXT UNIQUE NOT NULL,
status     INTEGER

);





Para insertar los valores del dominio:

--------------------------


Código: Seleccionar todo
.mode csv
.import top-1m.csv domains_alexaranks









Para obtener los resultados:

--------------------------


Código: Seleccionar todo
.mode ascii
.output domains_alexaranks.csv
SELECT * FROM domains_alexaranks ORDER BY domain COLLATE NOCASE ASC;
.output stdout

Imagen
IP for hosts file (email udocproject@yahoo.com to get updates if website becomes offline):
Código: Seleccionar todo
190.150.9.244 archefire.org



See what I'm doing in real time:
Main Desktop 1
Main Desktop 2
Avatar de Usuario
~
Site Admin
 
Mensajes: 2958
Registrado: Sab Nov 10, 2012 1:04 pm

Volver a SQL

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 2 invitados


cron