DataBase

Archivos de configuración en Python y conexión hacia MySQL, PostegreSQL y Oracle DB.

Los archivos de configuración tienen una amplia gama de aplicaciones utilizadas principalmente por los sistemas operativos para personalizar un entorno. Para los programadores o desarrolladores, la configuración de parámetros iniciales para el software sin codificar datos en el programa es uno de los casos de uso más frecuentes. Le permite modificar dicha configuración sin acceder al código fuente del programa.

En otras palabras, se le puede indicar al software que vaya a un archivo de configuración para obtener la información precisa que necesita para aquellas variables que pueden variar con el tiempo, como direcciones IP, nombres de host, nombres de usuario, contraseñas y nombres de bases de datos.

Escribir un archivo separado con código Python es la forma más sencilla de crear archivos de configuración. Puede darle un nombre como base de datosconfig.py. Luego, para evitar cargarlo involuntariamente, puede agregar la línea *<nombre de archivo> a su archivo .gitignore .

Formato del archivo de configuración

YAML, JSON, TOML e INI son los formatos populares y estandarizados de archivos de configuración.

La mayoría de los programas en python y bibliotecas aceptan fácilmente YAML e INI. INI tiene solo 1 nivel jerárquico, por lo que es la solución más simple. INI, por otro lado, no tiene tipos de datos; todo está codificado como una cadena.

Extensiones de archivos

Las extensiones de extensión dan al usuario y al sistema una pista sobre el contenido de un archivo. Los extremos razonables del archivo de configuración incluidos son:

  • La extensión config.py es para los archivos de Python.
  • La extensión .yaml / .yml es para si la configuración se realiza en formato YAML.
  • La extensión .json es para los archivos de configuración escritos en formato JSON.
  • El archivo de extensión .ini es un archivo particular que almacena datos de configuración en un formato sencillo y preestablecido.
  • .CFG o Varios programas utilizan un archivo de configuración con la extensión » CONFIG » para almacenar configuraciones exclusivas de su software. Mientras que algunos archivos de configuración se guardan como archivos de texto sin formato, otros pueden estar en un formato específico del programa.
  • Extensión ~/.[nombre de mi aplicación] En los sistemas Linux, la convención de nomenclatura para los archivos de configuración es «RC». RC es «común» y es un antiguo sistema informático.

Crear un archivo de configuración en Python

Configparser.py es un módulo de Python que simplifica la escritura, lectura y modificación de archivos .ini .

Para instalar este módulo, debe abrir su símbolo del sistema y escribir el comando dado:

pip install configparser

El objetivo principal de Configureparser es leer y escribir archivos .ini, aunque también acepta diccionarios y objetos de archivos iterables como entradas. Cada archivo .ini se divide en partes que incluyen varios pares clave-valor.

Analicemos cómo crear un archivo de configuración en Python. Siguiendo los pasos que se indican a continuación, podemos crear un archivo de configuración:

  • Primero, importe el módulo configparser.
  • Cree un objeto de configparser.ConfigParser() guárdelo en una variable.
  • Cree secciones según las necesidades utilizando el método .add_section(«section_name»).
  • Agregue pares clave-valor a la sección, usando el método .set(«sección»,»clave»,»valor»).
  • Para guardar la configuración:
    con abrir (ruta/»nombre_de_archivo.ini», «w») como nombre de archivo:
    config object.write(fileName)

Comprendamos cómo crear un archivo de configuración en Python tomando un ejemplo a continuación:

# Code goes from here
# importing config parser
import configparser


# creating object of configparser
config = config parser.ConfigParser()


# creating a section
config.add_section("database")


# adding key-value pairs
config.set("database", "host", "local host")
config.set("database", "admin", "local admin")
config.set("database", "password", "qwerty@123")
config.set("database", "port no", "2253")
config.set("database", "database", "SQL")
config.set("database", "version", "1.1.0")


# creating another section
config.add_section("user")


# adding key-value pairs
config.set("user", "name", "test_name")
config.set("user", "e-mail", "test@example.com")
config.set("user", "id", "4759422")




with open("database.ini", 'w') as example:
   config.write(example)

En el ejemplo anterior, para crear un archivo de configuración INI, necesitamos importar configparser.

Primero, hemos creado un objeto de analizador de configuración utilizando el método config parser.ConfigParser(). Para hacer secciones en el archivo INI, usamos el método .add_section («nombre de la sección»).

Para completar los valores en la sección tenemos el método .set(). Se necesitan 3 parámetros: el primero es el nombre de la sección, el segundo es el nombre de la clave o la opción y el tercero es el valor.

Después de archivar secciones, necesitamos crear un archivo de .ini. Para crear un archivo, usamos “with open()(). En estos corchetes, damos el nombre del archivo para que cree un archivo en el mismo directorio. Para escribir valor, usaremos el método .write().

Salidas del archivo database.ini

Leer el archivo de configuración

Hemos aprendido cómo construir y actualizar el archivo de configuración en Python. Ahora que se ha creado, en nuestra clase principal, leamos los valores del archivo de configuración. La parte más fácil y clara viene a continuación.

Cada configuración se mantiene como una cadena porque Configureparser no intenta adivinar los tipos de datos en el archivo de configuración. Sin embargo, ofrece algunas formas de cambiar el tipo de datos de una cadena al apropiado. El tipo más interesante es el booleano, ya que puede distinguir entre valores booleanos como «sí» y «no», «encendido» y «apagado», «verdadero» y «falso», y «1» y «0».

También podría leer desde un objeto de archivo iterable, un diccionario o una cadena usando read_dict(), read_string() o read_file ().

Comprendamos cómo leer archivos de configuración en Python tomando un ejemplo dado

abajo:

# Code goes from here
# importing config parser
import configparser

# creating the object of configparser
config_data = configparser.ConfigParser()

# reading data
config_data.read("database.ini")

# app configuration data
database = config_data["database"]

# admin data
user = config_data["user"]

print("database data")
for database_data in database:
   print(f"{database_data} = {database.get(database_data)}")

print("\nuser data")
for user_data in user:
   print(f"{user_data} = {user.get(user_data)}")
Salida de la lectura del archivo de configuración

En el ejemplo anterior, tenemos un archivo de configuración » example.ini «. Intentemos leerlo. Para leer un archivo INI, necesitamos importar el módulo configparser.py. Ahora creamos un objeto de analizador de configuración usando el método config parser.ConfigParser() . En este momento, este objeto no tiene ningún dato. Podemos leer un archivo externo usando .read.

Tenemos 2 secciones en el archivo ini. Una es la sección de la base de datos y otra es la sección del usuario. Almacenemos estas secciones en diferentes nombres de variables como base de datos y usuarios.

Ahora, al usar for loop, iteramos en estas secciones e imprimimos estos valores para verificar si obtenemos lo que queremos.

Implementar una conexión hacia MySQL, PostegreSQL y Oracle DB.

Vamos a crear un archivo config.py que lea el archivo .ini creado mediante la función def config() que devolverá los parámetros de conexión en una variable «db»:

from configparser import ConfigParser


def config(filename='database.ini', section='postgresql'):
    # create a parser
    parser = ConfigParser()
    # read config file
    parser.read(filename)

    # get section, default to postgresql
    db = {}
    if parser.has_section(section):
        params = parser.items(section)
        for param in params:
            db[param[0]] = param[1]
    else:
        raise Exception('Section {0} not found in the {1} file'.format(section, filename))

    return db

Importaremos esta función desde el archivo creado config.py en el código de Python que utilizaremos para conectarnos a la base de datos a través de psycopg2, en este caso a PostgreSQL, al que podremos llamar connect.py:

import psycopg2
from config import config

def connect():
    """ Connect to the PostgreSQL database server """
    conn = None
    try:
        # read connection parameters
        params = config()

        # connect to the PostgreSQL server
        print('Connecting to the PostgreSQL database...')
        conn = psycopg2.connect(**params)
		
        # create a cursor
        cur = conn.cursor()
        
	# execute a statement
        print('PostgreSQL database version:')
        cur.execute('SELECT version()')

        # display the PostgreSQL database server version
        db_version = cur.fetchone()
        print(db_version)
       
	# close the communication with the PostgreSQL
        cur.close()
    except (Exception, psycopg2.DatabaseError) as error:
        print(error)
    finally:
        if conn is not None:
            conn.close()
            print('Database connection closed.')


if __name__ == '__main__':
    connect()

Al correr guardará los valores devueltos en db en la variable params la cual se utilizará para generar la conexión. El script nos devolverá el estado de conexión con éxito, la versión de PostgreSQL instalada y el sistema operativo sobre el cual corre.

A partir de aquí ya puedes realizar tus consultas SQL a través del cursor «cur».

Importante recordar que una vez realizadas las consultas requeridas debes cerrar el cursos y la conexión a la base de datos a través de .close() para ambos casos.

Si quieres conectar a una base de datos MySQL podrás utilizar los mismos archivos creados database.ini y connect.py, utilizando en este caso el conector mysql.connector el cual deberás instalar en tu equipo o servidor:

pip install mysql-connector
import mysql.connector
from config_mysql import config

def connect():
    """ Connect to the MySQL database server """
    conn = None
    try:
        # read connection parameters
        params = config()

        # connect to the MySQL server
        print('Connecting to the MySQL database...')
        conn = mysql.connector.connect(**params)
		
        # create a cursor
        cur = conn.cursor()
        
	# execute a statement
        print('MySQL database version:')
        cur.execute('SELECT VERSION()')

        # display the MySQL database server version
        db_version = cur.fetchone()
        print(db_version)
       
	# close the communication with the MySQL
        cur.close()
    except (Exception, mysql.connector.Error) as error:
        print(error)
    finally:
        if conn is not None:
            conn.close()
            print('Database connection closed.')


if __name__ == '__main__':
    connect()

Finalmente si vas a conectarte a una base de datos de Oracle deberas instalar y utilizar el conector oracledb y hacer la importación en el script de Python:

pip install oracledb

En este caso te recomiendo seguir este tutorial de Oracle para conectar con sus bases de datos a través de Python.

Consultar api de #OpenWeather con Python y trabajar con los datos devueltos en #Postgresql

OpenWeather es un equipo de expertos en TI y científicos de datos que practica la ciencia de datos meteorológicos profundos desde 2014. Para cada punto del mundo, OpenWeather proporciona datos meteorológicos históricos, actuales y pronosticados a través de API.

Entre los servicios que ofrecen pueden consumirse datos meteorológicos actuales y pronósticos:

  • Datos meteorológicos actuales.
  • Pronóstico por hora 4 días.
  • Pronóstico diario 16 días
  • Pronóstico Climático 30 días.
  • Alertas meteorológicas globales.
  • Notificaciones push.

Cómo llamar a las API de OpenWeather?

La clave API es todo lo que necesita para llamar a cualquiera de nuestras API meteorológicas. Una vez que se registre con su correo electrónico, se le enviará la clave API (APPID) en un correo electrónico de confirmación. Sus claves API siempre se pueden encontrar en la página de su cuenta , donde también puede generar claves API adicionales si es necesario.

Consulte nuestra página de documentación para encontrar toda la información técnica de cada producto. La documentación es una guía esencial con ejemplos reales y una descripción completa de las llamadas, respuestas y parámetros de la API.

Manejando datos con Python y PostgreSQL

Para consultar una API con Python y guardar el JSON devuelto en una base de datos PostgreSQL, se pueden seguir los siguientes pasos:

Importar las librerías necesarias: requests para hacer la petición a la API, psycopg2 para interactuar con la base de datos y json para manejar la respuesta en formato JSON.

import requests
import psycopg2
import json

Hacer la petición a la API y almacenar la respuesta en una variable. En este caso el código que te proveemos consulta las condiciones climatológicas de una ciudad en específico, en este caso Santiago de Chile.

Hacer la petición a la API y almacenar la respuesta en una variable.

response = requests.get('https://api.openweathermap.org/data/2.5/weather?q=Santiago,Chile&appid={appKey}&units=metric')

Como recomendación, previo a escribir tu código puedes probar la consulta en tu explorador web. Asi verás en la pantalla el JSON con el cual vas a trabajar.

También podes utilizar la API de codificación geográfica (Geocoding API) que es una herramienta simple que facilita la búsqueda de ubicaciones mientras se trabaja con nombres y coordenadas geográficas.

Recuerda que en lugar de «{appKey}» debes agregar la api key que obtengas luego de registrarte en OpenWeather.

Convertir la respuesta a formato JSON:

data = json.loads(response.text)

Conectar a la base de datos PostgreSQL:

conn = psycopg2.connect(
    host="localhost",
    database="basedatos",
    user="usuario",
    password="contraseña"
)

Crear un cursor para interactuar con la base de datos:

cur = conn.cursor()

Recorrer el JSON y hacer un insert en la base de datos por cada registro:

for registro in data:
cur.execute(«INSERT INTO tabla (campo1, campo2, campo3) VALUES (%s, %s, %s)», (registro[‘campo1’], registro[‘campo2’], registro[‘campo3’]))

Cerrar el cursor y hacer commit para guardar los cambios:

cur.close()
conn.commit()

Cerrar la conexión a la base de datos.

conn.close()

En resumen, para consultar la API con Python y guardar el JSON devuelto en una base de datos PostgreSQL, se debe hacer la petición a la API y convertir la respuesta a formato JSON. Luego, se debe conectar a la base de datos, crear un cursor y recorrer el JSON haciendo un insert por cada registro. Finalmente, se deben cerrar el cursor y hacer commit para guardar los cambios, y cerrar la conexión a la base de datos.

Código completo

Para almacenar la información del ejemplo de JSON que hemos proporcionado, se podría crear una tabla llamada «clima» en PostgreSQL con las siguientes columnas y tipos de datos:

CREATE TABLE clima (
    id SERIAL PRIMARY KEY,
    lon FLOAT,
    lat FLOAT,
    temp FLOAT,
    feels_like FLOAT,
    temp_min FLOAT,
    temp_max FLOAT,
    pressure INT,
    humidity INT,
    speed FLOAT,
    deg INT,
    cloudiness INT
);

Aquí te dejo un ejemplo código en python para el mismo formato de respuesta, en donde debes sustituir el string de consulta a la api y las credenciales a la base de datos:

import requests
import psycopg2
import json

# Hacer la petición a la API
response = requests.get(''https://api.openweathermap.org/data/2.5/weather?q=Santiago,Chile&appid={appKey}&units=metric')

# Convertir la respuesta a formato JSON
data = json.loads(response.text)

# Conectar a la base de datos PostgreSQL
conn = psycopg2.connect(
    host="localhost",
    database="basedatos",
    user="usuario",
    password="contraseña"
)

# Crear un cursor para interactuar con la base de datos
cur = conn.cursor()

# Insertar los datos en la tabla correspondiente
cur.execute("INSERT INTO clima (lon, lat, temp, feels_like, temp_min, temp_max, pressure, humidity, speed, deg, cloudiness) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)",
            (data['coord']['lon'], data['coord']['lat'], data['main']['temp'], data['main']['feels_like'], data['main']['temp_min'], data['main']['temp_max'], data['main']['pressure'], data['main']['humidity'], data['wind']['speed'], data['wind']['deg'], data['clouds']['all']))

# Cerrar el cursor y hacer commit para guardar los cambios
cur.close()
conn.commit()

# Cerrar la conexión a la base de datos
conn.close()

En este ejemplo, se están insertando los valores de «lon», «lat», «temp», «feels_like», «temp_min», «temp_max», «pressure», «humidity», «speed», «deg» y «all» en una tabla llamada «clima» en la base de datos PostgreSQL. Es importante asegurarse de que los nombres de las columnas en la tabla y los nombres de las claves en el JSON coincidan.

Verificación

Vamos a correr todo el código entregado para verificar su funcionamiento. Así que entramos a PostgreSQL en la línea de comando (psql) y creamos una base de datos. Puedes utilizar el nombre que quieras, pero debes asegurante que coincida con las credenciales que agreges a Python:

Creamos la tabla clima:

Una vez que hemos agregado la api key de OpenWeather y las credenciales de postgres corremos nuestro programa de python. Sin no hay errores de sintaxis o excepciones concurrentes, ya habremos consultado la api y guardado los datos en la tabla clima.

Hacemos la respectiva consulta SQL:

SELECT * FROM clima;

Asi obtenemos la informaciòn climática debidamente registrada en nuestra base de datos.

A partir de acá ya puede crear un programa que consulte información diversificada, como la correspondiente a varias ciudades de un mismo país o ciudades capitales de diversos paises, agrupándolas en una lista o diccionario para consultarse en un bucle.

Incluso, aunque esta información también puedes consultarla a la api, es sencillo llevar un registro diario de consultas mediante una herramienta de automatización como Github Actions o Apache Airflow (en un servidor web) que ejecute tu programa cada determinado tiempo, como cada 24 horas. De esta forma podrías realizar análisis de líneas de tiempo y hasta tu propio pronóstico climático utilizando alguna libreria de Inteligencia Artificial.

Codificando información con MD5 y SHA256 en PostgreSQL

MD5

Es un algoritmo de reducción criptográfico de 128 bits ampliamente usado. Uno de sus usos es el de comprobar que algún archivo no haya sido modificado.

La función PostgreSQL MD5()calcula el hash MD5  de una cadena y devuelve el resultado en hexadecimal. Utilizar el hash MD5 para almacenar contraseñas no es lo más seguro, pero es importante conocerlo pues es el se ha utilizado en forma tradicional por un par de décadas o más.

A continuación veamos la sintaxis de la MD5()función:

MD5(string)

Para crear una tabla en PostgreSQL que almacene información de usuario con el password codificado con MD5, puedes seguir los siguientes pasos:

  1. Abre una conexión con tu base de datos PostgreSQL utilizando una herramienta como pgAdmin o la línea de comandos de PostgreSQL.
  2. Crea una nueva tabla utilizando el comando CREATE TABLE, especificando los nombres de las columnas y sus tipos de datos.

Por ejemplo:

CREATE TABLE usuarios (
   id SERIAL PRIMARY KEY,
   nombre VARCHAR(50),
   email VARCHAR(50),
   password VARCHAR(32)
);

En este ejemplo, estamos creando una tabla llamada «usuarios» con cuatro columnas: id (un número de serie generado automáticamente), nombre, email y password.

  1. Para almacenar el password codificado con MD5, debes utilizar una función de PostgreSQL llamada «md5». Esta función toma una cadena de texto como argumento y devuelve su hash MD5 en formato de texto. Puedes utilizar esta función en una instrucción INSERT para almacenar el password codificado en la tabla.

El ejemplo para esto:

INSERT INTO usuarios (nombre, email, password) VALUES ('Juan', 'juan@example.com', md5('contraseña123'));

En este ejemplo, estamos insertando un nuevo usuario en la tabla «usuarios» con el nombre «Juan», el email «juan@example.com» y el password «contraseña123» codificado con MD5.

Cuando quieras verificar si un usuario ha ingresado la contraseña correcta, debes comparar el hash MD5 del password ingresado con el hash almacenado en la base de datos. Puedes hacer esto utilizando la función md5 nuevamente en la consulta SELECT.

SELECT * FROM usuarios WHERE email='juan@example.com' AND password=md5('contraseña123');

En este ejemplo, estamos seleccionando todos los usuarios que tienen el email «juan@example.com» y el password «contraseña123» codificado con MD5.

Recuerda que utilizar el hash MD5 para almacenar contraseñas no es lo más seguro. Siempre es mejor utilizar algoritmos más seguros y modernos como bcrypt o scrypt.

Cómo hacer el mismo procedimiento con sha256?

Para almacenar contraseñas codificadas con SHA256 en una tabla de PostgreSQL, puedes seguir los mismos pasos para crear la tabla que contendrá la información:

  1. Abre una conexión con tu base de datos PostgreSQL utilizando una herramienta como pgAdmin o la línea de comandos de PostgreSQL.
  2. Crea una nueva tabla utilizando el comando CREATE TABLE, especificando los nombres de las columnas y sus tipos de datos.
CREATE TABLE usuarios (
   id SERIAL PRIMARY KEY,
   nombre VARCHAR(50),
   email VARCHAR(50),
   password VARCHAR(64)
);

Para almacenar el password codificado con SHA256, debes utilizar la función de PostgreSQL llamada «encode». Esta función toma dos argumentos: el primero es el resultado de la función hash, en este caso, la función «sha256», y el segundo es el formato de salida que queremos, en este caso, ‘hex’.

INSERT INTO usuarios (nombre, email, password) VALUES ('Juan', 'juan@example.com', encode(digest('contraseña123', 'sha256'), 'hex'));

En este ejemplo, estamos insertando un nuevo usuario en la tabla «usuarios» con el nombre «Juan», el email «juan@example.com» y el password «contraseña123» codificado con SHA256.

Cuando quieras verificar si un usuario ha ingresado la contraseña correcta, debes comparar el hash SHA256 del password ingresado con el hash almacenado en la base de datos. Puedes hacer esto utilizando la función digest y encode nuevamente en la consulta SELECT.

SELECT * FROM usuarios WHERE email='juan@example.com' AND password=encode(digest('contraseña123', 'sha256'), 'hex');

En este ejemplo, estamos seleccionando todos los usuarios que tienen el email «juan@example.com» y el password «contraseña123» codificado con SHA256.

Recuerda que SHA256 es un algoritmo de hash más seguro que MD5, pero todavía se recomienda utilizar técnicas adicionales como agregar una «sal» aleatoria a la contraseña y utilizar un algoritmo de hash más seguro y moderno como bcrypt o scrypt.

Es posible que PostgreSQL te devuelva un mensaje como el siguiente: «SQL Error [42883]: ERROR: function digest(unknown, unknown) does not exist». Esto no quiere decir que la consulta sea incorrecta, sino que debes habilitar el módulo «pgcrypto«.

Modulos adicionales: pgcrypto.

El módulo pgcrypto proporciona funciones criptográficas para PostgreSQL .

Este módulo se considera » de confianza » , es decir, puede ser instalado por personas que no sean superusuarios y que tengan privilegios CREATE sobre la base de datos actual.

Para instalar el módulo «pgcrypto», puedes utilizar el siguiente comando SQL en la línea de comandos de PostgreSQL:

CREATE EXTENSION pgcrypto;

Este comando creará el módulo «pgcrypto» en la base de datos actual.

Una vez instalado el módulo «pgcrypto», deberías ser capaz de utilizar la función «digest» sin errores.

Base de datos de Pistas Musicales mas artistas en PostgreSQL. Normalización de datos, parte 2.

En este ejercicio leeremos una biblioteca de iTunes en valores separados por comas (CSV) y produciremos tablas correctamente normalizadas como se especifica a continuación.

iTunes

Haremos algunas cosas de manera diferente en esta tarea. No usaremos una tabla «en bruto» separada, solo usaremos declaraciones ALTER TABLE para eliminar columnas después de que no las necesitemos (es decir, las convertimos en claves foráneas).

Utilizaremos este CSV que contiene la información de las pistas musicales. No usaremos una tabla «en bruto» separada, solo usaremos declaraciones ALTER TABLE para eliminar columnas después de que no las necesitemos (es decir, las convertimos en claves foráneas).

Esta vez construiremos una relación de muchos a muchos usando una tabla de junction/through/join entre pistas y artistas.

El script para construir las tablas que vamos a utilizar:

CREATE TABLE album (
    id SERIAL,
    title VARCHAR(128) UNIQUE,
    PRIMARY KEY(id)
);

CREATE TABLE track (
    id SERIAL,
    title TEXT, 
    artist TEXT, 
    album TEXT, 
    album_id INTEGER REFERENCES album(id) ON DELETE CASCADE,
    count INTEGER, 
    rating INTEGER, 
    len INTEGER,
    PRIMARY KEY(id)
);

CREATE TABLE artist (
    id SERIAL,
    name VARCHAR(128) UNIQUE,
    PRIMARY KEY(id)
);

CREATE TABLE tracktoartist (
    id SERIAL,
    track VARCHAR(128),
    track_id INTEGER REFERENCES track(id) ON DELETE CASCADE,
    artist VARCHAR(128),
    artist_id INTEGER REFERENCES artist(id) ON DELETE CASCADE,
   

Luego procedemos a copiar los datos contenidos en el CSV a la tabla track (recuerda ingresar a la línea de comandos con la instrucción psql):

\copy track(title,artist,album,count,rating,len) FROM 'library.csv' WITH DELIMITER ',' CSV;

Seguidamente actualizamos las tablas album y artist con los datos únicos (SELECT DISTINCT) de los campos album y artists de la tabla track. De igual forma los campos track y artist de la tabla tracktoartist desde los campos title y artist de la tabla track.

INSERT INTO album (title) SELECT DISTINCT album FROM track;

INSERT INTO artist (name) SELECT DISTINCT artist FROM track;

UPDATE track SET album_id = (SELECT album.id FROM album WHERE album.title = track.album);

INSERT INTO tracktoartist (track, artist) SELECT DISTINCT title, artist FROM track; 

Una vez hecho esto actualizamos los campos track_id y artist_id de la tabla tracktoartist con los respectivos «id’s» de las tablas track y artist.

UPDATE tracktoartist SET track_id = (SELECT track.id FROM track WHERE track.title = tracktoartist.tracK);

UPDATE tracktoartist SET artist_id = (SELECT artist.id FROM artist WHERE artist.name = tracktoartist.artist);

De esta forma habremos normalizado esta información de Pistas Musicales creando las respectivas relaciones de modo que ahora podemos ejecutar una consulkat como la siguiente:

SELECT track.title, album.title, artist.name
FROM track
JOIN album ON track.album_id = album.id
JOIN tracktoartist ON track.id = tracktoartist.track_id
JOIN artist ON tracktoartist.artist_id = artist.id
LIMIT 3;

Obtendremos un resultado como el siguiente:

Para finalizar podemos eliminar los datos que nos sobran, las columnas album y artist de la tabla track y los campos track y artist de la tabla tracktoartist, a traves de la instrucción ALTER TABLEDROP COLUMN.

 

Unesco Heritage Sites dataset en PostgreSQL y normalización de datos.

En esta entrega leeremos algunos datos del Patrimonio de la Humanidad de la Unesco en formato de valores separados por comas (CSV), los cargaremos en una base de datos PostgreSQL mediante el comando COPY y crearemos tablas correctamente normalizadas.

Precolumbian Chiefdom settlements with stone spheres of the Diquís © Ko Hon Chiu Vincent

Acerca del conjunto de datos

Un sitio del Patrimonio Mundial es un hito o área protegida legalmente por una convención internacional administrada por la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO). Los sitios del Patrimonio Mundial son designados por la UNESCO por tener importancia cultural, histórica, científica o de otro tipo. Se considera que los sitios contienen «patrimonio cultural y natural en todo el mundo considerado de valor excepcional para la humanidad».

Para ser seleccionado, un Sitio del Patrimonio Mundial debe ser un hito único que sea identificable geográfica e históricamente y que tenga un significado cultural o físico especial. Por ejemplo, los sitios del Patrimonio Mundial pueden ser ruinas antiguas o estructuras históricas, edificios, ciudades,[a] desiertos, bosques, islas, lagos, monumentos, montañas o áreas silvestres. Un Sitio del Patrimonio Mundial puede significar un logro notable de la humanidad y servir como evidencia de nuestra historia intelectual en el planeta, o puede ser un lugar de gran belleza natural.

El dataset puede descargarse en desde el siguiente link: Unesco Heritage Sites dataset. Los datos corresponden al año 2018. Sin embargo si desea contar con datos más actualizados puede descargarlos desde los siguientes sitios (dataset 2021 a la fecha de hoy):

Procedimiento

Una vez descargado el dataset procedemos a crear las tablas parea la carga de datos. Puedes nombrar la base de datos como gustes y los nombre de las tablas también puedes modificarlos, aunque esta nomenclatura permite una mejor comprensión de su contenido.

DROP TABLE unesco_raw;
CREATE TABLE unesco_raw (
  name TEXT,
  description TEXT,
  justification TEXT,
  year INTEGER,
  longitude FLOAT,
  latitude FLOAT,
  area_hectares FLOAT,
  category TEXT,
  category_id INTEGER,
  state TEXT,
  state_id INTEGER,
  region TEXT,
  region_id INTEGER,
  iso TEXT,
  iso_id INTEGER
);

Para cargar los datos CSV para esta asignación, use el siguiente comando COPY desde la lonea de comando de PpostgreSQL (psql) . Agregar HEADER hace que el cargador CSV omita la primera línea en el archivo CSV. El comando \copy debe ser una línea larga.

\copy unesco_raw(nombre,descripción,justificación,año,longitud,latitud,área_hectáreas,categoría,estado,región,iso) FROM 'whc-sites-2018-small.csv' WITH DELIMITER ',' CSV HEADER;

Revisamos los datos.

Consulta SQL en DBeaver

Ahora procedemos a normalizar los datos con la ayuda de tablas adicionales que podemos llamar «look up tables».

La normalización es el proceso de seguir una serie de reglas (formas normales), para asegurar que nuestras relaciones estén ordenadas y regularizadas con el fin de mejorar dichas relaciones. Están enfocadas en evitar la redundancia de datos e inconsistencias en el diseño de nuestras tablas.

Lo primero que determinamos es que existe redundancia de datos en campos como «categoría» donde encontramos «Sitio cultural», «Sitio natural » y «Sitio mixto». Estos datos los podemos trasladar a otra tabla y crear una relación con la tabla «unesco_raw» para eliminar esta réplica de datos.

Caso similar podemos apreciar en los campos «state», «region» e «iso».

Entonces procedemos a crear tablas para estos datos que contendrán los datos respectivos de «category», «state», «region» e «iso» de forma única (campos UNIQUE) con su respentido identificados (id SERIAL).

CREATE TABLE category (
  id SERIAL,
  name VARCHAR(128) UNIQUE,
  PRIMARY KEY(id)
);
CREATE TABLE state (
  id SERIAL,
  name VARCHAR(128) UNIQUE,
  PRIMARY KEY(id)
);
CREATE TABLE region (
  id SERIAL,
  name VARCHAR(128) UNIQUE,
  PRIMARY KEY(id)
);
CREATE TABLE iso (
  id SERIAL,
  name VARCHAR(128) UNIQUE,
  PRIMARY KEY(id)
);

Cargamos los datos de «unesco_raw» a las tablas que hemos creado, seleccionando los valores únicos (SELECT DISTINCT).

INSERT INTO category(name) SELECT DISTINCT category FROM 
unesco_raw;
INSERT INTO state(name) SELECT DISTINCT state FROM unesco_raw;
INSERT INTO region(name) SELECT DISTINCT region FROM 
 unesco_raw;
INSERT INTO iso(name) SELECT DISTINCT iso FROM unesco_raw;

Ahora actualizamos la tabla «unesco_raw» con los datos de las tablas que hemos creado, agregarndo la categoría de sitio por su identificador (id) para crear la relación. En este caso utilizaremos una consulta compuesta para obtener primero el identificador de categoría de la tabla «category» para luego actualizar el campo «category_id» en «unesco_raw».

Igual procedemos con los datos de las tablas «state», «regiosn» e «iso».

UPDATE unesco_raw SET category_id = (
  SELECT category.id FROM category WHERE category.name = unesco_raw.category);
UPDATE unesco_raw SET state_id = ( 
  SELECT state.id FROM state WHERE state.name = unesco_raw.state );
UPDATE unesco_raw SET region_id = (
    SELECT region.id FROM region WHERE region.name = unesco_raw.region);
UPDATE unesco_raw SET iso_id = (
    SELECT iso.id FROM iso WHERE iso.name = unesco_raw.iso);

De esta forma ya contamos con los identificadores para las categoría, los estados, las regiones y las nomenclaturas ISO.

Consulta SQL en DBeaver

Para poder descartar la información redundante procedemos a crear una tabla final, definitiva que llamaremos simplemente «unesco» de la siguiente forma:

CREATE TABLE unesco (
    name TEXT,
    description TEXT,
    justification TEXT,
    year INTEGER,
    longitude FLOAT,
    latitude FLOAT,
    area_hectares FLOAT,
    category_id INTEGER,
    state_id INTEGER,
    region_id INTEGER,
    iso_id INTEGER
);

Copiamos toda la información exceptuando los datos de las columnas categoría, los estados, las regiones y las nomenclaturas ISO, e incluyendo los identificadores de las demás tablas creadas para establecer las respectivas relaciones.

INSERT INTO
  unesco(
    name,
    description,
    justification,
    year,
    longitude,
    latitude,
    area_hectares,
    category_id,
    state_id,
    region_id,
    iso_id
  ) select
  name,
  description,
  justification,
  year,
  longitude,
  latitude,
  area_hectares,
  category_id,
  state_id,
  region_id,
  iso_id from unesco_raw;

De esta forma obtendremos la información del dataset World Heritage List de una forma mejor estructurada, sin redundancia de datos, aprovechando las ventajas que nos ofrece una base de datos relacional como PostgreSQL.

Ahpora podemos eliminar la tabla «unesco_raw» usando DROP TABLE, y revisar la información obtenida con una consulta como la siguiente:

SELECT unesco.name, year, category.name, state.name, region.name, iso.name
  FROM unesco
  JOIN category ON unesco.category_id = category.id
  JOIN iso ON unesco.iso_id = iso.id
  JOIN state ON unesco.state_id = state.id
  JOIN region ON unesco.region_id = region.id
  ORDER BY state.name, unesco.name
  LIMIT 3;

El resultado sería el siguiente:

Consulta SQL en DBeaver

En una siguiente entrega utilizaremos estos datos almacenados en PostgreSQL para general un mapa interactivo con geolocalización de cada sitio de la Unesco.

World Heritage List, UNESCO

PostgreSQL, parte 3: Funciones y Procedimientos

Introducción

El lenguaje de procedimientos PL/pgSQL agrega muchos elementos de procedimientos, por ejemplo, estructuras de control, bucles y cálculos complejos, para ampliar el SQL estándar. Le permite desarrollar funciones complejas y procedimientos almacenados en PostgreSQL que pueden no ser posibles usando SQL simple.

El lenguaje de procedimiento PL/pgSQL es similar a Oracle PL/SQL . Las siguientes son algunas de las razones para aprender PL/pgSQL:

  • PL/pgSQL es fácil de aprender y fácil de usar.
  • PL/pgSQL viene con PostgreSQL por defecto. Las funciones definidas por el usuario y los procedimientos almacenados desarrollados en PL/pgSQL se pueden utilizar como cualquier función integrada y procedimiento almacenado.
  • PL/pgSQL hereda todos los tipos, funciones y operadores definidos por el usuario.
  • PL/pgSQL tiene muchas características que le permiten desarrollar funciones complejas y procedimientos almacenados.
  • PL/pgSQL se puede definir para que el servidor de base de datos de PostgreSQL confíe en él.

Las funciones creadas con PL/pgSQL se pueden usar en cualquier lugar donde se puedan usar las funciones integradas. Por ejemplo, es posible crear funciones de cálculo condicional complejas y luego usarlas para definir operadores o usarlas en expresiones de índice.

En PostgreSQL 9.0 y versiones posteriores, PL/pgSQL está instalado de forma predeterminada. Sin embargo, sigue siendo un módulo cargable, por lo que los administradores especialmente conscientes de la seguridad podrían optar por eliminarlo.

Cómo crear un campo updated_at que automaticamente registre la fecha cuando el registro se modifica con PostgreSQL?

Función para actualizar campo de fecha «updated_at»

Para crear un campo updated_at que se actualice automáticamente cuando se modifica un registro por ejemplo en una base de datos MySQL, puedes utilizar la función CURRENT_TIMESTAMP junto con el atributo ON UPDATE.

Aquí está el código para crear una tabla con un campo updated_at:

CREATE TABLE ejemplo (
   id INT PRIMARY KEY,
   nombre VARCHAR(50),
   descripcion VARCHAR(255),
   updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP
);

En este ejemplo, el campo updated_at se establece con un valor predeterminado de la fecha y hora actual utilizando la función CURRENT_TIMESTAMP, y también se agrega el atributo ON UPDATE CURRENT_TIMESTAMP, lo que significa que se actualizará automáticamente con la fecha y hora actual cada vez que se modifique el registro.

Sin embargo, para crear un campo updated_at que se actualice automáticamente cuando se modifica un registro en PostgreSQL, se debe utilizar una función llamada trigger.

Aquí está el código para crear una tabla con un campo updated_at:

CREATE TABLE ejemplo (
   id SERIAL PRIMARY KEY,
   nombre VARCHAR(50),
   descripcion VARCHAR(255),
   updated_at TIMESTAMP
);

En este ejemplo, el campo updated_at se deja sin valor predeterminado ya que será actualizado automáticamente a través de la función trigger.

A continuación, puedes crear una función trigger que se active cada vez que se modifique un registro en la tabla ejemplo, y actualizará automáticamente el valor del campo updated_at con la fecha y hora actual.

CREATE OR REPLACE FUNCTION actualizar_updated_at()
RETURNS TRIGGER AS $$
BEGIN
   NEW.updated_at = NOW();
   RETURN NEW;
END;
$$ LANGUAGE plpgsql;

Esta función trigger utiliza la función NOW() para obtener la fecha y hora actuales y actualizar el campo updated_at del registro modificado.

Por último, puedes crear el trigger que se activará cada vez que se realice una operación UPDATE en la tabla ejemplo, y ejecutará la función trigger actualizar_updated_at().

CREATE TRIGGER trigger_actualizar_updated_at
BEFORE UPDATE ON ejemplo
FOR EACH ROW
EXECUTE FUNCTION actualizar_updated_at();

Este trigger se activará antes de que se actualice cualquier registro en la tabla ejemplo, y ejecutará la función trigger actualizar_updated_at(), que actualizará el campo updated_at con la fecha y hora actuales.

Con estos pasos, el campo updated_at se actualizará automáticamente cada vez que se modifique un registro en la tabla ejemplo. Puedes ajustar los nombres de la tabla y los campos para que se adapten a tus necesidades específicas.

Artículos previos:

PostgreSQL conn, parte 2 técnicas avanzadas, en ChatGPT (OpenAI)

PostgreSQL conn en ChatGPT (OpenAI), Psycopg v2 o v3?

PostgreSQL conn, parte 2 técnicas avanzadas, en ChatGPT (OpenAI)

Hoy he interactuado con Inteligencia Artificial ChatGPT sobre algunas técnicas de SQL, que van más allá de las operaciones CRUD (Crear, Leer, Actualizar y Eliminar) básicas en PostgreSQL. Así que analizaremos la Agregación, daremos un vistazo a las Transacciones que se ampliarán en otro tutorial, y finalmente entraremos a dos ejemplos de lectura y tregistro de datos desde un archivo CSV usando Insert y Copy.

SQL (imagen; Freepik)

Que es la técnica de bases de datos aggregation?

La técnica de agregación de bases de datos es una forma de resumir y analizar grandes conjuntos de datos. Se utiliza comúnmente en bases de datos relacionales y se refiere a la aplicación de una función de agregación a un conjunto de datos para producir un resultado consolidado.

La agregación se puede hacer sobre una o varias columnas de datos y puede involucrar diferentes funciones de agregación, como sumas, promedios, valores máximos y mínimos, entre otras. El resultado de la agregación es una tabla con una sola fila que resume el conjunto de datos en función de las columnas y la función de agregación seleccionada.

Esta técnica se utiliza para generar informes y análisis de datos que permitan a los usuarios ver rápidamente la información importante en una base de datos sin tener que examinar todos los registros individuales. Las consultas de agregación también pueden utilizarse para identificar patrones y tendencias en los datos, lo que puede ayudar a los analistas a tomar decisiones informadas.

tion?

Un ejemplo de la técnica de bases de datos aggregation.

La técnica de agregación de bases de datos se utiliza para realizar cálculos y resúmenes de datos en una tabla de base de datos. Un ejemplo común de la técnica de agregación es el cálculo de la suma, el promedio o la cuenta de los valores en una columna.

Por ejemplo, supongamos que tenemos una tabla de ventas que contiene información sobre los productos vendidos en una tienda en línea. La tabla podría tener las siguientes columnas:

  • id_venta: identificador único de la venta
  • id_producto: identificador único del producto
  • cantidad: cantidad vendida del producto
  • precio_unitario: precio unitario del producto
  • fecha_venta: fecha en que se realizó la venta

Para calcular el total de ventas por día, podríamos utilizar la técnica de agregación. El siguiente ejemplo utiliza SQL para calcular la suma de las ventas por día:

SELECT fecha_venta, SUM(cantidad * precio_unitario) AS total_ventas
FROM ventas
GROUP BY fecha_venta;

Este código SQL utiliza la función SUM() para sumar el producto de la cantidad y el precio unitario para cada venta y agrupar los resultados por fecha de venta utilizando la cláusula GROUP BY. El resultado de esta consulta sería una tabla que muestra el total de ventas por día:

Este es un ejemplo de cómo se puede utilizar la técnica de agregación para resumir y analizar grandes cantidades de datos en una tabla de base de datos de manera eficiente y efectiva.

Qué son las transactions en la base de datos postgresql?

En PostgreSQL, una transacción es un conjunto de operaciones de base de datos que se ejecutan como una única unidad lógica y atómica de trabajo. Una transacción garantiza que todas las operaciones realizadas en la base de datos se completen con éxito, o que se reviertan a su estado anterior si alguna operación falla.

En una transacción, se pueden realizar una o varias operaciones de base de datos, como inserciones, actualizaciones o eliminaciones. Estas operaciones se agrupan y se ejecutan en una secuencia lógica. Si todas las operaciones se completan con éxito, se confirman y se hacen permanentes en la base de datos. Si alguna operación falla, se deshacen todas las operaciones realizadas en la transacción y se revierten a su estado anterior.

El uso de transacciones es importante para garantizar la integridad y consistencia de los datos en la base de datos, especialmente en entornos de base de datos con múltiples usuarios concurrentes. Si varias transacciones intentan acceder a los mismos datos al mismo tiempo, pueden producirse conflictos que afecten la integridad de los datos. Las transacciones permiten a los desarrolladores manejar estos conflictos de manera efectiva y garantizar que la base de datos siempre esté en un estado coherente y correcto.

¿Cómo se realiza el leer y analizar archivos CSV e insertar datos en postgresql utilizando INSERT?

Para leer y analizar archivos CSV y luego insertar los datos en una tabla de PostgreSQL, se puede seguir los siguientes pasos utilizando el lenguaje de programación Python y las librerías Pandas y Psycopg2:

Importar las librerías necesarias:

import pandas as pd
import psycopg2

Leer el archivo CSV en un DataFrame de Pandas:

data = pd.read_csv(‘file.csv’)

Conectarse a la base de datos de PostgreSQL utilizando Psycopg2:

conn = psycopg2.connect(host="localhost", database="mydatabase", user="myusername", password="mypassword")
cur = conn.cursor()

Crear una tabla en PostgreSQL para almacenar los datos del archivo CSV (si aún no existe):

cur.execute("CREATE TABLE IF NOT EXISTS mytable (column1 datatype1, column2 datatype2, ...)")

Recorrer el DataFrame de Pandas y, por cada fila, insertar los datos en la tabla de PostgreSQL:

for index, row in data.iterrows():
    cur.execute("INSERT INTO mytable (column1, column2, ...) VALUES (%s, %s, ...)", (row['column1'], row['column2'], ...))

Confirmar los cambios en la base de datos y cerrar la conexión:

conn.commit()
cur.close()
conn.close()

Con estos pasos, se puede leer y analizar un archivo CSV y luego insertar los datos en una tabla de PostgreSQL de manera eficiente utilizando Python, Pandas y Psycopg2. Es importante asegurarse de que los datos del archivo CSV se correspondan con los tipos de datos de las columnas de la tabla de PostgreSQL para evitar errores de inserción.

¿Cómo se realiza el leer y analizar archivos CSV e insertar datos en postgresql usando COPY?

Para leer y analizar archivos CSV y luego insertar los datos en una tabla de PostgreSQL usando el comando COPY, se pueden seguir los siguientes pasos:

  1. Crear una tabla en PostgreSQL que tenga la misma estructura que el archivo CSV que se va a cargar:
CREATE TABLE mytable (
  column1 datatype1,
  column2 datatype2,
  ...
);
  1. Preparar un archivo CSV que tenga el mismo formato que la tabla en PostgreSQL y que contenga los datos que se van a cargar.
  2. Abrir una conexión a la base de datos de PostgreSQL usando un objeto psycopg2 y crear un cursor:
import psycopg2

conn = psycopg2.connect(database="mydatabase", user="myusername", password="mypassword", host="localhost", port="5432")
cur = conn.cursor()

4. Usar el comando COPY para cargar los datos del archivo CSV en la tabla de PostgreSQL:

with open('file.csv', 'r') as f:
    next(f) # Omitir la primera fila si es un encabezado
    cur.copy_from(f, 'mytable', sep=',')

El primer argumento de la función copy_from() es el objeto de archivo CSV que se va a cargar. El segundo argumento es el nombre de la tabla de PostgreSQL en la que se van a cargar los datos. El tercer argumento es el separador de campo utilizado en el archivo CSV (en este ejemplo, una coma).

5. Confirmar los cambios en la base de datos y cerrar la conexión:

conn.commit()
cur.close()
conn.close()

Con estos pasos, se pueden leer y analizar archivos CSV y luego insertar los datos en una tabla de PostgreSQL utilizando el comando COPY de manera eficiente y sin tener que recorrer los datos fila por fila. Es importante asegurarse de que los datos del archivo CSV se correspondan con los tipos de datos de las columnas de la tabla de PostgreSQL para evitar errores de carga.

Recursos

OpenAI API link

Curso recomendado link

Tutorial ¿Cómo configurar Airflow en un servidor Ubuntu? Parte 1

AirFlow corriendo en localhost:8080

Para configurar Airflow en un servidor Ubuntu, sigue estos pasos:

Instala Python en el servidor Ubuntu si aún no lo has hecho. Puedes hacerlo ejecutando el siguiente comando:

Por lo general las distribuciones de Linux ya traen por defecto Python instalado, así que sin problema puedes saltar el paso anterior.

Instala Apache Airflow y sus dependencias usando pip. Puedes hacerlo ejecutando el siguiente comando:

Configura la base de datos de Airflow. Puedes hacerlo ejecutando los siguientes comandos incorporando tus credenciales:

airflow db init
airflow users create --username admin --password admin --firstname FIRST_NAME --lastname LAST_NAME --role Admin --email admin@example.com

El primer comando inicializa la base de datos de Airflow y el segundo comando crea un usuario administrador para Airflow. Toma en consideración que esta configuración se realiza por defecto sobre SQLite así que tendrás un entorno configurado para desarrollo no para ´producción, para lo cual deberás configurar otro motor de base de datos que utilice AirFlow.

Inicia el servidor web de Airflow ejecutando el siguiente comando:

airflow webserver -p 8080

Esto iniciará el servidor web de Airflow en el puerto 8080.

Inicia el scheduler de Airflow ejecutando el siguiente comando en otra ventana de terminal:

El scheduler es responsable de programar y ejecutar las tareas en Airflow.

Accede a la interfaz web de Airflow en tu navegador web navegando a http://<IP del servidor Ubuntu>:8080. Ingresa con las credenciales de usuario que creaste anteriormente.

Crea un archivo DAG (directed acyclic graph) para definir y programar tus tareas en Airflow. Puedes crear el archivo DAG en un directorio específico que hayas configurado en el archivo de configuración de Airflow.

A partir de aca te recomendamos leer y seguir la documentación oficial de AirFlow en How-to Guides

Verifica que tus tareas se ejecuten correctamente en Airflow y realiza cualquier ajuste necesario en el archivo DAG. Siguiendo estos pasos, deberías poder configurar Airflow en un servidor Ubuntu y comenzar a programar y ejecutar tareas. Ten en cuenta que es importante seguir las mejores prácticas de seguridad al configurar tu servidor y Airflow.

En el siguiente tutorial mostraremos como cambiar la base de datos default que utiliza Airflow de SQLite a Postgresql.

ETL pipeline Comprendiendo a Elon Musk por sus tweets Parte 1

Creación de un conjunto de datos de Twitter con Pandas en Python utilizando la biblioteca Snscrape. Persistencia de datos en MySQL. Este código busca tweets de Elon Musk desde el 1 de enero de 2021 hasta el 1 de enero de 2022 y guarda los resultados en un archivo CSV llamado «tweets.csv».

Instalar Snscrape y Pandas utilizando pip en tu entorno virtual de Python:

pip install snscrape pandas

Importar las bibliotecas necesarias:

import snscrape.modules.twitter as sntwitter import pandas as pd

Definir una consulta de búsqueda utilizando el formato de consulta de búsqueda de Twitter:

query = «from:elonmusk since:2021-01-01 until:2022-01-01»

image

Opcionalmente, puedes guardar el dataframe en un archivo CSV para su posterior uso:

Captura de pantalla dataset

Para limpiar los datos obtenidos del archivo «tweets.csv» creado anteriormente, podemos utilizar Pandas para cargar el archivo CSV en un dataframe y luego realizar diversas operaciones de limpieza y preprocesamiento de datos.

image

Este es solo un ejemplo básico de algunas de las operaciones de limpieza que se pueden realizar en los datos de los tweets. Dependiendo de los datos específicos que se estén utilizando, puede ser necesario realizar otras operaciones de limpieza y preprocesamiento de datos.

Para guardar el dataset de tweets limpios en un nuevo archivo CSV llamado «tweets_limpios.csv», podemos utilizar el método to_csv() del dataframe de Pandas.

Aquí te dejo un ejemplo de cómo podrías hacerlo:

image

Para guardar los datos del archivo «tweets_limpios.csv» en una base de datos MySQL, necesitaremos instalar la librería de Python mysql-connector-python. También necesitaremos crear una base de datos y una tabla en MySQL para almacenar los datos.

A continuación te dejo un ejemplo de cómo podrías hacerlo:

Primero, instala la librería mysql-connector-python utilizando el siguiente comando en la terminal o en el símbolo del sistema (si estás utilizando Windows):

pip install mysql-connector-python

A continuación, crea una base de datos y una tabla en MySQL utilizando los siguientes scripts SQL:

image

Este script creará una base de datos llamada tweets_db y una tabla llamada tweets con dos columnas: id (un número de identificación único para cada tweet) y tweet_text (el texto del tweet).

Ahora, puedes utilizar el siguiente script de Python para leer los datos del archivo «tweets_limpios.csv» y guardarlos en la base de datos:

image

Asegúrate de cambiar los valores de host, user y password en la función mysql.connector.connect() para que coincidan con tu configuración de MySQL.

Este script carga los datos del archivo CSV en un dataframe de Pandas y luego se conecta a la base de datos MySQL utilizando la librería mysql-connector-python. A continuación, se crea un cursor para ejecutar comandos SQL y se inserta cada tweet en la tabla de la base de datos utilizando un bucle for y la función cursor.execute(). Finalmente, se cierra la conexión con la base de datos y se imprime un mensaje para confirmar que los datos se han guardado correctamente.

Espero que esto te ayude a guardar los datos del archivo «tweets_limpios.csv» en una base de datos MySQL.

Código en GitHub >> https://github.com/DaveSV/ETL-pipeline-Elon-Musk-1

En la Parte 2 de este tutorial avanzaremos a programar, monitorear y administrar todo el flujo de trabajo de estos datos con Airflow.

PostgreSQL conn en ChatGPT (OpenAI), Psycopg v2 o v3?

Hoy le he dado la siguiente orden a la Inteligencia Artificial ChatGPT para la creación de un broque de código: «crea codigo en python para conectarse a una base de datos postgresql y insertar datos desde un archivo csv linea por linea omitiendop el encabezado»

La IA, como en otras ocasiones, empezó a escribir el bloque de código en la ventana del chat:

import psycopg2
import csv

# Conexión a la base de datos
conn = psycopg2.connect(
    host="hostname",
    database="database",
    user="username",
    password="password"
)
cursor = conn.cursor()

# Nombre de la tabla y los nombres de las columnas que se insertarán
table_name = "table_name"
column_names = ["col_1", "col_2", "col_3"]

# Apertura del archivo CSV y lectura de datos
with open('data.csv', 'r') as file:
    reader = csv.reader(file)
    header = True
    for row in reader:
        if header:
            header = False
            continue
        # Creación de una lista con los valores de cada columna
        values = [row[0], row[1], row[2]]
        # Creación de una sentencia SQL para insertar datos
        sql = f"INSERT INTO {table_name} ({','.join(column_names)}) VALUES ({','.join(['%s'] * len(column_names))});"
        cursor.execute(sql, values)

# Guardar los cambios y cerrar la conexión
conn.commit()
cursor.close()
conn.close()

Es un código correcto, en donde únicamente hay que considerar que se asume que el archivo CSV data.csv tiene tres columnas y que el encabezado está en la primera línea del archivo. Se puede modificar el código según sea necesario para adaptarlo a los requisitos específicos, como son las credenciales a la base de datos, o restringir por campos el volcado de datos del CSV.

Sin embargo lo interesante es que ChatGPT recomendara, por defecto, el uso de psycopg v2 y no la version 3 der apadtador la cual tiene ya un par de años de estar disponible. Esta versión de adaptador la utilizo en la actualidad satisfactoriamente.

Psycopg 3 es un adaptador de base de datos PostgreSQL de nuevo diseño para el lenguaje de programación Python.

Psycopg 3 presenta una interfaz familiar para todos los que han utilizado Psycopg 2 o cualquier otro adaptador de base de datos DB-API 2.0, pero permite utilizar características más modernas de PostgreSQL y Python, tales como:

  • Soporte asincrónico
  • Compatibilidad con COPY desde objetos Python
  • Un grupo de conexiones rediseñado
  • Soporte para escritura estática
  • Enlace de parámetros del lado del servidor
  • Declaraciones preparadas
  • Canalización de estados de cuenta
  • Comunicación binaria
  • Acceso directo a las funcionalidades libpq

Sobre el uso básico del módulo, métodos abreviados y su utilización como gestor de contexto visite >> Uso básico del módulo – documentación de psycopg 3.2.0.dev1