padre de las bases de datos relacionales / Sudo Null IT News

Cuando vas a leer las noticias en Internet, compras un billete de tren online o reservas una habitación de hotel, interactúas inevitablemente con bases de datos, aunque a veces ni siquiera te des cuenta. Todas estas capacidades son posibles en parte gracias a las contribuciones de un hombre: Michael Stonebraker, quien en 2014 recibió el Premio Turing por sus desarrollos de bases de datos, a menudo denominado el “Premio Nobel” del mundo de la tecnología de la información.

Ingre

Michael nació el 11 de octubre de 1943 en Massachusetts, Estados Unidos. No decidió inmediatamente dedicarse a la informática; al principio estaba interesado en las disciplinas de la ingeniería. Ingresó a la Universidad de Princeton, luego continuó sus estudios de maestría en la Universidad de Michigan y defendió allí su tesis doctoral en 1971. Sin embargo, cuando llegó el momento de decidirse por una carrera, eligió una dirección que en ese momento no estaba en el centro de la atención del público: los sistemas de información. Después de recibir su doctorado, Stonebraker comenzó a enseñar en la Universidad de California, Berkeley. Fue allí donde comenzó su trabajo, que con el tiempo cambió el panorama de la industria de TI.

Junto con su colega universitario Eugene Vaughn, se unió a un proyecto para desarrollar bases de datos relacionales, una tecnología pionera en ese momento. A principios de los años 70, IBM ya había iniciado sus experimentos con el modelo de datos relacionales propuesto por el científico británico Edgar Codd. En aquella época, los datos se almacenaban con mayor frecuencia en grandes volúmenes y la búsqueda de la información necesaria requería una gran cantidad de tiempo y recursos. Codd propuso organizar los datos en tablas que podrían vincularse entre sí en función de atributos comunes. Parecía una solución sencilla, pero detrás había una idea poderosa que prometía hacer que el trabajo con bases de datos fuera mucho más eficiente y accesible.

Stonebraker vio el potencial de esta idea y decidió que las bases de datos relacionales podrían ser la clave para resolver el problema de gestionar grandes cantidades de información. Esto llevó a la creación del proyecto Ingres (Interactive Graphics and Retrieval System), uno de los primeros motores de bases de datos relacionales. En ese momento, Ingres no era el único proyecto de este tipo, pero sí el que utilizaba todas las capacidades inherentes al modelo Codd: integridad referencial declarativa, disparadores, vistas (como sustituciones almacenadas de textos de consulta), índices basados en árboles B. . Además, era un producto de código fuente que estaba disponible para cualquiera por una pequeña tarifa, más asequible que soluciones comerciales similares. En total, en 1980 se habían distribuido unos 1.000 ejemplares, principalmente a universidades y organizaciones científicas.

Ingres se ejecutaba en computadoras DEC, tanto Unix como VAX/VMS (mientras que sus análogos estaban dirigidos principalmente a grandes mainframes). Trabajar en el proyecto no fue fácil. Crear una base de datos relacional significó resolver muchos problemas técnicos, desde optimizar el almacenamiento de registros hasta desarrollar herramientas convenientes para buscarlos y recuperarlos. En primer lugar, el equipo de Ingres decidió utilizar el lenguaje de consulta universal QUEL para trabajar con bases de datos. Además, Ingres fue uno de los primeros proyectos del mundo que no sólo trabajaba con datos, sino que permitía a los usuarios interactuar con ellos a través de una interfaz de diálogo especial. En ese momento, la mayoría de las bases de datos requerían habilidades de línea de comandos, pero Ingres estaba dando un paso para hacer el proceso más fácil e intuitivo. Más tarde, hablando de trabajar en Ingres, Stonebraker recordó que no pensó que estaba creando algo tan revolucionario. Para los desarrolladores, esto fue un intento de resolver un problema técnico específico. Pero a veces son momentos como estos los que se vuelven claves en la historia de la tecnología: cuando alguien no sólo resuelve un problema, sino que lo hace de tal manera que cambia la tecnología misma.

El proyecto no se quedó dentro de los muros académicos: Ingres pronto se convirtió en la base de varias soluciones comerciales: Sybase, NonStop SQL y varias otras. El código fuente de Sybase se utilizó posteriormente para crear Microsoft SQL Server. Ingres también compitió directamente con Oracle durante mucho tiempo, hasta que el Instituto Nacional Estadounidense de Estándares (ANSI) favoreció el lenguaje de consulta SQL sobre QUEL como parte del Estándar SQL de 1986 (SQL-86), lo que hizo que Ingres se volviera menos competitivo en comparación con similares. DBMS.

Postgres

Junto con sus compañeros profesores de Berkeley, Larry Rowe y Eugene Wong, Michael Stonebraker fundó Relational Technology, Inc., más tarde rebautizada como Ingres Corporation. Esta empresa, dirigida por Stonebraker, comenzó a desarrollar la próxima generación de sistemas de gestión de bases de datos diseñados para superar las limitaciones tecnológicas de Ingres y brindar soporte para tipos de datos complejos. El proyecto se llamó Post Ingres, o Postgres para abreviar. En este DBMS, los usuarios podían registrar nuevos tipos de datos, así como utilizar funciones escalares y agregadas para trabajar con estos tipos. Postgres era altamente extensible, lo que permitía a los programadores agregar un optimizador alternativo, usar un lenguaje de consulta diferente o personalizar el tiempo de ejecución y el entorno de indexación según fuera necesario.

Se basó en una idea simple pero poderosa: una base de datos no debería ser sólo una instalación de almacenamiento, sino también una herramienta flexible para trabajar con nuevos tipos de datos. A diferencia de sus predecesores, Postgres no estaba limitado por los sistemas relacionales tradicionales; ofrecía al usuario un modelo de datos extensible que permitía mucha más libertad. Postgres también se distribuyó bajo una licencia tipo BSD, aunque existió una versión comercial llamada Illustra, que luego fue adquirida por Informix. Bueno, la empresa de Stonebraker, Ingres Corporation, finalmente se vendió a Computer Associates Corporation, pero en 2005 Stonebraker restauró la independencia de su empresa y la rebautizó como Actian.

Otros proyectos

Después de crear Postgres, Michael Stonebraker decidió no quedarse ahí y comenzó a desarrollar otros proyectos innovadores. La primera de ellas se llamó Mariposa. En la década de 1990, durante el período de desarrollo activo de Internet, surgió la necesidad de DBMS que pudieran funcionar de manera efectiva en un entorno distribuido donde los datos están ubicados físicamente en ubicaciones geográficamente remotas. Mariposa proporcionó una solución a este problema: en el modelo de Stonebraker, los datos distribuidos en múltiples organizaciones podían integrarse y consultarse desde un único sistema relacional. Este enfoque permitió implementar ideas tradicionales de optimización de consultas en sitios de la competencia y también sirvió como base para almacenar, replicar y mover datos dentro de un sistema distribuido. Pero lo más importante es el principio de “subasta” que subyace a Mariposa, que le permite gestionar la distribución de datos en función de su valor. Cada nodo de la red podría decidir qué datos almacenar o transmitir basándose en el principio de viabilidad económica. Muchos sistemas modernos, como las bases de datos en la nube, utilizan las ideas básicas establecidas en Mariposa, que describen no sólo el acceso a los datos, sino también su ubicación óptima en un entorno distribuido.

Un poco más tarde, junto con colegas de la Universidad Brandeis, la Universidad Brown y el Instituto Tecnológico de Massachusetts, Stonebraker comenzó a crear tecnología para gestionar la transmisión de datos utilizando un lenguaje de consulta especialmente creado. Así nacieron los proyectos Aurora y StreamBase.

A diferencia de los DBMS tradicionales, Aurora se centró en procesar datos en tiempo real, lo que permitió a los sistemas responder instantáneamente a la información entrante. En lugar de almacenar datos y luego procesarlos según demanda, Aurora los procesó sobre la marcha, lo cual era necesario para aplicaciones que requerían respuestas ultrarrápidas, desde transacciones financieras hasta monitoreo de la actividad de la red. Una de las ideas clave de Aurora fue la creación de una arquitectura de baja latencia, que mejoró significativamente la eficiencia del procesamiento de información en streaming.

A partir del éxito de Aurora surgió el proyecto comercial StreamBase, una plataforma desarrollada para empresas que necesitaban herramientas potentes para analizar grandes flujos de datos en tiempo real. StreamBase ha encontrado aplicación en el sector financiero, donde los milisegundos pueden ser críticos, así como en las telecomunicaciones y otras industrias donde es importante procesar rápidamente grandes flujos de información entrante continuamente.

En 2005, Stonebraker, junto con colaboradores del Instituto Tecnológico de Massachusetts y la Universidad de Massachusetts en Boston, desarrollaron una arquitectura de base de datos C-Store fundamentalmente nueva basada en el almacenamiento de registros en columnas. A diferencia de las bases de datos relacionales tradicionales, que almacenan datos fila por fila, C-Store almacenaba información en columnas. Esta solución demostró ser mucho más eficaz para consultas analíticas en las que era necesario procesar grandes volúmenes de información y redujo significativamente el tiempo de procesamiento de consultas.

Las ideas de C-Store formaron la base del proyecto comercial Vertica. Vertica continuó desarrollando el modelo de almacenamiento de datos en columnas y lanzó un DBMS capaz de procesar enormes cantidades de información con alta velocidad y precisión. La peculiaridad de Vertica no era sólo su almacenamiento orientado a columnas, sino también su sistema de compresión de datos altamente eficiente, que lo convirtió en uno de los DBMS analíticos más productivos de su tiempo. En 2011, Hewlett-Packard adquirió Vertica, considerándola una solución estratégica para su infraestructura de análisis y nube.

En 2006, Michael Stonebraker, junto con investigadores de la Universidad de Florida, lanzaron el proyecto Morpheus, cuyo objetivo era integrar y gestionar múltiples bases de datos heterogéneas. En un entorno donde las empresas trabajan con una variedad de sistemas y fuentes de información, que van desde las tradicionales bases de datos relacionales hasta el almacenamiento en la nube, ha surgido el problema de combinar estos datos heterogéneos en un único sistema de análisis y procesamiento.

Morpheus ofrece un nuevo enfoque para la integración de datos utilizando una arquitectura híbrida que funciona con diferentes tipos de bases de datos como una sola entidad. El proyecto tiene como objetivo proporcionar flexibilidad y escalabilidad al combinar fuentes de información dispares. Basado en Morfeo, en 2009 se lanzó un motor de búsqueda especializado llamado Goby, que se centraba en encontrar información sobre eventos, actividades y destinos de vacaciones. A diferencia de los buscadores tradicionales como Google o Bing, que ofrecen amplios resultados para cualquier consulta, Goby está pensado para usuarios que buscan algo concreto de ocio: dónde ir, qué hacer el fin de semana o dónde encontrar actividades interesantes.

En lugar de un epílogo

Uno de los rasgos más importantes de Michael Stonebraker como científico fue su capacidad para ver más allá del horizonte. Cuando la industria se acostumbró a un modelo de datos, él ya estaba empezando a trabajar en algo nuevo. Nunca se detuvo allí y siempre estuvo buscando formas de hacer que sus desarrollos fueran más rápidos, más convenientes y más eficientes.

Otro rasgo es su asombrosa capacidad para ver las intersecciones entre la ciencia y los negocios. Cada uno de sus proyectos, tarde o temprano, se convirtió en un producto comercial exitoso. Esto es poco común entre los científicos, muchos de los cuales permanecen dentro del ámbito del trabajo de investigación pura. Stonebraker encontró un equilibrio entre el rendimiento académico y el uso práctico real. Como resultado, se convirtió en uno de los pocos científicos cuyos desarrollos se utilizaron ampliamente en la industria y logró recaudar un capital impresionante.

Michael Stonebraker ha recibido numerosos premios a lo largo de su carrera, incluido el Premio Turing 2014, a menudo denominado el “Premio Nobel de Ciencias de la Computación”. Este reconocimiento fue la conclusión lógica de muchos años de trabajo, pero a pesar de su avanzada edad, sigue activo en actividades investigadoras y empresariales.

El artículo cuenta con el apoyo del equipo. Espacio de servidor.
Espacio de servidor es un proveedor de servicios en la nube que ofrece alquiler servidores virtuales con sistema operativo Linux y Windows en 8 centros de datos: Rusia, Bielorrusia, Kazajstán, Países Bajos, Turquía, Estados Unidos, Canadá y Brasil. Para construir una infraestructura de TI, el proveedor también ofrece: creación de redes, gateways, copias de seguridad, CDN, servicios DNS, Almacenamiento de objetos S3.
Infraestructura de TI | Duplicar el primer pago por código HABR