Postgresso 8 (69) / Habr

PostgreSQL 17 RC1

El primer candidato a versión ha sido liberado. En comparación con la tercera versión beta: las secciones MERGE/SPLIT se revirtieron. El lanzamiento final (GA) vence el 26 de septiembre.

Actualizaciones de la versión Postgres Pro Enterprise 16.4.1, 15.8.1, 14.13.1, 13.16.1, 12.20.1

Hay algunos cambios respecto a versiones anteriores. Por ejemplo, en 16.4.1 se redujo la cantidad de intentos de reprogramar una solicitud.

Conferencias

PGConf.SPb 2024

Apareció cronograma. Primer informe – Pavla LuzánovResponsable de Educación de Postgres Professional. Se llama modestamente: PostgreSQL 17. Mientras tanto, puedes leerlo. PostgreSQL 17: Parte 5 o Commitfest 2024-03.

Andrei Borodin (Nube Yandex) presentará Características inusuales del sistema de respaldo WAL-Ga Daria Lepikhova y Alexey Darvin (оба Postgres Profesional) – Elegir un protocolo de replicación al desarrollar pg_probackup3 (recordemos que la 3ª versión no es la siguiente, es pg_probackup prácticamente reescrito desde cero, a diferencia de la 2.x).

Secuela y precuela: arqueología entretenida Egor Rogov – Esta es una excursión histórica. Un nuevo género (parece) para Yegor, pero no tengo ninguna duda de que será informativo y emocionante:

Te contaré cómo trabajaban con las bases de datos antes de Codd y qué cambió con la invención de la teoría relacional; Hablemos de los orígenes de los primeros sistemas relacionales: System R e Ingres; sobre cómo apareció y ganó popularidad el lenguaje SQL; sobre las personas que determinaron nuestro presente y, en cierta medida, nuestro futuro.

Esta conferencia también incluirá la certificación profesional en PostgreSQL. Las pruebas se realizarán en las versiones 10 (DBA2, DBA3, QPT) y 13 (DBA1, DBA2, DBA3, QPT, Expert 10 → 13) de PostgreSQL. Los titulares del nivel “Experto” en PostgreSQL 10 podrán aprobar la prueba de transición “Experto 10 → 13” y recibir un certificado “Administrador Experto de PostgreSQL 13” según un sistema simplificado. Las pruebas son únicamente cara a cara. Para obtener la certificación, debe inscribirse en cuenta personal el sitio profesional de Postgres.

De regreso del PGDay Reino Unido 2024

Este PGDay está dedicado a la memoria Simón Riggs (Simon Riggs) – fundador del 2.º Cuadrante. El autor de este boceto es Esteban Faircott (Stefan Fercot, Data Egret) – dice que el programa era compacto, pero los informes eran interesantes. Él mismo dio un informe “de la vida”: Cómo lograr un tiempo de inactividad mínimo en las tareas de mantenimiento de PostgreSQL.

Habló sobre las novedades de la 17ª versión. Magnus Hagander (Magnus Hagander, Redpill Linpro). Lo que a Stefan Ferkot le gustó de esta versión fue que algunas de las estadísticas de pg_stat_bgwriter movido para ver pg_stat_checkpointer.

Magnus tiene sitio web Hay una lista pequeña (y no completa) de conferencias pasadas y futuras. Próximo:

PGConf Nueva York 2024

Se llevará a cabo del 30 de septiembre al 2 de octubre.

PGConf.UE 2024

Del 22 al 25 de octubre, en Atenas.

Día PG nórdico 2025

18 de marzo en Copenhague.

Redactar una buena propuesta de charla.

Pero Tomas Vondra (Tomas Vondra) no habla de la conferencia, sino de cómo llegar allí como orador: cómo cautivar al comité del programa con su descripción del informe.

Dio sus recomendaciones sobre este tema. Bruce Momjian. Hace seis años, pero este es Bruce Momdzhan: Envío de charlas a conferencias.

Biblioteca LM

Descifremos: la biblioteca no está en el sentido de un programador, sino en el sentido original, sino LM = ShaggyMammoth, que ya ha recopilado una colección sólida de sus artículos sobre Habr (por supuesto, sus colegas de Postgres Professional lo ayudan a escribirlos). , especializados en sus campos). Este número contendrá mucho sobre nuestra empresa; se han acumulado muchas cosas interesantes. En las siguientes ediciones se restablecerá el equilibrio.

Michael Stonebraker: “Todo lo nuevo es viejo y olvidado. Continuación”

Comencemos con la traducción. Sobre el original – Lo que da vueltas, vueltas… y vueltas… Escribimos en el antepenúltimo número. Los autores son geniales. Michael Stonebraker y un destacado teórico y practicante (pero, por desgracia, NutriaTunesu startup más interesante ordenado otras startups tienen una larga vida) andres pablo (Andrew Pavlo, estamos más acostumbrados a Andy, aunque es profesor de Carnegie Mellon).

Este artículo es un verdadero punto culminante. La traducción, en consecuencia, también. También es bueno para el personal de marketing: tiene un mensaje contundente y razonado: las nuevas arquitecturas van y vienen, los DBMS relacionales permanecen. Pero antes que nada, es bueno en términos de contenido: leo este enorme artículo con avidez: no por los chistes (no hay ninguno), sino fascinado por la disposición de los conceptos arquitectónicos más complejos en las estanterías y la limpieza de ellos. crecimientos de marketing. Piensan con claridad y articulan con claridad. Primero, analizamos las siguientes arquitecturas que han surgido en los últimos 20 años:

  1. Sistemas MapReduce.

  2. Repositorios de valores clave.

  3. Bases de datos orientadas a documentos.

  4. Bases de datos de familias de columnas.

  5. Motores de búsqueda de texto.

  6. Bases de datos de matriz.

  7. Bases de datos vectoriales.

  8. Bases de datos gráficas.

A continuación se muestran los que han aparecido recientemente:

  1. Sistemas de columnas.

  2. Bases de datos en la nube.

  3. Lagos de datos/casas de lagos.

  4. Nuevos sistemas SQL.

  5. Aceleradores de hardware.

  6. Bases de datos de cadenas de bloques.

Seguimos sacándole el máximo partido a PostgreSQL

Es decir, exprimir la vainilla. PostgreSQLde Postgres Pro y de Postgres Pro s SFC. Este artículo es una adición al artículo de Selectel sobre compresión posterior al ingreso. Allí compararon PostgreSQL Enterprise 15-16 y PostgreSQL 15-16: las versiones predeterminadas de ambos, luego Postgres Pro se configuró automáticamente.

El artículo de LM define claramente la configuración para:

  1. PostgreSQL,

  2. Postgres Pro y

  3. Postgres Pro con CFS.

En la primera opción de prueba: lo que se desarrolló de forma predeterminada. Una pequeña lista: una docena de parámetros.

Pero en la segunda opción la lista de configuraciones más detalladas es muy sólida: 60 parámetros. Y estas configuraciones se aplicaron a los 3 participantes de la prueba.

En la tercera versión, Pro agregó a estas listas la configuración de solo 7 parámetros que son específicos de Pro Enterprise.

Puede conocer la configuración en el informe. Aceleramos hardware y SO para PostgreSQL. en PGMeetup.SPb/24 Mihail Žilina (pero el tema es más amplio: también hay algo sobre la NUMA, el asunto más complejo). Probó las configuraciones de este artículo.

Los resultados se presentan como barras de 3 colores. No lo estropearé.

En cuanto al autor del artículo original de Selectel, él, Máxima alias Maksvelis, no es la primera vez que prueba Postgres, y x86 no se limitó a, sino que también agregó ARM a Intel y AMD: ¿Quién es más poderoso en bases de datos? Comparamos el rendimiento de la base de datos en servidores con procesadores ARM y x86. ¿Qué pasa con ARM? Maxvelis también exploró Elbrus y de qué tipo: 8SV con arquitectura con una palabra amplia (pero no he probado Postgres, aunque funciona allí sin compilación binaria).

Cuidando la CPU: cómo encontrar el cuello de botella y configurar PostgreSQL

Este artículo es un análisis de un incidente real ocurrido entre los clientes de la empresa. El género para el sindicato de escritores Postgres Professional no es nuevo, por ejemplo: batallas en el territorio de ZFS o, digamos, paralelismo en PostgreSQL: ni esférico, ni caballo, ni en el vacío. Cuidar la CPU es un caso completamente nuevo. Te recordamos que el blog en inglés Andrey Lepíjov en Substack, que citamos extensamente en (1) y (2), se llama conservando UPClos ciclos…

La preocupación justificada del cliente fue la carga del procesador: más del 90%. La productividad ha caído. ¿Qué hacer? Sí, en general, no muevas, pero reduce la carga poco a poco, optimizando aquí y allá. Para ello utilizamos una herramienta realmente poderosa. pgpro_pwr Andrei Zubkov (mucha gente lo sabe perfil_pgen PWR (pgpro_pwr) se ha ampliado la funcionalidad). Aquí se descubrieron matices interesantes: el tiempo de planificación, por ejemplo, no suele afectar a los costes totales, pero aquí decidieron reducirlo utilizando plan_sr. La conclusión es la siguiente: debemos abstenernos de generalizar. En cada caso concreto es necesario considerar factores y métricas como material para el análisis y la toma de decisiones. Las soluciones mágicas permanecen en los cuentos de hadas para su público objetivo.

Cómo hacemos nuestro DBaaS

Bueno, mientras lo hacemos, lo tomamos y lo hacemos. Esta solución está evolucionando rápidamente, así que siga leyendo y esté atento a las actualizaciones. Disponible vídeo en youtube.

deportes (no correr)

Aquí está este tema. Cómo juzgamos en el Campeonato Ruso de Programación Deportiva – hay un contexto rico, hablaremos de eso más adelante. Y en este caso lo volvieron a intentar con la participación Mihail Žilina y Mamut peludoquien esta vez apareció Alejandro Fatin, humilde DevRel.

La programación deportiva es un deporte reconocido por el estado (que consta en el registro correspondiente), con todo lo necesario: una federación (Federación de Programación Deportiva)torneos y otros campeonatos.

No sólo juzgaron, sino que también formularon la tarea para la “Etapa de clasificación del Campeonato Ruso de Programación Deportiva” en la disciplina “Programación de productos”. Se trata de un hackathon en línea para estudiantes de tres días de duración, los ganadores compitieron en la final del campeonato nacional en Moscú. Por alguna razón en el sitio. sin descripciónsolo estarán disponibles a partir de junio de 2023. La tarea fue algo inesperada para nosotros, lectores y escritores de Postgresso: Monitoreo inteligente de una base de datos PostgreSQL a través de un bot en Telegram. El administrador salió de la oficina, solo tenía su teléfono consigo y la base de datos se sentía mal. ¿Cómo debe un bot autenticar y autorizar a un administrador? ¿Sobre qué problemas se le debe notificar? ¿Cómo? ¿Qué opciones de acción deberían ofrecerse? El artículo cuenta cuáles fueron las críticas, hay “Consejos no solicitados a los organizadores”, Alexander critica con razón los algoritmos de selección.

Los acontecimientos tuvieron lugar en el otoño de 2023, pero lamentablemente nos los perdimos. Y ahora esta noticia:

XXV Olimpiada Abierta de Programación de toda Siberia que lleva su nombre. I.V. pottosina

Comenzó registroel equipo está formado por tres participantes y un entrenador. El idioma principal del concurso es el ruso, los idiomas de trabajo de la Olimpiada son Pascal, C/C+, Java, Kotlin, Python. Participan escolares, estudiantes y estudiantes de posgrado. Uno de los patrocinadores es Postgres Professional (segundo año consecutivo). También: Yandex, CFT, VC Education, ICPC Norte de Eurasia.

Se realizará un recorrido en línea el 29 de septiembre a las 10:00 (UTC +3), puedes participar desde cualquier parte del mundo, el número de equipos de una institución educativa en este recorrido no está limitado. Del 1 al 5 de noviembre de 2024, los equipos más fuertes que hayan pasado la ronda online participarán en un torneo presencial en NSU.

Escribimos sobre “IT Planet 2024”: tareas de la tercera etapa en PostgreSQL, y antes de eso tareas de la segunda etapa en PostgreSQL. Y un año antes, también publicamos las etapas del proceso de la Olimpiada y los resultados para 2023: Problemas de la tercera etapa de la Olimpiada IT-Planet en PostgreSQL y Problemas de la segunda etapa de la Olimpiada IT-Planet en PostgreSQL. En el sitio web de IT Planet puedes ver resultados. Entonces, los esfuerzos de Postgres Professional por parte de Egor y Iliá Bashtanov ahora han complementado -en otra competición- donde participaron Mijaíl Zhilin y Alejandro Fatin.

Pero, para ser justos (y Postgresso se creó para ser justos, lo mejor que pudimos), los juegos comenzaron antes, y no con Postgres Professional. Hay artículos sobre Habré. Evgenia Bredni desde 2018, entonces también conocido como Oracle BZQ (ahora dirige el servicio de soporte Postgres Professional). Estamos hablando de los Juegos Olímpicos 2016/17, y ya se celebraron por décima vez. en un largo articulo Cómo hicimos la Olimpiada SQL Evgeniy también habla de objetivos:

Me esforcé mucho para asegurarme de que las tareas tuvieran un efecto sorpresa pronunciado como “¿es esto realmente posible?” posible en SQL”, y alejarse del tema tradicional de la Olimpiada, que requiere habilidades bastante específicas. La complejidad de cada tarea era, en primer lugar, imaginarla (y luego implementarla) usted mismo. solución declarativa una tarea completamente independiente y no trivial incluso para la programación clásica (negrita yo).

El artículo contiene condiciones para 5 problemas, aquí hay un análisis de 1 de ellos: un problema sobre un calendario. Hay un cambio notable en el análisis de este problema:

Después de dudar un rato, decidí PostgreSQLpara observar más de cerca cómo se verá en comparación con la base de datos Oracle en esta tarea. Expresar todos los pasos necesarios para la solución en otro dialecto de SQL no debería ser un problema; personalmente lo solucioné rápidamente. Permítanme recordarles que en la Olimpiada, de donde se tomó el problema, se utilizó Oráculo SQLen el que se escribió originalmente la solución de referencia.

Por cierto, Evgeniy dio problemas incluso sin la Olimpiada: SQL: análisis de un problema para encontrar el último precio. En general, mírelo.

Al mismo tiempo: en Postgresso 12 (61) hay un par de problemas en las entrevistas de trabajo. Y aquí está el Subdirector General de Postgres Professional Iván Panchenko alias x-wao presenta el análisis de los problemas de las pruebas de Postgres Pro en el PGDay'17.

Y permítanos recordarle Advenimiento del código – Este calendario de adviento codificadores que idearon Eric Wasl (Eric Wastl). Pregunta problemas todos los años desde el 1 de diciembre hasta Navidad y hasta el 25 de diciembre, uno por día. Se pueden resolver en cualquier lenguaje de programación; escribimos sobre esto, por ejemplo, en Postgresso No. 6 (55). Hay más problemas ahí, si alguien está interesado. Greg Sabino Mullane (Greg Sabino Mullane – en aquel entonces lo llamábamos Mullaney) resolvió un problema (problema) Flujo piroclástico. Los elefantes necesitan salir de la cueva, cuya entrada está bloqueada por piedras en forma de diferentes figuras de tetris. Y ahora:

Uso de la integridad de Turing de SQL para construir Tetris

Alguien Nuño Faria (Nuño Faria). Esto no es SQL puro, hay un script auxiliar en Python. el todavía tiene Tetris con IA y algo más juguetón

Entrevistas, podcasts: Entre paréntesis y Postgres FM

Entrevista con Egor V Entre paréntesis sobre su libro PostgreSQL 16 desde dentro.

Es algo común: no hubo un libro que te haya gustado en todos los sentidos, por lo que debes escribir el tuyo propio, con el grado óptimo de inmersión en los detalles tecnológicos: no superficialmente, pero tampoco sumergiéndote en el análisis del código C. Este libro no está dirigido a administradores ni a desarrolladores de aplicaciones; está destinado a la comprensión mutua de ambos, explica Egor. Quiere añadir algunas cosas, por ejemplo un capítulo sobre replicación.

Aniversario de Postgres FM (oh, nos lo perdimos)

¡Hasta 100 TB y más!

Postgres FM lanzado Nikolai Samojvalov y miguel cristófides (Nikolay Samokhvalov – fundador IA de PostgresMichael Christofides – fundador pgMostaza). Me invitaron a la edición de aniversario. Arco de Gangula de noción, Sammy Steele de Figma i Derka van Veen de Adyen (Arka Ganguli, Sammy Steele y Derk van Veen). Lo bueno de ellos es que escalaron Postgres a cien TB (más o menos). Como siempre, la página de lanzamiento tiene una gran cantidad de enlaces útiles. En este caso, hasta 14 son sonetos de referencias.

Pero digamos, el episodio de abril de Nikolai y Michael: no hagas esto. Se inspiraron en la página. No hagas esto V Wiki de PostgreSQLañadió recuerdos de fragmentos no siempre agradables, seleccionados de su FM, que ilustran el tema.

Y hay mas Postgres TVque Nikolai dirige con su viejo colega los martes de Postgres – con Iliá Kosmodemianski (Ilya Kosmodemyansky, DataEgret). Bien martes #RuPostgres ¡inolvidable! ¡Buena suerte!

Discutiendo el ecosistema de inicio de Postgres

Nikolay y Michael analizan el creciente y cambiante ecosistema comercial en torno a Postgres. La atención se centra en Neon, Tembo y Aiven. Pero no son los únicos que hablan de ellos, ni mucho menos. Debajo de cada uno de sus videos hay una hoja de enlaces, ¡y debajo hay unas buenas 3 docenas de ellos!

Comunidad: programa educativo y pre-commitfest

Comprender el lenguaje de la lista de correo de Postgres Hackers

Greg Sabino Mellane (Greg Sabino Mullane, Chrunchy Data), siguiendo los recientes esfuerzos -es decir, la democratización del desarrollo- incluso publica su propio diccionario. Hay abreviaturas conocidas por los postgresistas (CFM = commitfest manager) y palabras de jerga (bikeshedding, footgun), e incluso la vieja jerga de Internet (AFAICT).

Fiesta previa al compromiso de Postgres en Saint HighLoad++ 2024 y Preguntas y respuestas: Fiesta previa al compromiso de PostgreSQL en Saint HighLoad++ 2024

Los pre-commitfests son quizás lo más interesante y útil que ha aparecido recientemente en el mundo post-commitfest. ¿Por qué en plural? Hasta ahora sólo ha habido uno: en Saint HighLoad++ en San Petersburgo. Bueno, si es útil e interesante, definitivamente lo será.

Tenga en cuenta que además de toda la multitud de Postgres Professional (le recordamos que se le ocurrió la idea Nikolái Shaplovy la idea se implementó Andrei Borodin de Yandex Cloud y el colega de Nikolay) hay 2 representantes de Tantor Labs y 1 SberTech.

Intrigas y antiintrigas

PG_MEM: Un malware escondido en los procesos de Postgres

Los ingenieros de Aqua Nautilus publicaron el software malicioso que descubrieron (malware), que se disfraza de PG_MEM, lanza cargas ficticias para disfrazar la minería criptográfica.

Atraparon a los atacantes con cebo vivo, de hecho los provocaron. Se utilizó como cebo un par de nombre de usuario/contraseña fácil de adivinar. Y me atrajeron. Después de eso, analizamos lo que harían estos ciberoídos. Y crearon nuevos roles privilegiados, consiguieron un superusuario y, después de lanzar lo que necesitaban, inmediatamente eliminaron los derechos del superusuario para eliminar a los competidores potenciales; después de todo, era fácil adivinar la contraseña. Y la minería requiere recursos; sería una pena compartirlos con alguien. Al mismo tiempo, mataron trabajos en cron, como un cuco que arroja del nido a polluelos que no son cuco.

Historia fascinante. El autor publicó un mapa de servidores que están en peligro. Hay 838.000, no lejos de un millón. nombre del autor Assaf Morag (Assaf Moraganalista principal de datos de Aqua Nautilus.

pgdsat

Representa Herramienta de evaluación de seguridad de bases de datos PostgreSQL. Este es un conjunto de scripts que verifica alrededor de 70 parámetros de PostgreSQL que afectan la seguridad. También incluye Punto de referencia de cumplimiento de la CEI. Desarrolladores – HexaCluster. Interesante empresa. También crean esta herramienta para acceder a PostgreSQL: Conexión a PostgreSQL con Go usando PGX.

Por cierto, en PGConf.SPb 2024 habrá un informe Prueba de fuerza. Utilidades para análisis y optimización de PostgreSQL Ruslán Rangulov de Softline. Entre las utilidades se enumeran pgdsat.

punto de página 0.8.0

Escribimos sobre esto en el último número, te lo recordamos. Una herramienta interesante para identificar vulnerabilidades en scripts SQL de Postgres, publicada en Timescale github.

Noticias sin servidor y WASM

El ajuste de escala automático de neón está disponible de forma generalizada

El movimiento lógico de Neon hacia la automatización y el ahorro de recursos. Sin servidor es, por definición, cero recursos cuando no son necesarios (reducción de escala a 0). Desde el principio, la empresa también avanzó en la dirección opuesta (upscaling continuo). Como resultado, el equipo comenzó inmediatamente a desarrollar herramientas flexibles de escalado automático. Y así lo desarrollé.

Excelente algoritmo de escalado automático profundamente integrado en la arquitectura Neon, donde el almacenamiento y la computación están separados. Cada instancia de Postgres se encuentra en su propia máquina virtual. NeonVM Está estrictamente aislado y puede hacer algo que Kubernetes aún no ha aprendido: migrar de un nodo a otro en milisegundos. Por lo tanto, las bases de datos también pueden escalarse automáticamente en milisegundos.

Servicios de AWS que utilizan SQL para análisis de big data

Gran artículo en charla sencilla en el sitio de la Puerta Roja ed‑gate.com. Destaquemos un servicio interesante, no muy conocido, en el que parpadea una palabra de moda. sin servidor:

Atenea amazónicaServicio interactivo sin servidor para solicitudes a Amazon S3. Puede realizar consultas a datos estructurados (relacionales y CSV), datos semiestructurados (JSON y XML) y datos no estructurados (texto, registros, binarios).

Extensiones cargadas dinámicamente en Postgres en el navegador

Justo en el último número que escribimos sobre PGlite y Wasmpero los héroes eran Supabase con su interfaz http. Lantern hizo más o menos lo mismo, pero en su propia dirección: en el reciente hackathon de AGI House (es decir, en la Casa de la Inteligencia Artificial Universal) en San Francisco, presentaron una extensión que se ejecuta directamente en el navegador. También encima de pglite, por supuesto.

Migración (de piñas a linterna)

Migración a Postgres. Pero se trata de una migración inusual hacia un Postgres inusual. No con Oracle, no con MS Server: Migrando de piña a linterna.

Función create_from_pinecone el cliente lantern-pinecone migra automáticamente datos de Pinecone a Postgres utilizando la API de Pinecone, con todas las claves, variables de entorno, índices y espacios de nombres.

II

en un maravilloso Postgres FM También se comentaron los siguientes episodios:

  • pgvector – con por Jonathan Katz (Jonathan Katz), por supuesto: miembro del equipo central de PostgreSQL, gerente senior de productos en AWS y colaborador de pgvector;

  • escalapgvectorial – con por Matt Arie (Mat Arye) y John Pruitt (John Pruitt) en Escala de tiempo.

Presentamos Tembo AI: la forma más sencilla de crear aplicaciones de IA en Postgres

escribe Adam Händel (Adam Hendel, desarrollador fundador – ingeniero fundador). Supuestamente esto es para aquellos que no quieren ceder sus datos a proveedores de LLM. Para quienes elijan Tembo Cloud, los datos se transferirán al LLM dentro de un espacio personal en la nube donde está integrado el LLM. Al mismo tiempo, los usuarios tendrán a su disposición modelos desde 8 mil millones de parámetros hasta más de 70 mil millones. Pero esto, aplicado al período alfa antes de la versión pública, no entendíamos lo que está sucediendo ahora (quien lo necesite probablemente lo entenderá). La solución de Tembov utiliza 3 extensiones de IA a la vez:

  • vector + escala vectorial: almacenamiento, consultas, búsqueda de incrustaciones en la propia base de datos.

  • pg_vectorizar: Una herramienta confiable no solo genera incrustaciones, sino que también las actualiza. Esto ayuda a construir RAG.

Tembo AI es compatible con el SDK de OpenAI. Y puedes tener en cuenta que las soluciones Tembo son compatibles con GPU.

Comprender el almacenamiento del índice HNSW de pgvector en Postgres

EN blog Lantern, que desarrolló la extensión del mismo nombre, ofrece servicios en la nube Nube de linterna. Colocar información vectorial es más barato y rentable (como dicen, siguiendo a Stonebreaker y Pavlo) que la información vectorial. Piña y la cometa.

90 veces más rápido que pgvector: tiempo de creación del índice HNSW de Lantern

El índice no se ensambla dentro de Postgres, donde se ensamblaría en 1 subproceso, sino “en el costado”, con todas las delicias de la computación multiproceso en múltiples núcleos.

Optimizadores de consultas neuronales en bases de datos relacionales (Parte 1)

En la primera parte de este artículo, el autor – salvamente@Safreliy: desmonta 3 modelos:

  1. MSCN (2018) — un modelo para evaluar la cardinalidad de las consultas

  2. DQN (2018) — modelo para construir un plan de ejecución de consultas

  3. Neo (2019) — un enfoque de extremo a extremo que combina una función entrenable para evaluar la velocidad de ejecución de un plan determinado y su construcción en sí.

En cada caso, explica el principio de funcionamiento del algoritmo, cómo entrenarlo y algunos puntos de referencia. La conclusión es:

En casi todas partes, las redes neuronales superan en términos de calidad y rendimiento a los enfoques heurísticos clásicos que existían en el momento de su creación. Sin embargo, el predominio de estas redes no se observa en la práctica (una situación típica de la mayoría de los trabajos científicos: los resultados son excelentes, pero no hay ningún beneficio). Aparentemente, desarrollar una solución de red neuronal de producto que satisfaga todos los matices del funcionamiento de sistemas comerciales reales fue costoso y difícil en 2018-2019. Nadie ha anulado la inercia de la industria y vivimos, sin exagerar, en un punto de inflexión. Quizás ahora mismo seamos testigos de una revolución no sólo en el mundo de los modelos de lenguaje, sino también en el mundo de las bases de datos relacionales. Pero sobre eso ya en los siguientes artículos.

El auge, las realidades y el potencial de las bases de datos distribuidas SQL + Vector en la era de la IA

Autor – Spencer Kimball (Spencer Kimball, género Cockroach Labs y (¡no lo sabía!) creador de GIMP durante sus años en Berkeley. Un artículo sobre un recurso complementario para creadores de DBMS: en datanami. Y en el artículo no hay una sola mención de un DBMS específico, solo generalizaciones.

Aquí hay otro tema similar de Datanami:

Forrester corta en rodajas el mercado de bases de datos vectoriales

Autor Alex Woody (Alex Woody) Dice que el mercado de bases de datos vectoriales se ha disparado. Pero muchos están perplejos: ¿no es suficiente la expansión post-Griega? pgvector para las necesidades de la IA universal? ¿Cuáles son las ventajas de una base de datos vectorial sobre las bases de datos multimodales? ¿Las bases de datos vectoriales funcionan siempre en la nube? ¿Es posible ejecutarlas en casa?

Hay una tabla grande del informe de Forrester para el segundo trimestre de 2024: qué pueden y no pueden hacer las bases de datos vectoriales y las bases de datos no vectoriales con capacidades vectoriales. Tiene EDB, pero no PostgreSQL. Aquí hay otro artículo de Alex sobre aproximadamente el mismo tema: Vectores: Cómo llegar a una base de datos cercana. Gartner también se unió a Forrester; este artículo también contiene hermosos gráficos y diagramas.

La copia de seguridad como elemento de cambio

Por qué la función de copia de seguridad incremental de PostgreSQL 17 cambia las reglas del juego

Del artículo David Waggoner y Tim Boutin (David Waggoner y Tim Boutin, EDB) resulta que no es PostgreSQL 17 en sí el que cambia las reglas del juego, sino una copia de seguridad incremental en Camarero 3.11. Sí, en combinación con PostgreSQL 17: Este poderoso dúo implementa estrategias perfectas de clase empresarial.

Un poco de memoria

Sobrecompromiso de memoria y PostgreSQL

A veces, el sistema operativo se comporta como una compañía aérea y reserva deliberadamente más billetes que asientos reales en la cabina del avión: aprendemos del artículo Laurenza Albe (Laurenz Albe, Cybertec). Este comportamiento de Linux se puede corregir modificando el parámetro vm.memory_overcommit. Pero esto debe hacerse con cuidado; puedes colapsar completamente el servidor. También hay un capítulo aparte en el artículo para el caso de los contenedores.

Cómo aprovechar al máximo la configuración de memoria de Postgres

Artículo Sean Thomas (Shaun Thomas, EDB – oh no, lo siento: ¡ya también en Tembo!), en el que la parte más importante se llama Compartir es cuidar – traduciríamos comparte sabiamente. De hecho, se analizan muchos ajustes de parámetros, no sólo shared_buffers. Más sobre work_mem, acumulación, hinchazón (hinchazón), muy al grano.

Controlar el consumo de recursos en un servidor PostgreSQL usando Linux cgroup2

en el blog Lo sientoestá dirigido principalmente a aquellos que sufren problemas de multiinquilino y multiinquilino/cohospedaje.


Eso es todo por hoy.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *