Los visitantes prueban el nuevo tobogán acuático familiar en Aqualand Moravia World of Water el 30 de junio de 2020… [+] parque recreativo en Pasohlavky, al sur de Brno, República Checa. – El tobogán de agua apto para niños y adultos tiene 242 metros de largo, está hecho en Canadá y la gente va cuesta abajo y también cuesta arriba como en una montaña rusa. (Foto de Radek Mica/AFP) (Foto de RADEK MICA/AFP vía Getty Images)

AFP vía Getty Images

Los datos fluyen más rápido. Como señalamos aquí recientemente, las empresas modernas recurren cada vez más a las tecnologías de transmisión de datos diseñadas para canalizar una avalancha (en un sentido positivo) de datos en tiempo real dentro y fuera de las aplicaciones, a través de motores analíticos y a través de estructuras de bases de datos.

Parte de ese flujo de datos ahora residirá y se procesará en bases de datos corporativas conocidas de los proveedores de datos de los que incluso los laicos no técnicos promedio habrán oído hablar. Otros elementos de ese flujo de datos transmitidos tienen que ser batidos y enfrentados por los servicios nuevos y más potentes ofrecidos por los principales proveedores de servicios en la nube (CSP) ‘hiperescaladores’.

Llevar datos de una base de datos (a menudo heredada) a un servicio de datos de hiperescala requiere más que invertir en un nuevo cable o hacer clic en un botón.

Transmitir en Striim

Striim, Inc. tiene un nombre lógico para transmitir una sensación de flujo de datos desde el principio y no solo funciona para crear y construir la tubería de datos para obtener datos de bases de datos tradicionales a nuevos servicios en la nube, también funciona para filtrar, transformar, enriquecer y correlacionar esos datos durante su viaje.

Striim para BigQuery de la compañía es un servicio de transmisión basado en la nube que utiliza tecnologías de captura de datos modificados (CDC) (un proceso de base de datos diseñado para rastrear, ubicar y luego editar los datos modificados en un conjunto de información determinado) para extraer datos de la empresa. bases de datos de grado como Oracle, MS-SQL, PostgreSQL, MySQL y otras para el almacén de datos empresarial de Google Cloud BigQuery.

En resumen, el servicio de datos en la nube de Google BigQuery para la inteligencia empresarial.

Para explicar completamente la tecnología, Google BigQuery es un almacén de datos (un almacén de datos técnica de gestión creada por información de más de una fuente) que permite el análisis escalable de petabytes (1024 terabytes) de datos con capacidades integradas de aprendizaje automático.

Las organizaciones que utilizan esta tecnología ahora pueden crear una nueva canalización de datos para transmitir datos de transacciones de cientos y miles de tablas a Google BigQuery con latencias de extremo a extremo de menos de un segundo. Este es el tipo de inteligencia necesaria si queremos permitir análisis en tiempo real y abordar problemas operativos urgentes.

“Las empresas buscan cada vez más soluciones que ayuden a traer datos críticos almacenados en bases de datos a Google BigQuery de manera rápida y confiable”, dijo Sudhir Hasbe, director sénior de gestión de productos de Google Cloud.

Analogías de flujo de datos basados ​​en agua

Si parece que nunca nos quedaremos sin analogías de flujo de datos basados ​​en agua, probablemente no lo haremos. Esta es un área de la tecnología donde las organizaciones necesitan replicar datos de múltiples bases de datos (que han usado antes, muchas antes de la era de la transformación digital) y llevar esos datos a almacenes de datos en la nube, lagos de datos y casas de lagos de datos.

¿Por qué las empresas deberían hacer esto y dejar que los datos fluyan en esta dirección? Permitir que sus equipos de análisis y ciencia de datos optimicen sus flujos de trabajo comerciales y de toma de decisiones. Pero tradicionalmente ha habido dos problemas: a) los almacenes de datos heredados no son fácilmente escalables o funcionan lo suficientemente bien como para proporcionar análisis en tiempo real, yb) las plataformas de ingesta de datos basadas en la nube a menudo requieren un esfuerzo significativo para configurarse.

Striim para BigQuery proporciona una interfaz de usuario que permite a los usuarios configurar y observar el estado y el rendimiento continuos e históricos de sus canalizaciones de datos, reconfigurar sus canalizaciones de datos para agregar o quitar tablas y reparar sus canalizaciones en caso de falla.

Nuevas fechas, ven a buscarlo

El vicepresidente ejecutivo de ingeniería y productos de Striim es Alok Pareek. Señalando la necesidad de lo que él llama “nuevos datos” (es decir, datos transmitidos en tiempo real que funcionan a la velocidad de la vida y los negocios modernos con la ubicuidad de los dispositivos móviles de los usuarios y las nuevas máquinas inteligentes que crean sus propios canales de información siempre disponibles) para impulsar las decisiones comerciales para hacerlo bien.

“Nuestros clientes usan cada vez más BigQuery para sus necesidades de análisis de datos. Diseñamos Striim para BigQuery para brindar comodidad operativa, simplicidad y resiliencia, de modo que los usuarios puedan extraer valor comercial de sus datos de manera rápida y sencilla. Contamos con administración automatizada de horarios, funcionalidad de instantáneas [a means of saving the current state of a data stream to start a new version or for backup & recovery purposes]Coordinación CDC [see above definition] y el manejo de fallas en las canalizaciones de datos para brindar una experiencia de usuario maravillosa”, dijo Pareek.

Aquí también tiene lugar la automatización. Striim para BigQuery monitorea e informa continuamente sobre el estado y el rendimiento de la canalización. Cuando detecta tablas que no se sincronizan con BigQuery, las tablas erróneas se ponen en cuarentena automáticamente y el resto de la canalización permanece operativa, lo que evita horas de inactividad de la canalización.

Striim para BigQuery Striim ingiere, procesa y entrega continuamente grandes cantidades de datos en tiempo real de diversas fuentes (tanto en las instalaciones como en la nube) para admitir infraestructuras de nubes múltiples e híbridas. Recopila datos en tiempo real de bases de datos corporativas (utilizando la captura de datos de cambios no intrusivos), archivos de registro, sistemas de mensajería y sensores y los entrega a prácticamente cualquier objetivo en las instalaciones o en la nube con menos de un segundo de latencia, lo que permite operaciones y análisis de tiempo en tiempo real.

¿Indiferencia del hiperescalador?

Todo eso es genial, es decir, podemos obtener datos de Oracle y otras bases de datos mencionadas anteriormente para nubes hiperescaladoras de proveedores de servicios en la nube (CSP) de Google, AWS y Microsoft mejor, más rápido, más fácil y a un precio más rentable. Incluso podemos hacerlo con un mayor grado de servicios adicionales (limpieza, filtrado, etc.).

Entonces, ¿por qué los grandes jugadores de la nube no ofrecen este tipo de tecnología?

En realidad, lo hacen. ¿Recuerdas cuando dijimos que las plataformas de ingesta de datos basadas en la nube a menudo requieren un esfuerzo significativo para configurarse? Muchas de estas funciones son posibles con los hiperescaladores, y no es difícil encontrar montones de documentación en la web de las tres nubes principales que detallan la mecánica interna de las instantáneas, la transmisión y la administración de esquemas. Simplemente es más caro y, por lo general, no es ese servicio dedicado (después de todo, tienen las nubes más grandes del mundo) y, por lo general, no tiene todos los complementos que se analizan aquí.

Las analogías del flujo de datos basados ​​en agua continuarán, probablemente después: el lavado del haz de datos.

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *