Perspectivas y tendencias de la nube de datos

Jan 16 2023
Dentro de la nube de datos moderna y lo que sigue. Problemas de la isla de datos y las 8 principales tendencias Prelude Data Cloud es un reino inmenso.

Dentro de la nube de datos moderna y lo que sigue. Problemas de la isla de datos y las 8 principales tendencias

Foto de Johannes Plenio en Unsplash

Preludio

La nube de datos es un reino inmenso. Puede ser cualquier plataforma de datos en la nube o big data en la nube. Por lo general, comprende la recopilación de datos, el lago de datos, el procesamiento por lotes/flujo, las bases de datos, las herramientas ETL/ELT, las canalizaciones, los informes y otros en el ecosistema de la nube.

Según los principales proveedores de nube (p. ej., AWS, Azure, GCP, Aliyun), la nube de datos consta de tres categorías principales (o grupos de productos):

1. Análisis: por ejemplo, Amazon Redshift, Google BigQuery
2. Bases de datos: por ejemplo, Amazon Aurora, Google Spanner
3. Almacenamiento: por ejemplo, Amazon S3, Azure Data Lake Storage

La nube de datos surgió hace una década cuando S3 y EMR debutaron en AWS, pero ha evolucionado rápidamente desde el almacenamiento hasta el análisis y las bases de datos.

Hoy es la era de la pila de datos moderna , un ecosistema de la nube de datos moderna, como Snowflake et al. han ido subiendo. Será divertido y significativo mirar hacia atrás en una extensión tan innovadora y esperar cosas más emocionantes por venir.

Aquí encontraremos tres problemas implícitos pero críticos de la isla de datos mediante el análisis de los desafíos y oportunidades de los datos a lo largo de los años. Luego compartiré información sobre las principales arquitecturas y luego mencionaré las ocho tendencias principales en la nube de datos.

Los problemas de la “isla” de datos

Mover plataformas de datos a la nube se ha convertido en una tendencia a medida que la adopción de la nube se convierte en la norma. Abre oportunidades para nuevas empresas mientras prospera entre los proveedores de la nube. En esta ola de desarrollo de datos, no olvidaríamos las siguientes cinco oportunidades o desafíos.

Rendimiento y escalabilidad

Luchamos por el rendimiento y la escalabilidad de la infraestructura de datos a medida que los datos crecen exponencialmente. Era un enigma sin fin en una arquitectura de clúster tradicional.

La nube cambió el juego con una arquitectura distribuida y desacoplada. Primero desacopla la capa de datos de abajo hacia arriba. Por ejemplo, desacopla una base de datos relacional típica en capas poco acopladas: almacenamiento, transacción, caché y SQL. Cada capa se puede distribuir y escalar linealmente. Con la optimización de costos en mente, presenta una escalabilidad ilimitada y ganancias de rendimiento significativas.

Esta puede ser la base de la nube de datos moderna. Aunque a menudo afirmamos que las operaciones en la nube son la motivación para pasar a la nube, no pareció desencadenar una gran ola. por ejemplo, EMR y Cloudera. Pero Snowflake, que debutó con una arquitectura de este tipo, ha dado un gran salto adelante.

Elimine los silos de datos

Con escalabilidad ilimitada y rendimiento mejorado, es posible administrar todos los datos empresariales en un solo lugar. La eliminación de los silos de datos puede mejorar drásticamente el intercambio y la calidad de los datos y simplificar el gobierno de los datos. Desbloquear el valor empresarial de los datos se puede elevar a otro nivel superior.

Pero sus beneficios no terminan ahí. La gran cantidad de datos conectados en este marco puede proporcionar una plataforma unificada para la ingeniería de datos y la ciencia de datos, acelerar su investigación y desarrollo y aumentar la innovación de datos.

Reduzca los engorrosos ETL y ELT

Nos esforzamos por obtener datos de alta calidad, fácil accesibilidad, observabilidad integral de los datos y más. Pero no podemos evitar los ETL o ELT en el proceso.

Desafortunadamente, las tareas son engorrosas. A casi ningún ingeniero o científico le gusta este trabajo. El desafío no es generar nuevos conjuntos de datos a partir de algunos conjuntos de datos. Es tedioso pero propenso a errores mover datos de una tienda a otra, adhiriéndose a diferentes restricciones de formato.

¿Qué clase de trabajo es este? Zero-ETL es el futuro. Lakehouse y HTAP comparten el objetivo de eliminar ETL de un lago de datos a un almacén de datos o de OLTP a OLAP.

Pasar de BI a AI y luego unificar

BI y AI han crecido rápidamente durante la última década. Ambos se vuelven muy demandados por los usuarios. Y los datos son alimento para AI/ML.

Sin embargo, estos dos tipos de infraestructura (infraestructura de datos e infraestructura de IA) son relativamente independientes. Los usuarios tienen que cambiar entre ellos. Este es el tercer problema de "isla" después de los silos de datos y los ETL.

Desde un punto de vista informático, consultar resultados y predecir nueva información puede ser lo mismo, y la diferencia puede residir únicamente en operadores matemáticos predefinidos o modelos computacionales previamente entrenados.

Por lo tanto, unificar BI e IA en la infraestructura es una tendencia. Será una gran ola de tecnología y aplicaciones. La ingeniería de Aurorain AI es pionera en este esfuerzo.

Democratización de la nube y preparación nativa de la nube

En el modelo de servicio, clasificamos el almacenamiento de datos y las bases de datos como IaaS y el análisis de datos como PaaS. A menudo definimos la nube de datos como una plataforma. Esto no parece muy claro.

Técnicamente, la nube de datos moderna debería abarcar desde IaaS hasta PaaS y SaaS. Se puede definir por el modo de servicio final para los usuarios si es necesario. por ejemplo, Snowflake se denomina SaaS de datos, no PaaS.

Casi toda la pila de datos moderna ahora es nativa de la nube. La nube de datos se ha convertido en uno de los mayores ecosistemas en la nube. Esto cambia la forma en que opera la pila de datos y su modelo de negocio.

Por lo tanto, la nube de datos es la solución a los problemas de "islas" de datos, desde silos de datos organizacionales hasta ETL y la brecha entre BI e IA. El primer "silo" es un problema de dominio, ya que pueden residir en el mismo almacén de datos.

Los dos últimos deberían ser problemas de "silo" de repositorio y plataforma. por ejemplo, ETL transfiere datos de una base de datos a un almacén de datos. BI e AI tienen que ejecutarse o salir de diferentes plataformas.

El siguiente diagrama puede resumir los cinco emocionantes desafíos y oportunidades anteriores.

Problemas de la “isla” de datos (por autor)

Según la ilustración anterior, podemos mirar hacia el futuro de la nube de datos:

Una infraestructura de datos en la nube sin silos de datos organizacionales, sin ETL y sin distinción entre ejecutar BI e AI .

Información sobre arquitecturas líderes

Esperar la nube de datos robusta y unificada descrita en la sección anterior es emocionante. Antes de profundizar en los detalles del futuro, veamos algunas de las principales arquitecturas actuales, desde almacenes de datos en la nube hasta lagos de datos.

Arquitectura de copo de nieve de 3 capas

A continuación se muestra la arquitectura de 3 capas de Snowflake: almacenamiento de datos, capa de computación de almacén virtual y servicios en la nube.

Arquitectura Snowflake (fuente: Snowflake Elastic Data Warehouse)

Snowflake es una plataforma de almacenamiento de datos nativa de la nube que ofrece varias características y capacidades únicas. Puede admitir altos niveles de simultaneidad, escalabilidad y rendimiento, lo que permite a los usuarios almacenar y consultar grandes cantidades de datos con facilidad.

El núcleo de la arquitectura de Snowflake es el modelo de "separación de almacenamiento y cómputo". Esto significa que los recursos informáticos y de almacenamiento están desacoplados, lo que permite a los usuarios aumentar o reducir rápidamente los recursos informáticos independientemente de sus necesidades de almacenamiento. Esto permitirá a los usuarios optimizar sus recursos y evitar el aprovisionamiento excesivo, lo que ayudará a ahorrar costos.

El almacenamiento de copos de nieve está orientado a columnas. Como base de datos en columnas, los datos se organizan en columnas en lugar de filas, lo que hace que las cargas de trabajo de análisis y almacenamiento de datos sean mucho más eficientes. Dado que la mayoría de las consultas solo acceden a un pequeño subconjunto de los datos en una tabla, al almacenar los datos en columnas, Snowflake puede minimizar la cantidad de datos que se leerán del almacenamiento y se procesarán en la capa de cómputo.

Además, Snowflake emplea una estructura de "microparticiones" para almacenar datos. Cada micropartición es una pequeña porción dividida horizontalmente de una tabla almacenada en un nodo de almacenamiento. Esto permite que Snowflake almacene y consulte datos de una manera altamente eficiente y escalable, ya que solo se necesita acceder a las microparticiones relevantes al ejecutar una consulta.

El "almacén virtual" es la base de la capa informática de Snowflake, responsable de ejecutar consultas y administrar el almacenamiento temporal. Cada almacén virtual consta de uno o más nodos de cómputo para ejecutar consultas y uno o más cachés para almacenar temporalmente datos y resultados.

En la capa de cómputo, Snowflake utiliza una arquitectura de procesamiento paralelo masivo (MPP), que escala los recursos de cómputo de manera elástica y se ejecuta en paralelo para satisfacer las necesidades de la carga de trabajo. Por lo tanto, Snowflake puede manejar consultas grandes y complejas sin sacrificar el rendimiento.

Además, Snowflake mejora el rendimiento a través de su optimizador de consultas. El optimizador de consultas analiza las consultas SQL y determina la forma más eficiente de ejecutarlas. Esto puede incluir elegir los mejores algoritmos y estructuras de datos para usar, así como decidir cómo distribuir la carga de trabajo en el clúster de cómputo.

En general, Snowflake admite MPP, alta escalabilidad y alto rendimiento, lo que lo convierte en una plataforma de análisis y almacenamiento de datos potente y flexible en la nube.

Amazon Redshift reinventado

Amazon Redshift fue el primer almacén de datos en la nube empresarial de escala PB completamente administrado. Desafortunadamente, perdió la primera batalla contra Snowflake principalmente por su desempeño. Amazon se dirigió hacia abajo en los últimos años y reinventó Redshift con la siguiente arquitectura.

Arquitectura de Amazon Redshift (fuente: SIGMOD'22 Amazon Redshift reinventado)

El nuevo Redshift no abandona sus principales componentes heredados. Es compatible con versiones anteriores al mismo tiempo que desacopla su arquitectura y mejora su rendimiento. A diferencia de Snowflake, parece complicado.

El salto más significativo es su aumento de rendimiento. El nuevo Redshift se ha optimizado en varias áreas clave en función de su MPP original orientado a columnas:

1. FPGA y SSD acelerados por hardware AQUA (Advanced Query Accelerator)
2. Compilación como servicio de generación de código con microservicios de almacenamiento en caché
3. Escaneos vectorizados
4. Reducción de las paradas de memoria con búsqueda previa
5. Funciones de expresión en línea para tipos de datos complejos
6. CPU -codificación amigable
7. Marco de reescritura de consultas basado en DSL (QRF)
8. Ejecución adaptativa en tiempo de ejecución

La arquitectura recientemente desacoplada puede escalar el almacenamiento y la computación de forma independiente y admitir el control simultáneo y el aislamiento de recursos. También puede integrarse fácilmente con varios componentes informáticos y de almacenamiento.

Además, optimiza para automatizar operaciones y ajustes. Por ejemplo, optimizaciones automáticas de tablas, administración automática de cargas de trabajo, marco de predictor de consultas, vistas materializadas, grupos cálidos inteligentes, detección de fallas grises, corrección automática, etc.

Se puede esperar que el recién reinventado Redshift vuelva a ser un jugador fuerte en el espacio contra Snowflake, BigQuery, Databricks, Firebolt y otros.

Arquitectura típica de la casa del lago

No podemos ignorar la arquitectura de lago de datos ahora para comprender la nube de datos moderna. A continuación se muestran los escenarios de Delta Lake publicados por Databricks para ilustrar su arquitectura Lakehouse de datos.

Lakehouse Architecture (fuente: Databricks Delta Lake en almacenes de objetos en la nube)

Demostró la eliminación de la tubería de transmisión y los ETL adicionales en una tienda unificada con capacidades de almacenamiento de datos.

Data Lakehouse es un nuevo tipo de plataforma de administración de datos que combina las capacidades de un lago de datos y un almacén de datos. Ofrece la escalabilidad y la flexibilidad del lago de datos, además de las consultas estructuradas y el rendimiento del almacén de datos.

En pocas palabras, Data Lakehouse tiene dos capas o conceptos: "lago" y "casa". El "lago" es un depósito centralizado que almacena datos estructurados y no estructurados a escala. Esta capa generalmente se basa en el almacenamiento de objetos en la nube, como Amazon S3, para almacenar datos sin procesar en su formato original, así como datos en columnas preprocesados.

La “casa” es la capa para administrar y consultar datos estructurados. Esta capa generalmente se crea sobre un motor de consulta, como Apache Presto/Trino, para administrar datos estructurados en un formato de columnas en la memoria o en el almacenamiento posterior en el almacenamiento de objetos. Esto permite a los usuarios consultar y analizar datos utilizando lenguajes similares a SQL de manera eficiente.

Data Lakehouse a menudo define y usa un "catálogo unificado" como una única fuente de verdad para los datos en las capas del lago y de la casa. El catálogo administra los metadatos y proporciona una vista unificada de todos los datos en el sistema, lo que permite a los usuarios descubrir y acceder fácilmente a los datos en toda la plataforma.

En general, Data Lakehouse admite el almacenamiento y la consulta eficientes de datos heterogéneos a escala y es una poderosa plataforma de análisis y administración de datos como un almacén de datos. A continuación, se abordarán más funciones específicas de Data Lakehouse.

Apache Hudi, Iceberg y lago Delta

Data Lakehouse es una arquitectura de plataforma de datos abierta unificada. Puede ser una nueva palabra de moda o concepto, pero no es una arquitectura naciente. Hay tres fuentes abiertas notorias disponibles: Apache Iceberg, Hudi y Databricks Delta Lake. Apache Iceberg y Hudi provienen de Netflix y Uber, respectivamente.

Iceberg, Hudi y Delta Lake sirven para almacenar y administrar grandes conjuntos de datos inmutables en un sistema de archivos distribuido como HDFS o S3. Estos sistemas pueden admitir la ingesta, consulta y administración de datos eficientes y escalables para lagos de datos y otras plataformas de big data. Aquí hay algunas similitudes y diferencias clave entre ellos:

  • Almacenamiento de datos inmutable : los tres sistemas utilizan un modelo de almacenamiento de datos inmutable. es decir, una vez que los datos se escriben en el lago, no se pueden modificar ni eliminar. En su lugar, utilizan versiones de datos, desecho de datos y compactación de datos para administrar los cambios en el lago de datos a lo largo del tiempo. Con este atributo, la mayoría de los lagos tienen características avanzadas relevantes como viaje en el tiempo, MVCC (control de concurrencia de múltiples versiones) y lectura y escritura simultáneas.
  • Soporte para transacciones ACID : Todos admiten transacciones ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad), lo que permite a los usuarios realizar múltiples operaciones en el lago de datos como una sola unidad atómica. Esto ayuda a garantizar la integridad y la coherencia de los datos al realizar actualizaciones en el lago.
  • Compatibilidad con modificaciones y eliminaciones : todos los sistemas admiten modificaciones y eliminaciones, lo que permite a los usuarios actualizar o eliminar datos en el lago sin tener que sobrescribir todo el conjunto de datos. Sin embargo, utilizan diferentes técnicas para implementar estas operaciones.
  • Organización y particionamiento de datos : todos los sistemas admiten la organización y el particionamiento de datos, lo que permite a los usuarios estructurar y organizar los datos en Lakehouse para consultas y acceso a datos eficientes. Pero utilizan diferentes técnicas y enfoques para la organización y partición de datos.
  • Motores de consulta : todos admiten una variedad de motores de consulta para acceder y consultar los datos en Lakehouse, incluidos los motores basados ​​en SQL, como Hive y SparkSQL. Sin embargo, admiten diferentes motores y tienen diferentes capacidades para optimizar las consultas.
  • Compatibilidad con formatos de datos : todos los sistemas admiten una variedad de formatos de datos, incluidos formatos estructurados y semiestructurados. por ejemplo, Iceberg es compatible con Parquet, AVRO y ORC. Hudi es compatible con Parquet y ORC. Actualmente, Delta Lake solo es compatible con Parquet. Y emplean diferentes capacidades para manejar y optimizar formatos de datos.

Para obtener más detalles, consulte su GitHub: Iceberg , Hudi y Delta Lake .

Por último, pero no menos importante, Apache Arrow es una plataforma ligera en memoria en comparación con las tres anteriores orientadas a columnas. Carece de las funciones enriquecidas descritas anteriormente, pero proporciona consultas rápidas independientes del idioma para análisis de alto rendimiento.

Las 8 principales tendencias en la nube de datos

La nube de datos moderna es una plataforma de datos abierta nativa de la nube. Las operaciones sencillas y nativas de la nube son fundamentales para la nube de datos moderna.

¿Qué sigue para la nube de datos moderna? ¿Qué tipo de nube de datos moderna esperamos? En función de las tendencias tecnológicas y las necesidades comerciales, existen ocho interesantes tendencias de nube de datos: plataforma de datos abierta unificada, solución de nube cruzada, ML de datos cercanos después de la computación de datos cercanos, aumento de DLFM (data lakehouse, fabric y mesh), inteligencia gobierno de la nube de datos, ingeniería de IA emergente, hacer más con menos con ingeniería y HTAP nativo de la nube.

Plataforma unificada de datos abiertos

Este se reinventará en dos aspectos (conocidos o desconocidos pero pendientes): arquitectura y plataforma.

La arquitectura pasa de un sistema único a una arquitectura desacoplada de computación y almacenamiento a una arquitectura de 3 o más capas (como almacenamiento, metadatos, contenedor informático y diferentes tipos de almacenamiento y computación).

Con esta arquitectura abierta, la nube de datos puede escalar libremente en cada capa y mejorar continuamente el rendimiento para escenarios específicos. También puede acelerar la integración entre diferentes plataformas en múltiples nubes.

Desde la perspectiva de la plataforma, avanzaremos hacia la eliminación de silos de datos organizacionales, ETL y sin distinción entre ejecutar BI e IA.

Nos propusimos eliminar los silos de datos incluso antes de la nube de datos. Es una de las principales prioridades para las transformaciones digitales empresariales. La nube de datos ha simplificado esto, pero el viaje para reducir los ETL y unificar BI e IA apenas comienza.

Data Lakehouse y otras tiendas unificadas han iniciado el esfuerzo para reducir los ETL. La ingeniería de IA será la base para unificar las soluciones de BI e IA.

Solución de nube cruzada

Está pasando del soporte multinube a las operaciones entre nubes.

Desde una perspectiva comercial, hay tres etapas de democratización de la nube: nube pública en silos, soporte de múltiples nubes y operaciones entre nubes.

Cada nube pública líder (es decir, AWS, Azure y GCP) es un silo gigante. Es un desafío compartir recursos y datos y es difícil operar a través de las nubes.

Para organizaciones multinacionales o integrales, requiere ejecutarse en múltiples nubes públicas. Es especialmente apremiante para empresas de plataformas como Snowflake, Databricks, Starburst, Dremio, etc.

La compatibilidad con varias nubes es diferente de las operaciones entre nubes. A diferencia de este último, el primero puede admitir la ejecución en múltiples nubes, pero no tiene integración, orquestación u otra interacción entre ellos.

Debido a la naturaleza de la nube de datos, es necesario ejecutar operaciones entre nubes, es decir, poder conectarse y comunicarse entre nubes de datos públicas en silos. Por ejemplo, los mismos datos se replican en otro proveedor de la nube. Un conjunto de datos se migra o se integra de un proveedor a otro.

Desde la perspectiva del usuario, quieren una experiencia perfecta sin importar qué nube se ejecute detrás de escena.

Aprendizaje automático de datos cercanos después de la computación de datos cercanos

En contraste con el desacoplamiento, la computación cercana a los datos es una tendencia para mejorar el rendimiento y simplificar el proceso. Puede ser significativamente eficiente para conjuntos de datos a gran escala en sistemas distribuidos. Por ejemplo, recupere grandes datos sin procesar prefiltrados y precalculados de S3.

También es costoso obtener datos sin procesar de forma remota para la predicción y el análisis de ML. Near-data ML es una nueva tendencia en la nube de datos. La mayor parte del aprendizaje automático actual consiste en procesos complejos y/o modelos grandes. Es muy efectivo en costo y velocidad para pre-ML (incluyendo entrenamiento y sub-ML) y entrega de datos cercanos.

Tome la clasificación de datos de clientes como un ejemplo de aprendizaje automático cercano a los datos. Un modelo de clasificación previamente entrenado se puede almacenar en una nube de datos o en un lago de datos. Puede clasificar automáticamente los datos del cliente como "de alto valor" o "de bajo valor" según el historial de compras y otros factores relevantes durante el almacenamiento o la recuperación.

Asimismo, se puede integrar en la nube de datos un modelo de detección de anomalías previamente entrenado. Cuando los datos llegan a la nube de datos, pueden identificar patrones inusuales en las transacciones financieras para indicar fraude u otra actividad inusual.

Aumento de DLFM (data lakehouse, data fabric y data mesh)

Puede ser difícil predecir qué sucederá (convergencia o separación) con Data Lakehouse, Data Fabric y Data Mesh debido a varios factores, incluidos los avances tecnológicos, los cambios en las necesidades y prácticas comerciales y los cambios en los estándares y regulaciones de la industria.

Pero es probable que estos enfoques continúen evolucionando y desempeñen un papel importante para ayudar a las organizaciones a administrar y analizar sus datos de manera efectiva.

Es probable que Data Lakehouse y Data Fabric se vuelvan cada vez más importantes a medida que las organizaciones buscan centralizar e integrar sus datos para respaldar una amplia gama de escenarios de gestión y análisis de datos. Estos enfoques pueden ayudar a las organizaciones a mejorar la eficiencia y la eficacia de los procesos de gestión de datos y obtener información de los datos para la toma de decisiones empresariales.

La malla de datos también puede adoptarse más ampliamente a medida que las organizaciones desean crear enfoques más ágiles y descentralizados para la gestión de datos. Para los equipos multifuncionales que poseen y controlan diferentes dominios de datos, la malla de datos puede beneficiar a las organizaciones para que respondan más rápido según las necesidades comerciales y mejoren la calidad y la accesibilidad de los datos.

Gobernanza inteligente de la nube de datos (IDCG)

La nube de datos es más que una plataforma o arquitectura para el rendimiento, etc. Gestiona los datos para el cumplimiento, la confiabilidad y el rendimiento comercial, cumpliendo con GDPR , CCPA , HIPAA , PIPL , Marco de privacidad de datos transatlánticos y más.

El gobierno de la nube de datos es la base que permite a las organizaciones ejecutar su negocio en múltiples nubes en diferentes regiones. Puede garantizar el cumplimiento de GDPR en la UE, CCPA e HIPPA en los EE. UU. y DSL y PIPL en China.

El software inteligente puede automatizar el proceso de gobierno y prevenir problemas por adelantado. El gobierno inteligente de la nube de datos es esencial para el intercambio seguro de datos y la innovación de datos en la nube.

La creciente protección multinube requiere soluciones integrales, que incluyen seguridad, cumplimiento, identidad, administración de dispositivos y privacidad en todas las nubes.

IDCG puede garantizar ganarse la confianza: confianza en la tecnología, que abarca la seguridad de los datos, la privacidad, la seguridad digital, la IA responsable y la transparencia.

La ingeniería de IA surge después de la ingeniería de datos y la ciencia

La ingeniería de datos se centra en la infraestructura y las canalizaciones para almacenar y procesar datos, mientras que la ciencia de datos se ocupa de utilizar esos datos para generar conocimientos e informar la toma de decisiones.

La ingeniería de IA es la práctica de diseñar, construir y mantener sistemas de IA. Implica una combinación de ingeniería de software, ingeniería de datos y habilidades de ML y se enfoca en crear e implementar sistemas impulsados ​​​​por IA para realizar diversas tareas.

La ingeniería de IA va mucho más allá de MLOps, ya que este último solo se enfoca en los aspectos operativos de la implementación y administración de sistemas de IA en producción.

Con el crecimiento exponencial de la IA, tanto en volumen como en complejidad, y la disponibilidad de la nube de datos moderna, la ingeniería de IA está evolucionando rápidamente. La ingeniería de IA de Aurorain es un gran ejemplo.

Haga más con menos con ingeniería de datos efectiva, ciencia de datos e ingeniería de IA

La nube de datos puede ayudar a las organizaciones a hacer más con menos al proporcionar una plataforma unificada con herramientas y servicios efectivos. Puede ser más fácil almacenar, procesar y analizar grandes cantidades de datos. Puede proporcionar una variedad de beneficios, incluidos, entre otros, los siguientes:

Escalabilidad : la nube de datos se puede escalar hacia arriba o hacia abajo según sea necesario para manejar grandes cantidades de datos y recursos informáticos, lo que permite a las organizaciones manejar picos en la demanda o el volumen de datos con mayor facilidad.

Rentabilidad : la nube de datos puede ser más rentable que crear y mantener una infraestructura de datos local, ya que permite que las organizaciones paguen solo por los recursos que utilizan y evitan los costos iniciales de hardware y software.

Toma de decisiones rápida : la nube de datos puede permitir a los usuarios acceder y analizar grandes cantidades de datos en tiempo real, proporcionando información valiosa y ayudando a la toma de decisiones. Las nubes de datos también pueden ayudar a los equipos a colaborar y tomar decisiones de manera más efectiva.

Facilidad de uso : la nube de datos a menudo viene con varias herramientas y servicios, lo que facilita que las organizaciones almacenen, procesen y analicen datos sin experiencia interna especializada.

La nube de datos puede proporcionar a las organizaciones una forma flexible y rentable de almacenar, procesar y analizar datos, ayudándolas a hacer más con menos a través de la ingeniería práctica de datos, la ciencia de datos y la ingeniería de inteligencia artificial.

HTAP nativo de la nube

HTAP no es un concepto nuevo, pero debería ser innovador tener un rendimiento nativo de la nube moderno a escala PB o superior. Algunos pioneros son actualmente: PingCAP TiDB, Google AlloyDB, Snowflake Unistore, Oracle HeatWave, etc.

Por ejemplo, HTAP nativo de la nube puede integrar el lago de datos y el formato de almacenamiento de la casa del lago de datos a cualquier escala y proporcionar un rendimiento de base de datos de clase empresarial. es decir, el lago de datos puede almacenar datos en una secuencia de tiempo como RDBMS orientado a filas. Por el contrario, el lago de datos puede almacenar datos en formato de columnas utilizando Parquet u otros.

Con estas dos etapas de almacenamiento de datos en fila y columna, un nuevo HTAP nativo de la nube puede debutar integrándose con los motores informáticos modulares existentes (como Trino ). Se puede diseñar con consultas ramificadas para admitir sin problemas capacidades HTAP y metadatos unificados para una gestión holística y una optimización del almacenamiento incremental. Pero el rendimiento y la consistencia deberían seguir siendo sus desafíos.

Postludio

La nube ahora parece madura, desde máquinas virtuales hasta chips y nativos de la nube , mientras que AWS EC2 y S3 se lanzaron hace solo 16 años. Los datos son el núcleo de los negocios y la transformación digital de hoy en día . Los datos pueden durar mucho más y pueden crecer cada vez más a medida que evoluciona el mundo digital. Luego, la nube aún se está desarrollando con la infusión de datos y tecnología y aplicaciones de IA.

La nube de datos incluye principalmente tres categorías: análisis, bases de datos y almacenamiento. Desplegará ocho emocionantes áreas más adelante. La nube de datos moderna debe ser una infraestructura de datos de nube unificada y abierta sin silos de datos organizacionales, sin ETL/ELT y sin distinción entre ejecutar BI e AI.

La nube de datos nunca es un centro de datos. La nube de datos como plataforma acelera el auge de la ingeniería de datos, la ciencia de datos y la ingeniería de IA. La nube de datos como centro de costos puede permitirnos hacer más con menos a través de ingeniería de datos, ciencia de datos e ingeniería de IA efectivas .

Recursos adicionales

  1. El futuro de la pila de datos moderna
  2. Amazon Redshift reinventado
  3. El almacén de datos elástico Snowflake
  4. Delta Lake: Almacenamiento de tablas ACID de alto rendimiento sobre almacenes de objetos en la nube
  5. Lago de datos de Amazon S3
  6. Ladrillos de datos Data Lakehouse
  7. RGPD frente a PIPL
  8. DSL y PIPL para empresas multinacionales
  9. Marco transatlántico de privacidad de datos

© Copyright 2021 - 2023 | unogogo.com | All Rights Reserved