¿Debería mi empresa utilizar una solución de Big Data?

No parece que haya una razón para hacer un cambio desde un RDBMS. Hay muchas alternativas RDBMS, como señala Chris Schrader. Aquí hay un ranking de popularidad:

Tendencia histórica de la clasificación de popularidad de los sistemas de gestión de bases de datos.

Base de conocimiento de motores DB de sistemas de gestión de bases de datos relacionales y NoSQL

Si se apega a Oracle o MySQL o uno de los otros RDBMS principales, puede estar seguro de que podrá encontrar y mantener la experiencia para usar y administrar el DBMS.

Los ex integrantes de Oracle han comenzado alternativas no relacionales de Oracle que evitan algunos de los aspectos negativos asociados con Oracle, pero debe existir una necesidad apremiante de hacer el cambio, y las empresas deben considerar todas las ramificaciones. Creo que el ejemplo de punto gov MarkLogic Healthcare es increíblemente instructivo: las lecciones de hiperescala de Healthcare.gov

La base de datos de MarkLogic fue elegida por el gobierno debido a su enfoque flexible y sin esquema para el almacenamiento de datos. Si bien el despliegue inicial solo estaría en los cientos de terabytes, se requeriría que procesara miles de transacciones por segundo de una manera totalmente ACID, y eventualmente crecería en el rango de cientos de petabytes. Bloom, quien anteriormente dirigía el negocio de bases de datos de Oracle, dijo que podrían ser “los desafíos de integración de datos más complejos en la historia de TI”.

MarkLogic es una alternativa OLTP XML / RDF compatible con ACID que puede ser muy útil y flexible, dependiendo del caso de uso. No es económico y no lo cambiaría para ahorrar dinero. Cambiaría a él para escalar un sitio web grande como Healthcare dot gov, o mejoraría las capacidades de búsqueda y consulta en general. Aquí hay un buen ejemplo que encontramos durante nuestra investigación: Resolver un problema familiar de búsqueda de comercio electrónico con un almacén de documentos NoSQL

Si te comprometes con algo como MarkLogic, ten en cuenta que los viejos hábitos tardan en morir. Nuevamente, considere el ejemplo del gobierno de puntos de Healthcare y su contrato con CGI, que históricamente había usado bases de datos relacionales. Todavía querían usar sus viejos métodos relacionales, lo que causó muchos problemas a Healthcare dot gov:

La falta de familiaridad de CGI con MarkLogic definitivamente contribuyó a los problemas, dice el vicepresidente senior de servicios técnicos globales de MarkLogic, Jon Bakke. “CGI trató de construir elementos del intercambio como si fueran a construirlo en una base de datos relacional”, dice Bakke a EnterpriseTech . “Eso no coincide con la forma en que normalmente construiríamos un sistema MarkLogic”.
Según Bakke, los funcionarios de MarkLogic advirtieron repetidamente a CGI sobre los peligros del uso de construcciones de bases de datos relacionales en un almacén de datos NoSQL orientado a documentos no relacional, pero la compañía no escuchó. Aparentemente, CGI utilizó una técnica de codificación con el Mercado financiado por el gobierno federal que habría sido común en el sistema relacional tradicional de tres niveles, pero que resultó ser voluminoso y lento en su base de datos NoSQL.

De las lecciones de hiperescala de Healthcare.gov

Por lo tanto, no subestime el desafío de cambiar a una alternativa no relacional más flexible para fines operativos. La mentalidad es diferente. Continuamos publicando análisis de casos de uso de NoSQL apropiados aquí:

Pronóstico tecnológico: reasignación del panorama de la base de datos

Aquí hay un diagrama del ciclo de vida de los datos que desarrollamos que asigna casos de uso primarios para los tipos de bases de datos más nuevos a las fases del ciclo de vida:

Tendencias NoSQL y NewSQL y el ciclo de vida de los datos

La alternativa de MarkLogic se centra en el lado derecho del ciclo de vida.

Hadoop es una bestia completamente diferente, adecuada para análisis de estilo de lago de datos a gran escala. Cubrimos los casos de uso y las consideraciones del lago de datos aquí: los lagos de datos y la promesa de datos sin silo

Las alternativas no relacionales tienen un poder creciente en el mercado, y los desarrolladores presionarán a sus empleadores para que las consideren. Ese es otro factor en el que pensar: ¿los equipos de desarrollo se beneficiarían de un enfoque NoSQL? Algunas tareas de desarrollador pueden simplificarse. Esas necesidades tendrían que equilibrarse con las necesidades del equipo de gestión de datos.

Gracias por el A2A.

Mi respuesta corta es que estás haciendo las preguntas equivocadas. Aquí está el que deberías preguntar.

¿Tengo algún caso de uso que requiera una solución de “big data”?

Según su descripción, la respuesta es no.

Retrocedamos un paso muy rápido. Tiene algún tipo de aplicación OLTP personalizada construida en una base de datos Oracle. Dijiste que necesitaba transacciones, precisión y disponibilidad. ¿Qué solución de big data te daría esto? Cuando las personas dicen que quieren usar Hadoop, ¿qué quieren decir? “Hadoop” se refiere a 15 proyectos de código abierto centrados en un sistema de archivos y un administrador de recursos. No es una base de datos y no resuelve los mismos casos de uso.

Así que déjame llegar a tus preguntas.

  1. ¿Sería demasiado costoso configurar / mantener / aprender una solución de Big Data para un conjunto de datos tan comparativamente pequeño con las necesidades enumeradas anteriormente?

Unos pocos TB pueden manejarse fácilmente con una solución de nodo único. Prácticamente todas las soluciones de “Big Data” suponen que necesita múltiples nodos para manejar la cantidad de datos que tiene. Su mayor costo no será software y hardware. Cosas como Hadoop requieren que escribas un código personalizado para usar. Supongo que tienes programadores en el personal porque estás hablando de desarrollar una aplicación personalizada. Así que esto se reduce a capacitar a las personas que actualmente son expertos en Oracle / SQL para que sean expertos. Y luego, el momento de escribir el código que normalmente maneja SQL para realizar la funcionalidad necesaria (las herramientas NoSQL no hacen cosas como uniones o transformaciones de datos).

2. Si existen alternativas mejores / más baratas a Oracle para las características enumeradas anteriormente, ¿cuáles son? Si no hay ninguno, ¿cuáles son algunas formas generales en que podríamos afinar nuestra solución actual?

La base de datos Oracle tiene un montón de competidores. Voy a enumerar varios, pero aquí hay algunos pensamientos / observaciones que tengo.

  • Cuando se trata del cumplimiento de SQL y ACID, una base de datos Oracle bien ajustada funcionará extremadamente bien, probablemente mejor que cualquier otra cosa para aplicaciones OLTP. Ha sido una solución de clase empresarial durante 30 años. El mayor problema que suelo ver que las personas tienen con Oracle es que es complejo. Probablemente hay 10.000 configuraciones que puede ajustar desde el sistema operativo a la consulta SQL. Lleva años y años convertirse en un verdadero experto de Oracle. Y no hay muchos de ellos.
  • Si hay algo que necesita saber sobre Oracle o encontrarse con un problema, hay un 98% de posibilidades de que solo pueda buscarlo en Google y obtener la respuesta.
  • La base de datos Oracle es una de las piezas de software empresarial más maduras y estables que existen, especialmente dada su complejidad.
  • Tiene una larga lista de características fuera de la base de datos SQL central que las empresas necesitan / aprovechan.

Recomiendo encarecidamente investigar y realizar POC en cualquier tecnología, especialmente si se encuentra en un punto en el que es factible cambiar su plataforma. Cuando se trata de bases de datos que compiten con Oracle, aquí hay algunas que puede ver.

Motores propietarios de RDBMS SQL tradicionales

  • Microsoft SQL Server
  • Sybase
  • IBM DB2
  • [Probablemente otros 100 que ya no están, están en desuso o rara vez se usan]

Motores de código abierto SQL RDBMS

  • Postgres
  • MySQL / MariaDB
  • Ingres
  • Pájaro de fuego
  • [Probablemente 10,000 otros]

Plataformas más nuevas para OLTP SQL

  • VoltDB: creado por Michael Stonebreaker, muy en memoria
  • SpliceMachine: utiliza hBase como motor de almacenamiento y se ejecuta en Hadoop YARN.

Seguro. Las empresas necesariamente deben estar “basadas en datos”. Los datos son a menudo una información útil, pero rara vez son completos: solo puede analizar lo que ha registrado, y la imagen holística casi nunca se registra. Por lo tanto, una empresa debe estar ‘informada por datos’.

More Interesting

¿Los operadores recortarán los subsidios de iPhone? Si lo hacen, ¿tendrá un gran impacto en la rentabilidad y el precio de las acciones de Apple?

¿Las pequeñas empresas necesitan / implementan la automatización de procesos comerciales?

¿Por qué Amazon compró Whole Foods y no otra cadena de supermercados?

¿Cuál es la mejor manera global de comenzar su propio negocio este año?

¿Qué tipos de empresas adoran Domo y para qué lo usan específicamente?

Soy dueño de una empresa de gestión de eventos en Dubai. Deseo impresionar a mis clientes con la última técnica. ¿Cuál es la mejor y más efectiva forma?

¿Cómo eliminan o venden los minoristas su temporada terminando el exceso de inventario?

¿Cuáles son las mejores herramientas analíticas para el análisis empresarial?

¿Qué es mejor, fusiones o adquisiciones?

¿Intel obtiene valor de los miles de millones de dólares que gasta en I + D en tecnología de transistores?

¿Cuál será el futuro de las compañías de telecomunicaciones ahora que WhatsApp ha comenzado una instalación de llamadas?

¿Cómo se hace que SaaS sea relevante para los socios de canal?

¿Por qué Richard Branson está vendiendo Virgin America?

¿Cómo hacer que sus empleados vuelvan a trabajar después de un descanso?

¿Cómo construyó Jack Dorsey Square Reader en un mes? Dijo que quería resolver el problema del pago, por lo que tardó un mes en construir el lector cuadrado. ¿Tenía que aprender software y hardware, o tenía equipos de ingenieros trabajando para él?