Icono del sitio La Gradona

DataCebo lanza la versión empresarial de la popular biblioteca de datos sintéticos de código abierto

DataCebo lanza la versión empresarial de la popular biblioteca de datos sintéticos de código abierto

Créditos de imagen: Ignatiev/Getty Images

Mucho antes de que la mayoría de nosotros pensáramos en grandes modelos de lenguaje, DatosCebo Los cofundadores Kalyan Veeramachaneni y Neha Patki estaban creando una biblioteca de código abierto llamada Synthetic Data Vault o SDV para abreviar. Los orígenes de la empresa se remontan a 2018, cuando ambos trabajaban en el MIT Data Lab. Creían que más allá de generar texto, imágenes y código, también se podían crear datos con IA generativa.

a

Para las empresas que necesitan utilizar datos comerciales de calidad en modelos de lenguaje grandes (y para otros fines), pero no necesariamente pueden usar información personal para hacerlo, esta es una idea intrigante. Hoy, la compañía surgió después de tomar algunos años para construir una versión empresarial comercial de SDV junto con $8,5 millones en financiación inicial.

Esta capacidad de crear datos sintéticos a partir de bases de datos relacionales y tabulares es lo que diferencia a la empresa de otras herramientas de creación de IA generativa, afirma el director ejecutivo Veeramachaneni. “Nuestro software permite a nuestros clientes crear un modelo de IA generativo personalizado en el sitio. Y luego pueden usar esos datos sintéticos para una variedad de casos de uso”, dijo a TechCrunch. Esto podría funcionar en atención médica, servicios financieros o en cualquier lugar donde fuera imperativo enmascarar datos confidenciales para realizar pruebas y crear modelos.

Dice que tradicionalmente las empresas han tenido que crear datos sintéticos manualmente, un proceso muy tedioso, difícil de escalar y propenso a errores. Al poner a funcionar la IA generativa, puede simplemente describir el tipo de datos que necesita, el software examina las características del conjunto de datos real y luego crea un conjunto de datos falso de calidad para realizar pruebas sin exponer ninguna información confidencial.

Los fundadores comenzaron creando una herramienta de código abierto, que resultó extremadamente popular y les ayudó a probar los diversos elementos esenciales del software. «Hemos tenido más de un millón de descargas y mucha gente está activa en nuestra comunidad», dijo Patki, vicepresidente de producto. De hecho, tienen un canal de Slack en el que participan más de mil personas.

“Y a través de eso, creo que primero obtenemos mucha validación de nuestros algoritmos centrales. Estamos seguros de que funciona y, si hay un error o algo así, nuestros usuarios públicos de código abierto lo encuentran inmediatamente y podemos solucionar cualquier problema”, afirmó.

La gran diferencia entre la versión de código abierto y la versión comercial es la escala. La versión empresarial puede gestionar hasta cien tablas, mientras que la versión de código abierto está diseñada para gestionar sólo unas pocas tablas. Hasta ahora, los clientes han creado modelos basados ​​en entre 20 y 30+ tablas.

La empresa cuenta actualmente con 11 empleados y planea contratar más durante el próximo año hasta llegar a unos 20, dependiendo del crecimiento de la empresa.

La financiación inicial de 8,5 millones de dólares de la startup fue dirigida por Link Ventures y Zetta Venture Partners con la participación de Uncorrated Ventures.

Salir de la versión móvil