Você mal consegue passar uma hora hoje em dia sem ler sobre IA generativa. Embora ainda estejamos na fase embrionária do que alguns dublaram a “máquina a vapor” da quarta revolução industrial, não há dúvidas de que a “GenAI” está se preparando para transformar quase todos os setores – de finanças e assistência médica para lei e além.
Legal aplicações voltadas para o usuário poderá atrair a maior parte do alarde, mas as empresas que impulsionam esta revolução são actualmente as que mais beneficiam. Ainda este mês, a fabricante de chips Nvidia tornou-se brevemente a empresa mais valiosa do mundo, um rolo compressor de US$ 3,3 trilhões impulsionado substancialmente pela demanda por computação de IA poder.
Mas, além das GPUs (unidades de processamento gráfico), as empresas também precisam de infraestrutura para gerenciar o fluxo de dados – para armazenar, processar, treinar, analisar e, em última análise, desbloquear todo o potencial da IA.
Uma empresa que busca capitalizar isso é Uma casauma startup californiana de três anos fundada por Vinoth Chandarque criou o código aberto Apache Hudi projeto enquanto atuava como arquiteto de dados na Uber. Hudi traz os benefícios de armazéns de dados para lagos de dadoscriando o que ficou conhecido como “data lakehouse”, permitindo suporte para ações como indexação e realização de consultas em tempo real em grandes conjuntos de dados, sejam eles estruturados, não estruturados ou semiestruturados.
Por exemplo, uma empresa de comércio eletrônico que coleta continuamente dados de clientes, abrangendo pedidos, feedback e interações digitais relacionadas, precisará de um sistema para ingerir todos esses dados e garantir que sejam mantidos atualizados, o que pode ajudá-la a recomendar produtos com base nas necessidades do usuário. atividade. O Hudi permite que dados sejam ingeridos de diversas fontes com latência mínima, com suporte para exclusão, atualização e inserção (“upsert”), o que é vital para esses casos de uso de dados em tempo real.
A Onehouse se baseia nisso com um data lakehouse totalmente gerenciado que ajuda as empresas a implementar o Hudi. Ou, como Chandar coloca, ele “impulsiona a ingestão e a padronização de dados em formatos de dados abertos” que podem ser usados com quase todas as principais ferramentas nos ecossistemas de ciência de dados, IA e aprendizado de máquina.
“Onehouse abstrai a construção de infraestrutura de dados de baixo nível, ajudando as empresas de IA a se concentrarem em seus modelos”, disse Chandar ao TechCrunch.
Hoje, a Onehouse anunciou que arrecadou US$ 35 milhões em uma rodada de financiamento da Série B ao lançar dois novos produtos no mercado para melhorar o desempenho do Hudi e reduzir os custos de armazenamento e processamento em nuvem.
Na casa do lago (dados)
Chandar criou o Hudi como um projeto interno dentro do Uber em 2016, e desde então a empresa de transporte por aplicativo doou o projeto para a Fundação Apache em 2019, Hudi foi adotado pelo gosta da AmazonDisney e Wal-Mart.
Chandar deixou a Uber em 2019 e, após uma breve passagem pela Confluent, fundou a Onehouse. A startup surgiu do stealth em 2022 com US$ 8 milhões no financiamento inicial, e logo depois com um Rodada da Série A de US$ 25 milhões. Ambas as rodadas foram co-lideradas pela Greylock Partners e Addition.
Essas empresas de capital de risco uniram forças novamente para o acompanhamento da Série B, embora desta vez, Empreendimentos artesanais de David Sacks está liderando a rodada.
“O data lakehouse está rapidamente se tornando a arquitetura padrão para organizações que desejam centralizar seus dados para potencializar novos serviços como análise em tempo real, ML preditivo e GenAI”, disse o parceiro da Craft Ventures, Michael Robinson, em um comunicado.
Para fins de contexto, data warehouses e data lakes são semelhantes na forma como servem como repositório central para agrupamento de dados. Mas eles fazem isso de maneiras diferentes: um data warehouse é ideal para processar e consultar dados históricos e estruturados, enquanto os data lakes surgiram como uma alternativa mais flexível para armazenar grandes quantidades de dados brutos em seu formato original, com suporte para vários tipos de dados. dados e consultas de alto desempenho.
Isso torna os data lakes ideais para cargas de trabalho de IA e aprendizado de máquina, pois é mais barato armazenar dados brutos pré-transformados e, ao mesmo tempo, oferece suporte para consultas mais complexas porque os dados podem ser armazenados em sua forma original.
No entanto, a contrapartida é todo um novo conjunto de complexidades de gestão de dados, que corre o risco de piorar a qualidade dos dados, dada a vasta gama de tipos e formatos de dados. Em parte, isso é o que Hudi pretende resolver, trazendo alguns recursos importantes de data warehouses para data lakes, como Transações ACID para apoiar a integridade e confiabilidade dos dados, bem como melhorar o gerenciamento de metadados para conjuntos de dados mais diversos.
Por ser um projeto de código aberto, qualquer empresa pode implantar o Hudi. Uma rápida olhada nos logotipos no site da Onehouse revela alguns usuários impressionantes: AWS, Google, Tencent, Disney, Walmart, Bytedance, Uber e Huawei, para citar alguns. Mas o fato de essas grandes empresas aproveitarem o Hudi internamente é indicativo do esforço e dos recursos necessários para construí-lo como parte de uma configuração de data lakehouse local.
“Embora o Hudi forneça funcionalidades avançadas para ingerir, gerenciar e transformar dados, as empresas ainda precisam integrar cerca de meia dúzia de ferramentas de código aberto para atingir seus objetivos de um data lakehouse com qualidade de produção”, disse Chandar.
É por isso que a Onehouse oferece uma plataforma nativa da nuvem totalmente gerenciada que ingere, transforma e otimiza os dados em uma fração do tempo.
“Os usuários podem colocar um data lakehouse aberto em funcionamento em menos de uma hora, com ampla interoperabilidade com todos os principais serviços, armazéns e mecanismos de data lake nativos da nuvem”, disse Chandar.
A empresa foi tímida ao nomear seus clientes comerciais, além do casal listado na estudos de casocomo Unicórnio indiano Apna.
“Como uma empresa jovem, não compartilhamos publicamente toda a lista de clientes comerciais da Onehouse neste momento”, disse Chandar.
Com novos US$ 35 milhões no banco, a Onehouse agora está expandindo sua plataforma com uma ferramenta gratuita chamada Onehouse LakeView, que fornece observabilidade da funcionalidade do lakehouse para obter insights sobre estatísticas de tabelas, tendências, tamanhos de arquivos, histórico de linha do tempo e muito mais. Isso se baseia nas métricas de observabilidade existentes fornecidas pelo projeto principal do Hudi, fornecendo contexto extra sobre as cargas de trabalho.
“Sem o LakeView, os usuários precisam gastar muito tempo interpretando métricas e entendendo profundamente toda a pilha para causar problemas de desempenho ou ineficiências na configuração do pipeline”, disse Chandar. “O LakeView automatiza isso e fornece alertas por e-mail sobre tendências boas ou ruins, sinalizando necessidades de gerenciamento de dados para melhorar o desempenho da consulta.”
Além disso, a Onehouse também está lançando um novo produto chamado Table Optimizer, um serviço de nuvem gerenciado que otimiza tabelas existentes para agilizar a ingestão e transformação de dados.
‘Aberto e interoperável’
Não há como ignorar a miríade de outros grandes nomes do setor. O gosta de Databricks e Snowflake estão cada vez mais abraçando o paradigma da casa do lago: No início deste mês, A Databricks supostamente distribuiu US$ 1 bilhão para adquirir uma empresa chamada Tabular, com o objetivo de criando um padrão comum de lakehouse.
A Onehouse certamente entrou em um espaço quente, mas espera que seu foco em um sistema “aberto e interoperável” que torne mais fácil evitar o aprisionamento do fornecedor a ajude a resistir ao teste do tempo. É essencialmente promissor a capacidade de tornar uma única cópia de dados universalmente acessível de praticamente qualquer lugar, incluindo Databricks, Snowflake, Cloudera e serviços nativos AWS, sem ter que construir silos de dados separados em cada um.
Tal como acontece com a Nvidia no domínio da GPU, não há como ignorar as oportunidades que aguardam qualquer empresa no espaço de gerenciamento de dados. Os dados são a pedra angular do desenvolvimento da IA, e não ter dados suficientes de boa qualidade é uma das principais razões por que muitos projetos de IA falham. Mas mesmo quando os dados estão presentes em grandes volumes, as empresas ainda precisam da infraestrutura para ingeri-los, transformá-los e padronizá-los para torná-los úteis. Isso é um bom presságio para Onehouse e sua turma.
“Do lado do gerenciamento e processamento de dados, acredito que dados de qualidade fornecidos por uma base sólida de infraestrutura de dados desempenharão um papel crucial na integração desses projetos de IA em casos de uso de produção no mundo real – para evitar a entrada de lixo/lixo- resolver problemas de dados”, disse Chandar. “Estamos começando a ver essa demanda entre os usuários de data lakehouse, à medida que eles lutam para dimensionar o processamento de dados e as necessidades de consulta para construir esses aplicativos de IA mais recentes em dados em escala empresarial.”