top of page
Foto do escritorBP Consultores

Dados sintéticos - Conheça e entenda!

Atualizado: 9 de mai. de 2022

Como já dito aqui, os dados são o novo petróleo na era atual da IA, mas nem todos conseguem usufruir deste valor. Porém, muitos usuários já estão produzindo seu próprio combustível, que é barato e eficaz: estes são os chamados dados sintéticos.

O que são dados sintéticos?


Dados sintéticos têm origem em simulações baseadas em algoritmos gerados como uma alternativa aos dados do mundo real. Visto desta forma forma, os dados sintéticos são criados em mundos digitais, em vez de coletados ou medidos no mundo real.

Pode ser artificial, mas os dados sintéticos refletem os dados do mundo real, matematicamente ou estatisticamente e pesquisas demonstram que podem ser tão bom ou até melhores para treinar um modelo de IA do que os dados baseados em objetos, eventos ou pessoas reais.

É por isso que os desenvolvedores de redes neurais profundas usam cada vez mais dados sintéticos para "treinar" seus modelos. Pesquisas já apontam que o uso de dados sintéticos será uma das técnicas mais promissoras e está em franca ascensão, especialmente na visão computacional que depende de dados não estruturados, como imagens e vídeos.


Como exemplo, um relatório publicado pelo Instituto Steklov de Matemática em São Petersburgo, Rússia, cita que “dados sintéticos são essenciais para um maior desenvolvimento do aprendizado profundo e muitos outros casos de uso em potencial ainda serão adotados.


Em um relatório de 2021 sobre dados sintéticos, o Gartner previu que até 2030 a maioria dos dados usados em IA serão gerados artificialmente por regras, modelos estatísticos, simulações ou outras técnicas. O fato é que você não poderá construir modelos de IA de alta qualidade e alto valor sem dados sintéticos, disse o relatório.


Dados aumentados e anônimos versus dados sintéticos


A maioria dos desenvolvedores já está familiarizada com a técnica de "aumento de dados", que envolve a adição de novos dados a um conjunto de dados do mundo real existente. Por exemplo, eles podem girar ou iluminar uma imagem existente para criar uma nova.

Dadas as preocupações e as políticas governamentais sobre privacidade, a remoção de informações pessoais de um conjunto de dados é uma prática cada vez mais comum. Isso é chamado de anonimização de dados e é especialmente popular para texto, um tipo de dado estruturado usado em setores como finanças e saúde.

Dados aumentados e anonimizados não são normalmente considerados dados sintéticos. No entanto, é possível criar dados sintéticos usando essas técnicas. Por exemplo, os desenvolvedores podem misturar duas imagens de carros do mundo real para criar uma nova imagem sintética com dois carros.


Por que os dados sintéticos são tão importantes?


Os desenvolvedores precisam de conjuntos de dados grandes e cuidadosamente rotulados para treinar redes neurais. O uso de dados com maior diversidade e quantidade geralmente contribuem para modelos de IA mais precisos. O problema é que reunir e rotular conjuntos de dados que podem conter de alguns milhares a dezenas de milhões de elementos é demorado e muitas vezes proibitivamente caro.


Insira dados sintéticos


Uma única imagem que poderia custar US$ 6 de um serviço de rotulagem pode ser gerada artificialmente por US$ 0,06, estima Paul Walborsky, cofundador de um dos primeiros serviços de dados sintéticos dedicados, o AI.Reverie.

A redução de custos é apenas o começo. Os dados sintéticos são fundamentais para lidar com questões de privacidade e reduzir o viés, garantindo que você tenha a diversidade de dados para representar o mundo real, acrescentou Walborsky.

Como os conjuntos de dados sintéticos são rotulados automaticamente e podem incluir deliberadamente casos bem específicos e raros, mas cruciais, às vezes podem ser melhores do que os dados do mundo real.


Qual é a história dos dados sintéticos?


Os dados sintéticos existem há décadas. Está em jogos de computador como simuladores de voo e simulações científicas de tudo, de átomos à galáxias. Donald B. Rubin, professor de estatística de Harvard, estava ajudando setores do governo dos Estados Unidos a resolver questões como uma contagem insuficiente, especialmente de pessoas pobres em um censo, quando teve uma ideia. Ele o descreveu em um artigo de 1993 frequentemente citado como o nascimento de dados sintéticos.


“Eu usei o termo dados sintéticos naquele artigo referindo-se a vários conjuntos de dados simulados”, explicou Rubin. “Cada um parece ter sido criado pelo mesmo processo que criou o conjunto de dados real, mas nenhum dos conjuntos de dados revela dados reais – isso tem uma tremenda vantagem ao estudar conjuntos de dados pessoais e confidenciais”, acrescentou.


Quem já utiliza dados sintéticos


Ford e BMW geram dados sintéticos


Bancos, montadoras, drones, fábricas, hospitais, varejistas, robôs e cientistas usam dados sintéticos hoje. Em um podcast recente, pesquisadores da Ford descreveram como eles combinam mecanismos de jogos e redes generativas de adversários (GANs) para criar dados sintéticos para treinamento de IA.


Para otimizar o processo de fabricação de carros, a BMW criou uma fábrica virtual usando o uma plataforma de simulação que permite que as empresas colaborem usando várias ferramentas. Os dados gerados pela BMW ajudam a ajustar como os trabalhadores de montagem e os robôs trabalham juntos para construir carros com eficiência.


Dados sintéticos no hospital, banco e loja


Os prestadores de serviços de saúde em áreas como imagens médicas usam dados sintéticos para treinar modelos de IA enquanto protegem a privacidade do paciente. Por exemplo, a startup Curai "gerou e treinou" um modelo de diagnóstico em 400.000 casos médicos simulados.


“Arquiteturas baseadas em GAN para imagens médicas, gerando dados sintéticos ou adaptando dados reais de outros domínios definirão o estado da arte nos próximos anos”, disse Nikolenko em sua pesquisa.


As GANs também estão ganhando força nas finanças. A American Express estudou maneiras de usar GANs para criar dados sintéticos, refinando seus modelos de IA que detectam fraudes.


No varejo, empresas como a startup Caper já usam simulações em 3D para tirar até cinco imagens de um produto e criar um conjunto de dados sintético de mil imagens. Esses conjuntos de dados permitem lojas inteligentes onde os clientes pegam o que precisam e vão sem esperar na fila do caixa.


Como os dados sintéticos são gerados e onde obtê-los?


“Existem um zilhão de técnicas por aí” para gerar dados sintéticos, disse State da NVIDIA. Por exemplo, os autoencoders variacionais compactam um conjunto de dados para torná-lo compacto e, em seguida, usam um decodificador para gerar um conjunto de dados sintético relacionado.


Embora as GANs estejam em ascensão, especialmente na pesquisa, as simulações continuam sendo uma opção popular por dois motivos. Eles suportam uma série de ferramentas para segmentar e classificar imagens estáticas e em movimento, gerando rótulos perfeitos. E eles podem gerar rapidamente versões de objetos e ambientes com diferentes cores, iluminação, materiais e poses. Esse último recurso fornece os dados sintéticos que são cruciais para a randomização de domínio, uma técnica cada vez mais usada para melhorar a precisão dos modelos de IA.


Onde posso obter dados sintéticos?


Embora o setor tenha apenas alguns anos, mais de 50 empresas já fornecem dados sintéticos. Cada um tem seu próprio modelo, geralmente focado em um mercado ou técnica vertical específica.


Por exemplo, algumas especializaram-se em usos na área da saúde. Outras oferecem ferramentas ou conjuntos de dados de código aberto, incluindo o Synthetic Data Vault com um conjunto de bibliotecas, projetos e tutoriais desenvolvidos no MIT.


Algumas empresas buscam trabalhar fornecendo uma ampla gama de dados sintéticos e serviços de rotulagem de dados:

  • AI.Reverie em Nova York oferece ambientes de simulação com sensores configuráveis que permitem aos usuários coletar seus próprios conjuntos de dados, e trabalhou em projetos de grande escala em áreas como agricultura, cidades inteligentes, segurança e manufatura;

  • A Sky Engine, com sede em Londres, trabalha em aplicativos de visão computacional em todos os mercados e pode ajudar os usuários a projetar seu próprio fluxo de trabalho de ciência de dados;

  • A Datagen, com sede em Israel, cria conjuntos de dados sintéticos a partir de simulações para uma ampla variedade de mercados, incluindo lojas inteligentes, robótica e interiores para carros e edifícios;

  • A CVEDIA inclui Airbus, Honeywell e Siemens entre os usuários de suas ferramentas personalizáveis para visão computacional com base em dados sintéticos.

Adaptado por BP Business Performance

Comments


bottom of page