Exclusiva

Como fazer a coleta de dados para aprendizado de máquina?

O aprendizado de máquina ou machine learning, em inglês, como é mais conhecido, é uma tecnologia na qual algoritmos, a partir da análise de um grande volume de dados, podem indicar soluções para problemas complexos ou simples. A depender da maturidade da tecnologia, é possível, inclusive, fazer automatizações por meio do aprendizado de máquinas. 

Dentro das indústrias e do conceito 4.0, isso significa maior otimização de tempo e recursos. Hernane Pereira, Head de Data Science da BIX Tecnologia, ressalta que “o aprendizado de máquina resolve um problema que não é possível ser solucionado com a simples criação de um sistema por envolver muitos dados e variáveis. Então, essas informações são usadas para treinar um algoritmo e ele encontrar soluções e fazer determinada tarefa. Nas indústrias, a tecnologia pode usar dados nativos das próprias máquinas, dados de fornecedores ou ainda de sistemas terceiros para resolver problemas complexos”.

O grande diferencial do machine learning é que, de forma otimizada, ele consegue criar soluções personalizadas para determinada indústria ou setor. Sendo assim, o tempo para a tecnologia trazer retornos é minimizado. 

Porém, o aprendizado de máquinas só funciona se alimentando de dados consistentes e com volume suficiente para gerar padrões. Um dos maiores desafios atuais das indústrias é como construir a infraestrutura necessária para gerar, processar e armazenar esses dados. 

Conversamos com Hernane Pereira para criar um passo a passo de como coletar os dados para aplicar o machine learning dentro das indústrias. Confira: 

De onde vem os dados?

O especialista explica que a fonte de dados para alimentar um sistema de machine learning depende muito da maturidade tecnológica da empresa. Existem três categorias principais que originam essas informações, são elas:

  • Dados do processo industrial: Essas informações são geradas por equipamentos, como sensores ou câmeras, durante a linha de produção. A temperatura que atinge uma máquina é um exemplo, ou ainda a quantidade de matéria-prima utilizada, a umidade dentro do galpão e assim por diante. 
  • Dados de sistemas das indústrias: Essas informações são geradas pelos softwares de análises utilizados pela empresa. O sistema de pedido de compras é um exemplo, assim como softwares de planejamento de produção do próximo mês, relatórios de produtividade, entre outros. Esses dados já foram processados por alguma tecnologia e trazem mais inteligência à operação.
  • Dados imputados pelo usuário: Essas são as informações que os próprios colaboradores da indústria coletam e armazenam em planilhas ou sistemas de organização. É o primeiro nível para começar a armazenar e interpretar os dados. 

Dependendo da maturidade do negócio e das tecnologias disponíveis, essas fontes de dados podem ser únicas ou combinadas. Em uma fábrica que está dando os primeiros passos em direção à evolução tecnológica, por exemplo, é comum que os dados imputados pelo usuário sejam mais comuns.


Continua depois da publicidade


Já as mais maduras digitalmente, geralmente contam com dados do processo industrial combinados com as informações dos sistemas para gerar insights e achar soluções.

Como os dados são processados?

Esses dados todos podem ser armazenados e processados em equipamentos próprios das indústrias por meio de servidores locais. Mas, para ganhar escala, Hernane explica que as fábricas podem adotar serviços de cloud, como da Google, Microsoft e Amazon. Assim é possível redimensionar o tamanho da armazenagem quando necessário de forma mais rápida e econômica. 

Mas não adianta sair investindo em infraestrutura. Hernane alerta que as empresas precisam entender qual o grau da sua maturidade digital e ir, aos poucos, construindo as soluções. 

“É recomendado entender quais são as principais dores que a indústria tem hoje que são possíveis de resolver com machine learning. A partir dessas dores, é possível construir paulatinamente a infraestrutura. A cada novo projeto a empresa evolui a infraestrutura de dados, tecnologias para coleta de informações e entendimento dos profissionais envolvidos”, comenta o profissional.

A infraestrutura pode, ainda, ser mista. Assim, as empresas usam armazenagens mais tradicionais para dados menos utilizados e cloud ou edge computing para informações de uso recorrente ou que abastecem o aprendizado de máquina em tempo real. 

Quais as aplicações práticas dos dados usados para aprendizagem de máquina?

Com os dados captados, um lugar seguro para armazená-lo e sistemas capazes de fazer processamentos é possível começar a colocar o aprendizado de máquina em prática. Hernane traz dois exemplos que mostram o caminho dos dados em todo esse processo. 

O primeiro é o de monitoramento do uso de EPIs pelos colaboradores das fábricas. As câmeras podem captar as imagens, que são uma forma de dados, e enviar para sistemas de armazenagem. A tecnologia treinada analisa essas filmagens e consegue reconhecer quando o colaborador está utilizando EPI ou não, transmitindo a informação de forma automática e em tempo real para o gestor ou para o colaborador. 

O segundo diz respeito à manutenção preventiva. Sensores acoplados nas máquinas transmitem dados sobre suas características para um sistema, que contém também o padrão ideal para cada item analisado. Assim, é possível prever quando um equipamento  precisa de manutenção ou está próximo de precisar. Hernane ressalta que isso é importante porque ajuda a planejar a parada, minimizando ao máximo os impactos na produção.

O controle de qualidade também é um setor que pode se aproveitar desse processo. “Pode-se utilizar tanto câmeras na linha de produção, quanto de sensores para poder fazer vistoria em tempo real. Vamos dizer que você produz um produto X e que precisa visualizar ainda no processo produtivo se a mercadoria tem algum problema. É possível  colocar uma câmera e a partir dela rodar um algoritmo que vai ver esse vídeo. A partir daí o modelo matemático por trás vai dizer se aquele produto está com defeito ou não em tempo real”, explica.

Por onde começar?

Ter toda essa informação é o primeiro passo para quem quer desenhar um processo de captação de dados para aprendizado de máquina, mas, para Hernane, o principal é ter uma visão do todo.

O profissional ressalta que os gestores responsáveis por essa área precisam “ver a cadeia como um todo, estarem sempre preocupados em como o dado é produzido na ponta. Ou seja, se esses dados estão sendo coletados da forma correta, se não tem nenhum ruído, se os equipamentos utilizados para coleta estão funcionando da forma esperada, se quando saem da indústria chegam corretamente nos bancos de dados, se os dados fazem sentido, se estão validados e sem erro”. 

O gestor, portanto, precisa ter um olhar atento da geração do dado até a solução proposta pelo machine learning para ter certeza que nenhum gap no caminho vai instruir a tecnologia de forma equivocada - o que pode gerar grandes prejuízos. 

Quais as melhores práticas?

Parece e é muita responsabilidade, por isso, Hernane resume as melhores práticas para coleta de dados a fim de munir sistemas de aprendizado de máquina. 

“De partida, é preciso olhar para a qualidade e a confiabilidade do dado. Por isso, o ideal é começar entendendo como a informação será gerada e garantindo que esses sistemas não tenham falhas para gerar dados confiáveis”, explica. 

Mas antes mesmo de desenhar esse sistema e pensar em monitorá-lo, é preciso entender o objetivo do dado. “Antes das empresas, principalmente as pequenas, saírem captando informações, elas têm que se perguntar: o que dói hoje? O que é problema hoje que é essencial de ser resolvido?. Minha dica é começar por problemas que talvez não vão ter um grande retorno imediato, mas que são menos complexos de serem resolvidos. Isso faz com que, à medida que são desenvolvidas soluções, a evolução da maturidade digital se torne mais assertiva”, aconselha. 

Portanto, o passo a passo ideal para a coleta de dados é:

  • Tenha um objetivo, um problema a ser resolvido.
  • Comece por problemas pequenos e de baixa complexidade;
  • Desenhe uma estrutura de captação que esteja alinhada a sua maturidade digital;
  • Analise se os dados são confiáveis;
  • Crie a infraestrutura necessária para armazenamento e processamento dos dados;
  • Monitore todo o sistema de geração, armazenamento e análise de informações;
  • Crie algoritmos que podem gerar soluções práticas e otimizadas por meio dos dados. 

Hernane finaliza explicando que o próximo passo da evolução da coleta de dados para machine learning é, além de gerar soluções, criar um modelo preditivo que possa prever o futuro do negócio ou da produção ou ainda das próprias máquinas. Depois disso, destaca o profissional, é possível fazer com que as máquinas tomem as melhores decisões a partir das previsões. Nesse nível, as empresas conseguem explorar o melhor do aprendizado de máquina e, consequentemente, das informações captadas.