Afinal de contas, o que é aprendizado de máquina?

Você já se perguntou o que é aprendizado de máquina?

Uma coisa que me chamou a atenção durante minha jornada dentro da ciência de dados é que nem sempre fica claro o conceito por trás de um aprendizado de máquina. Não me entenda mal, eu acho que temos muito material de altíssima qualidade falando sobre os diferentes algoritmos de machine learning, mas, acredito que, assim como o que acontece com a estatística, é importante ter o entendimento de com o que é que estamos trabalhando. Essas fundações de conceito ajudam a avaliar melhor o que estamos fazendo e nos ajuda a ter um pensamento analítico mais fundamentado.

O aprendizado de máquina é um estimador da função matemática que representa um modelo preditivo

Antes de entrar no que de fato é um aprendizado de máquina, vamos entender o que é um modelo preditivo. Se trata de uma função matemática que, aplicada a uma massa de dados, consegue identificar padrões ocultos e prever o que poderá ocorrer. O aprendizado de máquina é justamente isso, um estimador, eu não sei exatamente qual é a função matemática que preciso utilizar, portanto uso meu dataset para conseguir aprender a aproximação da função que melhor representa a relação entre os atributos de entrada — nossas variáveis preditoras com a variável de saída — também conhecida como target.

O aprendizado de máquina trabalha no espaço de hipótese das possíveis funções que o algoritmo pode encontrar para tentar predizer o comportamento dos dados.

É por isso que se o modelo não consegue generalizar corretamente a previsão, ele pode estar com over ou underfitting. Por exemplo, ele pode apenas decorar os dados em vez de aprender os padrões existentes nos dados, passando por cada uma das saídas — neste caso, trata-se de overfitting. Podemos também, em outro exemplo, ter um algoritmo que não entende os padrões dos dados, sugerindo uma predição totalmente fora do que os padrões dos dados indicariam — neste caso, trata-se de underfitting.

A fim de evitar esse tipo de problema, o aprendizado de máquina depende de um componente essencial que não cabe dentro da inteligência artificial — ainda: o ser humano. Conseguimos trabalhar a generalização através de uma representação dos dados treinados, que nos dão um resultado que precisa ser avaliado e que, independente de como se comporta, cabe um trabalho de otimização. É importante ressaltar que, por mais otimizado o seu algoritmo ou sua combinação de algoritmos seja, não é possível atingir uma precisão perfeita o tempo todo. Portanto, a definição dos parâmetros internos das funções ou dos algoritmos de machine learning dependem do cientista de dados.

Espero que este breve texto tenha ajudado a clarear alguns conceitos e te incentivado a estudar mais.

ela/dela | data analysis | entusiasta de data science e machine learning

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store