Data science é chave para entender quantidade e diversidade de conteúdo no YouTube

data-science_youtube

Data science, ou ciência de dados, está cada vez mais na vanguarda da evolução da tecnologia de publicidade e marketing, e por uma boa razão. No mercado de vídeo, a ciência de dados é um elemento crucial para garantir que os objetivos da marca sejam atingidos em bilhões de sinais de dados. Neste artigo escrito originalmente para o site inglês ExchangeWire, Dr. Jon Morra, vice-presidente de data science da Zefr, detalha três componentes de data science responsáveis por entregar esses objetivos para a publicidade das marcas no YouTube.

Acreditamos que os anunciantes e as marcas devem ser capazes de veicular seus anúncios de vídeo em conteúdos relevantes para seu público. Esse é um desafio excepcionalmente difícil no YouTube, a plataforma de vídeo dominante no mundo e, ainda, a de crescimento mais rápido. Ao contrário de publishers tradicionais e das redes de TV, o crescimento explosivo do YouTube deve-se ao conteúdo ilimitado sem as restrições dos orçamentos de programação e dos executivos, tornando-o um conjunto de inventários de vídeo totalmente sem filtragem para os anunciantes.

Para ajudar nossos clientes a navegarem por essa infinidade de opções de conteúdo, a Zefr cria pacotes de conteúdo com precisão de vídeo, colocando os anunciantes em um ambiente de conteúdo contextualmente relevante. Para muitos clientes, essa abordagem de segmentação de conteúdo funciona muito bem. Para outros, um nível mais profundo de personalização é necessário para realmente atender aos objetivos da marca. É aí que entra a ciência de dados.

Há muito tempo sou um defensor da ciência de dados e, como empresa, nós a utilizamos para o crescimento de várias maneiras. À medida que nos concentramos em soluções de conteúdo personalizadas para todas as campanhas, nosso trabalho em data science está cada vez mais na vanguarda de nossos negócios. A ciência de dados tem a capacidade de gerenciar o enorme volume de sinais no YouTube e combinar esses sinais com os objetivos da marca, o que nos permite determinar o que é apropriado para cada cliente.

Entender a grande quantidade e a diversidade de conteúdo no YouTube com a ciência de dados abrange três componentes críticos:

1. Revisão Humana

A análise humana nos vídeos é a fonte mais importante de combustível para o mecanismo da ciência de dados. Os revisores humanos entendem as nuances de cada campanha de marca. Isso nos permite determinar que um grande cliente do segmento de beleza e luxo quer vídeos centrados em torno da aplicação de maquiagem diária, mas não vídeos sobre maquiagem de Halloween, que estão fora do escopo. Esse é o tipo de nuance que somente um ser humano com conhecimento de marca pode oferecer. Ao realizar revisões, os revisores devem tomar decisões de forma holística, concentrando-se em todo o conteúdo de vídeo e metadados combinados. Isso permite que a ciência de dados elimine padrões em uma variedade de campos e não apenas se concentre no título do vídeo, por exemplo. Quando as pessoas tomam decisões de forma holística, podemos encontrar padrões nos dados que são muito mais ricos do que conseguimos ao ler apenas os feeds. Até hoje, realizamos dezenas de milhares de avaliações com esse foco de marca e continuamos a reunir mais análises de vídeos todos os dias. Combinar isso com uma compreensão histórica profunda do conteúdo do YouTube permite recomendações de campanha altamente precisas.

Dr. Jon Morra, vice-presidente de data science da Zefr

Dr. Jon Morra, vice-presidente de data science da Zefr

2. Extração de informações

Depois de reunir milhares de análises de vídeos, o próximo elemento-chave do processo da ciência de dados é chamado de caracterização. Caracterização descreve a tarefa de pegar uma parte complexa de dados, no nosso caso um vídeo no YouTube, e dividi-la em seus componentes, de forma que cada uma seja diretamente compreensível por uma máquina. Cada vídeo consiste em várias informações, incluindo as várias miniaturas, o título, a descrição, o número de visualizações e a data de publicação, para citar algumas. Durante a caracterização, nossos cientistas de dados extraem essas informações de um vídeo e seus metadados e as organizam para que possam ser processadas por algoritmos de reconhecimento de padrões. Devido aos diferentes tipos de dados em um vídeo (imagem, áudio, texto, números), esse aprendizado é frequentemente chamado de aprendizado multimodal. Aproveitar o aprendizado multimodal nos permite encontrar padrões em muitos componentes diferentes de um vídeo e, portanto, é uma vantagem competitiva sobre soluções que apenas analisam um componente dos dados, como o texto.

3. Machine learning

Uma vez obtidas as análises humanas suficientes e um fluxo de recursos, estamos prontos para aplicar machine learning. Os cientistas de dados precisam ter acesso a algoritmos de última geração, incluindo florestas aleatórias, máquinas de gradient boosting e redes neurais profundas para encontrar padrões distintos nos dados. Usando uma variedade de plataformas de machine learning, os cientistas de dados podem otimizar sua escolha de algoritmo para melhor se adequarem aos dados disponíveis e ao resultado desejado pelo cliente. Além das já mencionadas, a Zefr usa uma ampla variedade de plataformas de machine learning (incluindo Vowpal Wabbit, H2O, MxNet, scikit-learn e LightGBM, para citar algumas) para garantir que tenhamos as melhores ferramentas para encontrar qualquer padrão presente em nossos dados. A qualquer momento, podemos categorizar três bilhões de vídeos. Devido a essa escala, precisamos de um ambiente experimental rápido para testar novas ideias (que incluem algoritmos, detecção de padrões etc.) e um ambiente de produção robusto para implantar experimentos bem-sucedidos.

Nossos revisores estão constantemente trabalhando e refinando o que é apropriado para cada cliente, criando um conjunto de dados fluidos. É crucial que incorporemos automaticamente novas revisões em tempo quase real em nossos modelos de aprendizado de máquina. Realizamos essas metas usando essas ferramentas de código aberto de alta qualidade e contribuímos para o ecossistema com um documento sobre nosso ambiente de produção, o Aloha.

As marcas têm os melhores resultados quando seus anúncios são colocados em ambientes de conteúdo relevantes no YouTube, e isso exige um processo de constante inovação em relação à ciência de dados. Esse esforço exige compromisso com o suporte contínuo, a partir de machine learning aprimorado e revisão humana escalonada, com base nas preferências de marca – algo que, para a Zefr, resultou em um conjunto de dados totalmente exclusivo.