Ferramentas de Machine Learning extraem insights de imagens de células

Em cada uma dessas imagens, as células foram tratadas com um ou mais corantes que coram características celulares específicas. Ao registrar as posições precisas de mais de mil desses recursos, o CellProfiler e outras ferramentas podem identificar os tipos de células individuais e os estados patológicos que podem estar exibindo.

A bióloga computacional Anne Carpenter cria um software que leva o poder do aprendizado de máquina a pesquisadores que buscam respostas em montanhas de imagens celulares.

Você não pode julgar um livro pela capa, ou então somos ensinados sobre as pessoas. Para as células, no entanto, isso é surpreendentemente menos verdadeiro. Usando métodos de aprendizado de máquina semelhantes aos que permitem que os computadores reconheçam rostos, os biólogos podem caracterizar células individuais em pilhas de imagens microscópicas. Medindo milhares de propriedades celulares visualizáveis – a distribuição de uma proteína marcada, a forma do núcleo, o número de mitocôndrias – os computadores podem minerar imagens de células em busca de padrões que identifiquem seu tipo de célula e características associadas a doenças. Este tipo de perfil baseado em imagem está acelerando a descoberta de drogas, melhorando a triagem de compostos que modificam desejavelmente as características das células.

Anne Carpenter, bióloga computacional e diretora sênior da Imaging Platform do Broad Institute do Massachusetts Institute of Technology e da Harvard University, é uma das pioneiras nessa abordagem de pesquisa. Ela desenvolveu o CellProfiler, um software de código aberto amplamente usado para medir fenótipos (conjuntos de características observáveis) de imagens de células. Ele foi citado em mais de 12.000 publicações desde seu lançamento em 2005.

Começou como um projeto paralelo durante seu treinamento como bióloga celular – o que Carpenter chama de “um pequeno pedaço de código para fazer uma coisa” de que ela precisava, que com o tempo cresceu e se tornou uma caixa de ferramentas que outros pesquisadores também acharam útil. “Quando cheguei ao final do meu pós-doutorado, descobri que preferia ajudar outras pessoas a realizar sua biologia bacana, fazendo as ferramentas, do que perseguir minhas próprias questões biológicas particulares”, disse ela. “É por isso que acabei ficando na ciência da computação.”

Membro da Academia de Ciências de Massachusetts, Carpenter recebeu um prêmio MIRA do National Institutes of Health, bem como um prêmio CAREER da National Science Foundation e um prêmio de Mid-Career para Mulheres em Biologia Celular de 2020 da American Society for Cell Biology, entre outros honras.

Carpenter falou com a Quanta Magazine sobre a alegria de traduzir biologia complicada em problemas computacionalmente solucionáveis, um esforço ambicioso para rastrear drogas para 200 doenças em um único poço e como pesquisadores humildes, curiosos e capazes de se comunicar com pessoas fora de sua disciplina podem criar uma cultura que aprimora a diversidade da biologia computacional e do aprendizado de máquina. A entrevista foi condensada e editada para maior clareza.

Carpenter e o co-líder de seu laboratório, Shantanu Singh, montaram uma equipe de pesquisa concentrando-se nas habilidades, curiosidade e capacidade de comunicação dos candidatos. “Sem tentar explicitamente, meu laboratório tem sido muito mais diversificado do que a média para um laboratório computacional em uma instituição de primeira linha”, disse ela.

Os cientistas da computação aplicaram suas habilidades em biologia, mas você escolheu o caminho menos comum da biologia para a engenharia de software. O que te motivou?

A transição nasceu da necessidade. Durante meu trabalho de doutorado em biologia celular na Universidade de Illinois, Urbana-Champaign, no início dos anos 2000, eu estava estudando como a cromatina, o complexo de DNA e proteínas em células eucarióticas, responde a sinais passados pelo receptor de estrogênio. Isso exigiu a captura de milhares de imagens microscópicas. Levaria meses para fazer manualmente. Decidi que seria ótimo se eu pudesse descobrir como automatizar o microscópio.

Não tive nenhum treinamento formal em ciência da computação. Levei cerca de um mês para descobrir como programar o microscópio, mas isso me economizou dois meses de tempo coletando imagens manualmente de uma forma realmente enfadonha.

Isso também criou um novo desafio: agora eu tinha uma enorme pilha de imagens para analisar. Passei mais meses copiando e colando códigos, descobrindo isso à medida que avançava.

Depois que comecei a brincar com a análise de imagens, no entanto, fiquei viciado. Era muito gratificante ser capaz de transformar biologia qualitativa confusa em números quantitativos precisos. Decidi buscar uma posição de pós-doutorado onde pudesse acelerar a biologia trabalhando em imagens de alto rendimento.

Em um ensaio recente, você descreve a biologia como “confusa”, mas também “um quebra-cabeça lógico”. Você pode falar um pouco mais sobre isso?

A biologia é bastante complicada. É realmente difícil descobrir qualquer coisa. Você esperaria que A ative B, que ativa C, e então C reprima D e assim por diante. Mas, na realidade, existem tantas relações estranhas e imprecisas – como feedbacks, múltiplas entradas, caminhos alternativos – acontecendo nas células.

No entanto, também acredito que a biologia é um quebra-cabeça lógico. O melhor que podemos fazer é tentar restringir o sistema de modelo que estamos testando. Então, podemos perturbá-lo, medir entradas e saídas e assim por diante. Podemos transformar a biologia em uma coisa menos complicada, impondo uma série de restrições sobre ela.

Durante seu pós-doutorado no Instituto Whitehead, você começou a trabalhar no que acabou se tornando o CellProfiler. Como você fez isso?

Eu percebi que precisava de um novo código sério para o meu projeto, então simplesmente mergulhei e aprendi um pouco de programação por tentativa e erro. Mas eu ainda precisava de ajuda para implementar alguns dos algoritmos clássicos de processamento de imagem. Eu li um artigo e disse: “Isso é exatamente o que eu preciso” – mas não tinha ideia de como transformar as equações do artigo em código.

Enviei um e-mail para a lista de alunos de graduação no Laboratório de Ciência da Computação e Inteligência Artificial do MIT e perguntei: “Alguém quer me ajudar? Eu tenho algum dinheiro para a bolsa. ” Thouis (Ray) Jones respondeu e, em um fim de semana, implementou os algoritmos principais. Eles foram bastante revolucionários e formaram o núcleo do motivo pelo qual CellProfiler se tornou tão bem-sucedido: ele disponibilizou esses algoritmos para os usuários finais.

Ao quantificar as diferenças fenotípicas em uma variedade de células em grande escala, o CellProfiler pode ser usado para “perfis baseados em imagem”. Como você teve essa ideia?

As pessoas vinham até nós e diziam: “Este é meu tipo de celular sofisticado. Aqui está meu anticorpo especial para rotular alguma proteína na célula. Você pode me dizer quanto da minha proteína está presente no núcleo? ” Claro, com a análise de imagens, poderíamos medir o que eles pedissem.

Mas olhando as imagens, eu diria: “Você também percebeu que a textura da proteína está mudando? Ou que está realmente mais na borda do núcleo do que no interior? E vemos a co-localização entre esta mancha e aquela mancha. E a forma geral da célula está mudando. Isso é biologicamente significativo? ” Havia tantas informações que os biólogos estavam deixando sobre a mesa!

Foi quando fui inspirado por um artigo da Science de 2004, onde pesquisadores realizaram perfis baseados em imagens em células tratadas com vários conjuntos de compostos. Eles mostraram que as células tratadas com compostos funcionalmente semelhantes tendiam a se parecer – os compostos tinham um impacto semelhante na célula. Foi eletrizante. Será que realmente imagens belas e humildes de células carregam informações quantitativas suficientes para nos dizer com qual medicamento as células foram tratadas? Esse jornal realmente lançou o campo de perfis baseados em imagens.

Quando a biologia encontra a ciência da computação

O que esse perfil envolve?

Medimos tudo o que podemos sobre a aparência da célula. Estamos construindo sobre a observação básica de que a estrutura e a aparência geral de uma célula refletem sua história – como ela foi tratada por seu ambiente. Se as imagens refletem o estado de uma célula, se pudéssemos quantificá-las e aumentá-las, procurar esses padrões seria realmente útil.

De onde você tirou daí?

Desenvolvemos a pintura celular para ajudar a reunir o máximo de informações possível em um único ensaio, em vez de confiar no que quer que o biólogo tenha decidido corar especificamente. O ensaio Cell Painting usa seis corantes fluorescentes para revelar oito componentes celulares ou organelas: o núcleo, o nucléolo, o RNA citoplasmático, o retículo endoplasmático, a mitocôndria, a membrana plasmática (célula), o complexo de Golgi e o citoesqueleto F-actina. É como uma lista de acertos das tinturas favoritas dos microscopistas porque mostram partes da célula que respondem a todos os tipos de estressores, como drogas ou mutações genéticas.

Ainda assim, eu não esperava que os ensaios baseados em imagens pudessem ser tão poderosos quanto a criação de perfis com base em transcritos de RNA ou proteínas. Em um único experimento, você pode medir milhares de transcrições ou centenas de proteínas. No entanto, temos apenas um punhado de manchas para uma determinada imagem. Eu pensei, quão longe você pode chegar?

Perdi muito sono nos primeiros dias, tentando descartar artefatos e aprimorar o método para ver se realmente valeria a pena. Mas então a próxima década ou mais trouxe descoberta após descoberta com base no uso de imagens em uma forma de criação de perfil.

Hoje, o aprendizado de máquina pode extrair muitas informações de imagens. Esses algoritmos faziam parte da versão original do CellProfiler, lançada em 2005?

De jeito nenhum. A função do CellProfiler era transformar imagens em números, permitindo que algoritmos clássicos de processamento de imagem medissem as propriedades das imagens. Foi só mais tarde que o aprendizado de máquina entrou em jogo de três maneiras.

Primeiro, o aprendizado de máquina pode encontrar as bordas das células e outras estruturas subcelulares. Algoritmos de aprendizado profundo agora são mais precisos, mas também são mais fáceis de serem aplicados pelos biólogos – é o melhor dos dois mundos.

Em segundo lugar, digamos que o CellProfiler extraia mil recursos por célula. Se você quiser saber se as células são metastáticas e se esse é um fenótipo que você pode reconhecer a olho nu, você pode usar o aprendizado de máquina supervisionado para ensinar ao computador como as células metastáticas e as células não metastáticas se parecem com base nesses recursos.

Uma terceira maneira é um desenvolvimento muito recente. Em vez de usar CellProfiler para identificar células e, em seguida, extrair seus recursos, você apenas dá a imagem inteira em toda a sua glória de pixels brutos para uma rede neural de aprendizado profundo, e ela extrairá todos os tipos de recursos que não necessariamente mapeiam muito bem para as ideias preconcebidas de um biólogo sobre características relevantes, como o tamanho da célula ou o que pode ficar vermelho no núcleo. Estamos descobrindo que esse tipo de extração de recursos é bastante poderoso.

Hoje, os pesquisadores biomédicos podem classificar com eficiência milhares de células em imagens microscópicas usando aprendizado de máquina para perfis baseados em imagens. A bióloga computacional Anne Carpenter é pioneira no desenvolvimento dessas ferramentas automatizadas.

Como você se preparou para o aprendizado de máquina, um campo que pode parecer muito estranho e assustador para os biólogos?

Se você tivesse dito a Anne, em idade universitária, “22 anos a partir de agora, você vai liderar um grupo de pesquisa focado em IA”, eu teria dito que você é louco. Não teria sido possível fazer essa mudança para o aprendizado de máquina sem ter feito amizade com especialistas em aprendizado de máquina – especialmente Jones.

Depois que ele e eu terminamos nosso treinamento no MIT, começamos um laboratório juntos no Broad Institute em 2007 e fizemos um grande brainstorm sobre como o aprendizado de máquina poderia ajudar os biólogos. O que permitiu que essas ideias se infiltrassem e se desenvolvessem foi nós dois pulando a cerca e nos familiarizando com a terminologia e o poder de ambos os lados, biologia e ciência da computação. É realmente uma parceria produtiva.

E não é mais apenas Jones. Meu grupo é cerca de 50-50 em termos de pessoas do lado da biologia versus o lado computacional.

Você teve muito sucesso na promoção do trabalho interdisciplinar.

Gosto de aproximar as pessoas. Meu laboratório recebe pessoas curiosas e com ideias diferentes – meio que o oposto da cultura tóxica do bro de tecnologia, onde é “nós somos importantes, fazemos nossas coisas e não fazemos perguntas, a menos que você queira ser ridicularizado.” Quando percebi que é difícil ser mulher na ciência da computação, percebi imediatamente que é muito mais difícil estar em uma minoria racial na ciência em geral.

Nós nos concentramos em saber se a pessoa tem habilidades e interesses que complementam o grupo, se ela tem curiosidade sobre áreas fora de seu domínio e se pode se comunicar bem com pessoas sem o mesmo treinamento. E sem tentar explicitamente, meu laboratório tem sido muito mais diversificado do que a média para um laboratório computacional em uma instituição de primeira linha. E a maioria dos laboratórios independentes lançados entre meus ex-alunos são liderados por mulheres ou pessoas de grupos minoritários.

Eu me pergunto quantas pessoas não pensam que são racistas ou sexistas, mas quando contratam elas ficam, tipo, “Esse cara fala como eu, ele entende nossa linguagem e jargão, ele entende nosso domínio”, sem falar que “ele é o tipo de pessoa com quem eu gostaria de tomar uma cerveja. ” Você pode ver como isso terminaria em um grupo homogêneo em dados demográficos, mas também em conhecimento e experiência de domínio.

Atualmente, seu grupo se concentra no desenvolvimento de ferramentas de criação de perfis baseadas em imagens para acelerar a descoberta de medicamentos. Por que você escolheu isso?

Várias linhas de evidência ajudaram a solidificar essa missão. Um veio de experimentos diretos em 2014 que mostraram que perfis baseados em imagens podem ser tão poderosos quanto perfis transcricionais.

Outro foi descrito em nosso artigo eLife de 2017, onde superexpressamos algumas centenas de genes em células e descobrimos que metade deles teve um impacto na morfologia celular. Ao agrupar os genes com base nos dados de imagem, você pode ver em uma bela análise de agrupamento o que os biólogos levaram décadas para juntar sobre as várias vias de sinalização: aqui, todos os genes relacionados à via RAS envolvida no câncer; ali, os genes da via do hipopótamo que regula o crescimento do tecido e assim por diante.

Olhar para essa visualização e perceber que reconstituímos muito conhecimento biológico para este conjunto de genes em um único experimento – talvez um trabalho de algumas semanas – foi realmente notável para mim. Isso nos fez decidir investir mais tempo e energia no desenvolvimento dessa trajetória de pesquisa.

Em um artigo de 2018 Cell Chemical Biology, os pesquisadores da Janssen Pharmaceutica desenterraram imagens de experimentos antigos – onde mediram apenas a coisa com a qual se preocupavam – e descobriram que muitas vezes havia informações suficientes nessas imagens para prever os resultados de outros ensaios a empresa conduziu. Cerca de 37% dos resultados do ensaio podem ser previstos por aprendizado de máquina usando imagens que eles tinham por aí. Isso realmente chamou a atenção das grandes empresas farmacêuticas! Substituir um ensaio de drogas em grande escala por uma consulta computacional economiza milhões de dólares a cada vez.

Em um consórcio que ajudei a lançar em 2019, uma dúzia de empresas e parceiros sem fins lucrativos estão trabalhando para criar um enorme conjunto de dados Cell Painting de células tratadas com mais de 120.000 compostos e sujeitas a 20.000 perturbações genéticas. O objetivo é acelerar a descoberta de medicamentos determinando o mecanismo de ação de medicamentos potenciais antes que eles entrem em testes clínicos.

Quais são alguns exemplos de como o perfil baseado em imagens pode ajudar a encontrar novos medicamentos?

A Recursion Pharmaceuticals é a empresa mais avançada no uso de perfis baseados em imagens, com quatro compostos de drogas entrando em testes clínicos. Eu sirvo no conselho consultivo científico deles. Sua abordagem básica é dizer, vamos perturbar um gene conhecido por causar uma doença humana e ver o que acontece com as células como resultado. E se as células mudarem de alguma forma mensurável, podemos encontrar um medicamento que faça com que as células com aparência doentia voltem a parecer saudáveis?

Eles deram um passo adiante. Sem nem mesmo testar as drogas nas células, eles podem prever computacionalmente quais fenótipos de doenças podem ser mitigados por quais compostos, com base em testes anteriores que mostram o impacto de um composto nas células. Sei que essa estratégia funciona, porque meu laboratório está trabalhando na mesma coisa em um projeto que acabamos de pré-imprimir, embora usando técnicas computacionais relativamente primitivas.

Tenho colaborado com Paul Blainey no MIT e J.T. Neal, do Broad Institute, nesta técnica de código de barras genético que nos permitiria misturar um monte de perturbações genéticas nas células e então usar o código de barras para descobrir qual célula recebeu qual reagente genético. Isso nos permite misturar 200 proteínas humanas normais e 200 mutadas em um único poço que podemos tratar com um medicamento. Para cada poço, estamos testando se este medicamento é útil para qualquer uma dessas 200 doenças. Portanto, é 200 vezes mais barato do que fazer 200 exames de drogas individuais.

Conseguimos financiamento interno para fazer um piloto com 80 medicamentos e estamos buscando financiamento para testar cerca de 6.800 medicamentos. Se fizermos isso bem, pode ser que, daqui a cerca de um ano, o resultado desse experimento sugira drogas reais para esses distúrbios que os médicos poderiam prescrever depois de ler nosso artigo.

O que o empolga sobre o futuro da criação de perfis com base em imagens na pesquisa biomédica – e talvez mais amplamente, sobre o futuro da IA neste reino?

Já estamos no ponto em que a implementação de métodos de aprendizado de máquina existentes melhora o processo de descoberta de medicamentos. Mas posso ver um futuro, além das capacidades atuais de criação de perfis com base em imagens, onde você começa a ganhar exponencialmente, aos trancos e barrancos.

Todos os algoritmos de aprendizado de máquina que estamos usando foram desenvolvidos para mídias sociais para identificar rostos e para instituições financeiras para identificar transações incomuns – esse tipo de coisa. Acho que colocar um pouco mais de atenção em domínios biológicos e imagens celulares especificamente poderia realmente fazer as coisas avançarem mais rápido.


Publicado em 07/11/2021 13h13

Artigo original:

Estudo original: