Projeto de Pesquisa

Análise do conteúdo textual de mensagens provenientes de redes sociais sobre temas de saúde baseado no inter-relacionamento de doenças, medicamentos e sintomas

Tese de Doutorado

A era da informação favoreceu a disponibilização de uma enorme quantidade de dados na web que se tornaram naturalmente uma fonte rica de informação e de evidências sobre assuntos variados, inclusive sobre saúde. Analisar e interpretar dados disponíveis na web seja em redes sociais, blogs, ou sites editoriais estabelecendo relações, identificando informação útil e relevante é um desafio computacional atual e significativo.

O objetivo deste estudo é elaborar um arcabouço metodológico para ações de monitoramento de assuntos de saúde provenientes de redes sociais e contribuir para a produção científica de estudos de vigilância em saúde.

Trata-se de um estudo exploratório-descritivo que faz uso de técnicas de mineração de dados para investigar novos conhecimentos relacionados à saúde em textos publicados em redes sociais.

Dados da análise

Twitter

Os dados utilizados nesta pesquisa foram mensagens publicadas no Twitter no território brasileiro em 2017.

Resultados das Análises

Nuvem de palavras das Hashtags

Nuvem de palavras das 100 hashtags mais frequentes no corpus selecionado. O tamanho da fonte das palavras é proporcional à frequência da mesma correspondente no conjunto de dados. Clique aqui para visualizar a nuvem de palavras

Nuvem de palavras do corpus

Nuvem de palavras que mostra o grau de frequência das palavras das mensagens relacionados a saúde do corpus. Clique aqui para visualizar a nuvem de palavras

Rede direcionada de palavras

Rede direcionada de palavras gerada do corpus dos tweets selecionados sobre saúde com 29.015 nós e 101.502 ligações. Esse grafo apresenta também nós com loops, ou seja, possuem palavras ligadas a elas mesmas, e o tamanho do nó representa o seu grau.

Subgrafo induzido do nó que representa a palavra "Vitamina”

Subgrafo induzido obtido por um subconjunto de vértices e suas respectivas arestas baseado nos nós vizinhos (adjacentes) do nó que representa a palavra "Vitamina” (ao centro) com 592 nós e 5.557 ligações. Clique aqui para visualizar o grafo interarivo

Subgrafo induzido do nó que representa a palavra "Dor”

Subgrafo induzido obtido por um subconjunto de vértices e suas respectivas arestas baseado nos nós vizinhos (adjacentes) do nó que representa a palavra "Dor” (ao centro) com 200 nós e 2.573 ligações. Clique aqui para visualizar o grafo interativo

Subgrafo induzido do nó que representa a palavra "Febre”

Subgrafo induzido obtido por um subconjunto de vértices e suas respectivas arestas baseado nos nós vizinhos (adjacentes) do nó que representa a palavra "Febre” (ao centro) com 558 nós e 9.171 ligações. Clique aqui para visualizar o grafo interativo

Subgrafo induzido do nó que representa a palavra "Gripe"

Subgrafo induzido obtido por um subconjunto de vértices e suas respectivas arestas baseado nos nós vizinhos (adjacentes) do nó que representa a palavra "Gripe"( ao centro) com 797 nós e 12.063 ligações. Clique aqui para visualizar o grafo interativo

Grafo ponderado

Grafo ponderado que possui ligações com peso maior ou igual a 20 contendo 452 nós e 501 ligações. Quanto mais grossa a aresta, maior a quantidade de ligações que aquelas palavras possuem. O grau do nó também é representado pelo tamanho do nó. Clique aqui para visualizar o grafo interativo

Modelo de Tópicos

Interface gerada pelo LDAvis apresentando uma visão global dos tópicos e seus relacionamentos (à esquerda), e o gráfico barras vertical com 30 termos mais salientes nos tópicos (à direita). Clique aqui para visualizar a versão interativa


Gabriela Araujo

Doutoranda· Gestão e Informática em Saúde · UNIFESP · gabriela.denise@unifesp.br

Atualmente é aluna de doutorado no Programa de Pós-graduação em Gestão e Informática em Saúde (UNIFESP), é Mestre em Ciências pelo mesmo programa e possui graduação (Bacharel) em Informática Biomédica pela Universidade de São Paulo (USP-RP). Desenvolve pesquisa na área de Informática em Saúde e mineração de dados. Possui experiência nas áreas: sistemas de informação em saúde; extração e recuperação de informação; mineração de texto; aprendizado de máquina; saúde pública; desenvolvimento de sistemas; desenvolvimento web e bancos de dados.


Publicações

Araujo, Gabriela Denise; Teixeira, Fábio Oliveira; Mancini, Felipe; Guimarães, Marcelo de Paiva; Pisa, Ivan Torres. Sentiment Analysis of Twitter's Health Messages in Brazilian Portuguese. Journal of Health Informatics, v. 10, p. 17-24, 2018.
Araujo, Gabriela Denise; Sousa, Fernando Sequeira; Teixeira, Fábio Oliveira; Mancini, Felipe; De Domenio, Edvane BL; Guimarães, Marcelo de Paiva; Pisa, Ivan Torres. Análise de sentimentos sobre temas de saúde em mídia social. Journal of Health Informatics, v. 4, p. 95-99, 2012.