top of page

LABCOM Datasets (Beta)

Nessa página você vai encontrar Datasets , conjuntos de dados oriundos de coletas das nossas ferramentas, para utilização em pesquisas acadêmicas. O mesmo dataset pode ser utilizado de maneira diferente em iniciativas de pesquisa distintas. Assim, dentro do nosso objetivo de divulgação no Brasil dos métodos digitais junto às áreas de Ciências Humanas e Sociais Aplicadas, com foco prioritário nos pesquisadores da Comunicação, podemos expandir o alcance das ferramentas para públicos que, por problemas de infraestrutura, ainda não estamos podendo atender, como alunos de graduação , por exemplo, em suas pesquisas de conclusão de curso.

Para citações sobre o LNEWS ou LTWEET utilize o seguinte modelo:

SANTOS, Márcio Carneiro. DATASETS DO LNEWS: Ferramenta de extração de dados de sites jornalísticos. Versão beta. Labcom Digital, 2019. Disponível em: https://www.labcomdata.com.br/ . Acessado em:  (data do acesso). 

SANTOS, Márcio Carneiro. DATASETS DO LTWEET: Ferramenta de extração de dados do Twitter. Versão beta. Labcom Digital, 2019. Disponível em: https://www.labcomdata.com.br/ . Acessado em:  (data do acesso). 

NOVOS DATASETs:

Tweets Presidente - Período da Pandemia - De 01 de março de 2020 a 12 de junho de 2021 - 3.185 tweets.  Acesse aqui.

Tweets com o termo CPI COVID - De 30 de abril a 12 de março de 2021.

 

Versão 1 - Big Data - Amostra de 100 mil tweets - Arquivo CSV . Acesse aqui. Obs: Não vai abrir ou abrir com dificuldade em planilhas comuns tipo Excel ou Google Sheets. Sugiro PANDAS ou outra ferramenta mais robusta.

Versão 2 - Amostra de 10 mil tweets - Acesse aqui direto a planilha . É a versão filtrada para tweets com o mínimo de 10 likes e 5 retweets.  

Tweets de Nov 2020 - Tabela com amostras extraídas pela ferramenta LTWEET do LABCOM incluindo :

. @Estadao - 4.030 tweets

. @EstadaoPolítica - 215 tweets

. @Folha - 3.967 tweets

. @FolhaPoder - 407 tweets

. @GloboPolítica - 1.275 tweets

Observações: São amostras significativas mas que não necessariamente representam todas as publicações de cada conta. A coleta foi solicitada de 01 de novembro a 29 de novembro de 2020. A informação de horário do servidor do Twitter está sempre com 3 horas a mais. Se precisar do horário no Brasil basta diminuir 3 horas. Por conta disso nos extremos do intervalo solicitado podem haver variações. São arquivos no formato CSV. Se não souber como trabalhar com eles assista o vídeo abaixo. Pode assistir tudo ou iniciar de 13:54. A detecção do tipo de separador do CSV gerado pela LTweet é automática. Vídeo sobre Arquivos CSV clique aqui .

DATA SETS EXTRAÍDOS PELO LNEWS E LTWEET :

O acesso ao LNEWS e LTWEET , nesse momento está sendo priorizado para pesquisadores ligados a grupos de pesquisa formais e principalmente de programas de pós-graduação. Se você é membro do site e tem acesso ao LNEWS e LTWEET, incentivamos que compartilhe conosco novos conjuntos de dados oriundos das coletas que fez e que possam ser úteis para outros pesquisadores. Basta envia-los para o email: labcomdigital@gmail.com , com o assunto DATASET.

Todos os dados dos datasets estão disponíveis na web de forma pública. O que as ferramentas do LABCOM fazem é automatizar o processo de coleta, possibilitando a extração mais rápida e gerando amostras para análise com maior volume, o que aumenta o horizonte de inferências possíveis a partir delas. Todas as ferramentas do LABCOM são públicas, gratuitas, sem direito a suporte personalizado e para uso estritamente acadêmico. Os datasets também.

 

 

Para citações sobre o LNEWS ou LTWEET utilize o seguinte modelo:

SANTOS, Márcio Carneiro. DATASETS DO LNEWS: Ferramenta de extração de dados de sites jornalísticos. Versão beta. Labcom Digital, 2019. Disponível em: https://www.labcomdata.com.br/ . Acessado em:  (data do acesso). 

SANTOS, Márcio Carneiro. DATASETS DO LTWEET: Ferramenta de extração de dados do Twitter. Versão beta. Labcom Digital, 2019. Disponível em: https://www.labcomdata.com.br/ . Acessado em:  (data do acesso). 

bottom of page