Analisamos o dataset de espectro autista disponível em ufc.lerax.me/datasets/asd. Alinhamos o conhecimento do dataset e a utilização do novo site de data science da UFC. Comentamos sobre os próximos passos a ser seguidos e compreendemos em alto nível sobre as características disponíveis neste dataset. Em breve disponibilizaremos um documento com análise utilizando estatística descritiva.
Descrição do dataset
ASD significa Autistic Spectrum Disoder. Há um texto motivacional descritivo deste dataset também fornecido com sua fonte. Através de uma tradução-livre feita para português, encontra-se abaixo o sumário:
Autistic Spectrum Disorder (ASD) é uma condição de desenvolvimento neuronal associada com significantes custos com cuidados de saúde e diagnósticos antecipados podem reduzir tais custos significativamente. Infelizmente, tempos de espera para um diagnóstico de ASD são demorados e os procedimentos não possuem um custo efetivo. O impacto econômico do autismo e o aumento no número de casos de ASD ao redor do mundo revela uma necessária urgência para métodos de diagnósticos de fácil implementação e acessíveis métodos de prognóstico. Além disso, um prognóstico acessível de ASD eficiente no tempo está relacionado a ajudar profissionais de saude e informar individuos se eles deveriam prosseguir para um diagóstico clinico formal. O rápido crecimento no número de casos ASD ao redor do mundo necessitam de datasets relacionados a traços de comportamentos. No entanto, tais datasets são raros fazendo com que seja difícil a execução através de análises para melhorar a eficiência, sensibilidade, especificidade e acurácia preditiva dos métodos de prognósticos de ASD. Atualmente, datasets muito limitados associados com diagnósticos ou prognósticos estão disponíveis e maioria deles são de natureza genética. Portanto, nós propomos um novo dataset relacionado ao prognóstico de autismo de crianças que contém 20 características para serem utilizadas para subsequente análises, especialmente em determinar traços autísticos influentes e melhorar a classificação de casos de ASD. Neste dataset, registramos dez variáveis comportamentais (AQ-10-child) mais dez características individuais que tem sido provada de serem efetivas na detecção de casos de ASD através de ciência de controle e comportamento.
A seguir uma descrição detalhada de cada uma das variáveis disponíveis no dataset:
Atributo | Descrição |
---|---|
A1_Score | Alta percepção em baixos ruídos que geralmente outros não percebem |
A2_Score | Maior concentração na visão do todo em comparação a pequenos detalhes |
A3_Score | Facilidade de comunicação com várias pessoas diferentes ao mesmo tempo. |
A4_Score | Facilidade de fazer múltiplas tarefas simultaneamente |
A5_Score | Dificuldade de manter uma conversa com seus colegas |
A6_Score | Facilidade em manter conversas informais |
A7_Score | Dificuldade de percepção de intenções e sentimentos em histórias durante a leitura |
A8_Score | Dificuldade de brincar com a imaginação fugindo da realidade |
A9_Score | Facilidade de reconhecer sentimentos a partir de expressões faciais alheias |
A10_Score | Dificuldade de fazer novas amizades |
age | Idade |
gender | Gênero |
ethnicity | Etnia e cor |
jundice | Caso 1, o paciente declara possuir a doença de pigmentação Icterícia |
austim | Caso 1, foi detectado autismo em qualquer outro familiar anteriormente |
contry_of_res | País de residência |
used_app_before | Caso 1, significa que através do aplicativo esta pessoa já avaliou o mesmo paciente |
result | Score do teste ASD de 1 a 10 baseado na observação das características comportamentais |
age_desc | Faixa etária |
relation | Relacionamento que a pessoa que orientou o teste tem com a criança |
Class/ASD | Variável que queremos estimar: criança pertence ao espectro austista |
Estes dados foram coletados através do aplicativo ASDTest disponível para Android e iOS. Um exemplo de report final do aplicativo após as 10 perguntas comportamentais podem ser encontrado neste link.
Análise & Modelo
Estamos trabalhando num modelo de classificação para este dataset neste repositório. Contribuições são bem-vindas.