GitHub - anasampa/assinplus: Repositório com dados da partição de teste do dataset ASSIN anotado para outros atributos.

ASSINplus

Repositório com anotação adicional para atributos do texto de dados da partição de teste do dataset ASSIN.

Atributos

A anotação extra está dividida em dois tipos: atributos das sentenças e atributos dos pares de sentenças. A primeira considera o texto em si, a segunda uma relação entre os atributos das sentenças para cada par.

Atributos das sentenças

Comprimento: Quantidade de tokens da sentença.
Entidade nomeada: Entidades nomeadas presentes nas sentenças anotadas manualmente. Entre elas constam nomes de esportistas, políticos e instituições.
Tópico: Os tópicos identificados foram: esporte, entretenimento, produtos de tecnologia, economia e mercado, política, saúde, notícias mundiais (notícias de países do mundo exceto o Brasil e Portugal), ciência e outras notícias. A cada sentença foi atribuído apenas um tópico. A anotação foi feita manualmente para as sentença individualmente considerando-se apenas a informação contida em cada uma.
Dependência sintática: Estrutura de dependência sintática de acordo com o modelo de Universal Dependency anotada de forma automatizada pelo parser sintático do spaCy.

Atributos dos pares

Proporção do comprimento: Relação do comprimento entre as duas sentenças. Tomamos a diferença de comprimento dividido pelo comprimento médio das sentenças.
Proporção de entidade nomeada em ambas sentenças: Proporção de entidades nomeadas presentes nas duas sentenças em relação a soma de entidades do par.
Relação entre tópicos: Valor binário no qual foi atribuído 0 se o tópico de cada sentença do par é distinto e 1 caso o tópico seja o mesmo.
Semelhança de dependência sintática: Mesma estrutura sintática do primeiro nível de dependência a partir da raiz. São observados quantos nós filhos a raiz possuí nas sentenças e feita uma proporção entre aqueles que são iguais em ambas (possuem o mesmo rótulo sintático) e todos do par. Na prática isso significa que se a raiz tiver os mesmos nós filhos sintáticos, o valor será 1. Caso as raízes das sentenças tenham filhos distintos, o valor é menor, chegando a 0 para nenhuma intersecção de filhos sintáticos.

Informações adicionais sobre o ASSIN

Mais informações podem ser encontradas em: http://www.nilc.icmc.usp.br/assin/

Os scripts utilizados na share task estão disponíveis em: https://github.com/erickrf/assin

O dataset completo está disponível também na plataforma do Hugging Face, com acesso pelo link: https://huggingface.co/datasets/assin

Referências

.bib

Referência ASSINplus (anotação extra disponibilizada neste repositório)

@phdthesis{rodrigues2018similarity,
    title={Avaliação de representações embeddings para similaridade sentencial no Portugu{\^e}s},
    author={Rodrigues, Ana Carolina},
    year={2022},
    school={Universidade de S{\~a}o Paulo}
  }

Referência dataset ASSIN

 @inproceedings{fonseca2016assin,
  title={ASSIN: Avaliacao de similaridade semantica e inferencia textual},
  author={Fonseca, E and Santos, L and Criscuolo, Marcelo and Aluisio, S},
  booktitle={Computational Processing of the Portuguese Language-12th International Conference, Tomar, Portugal},
  pages={13--15},
  year={2016}
}

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
LICENSE		LICENSE
README.md		README.md
data_assin_atributos.tsv		data_assin_atributos.tsv
data_assin_atributos.xlsx		data_assin_atributos.xlsx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ASSINplus

Atributos

Atributos das sentenças

Atributos dos pares

Informações adicionais sobre o ASSIN

Referências

.bib

About

Releases

Packages

License

anasampa/assinplus

Folders and files

Latest commit

History

Repository files navigation

ASSINplus

Atributos

Atributos das sentenças

Atributos dos pares

Informações adicionais sobre o ASSIN

Referências

.bib

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages