Detección de Idioma en Twitter

Autores

  • Yudivián Almeida-Cruz Universidad de La Habana
  • Suilan Estévez-Velarde Universidad de La Habana
  • Alejandro Piad-Morffis Universidad de La Habana

DOI:

https://doi.org/10.5281/zenodo.7080732

Palavras-chave:

Detección de Idiomas, n-gramas, trigramas, small words, twitter

Resumo

El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas.

Downloads

Não há dados estatísticos.

Publicado

2014-08-06

Como Citar

Almeida-Cruz, Y., Estévez-Velarde, S., & Piad-Morffis, A. (2014). Detección de Idioma en Twitter. GECONTEC: Revista Internacional De Gestión Del Conocimiento Y La Tecnología, 2(3), 35–45. https://doi.org/10.5281/zenodo.7080732

Edição

Seção

Articles