Detección de Idioma en Twitter

Autores/as

  • Yudivián Almeida-Cruz Universidad de La Habana
  • Suilan Estévez-Velarde Universidad de La Habana
  • Alejandro Piad-Morffis Universidad de La Habana

DOI:

https://doi.org/10.5281/zenodo.7080732

Palabras clave:

Detección de Idiomas, n-gramas, trigramas, small words, twitter

Resumen

El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas.

Descargas

Los datos de descargas todavía no están disponibles.

Descargas

Publicado

2014-08-06

Cómo citar

Almeida-Cruz, Y., Estévez-Velarde, S., & Piad-Morffis, A. (2014). Detección de Idioma en Twitter. GECONTEC: Revista Internacional De Gestión Del Conocimiento Y La Tecnología, 2(3), 35–45. https://doi.org/10.5281/zenodo.7080732

Número

Sección

Articles