Detección de Idioma en Twitter

Authors

  • Yudivián Almeida-Cruz Universidad de La Habana
  • Suilan Estévez-Velarde Universidad de La Habana
  • Alejandro Piad-Morffis Universidad de La Habana

DOI:

https://doi.org/10.5281/zenodo.7080732

Keywords:

Detección de Idiomas, n-gramas, trigramas, small words, twitter

Abstract

El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas.

Downloads

Download data is not yet available.

Published

06-08-2014

How to Cite

Almeida-Cruz, Y., Estévez-Velarde, S., & Piad-Morffis, A. (2014). Detección de Idioma en Twitter. GECONTEC: Revista Internacional De Gestión Del Conocimiento Y La Tecnología, 2(3), 35–45. https://doi.org/10.5281/zenodo.7080732

Issue

Section

Articles