Foro de uso general

DUDA PUNTO 2

DUDA PUNTO 2

de Usuario eliminado -
Número de respuestas: 0


Buenas tardes, el fichero invertido posicional guarda la posición donde debe ir ese termino con respecto al inicio del documento. Tenes allí dos opciones:

1) Guardas la posición según los términos (como es el caso del Punto 3 del TP N° 1)

2) Guardas la posición del caracter de inicio de la ocurrencia del término

Son dos esquemas igualmente válidos y podes emplear el que quieras.

 

Por otro lado, si vos hiciste una limpieza del texto (eliminar stop words por ejemplo), tu fichero invertido posicional se tiene que basar en la posición del término o del caracter de inicio del texto limpio!!!! Sino tendrías una inconsistencia tremenda porque el texto original tiene más términos que el texto ya procesado. Entonces de ese modo podes armar un fichero invertido posicional válido pero con el texto limpio. Una buena practica es tener a mano el texto original, en otra columna de tu tabla para que puedas volver a consultar cuantas veces quieras, entonces tenes el texto original, el texto limpio, 2-gramas, 3-gramas... todo en un mismo lugar ;)