Foro P Y R

PREGUNTA PARCIAL

PREGUNTA PARCIAL

de Usuario eliminado -
Número de respuestas: 1


Buenas tardes, el fichero invertido posicional guarda la posición donde debe ir ese termino con respecto al inicio del documento. Tenes allí dos opciones:

1) Guardas la posición según los términos (como es el caso del Punto 3 del TP N° 1)

2) Guardas la posición del caracter de inicio de la ocurrencia del término

Son dos esquemas igualmente válidos y podes emplear el que quieras.

 

Por otro lado, si vos hiciste una limpieza del texto (eliminar stop words por ejemplo), tu fichero invertido posicional se tiene que basar en la posición del término o del caracter de inicio del texto limpio!!!! Sino tendrías una inconsistencia tremenda porque el texto original tiene más términos que el texto ya procesado. Entonces de ese modo podes armar un fichero invertido posicional válido pero con el texto limpio. Una buena practica es tener a mano el texto original, en otra columna de tu tabla para que puedas volver a consultar cuantas veces quieras, entonces tenes el texto original, el texto limpio, 2-gramas, 3-gramas... todo en un mismo lugar ;)

En respuesta a Usuario eliminado

Tema (oculto)

Usted no puede ver este mensaje, probablemente debido a que aún no ha enviado mensajes a esta discusión, a que el margen de tiempo de edición no ha pasado todavía, a que el debate todavía no ha comentado o a que el debate ya ha expirado.