Buscador: Java + Lucene + Tika + PHP
- Listado de archivos (listado -d "dir" -tsv tsv.tsv -m "doc,docx" -bd "bd.txt")
- Integramos mascara de archivo en comando? por defecto buscamos algo?
- Listo, integrada mascara de archivos
- Tenemos:
- -d: Directorio a revisar (requerido)
- -tsv: archivo a almacenar (requerido)
- -m: mascara de archivos a buscar, separado por coma, pero sin espacio (no requerido, por defecto: doc,docx)
- -bd: Blacklist de directorios, archivo txt con listado, separado por entre, de directorio que no nos interesan (no requerido, por defecto: ningun blacklist).
- Union de distintos archivos para listado general (ej. cuando tenemos dos directorio de interes)
- diferencias de archivos (diferencia -1 l1.tsv -2 l2.tsv -3 l3.tsv)
- indexar de datos para Lucene (indexar -l l3.tsv -o exitosos.tsv -e errores.tsv -dir dir_lucene/)
- busqueda (buscar -d /dir-lucene/ -b [palabras busqueda base64])
- Mas funciones por crear...
funcionalidad: 80%
- Funciona: busca en indice
- Ya tiene un port a webservice basico (PHP+Java)
- Buscar en indice Lucene antiguo (indice desactualizado y version de lucene quizas antigua)
- proceso de indexacion completamente manual
- nula automatizacion de actualizaciones
Que usamos para cada cosa
Java
Java
Apache POI Apache Tika
Lucene
PHP+HTML