Fantasque Time Line

loic

Bonjour,

J'ai ajouté un moteur de recherche pour le site (menu de gauche), il scanne le contenu des fichiers PDF.
J'ai pour l'instant indexé la chrono de 1940 et 1941, la chrono de 1942 et les annexes suivront.
Cet outil est pour l'instant rudimentaire, il ne traite qu'un seul mot entier (pas de partie d'un mot). Pas de différence majuscules/minuscules.
Il est possible que je définisse une liste de mots à exclure de la recherche (articles, prépositions, verbes élémentaires, etc).

Merci à tous de me donner votre avis dans ce sujet : rapidité, présentation, éventuelles erreurs de recherche, ...

Attention, le forum conserve son propre moteur de recherche.
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

Thomas27 · Inscrit le: 13 Avr 2013 Messages: 664 Localisation: Lyon

Je viens de faire un première essai, c'est plutôt pas mal.
Je ferais une retour plus poussé au fil de l'usage.
En tous cas c'est bien pratique.
_________________
Ma boutique : https://www.redbubble.com/fr/people/Artof-ThomasD/shop?asc=u
Mes livres: http://www.amazon.fr/-/e/B0191PGYUE?ref_=pe_1805951_64028601

Capu Rossu · Inscrit le: 22 Oct 2011 Messages: 2554 Localisation: Mittlemeerküstenfront

Bonsoir,

loic

Menu de gauche du site, entre "Images" et "Forum" : une bête zone de saisie, on tape Entrée et zou !
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

Capu Rossu · Inscrit le: 22 Oct 2011 Messages: 2554 Localisation: Mittlemeerküstenfront

Bonjour,

Allo, Monsieur l'Opticien ! c'est-y quand que vous me les faites mes nouvelles bésicles ?

OK, vu la bête.
Merci
Alain

sting01

Est ce avec Mysql?

Il se trouve que je suis entrain de faire une chose similaire au boulot (referencer les localisation,telles que ville, districts, departements, regions, pays) de tout les hotels que nous avons en stock (250 000 acejour). Cela dans le but de faciliter la recherche de nos clients.

Donc je dois accepter des requetes du genre : hotels phuket et retrourner une liste (10) d'hotels, mais aussi Martinez Cannes, hotel Martinez, hotel croisette ou hotelS croisette; voire meme hotel croisete ...

Objectivement a full search sera trop longue, reponses doivent revenir dans les 500 ms (le temps pris par internet etant inclus dans les 50 ms!).

Donc si je puis te donner un conseil, tu devrais dans un premier temps utilise un 'index inverse'; puis lorsque cela fonctionera, la seconde etape sera un 'map reduce'.

cherche sur wikipedia :

http://en.wikipedia.org/wiki/Index_(search_engine)

C'et en anglais, et c'est voulu, car il y plus d'informations et de liens sur cette page. Cela te donne une bonne idee de comment proceder (la fersion logique).

Le map reduce peut etre trouve sur wiki aussi, je te conseille aussi cette page :

http://blog.cloudera.com/wp-content/uploads/2010/01/5-MapReduceAlgorithms.pdf

cela te donne une idee du genre d'algorithme a utiliser

celle ci est un peu plus detaillee :

http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/

A savoir que ces methodes sont celles utilisees par Google (patentee par google devrais je dire) donc supportent des qunatites de donnees qui sont a des magnitudes plus elevees que celle de FTL (imagine le nombre de mot dans les bases de donnees google!!!!!).

En cas de besoin , contacte moi.

La maniere que j;ai adopte pour resoudre mon probleme a ete :

1) separes tout les noms (pays, regions, villes, hotels) en un mot (Kuala Lumpur donnant donc 2 mots);

2) inserer dans une table ce mot avec l'id de reference et un bit specificiant le niveau (hotel, district, region, departement, pays ...)

A cepoint, 30 000 000 de lignes dans la table, reponse en moyenne a moins d'une seconde (mais 6 sec si une personne tape HOT, car c'et l'occurence la plus frequente, 1 500 000 lignes commence par HOT)

Ce construct est appele un ' FORWARD INDEX' c'est actuellement ce que nos clients utilise.

En preparation (car j;ai d'autres taches) :

3) creer une nouvelle table, utilisant le 'inverted index' (done).

4) la remplir avec cette query :
INSERT INTO inverted_index (search_named, inverted_index) )SELECT search_named,GROUP_CONCAT(DISTINCT CONCAT('(',CONCAT_WS(',', id_src_non_hotel,total),')') ORDER BY id_src_non_hotel ASC) FROM search_name3 GROUP BY search_named)

(done).

cela me donne 350 000 lignes (100 fois moindre).

Il ne me reste plus qu'a trouver une bonne solution pour reduire la taille des reponses( j;ai une idee mais pas encore testee).

Point crucial :

la recherche doit etre :

SELECT * FROM your_table WHERE mot LIKE 'abc%';

Remarques STP qu'il n;y a pas de signe % a gauche, donc on utilise les index.

Autre point encore plus crucial :

lorsque tout est prete , tu dois :

1) Optimize table your_table (enlever une partie du overhead)

2) ALTER TABLE your_table ORDER BY searchable_column ASC;

Cela va eviter les I/O bottlenecks.

Desole pour le franglais, mais je pense en anglais desqu'il s'agit de DB.

N'hesite pas, j;ai peut etre la solution dont tu reves depuis longtemps (joke).

Eric
_________________
La can can-can, cancouillote,
c'est pas fait pour les francois.

Anscarides je suis ne,
heritier de la Comte je serai.

loic

Pour faire court : oui il y a une BDD MySQL, je dois encore m'occuper des index. J'en reparle tout à l'heure.
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

loic

Le "tout à l'heure" ayant quelque peu dérapé Embarassed

, voici quelques infos : le moteur est basé sur une base de de données MySQL alimentée et consultée par PHP.
2 tables :
- fichiers : chaque ligne correspond à un fichier, avec un numéro unique, son emplacement et la date de dernière indexation ; actuellement 258 enregistrements ; pas d'index nécessaire sur cette table
- mots : chaque ligne correspond à un mot avec le numéro du fichier dans lequel il figure (un mot apparaît sur plusieurs lignes s'il est dans plusieurs fichiers) ; actuellement 438759 enregistrements, soit 57604 mots uniques, mais il y a probablement du ménage à faire ; les champs sont indexés.

Je n'ai pas filtré sur les mots communs (articles, prépositions, verbes courants, etc) comme le font certains moteurs de recherche, cela peut encore changer.

J'ai indexé la chrono de 1942 (janvier - août).
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

sting01

loic

Mmh, j'avais pensé à stocker la liste des fichiers pour un même mot, mais le gain ne me semble pas énorme, les requêtes sont actuellement assez rapides.
Non, le vrai enjeu serait de pouvoir rechercher des expressions (ex : "Charles de Gaulle"), mais ceci oblige à stocker le texte entier du fichier dans la BDD.
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

sting01

loic · Posté le: Dim Nov 03, 2013 12:45 Sujet du message:

Le moteur de recherche du site sera indisponible cet aprem pour cause de maintenance.
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

loic · Posté le: Sam Nov 09, 2013 09:12 Sujet du message:

Il reste un bug concernant les accents. Si je recherche le mot "traité", un fichier peut sortir deux fois, pour "traité" et "traite" (sans accent). Je réfléchis à supprimer les accents de la base de données, ce qui permet de trouver certains noms exotiques, étant donné que notre rédac-chef met un point d'honneur à se conformer aux noms étrangers (exemple : Hiyô pour le porte-avions japonais).
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...

sting01 · Posté le: Lun Nov 11, 2013 04:13 Sujet du message:

loic · Posté le: Mar Nov 12, 2013 09:00 Sujet du message:

Merci pour les infos, cela recoupe ce que j'avais déduit de la doc MySQL.
_________________
On ne trébuche pas deux fois sur la même pierre (proverbe oriental)
En principe (moi) ...