Bonjour,

Je travaille actuellement sur la création d'un site qui contiendra plusieurs milliers de fiches produit. Pour le texte de chaque page, je prévois de faire du content spinning qui va aussi inclure des variables tel que la marque ou le nom du modèle du produit.

Mes problématiques:

  • Je me demande quel algorithme utiliser pour calculer le taux de similarité
  • Comment optimiser les perfs lors de la génération du contenu pour exclure les textes avec un taux de similarité trop haut (parcourir toute la base?)

Si quelqu'un a une expérience dans la pratique je serais interessé d'avoir son retour d'expérience.

Merci.
Bien cordialement,
TD

4 réponses


Petit up.
Pour ce qui est des perfs, c'est bon. Il ne me reste plus qu'a trouver quel algo utiliser pour le calcul de similarité.

  • Jaccard me semble trop "sévère" étant donné que 2 texte parlant du même sujet auront très probablement un taux de similarité minimum (j'ai testé avec 2 textes fait main bien différents et j'obtiens >65% de similarité....).
  • Levenshtein ne me semble pas très pertinent

Du coup que faire...? Je pensais tester avec jaccard et une distance custom inférieure à 65% mais bon ça va vraiment être au feeling et attente des pénalité ou non de google derrière ce qui est pas top :/

Quelqu'un à une idée?

Salut,

Pour quelle(s) raison(s) cherches-tu à calculer le taux de similarité de tes fiches produits (simple curiosité) ? :)

Salut,

Autre question par pure curiosité : pourquoi est-ce que tu génères tes fiches produits ? Un site dynamique avec une page qui prend en paramètre l'ID de l'article et qui va chercher les infos dans une bdd ne suffit pas ?

Hello,
Les pages sont déjà issues d'une base de donnée. Mais comme je prévois dans les 50 000 pages produits, rédiger les textes à la main n'est pas envisageable.
Du coup je prévois de générer le champ "content" des produits via content spinning.

Le taux de similarité me permettra de ne pas ajouter des textes non "uniques"