Googol, des hoooo et des Bahhh...

Certains peuvent s'interroger sur le fait que googol cesse parfois tout bonnement de fonctionner... Et bien c'est simplement dû au fait que Google transforme sa page. Parfois complètement. Du coup la regex de parsage ne fait plus son taf. Mais quand il faut cibler des données sur leur page, faut voir à quoi on se heurte:


 <div class="ZINbbc xpd O9g5cc uUPGi">
   <div>
    <div class="jfp3ef">
     <a href="https://google.fr/url?q=https://trendy.letudiant.fr/tests-et-quiz.html&sa=U&ved=2ahUKEwjSntHNjsbiAhVCA4gKHWpRARwQFjAGegQIZBAB&usg=AOvVaw2mXT_9o0gy-P8Mb8zpR-pZ">
      <div class="BNeawe vvjwJb AP7Wnd">
       500 tests et quizz gratuits en ligne : personnalité, psycho et culture ...
      </div>
      <div class="BNeawe UPmit AP7Wnd">
       https://trendy.letudiant.fr › tests-et-quiz
      </div></a>
    </div>
    <div class="NJM3tb"></div>
    <div class="jfp3ef">
     <div>
      <div class="BNeawe s3v9rd AP7Wnd">
       <div>
        <div>
         <div class="BNeawe s3v9rd AP7Wnd">
          Psycho, sexo, love : tous nos tests et quiz pour en découvrir plus sur ta personnalité !
         </div>
        </div>
       </div>
      </div>
     </div>
    </div>
   </div>
  </div>

C'est pas beau ces noms de classe ? Ça sent les classes aléatoires dont les noms sont générés en début de session, ou bien je suis parano ?!

Pour cibler ça, surtout de façon pérenne, bonjour.

J'ai réfléchi à la solution d'un parseur xml mais bon:

  1. lesdits parseurs se foutent en PLS quand on leur file à bouffer une page google
  2. ce sera fatalement moins rapide et moins concis qu'avec une bonne regex bien faite (qui renvoie des données presqu'immédiatement utilisables)
  3. ça ne résoudra pas le problème de changement de contenu de la page.

    parseur et google

    Donc, je réfléchis à une alternative viable qui évite de remplacer l'url en dur dans le code... un fichier ini, peut-être ? En même temps, une fois sur deux changer la regex ne suffit pas, il y a une ou deux retouches de code à faire...

Et là, je vous parle même pas de la page images dans laquelle les liens vers les images semblent ... avoir disparu.

fontchier

[EDIT] Pour les images, ils utilisent de l'ajax, ce qui explique la disparition des images «en dur» exemple de requête (attention, ça pique): www.google.fr/async/imgrc?ei=YVTxXIPULPWj1fAP0Z-EwAM&hl=fr&yv=3&iact=rc&ved=0ahUKEwjDiMGulsbiAhX1URUIHdEPATgQMwhOKAMwAw&vet=10ahUKEwjDiMGulsbiAhX1URUIHdEPATgQMwhOKAMwAw..i&imgrt=0&q=test&imgurl=https://www.uhs.umich.edu/files/uhs/field/image/TEST.jpg&imgrefurl=https://www.uhs.umich.edu/testanxiety&tbnid=_Kh4MPtGrJjSRM:&docid=j4YSDljFZKmg5M&uact=3&ictx=1&csi=VJS.0,VOS.5&ri=3&bih=747&biw=1600&imgdii=_Kh4MPtGrJjSRM:&tbm=isch&tbs=&imgwo=1526&land=1&async=cidx:0,saved:0,iu:0,lp:0,_fmt:prog,_id:irc_imgrc0

Voilà... Je vais devoir me lancer dans de l'ajax... tant qu'à faire, je vais reprendre un peu le code et l'améliorer.

alt

✍ Écrire un commentaire

Inutile de poster un commentaire à la con pour vous faire de la pub, ce sera filtré et dégagé direct...

Quelle est la dernière lettre du mot ssgmvu ?