Googol v3.0: ya encore des fils qui pendent...

Je tiens au courant les quelques uns qui utilisent googol sur l'avancement des travaux.

J'ai entièrement refait la structure en abandonnant l'aspect «one file» au profit d'une répartition plus ... académique et surtout plus lisible.

En restructurant le tout, j'ai prévu l'implémentation future de solutions de fallback lors des bannissements par google (par exemple en allant interroger framabee.org pour récupérer temporairement les résultats en attendant que google nous oublie)

Je réfléchis encore à une solution permettant de «distribuer» les nouvelles regexes en cas de changement de la part de google... sans succès pour le moment.

J'ai ajouté des liens pour renvoyer la requête vers les moteurs de recherche alternatifs.

A vous de tester, là j'ai pas le temps de faire plus long http://googol.warriordudimanche.net/

Bisous !

Googol, des hoooo et des Bahhh...

Certains peuvent s'interroger sur le fait que googol cesse parfois tout bonnement de fonctionner... Et bien c'est simplement dû au fait que Google transforme sa page. Parfois complètement. Du coup la regex de parsage ne fait plus son taf. Mais quand il faut cibler des données sur leur page, faut voir à quoi on se heurte:


 <div class="ZINbbc xpd O9g5cc uUPGi">
   <div>
    <div class="jfp3ef">
     <a href="https://google.fr/url?q=https://trendy.letudiant.fr/tests-et-quiz.html&sa=U&ved=2ahUKEwjSntHNjsbiAhVCA4gKHWpRARwQFjAGegQIZBAB&usg=AOvVaw2mXT_9o0gy-P8Mb8zpR-pZ">
      <div class="BNeawe vvjwJb AP7Wnd">
       500 tests et quizz gratuits en ligne : personnalité, psycho et culture ...
      </div>
      <div class="BNeawe UPmit AP7Wnd">
       https://trendy.letudiant.fr › tests-et-quiz
      </div></a>
    </div>
    <div class="NJM3tb"></div>
    <div class="jfp3ef">
     <div>
      <div class="BNeawe s3v9rd AP7Wnd">
       <div>
        <div>
         <div class="BNeawe s3v9rd AP7Wnd">
          Psycho, sexo, love : tous nos tests et quiz pour en découvrir plus sur ta personnalité !
         </div>
        </div>
       </div>
      </div>
     </div>
    </div>
   </div>
  </div>

C'est pas beau ces noms de classe ? Ça sent les classes aléatoires dont les noms sont générés en début de session, ou bien je suis parano ?!

Pour cibler ça, surtout de façon pérenne, bonjour.

J'ai réfléchi à la solution d'un parseur xml mais bon:

  1. lesdits parseurs se foutent en PLS quand on leur file à bouffer une page google
  2. ce sera fatalement moins rapide et moins concis qu'avec une bonne regex bien faite (qui renvoie des données presqu'immédiatement utilisables)
  3. ça ne résoudra pas le problème de changement de contenu de la page.

    parseur et google

    Donc, je réfléchis à une alternative viable qui évite de remplacer l'url en dur dans le code... un fichier ini, peut-être ? En même temps, une fois sur deux changer la regex ne suffit pas, il y a une ou deux retouches de code à faire...

Et là, je vous parle même pas de la page images dans laquelle les liens vers les images semblent ... avoir disparu.

fontchier

[EDIT] Pour les images, ils utilisent de l'ajax, ce qui explique la disparition des images «en dur» exemple de requête (attention, ça pique): www.google.fr/async/imgrc?ei=YVTxXIPULPWj1fAP0Z-EwAM&hl=fr&yv=3&iact=rc&ved=0ahUKEwjDiMGulsbiAhX1URUIHdEPATgQMwhOKAMwAw&vet=10ahUKEwjDiMGulsbiAhX1URUIHdEPATgQMwhOKAMwAw..i&imgrt=0&q=test&imgurl=https://www.uhs.umich.edu/files/uhs/field/image/TEST.jpg&imgrefurl=https://www.uhs.umich.edu/testanxiety&tbnid=_Kh4MPtGrJjSRM:&docid=j4YSDljFZKmg5M&uact=3&ictx=1&csi=VJS.0,VOS.5&ri=3&bih=747&biw=1600&imgdii=_Kh4MPtGrJjSRM:&tbm=isch&tbs=&imgwo=1526&land=1&async=cidx:0,saved:0,iu:0,lp:0,_fmt:prog,_id:irc_imgrc0

Voilà... Je vais devoir me lancer dans de l'ajax... tant qu'à faire, je vais reprendre un peu le code et l'améliorer.

alt

GitHub - broncowdd/pluxml-plugin-generator: Une appli pour générer les fichiers et le dossier d'un plugin, le tout préconfiguré et prêt à coder.

Juste un mot en passant pour annoncer une maj de mon générateur de plugin pour pluxml (v0.9)
Ajouts:

  • ajout des paramètres de config dans les propriétés de la classe (private)
  • ajout de la récupération des valeurs de variables de config dans le constructeur de la classe
  • ajout des index "nom_de_parametre" dans le fichier de langue
  • ajout de la traduction des noms de parametre dans la page de config
  • ajout de l'icône du plugin dans la page de config
  • petits changements cosmétiques dans la page de config.

Fil RSS des articles de ce mot clé
Feed content empty !