Loading...

OnCrawl, un puissant crawler SEO

– Bonjour François, pouvez-vous vous présenter ?

Je suis le fondateur de Cogniteev, éditeur de solutions big data en mode SaaS. Nous éditons notamment Oncrawl.com et Docido.com. J’ai créé plusieurs entreprises, je suis au conseil d’administration de Frenchtech Bordeaux et du SEOCamp. Je siège à l’advisory board d’un certain nombre de startups et notamment Majestic.com.

– Qu’est-ce qu’OnCrawl ?

OnCrawl est un puissant crawler parcourant l’ensemble des pages de votre site afin d’en relever le code et le contenu. Il vous permet d’obtenir un diagnostic rapide et clair et de piloter vos optimisations SEO onsite. Nous proposons à la fois des data visualisations et l’export de données concernant l’ensemble des paramètres favorables ou défavorables à votre référencement : analyse des balises meta ou Hn, mots clés, temps de chargement, contenu, architecture de liens internes ou externes… Nous avons également récemment lancé notre Data Explorer et nos Custom Reports qui permettent de se concentrer sur une partie des éléments de votre site web.

OnCrawl

OnCrawl est un outil très compétitif puisque l’ensemble de nos fonctionnalité sont disponibles dans nos différents abonnements, dès 9.90 euros. La seule différence réside dans le nombre d’URLs qu’il est possible d’analyser par mois.  

– A qui s’adresse cette solution ?

Cette solution s’adresse aussi bien aux sites de grandes tailles comme à des sites plus modestes. Nous travaillons avec de grands sites ecommerce et médias qui détiennent des millions d’URLs.

– Comment vous est venu l’idée de créer OnCrawl ?

Oncrawl est issu d’un consortium industriel que nous avions monté avec Cdiscount en 2013. Fondé avec mon associé Tanguy Moal, la force d’OnCrawl repose sur nos dix années d’expérience sur l’analyse sémantique et le SEO qui nous permet d’analyser du contenu et de proposer un algorithme d’identification du contenu dupliqué.

OnCrawl est également le fruit d’un constat. Google Webmaster Tool n’offre pas une vue exhaustive ni des données mises à jour. Il me manquait quelque chose de plus “actionnable” me permettant de gérer proactivement le contenu dupliqué, de surveiller mes balises Hn, d’optimiser mes meilleures pages afin qu’elles soient crawlées, indexées et positionnées par Google, etc.

– Comment cela fonctionne ?

Comme tous nos produits, Oncrawl s’appuie sur la Cogniteev Data Platform. Il s’agît d’un socle technique qui marie le meilleur des deux mondes entre analyse sémantique et traitement de big data. Cette plateforme traite plus de 2 milliards de documents chaque jours et contient différentes briques technologiques telles que des dictionnaires auto-enrichis à partir de procédés de machine learning, des détecteurs d’entités nommées… Le reste constitue notre “secret sauce”.

– Quels sont les tarifs ?

OnCrawl démarre dès 9.90 euros par mois avec une formule starter qui comprend le crawl de 10 000 URLs, l’analyse de 5 sites différents (possibilité de supprimer et d’ajouter des sites de façon illimitée) et un rapport complet avec extraction des données. Quatre formules différentes sont accessibles et diffèrent dans le nombre d’URLs analysables et le nombre de crawls simultanés. Une version custom est également possible pour des sites avec plus de 2 millions d’URLs.

Nous avons également une version d’essai gratuite de 30 jours qui offre l’ensemble des fonctionnalités hormis l’export des données.

– Quels seront selon vous les principaux facteurs SEO importants en 2016 ?

Vaste sujet… Je pense que la qualité des liens reste un facteur majeur, mais les marges de manoeuvres sont minces pour les référenceurs car tout le monde a peur de Pinguin. En revanche, du côté onsite, il y a de belles pistes pour accroitre son trafic SEO.

Chez Oncrawl, nous travaillons avec deux laboratoires de recherche, et à ce titre nous réalisons énormément de veille scientifique sur les avancées des grands moteurs de recherche. Il y a eu une accélération ces dernières années du nombre de publication autour du knowledge graph et sa potentielle application dans les SERPs. Nous sommes convaincus que les notions de co-occurence de termes et surtout de co-occurence d’entités nommées seront des leviers très importants afin de ranker sur un mot clé ou une thématique donnée. Attention donc à bien penser les recommandations éditoriales pour les objectifs SEO, simplement utiliser le Google Suggest ou des outils traditionnels de découverte de keyword pour trouver le champ lexical adapté à votre thématique ne suffira plus. Notre suggestion est plutôt de se pencher sur Wikidata. Notez d’ailleurs que Google a importé dans wikidata l’ensemble des entités identifiées dans freebase avant de fermer le service.

Par ailleurs, l’utilisation grandissante de SPA (single page application) et de framework du type Angular.JS ou Ember.JS introduit une complexité supplémentaire pour les crawlers des grands moteurs de recherche. Une étude menée par Adam Audette a démontré qu’en plus d’essayer de faire le rendu en JS, Google réalisait notamment une analyse du DOM de la page. Les outils de rendition (ex: prerender.io) peuvent parfois produire des pages HTML propres mais dont le DOM est corrompu. Attention donc au paramétrage de ce genre d’outils. Toute migration de vos sites vers ce type de technologie est réellement risqué d’un point de vue SEO. Si vous faites ce type de choix, nous vous invitons à vous outiller avec un analyseur de logs performant afin de suivre précisément ce que Google interprète sur votre site. C’est d’ailleurs l’une des raisons qui nous a poussé à releaser une version opensource de notre analyseur de logs afin de permettre à tout le monde de procéder à ces analyses.

Enfin, je pense qu’il faut plus que jamais s’intéresser aux indicateurs d’usage en matière SEO: taux de rebond, temps passé… Certains montent en compétence sur l’ergonomie afin d’intégrer ces contraintes dans les plans d’actions SEO. Je pense que ceux qui n’ont pas fait le passage de leurs sites sous mobile en mode « quick and dirty » mais qui se sont intéressés à l’amélioration de leurs metrics d’usage dans le but d’influencer leurs positions ont eu une démarche saine, qui a porté ses fruits. L’expérience utilisateur devra être remise au coeur des préoccupations en matière de référencement naturel en 2016 !

– Avez-vous un cas client à nous présenter ?

Nous avons plusieurs accords de confidentialité que nous devons respecter. Mais voici quelques usages très intéressants :

Utiliser le InRank pour mesurer l’impact des optimisations de maillage interne: ce pagerank interne que nous avons développé permet de comprendre comment est distribuée la popularité au sein de vos liens internes en fonction de leur nombre et de leur profondeur. Cet Inrank basé sur un score entre 0 et 10 permet de mesurer la popularité de vos liens internes et de pousser votre meilleures pages. Un site e-commerce aura tout intérêt à pousser ces pages monétisables grâce à une structure de lien interne optimisée. L’Inrank vous permet donc de construire votre maillage interne sans affecter des pages prioritaires.

La détection de contenus dupliqués: le contenu dupliqué pénalise votre positionnement. Notre outil de détection basé sur l’analyse sémantique permet de mettre en évidence les duplications mais également les contenus proches. De même, les sites marchands ont souvent tendance à utiliser des fiches produits délivrées par leurs fournisseurs. Ces fiches se retrouvent donc sur de nombreux sites et sont donc considérées comme dupliquées par Google. OnCrawl permet d’identifier les groupes de pages touchées et détecter si des balises canoniques ont été mises en place ou non.  

L’optimisation des temps de chargements. OnCrawl permet de surveiller les performances de ces temps de page et de les optimiser. Un temps de chargement trop long peut en effet vous coûter cher. Pour des sites e-commerce de grandes tailles, ce temps de chargement a un réel impact sur leur chiffres d’affaire. Amazon a calculé qu’une baisse de performance d’une seconde pouvait amener à une perte de 1.6 milliard de dollars sur un an..

– Avez-vous de nouveaux projets en cours ?

Nous lançons bientôt un analyseur de logs SEO Open Source et nous préparons plein de surprises sur l’analyse de contenu. Mais j’espère que nous aurons l’occasion d’en reparler ici même !

You might also like

No Comments

Leave a Reply