Informations
La partie À propos permet d’en savoir plus sur les conditions de diffusion / réutilisation et d’obtenir des informations relatives aux scripts qui ont permis de produire les visualisations de ce site.
La section données et méthodes permet d’approfondir les aspects relatifs aux données mobilisées et leurs limites, puis les étapes successives de consolidation des données brutes. Dans un second temps sont exposés les choix méthodologiques qui ont conduit aux visualisations proposées, en particulier les multi-représentations cartographiques et la façon dont elles sont construites (cartes de potentiel).
L’ensemble des références bibliographiques mentionnées dans ce site Web sont accessibles à la fin de cette page.
Infos
À propos…
Reproductibilité
Les visualisations proposées sur ce site Web Airbnb en Île-de-France reposent sur une succession de scripts R à partir de données AirDNA.
Ces données, acquises dans le cadre d’un contrat, ne sont pas rediffusables, ce qui limite la reproductibilité (et la mise à jour éventuelle) des visualisations proposées.
Néanmoins et dans un souci de transparence et d’ouverture des méthodes scientifiques, nous communiquons dans un dépôt Zenodo l’ensemble des scripts R mobilisés pour produire cartes, graphiques et tableaux synthétiques. Ils reposent en amont sur plusieurs scripts nécessaires à la consolidation des données et l’appariement avec des données institutionnelles (IGN pour les découpages administratifs, INSEE pour les données de recensement).
La vocation de cette archive est triple :
Rendre possible la mise à jour de ces analyses pour un utilisateur disposant de données similaires ;
Exposer ce socle méthodologique en toute transparence. Le rendre critiquable, le cas échéant ;
Faciliter la transposition à d’autres bases de données, comme Inside Airbnb. Nous attirons cependant l’attention sur le travail d’adaptation important qu’une telle opération requiert : les indicateurs dans la base de données d’entrée n’ont pas le même libellé et ne sont pas exactement les mêmes (pas d’estimation des revenus générés avec Inside Airbnb par exemple). L’ensemble des visualisations ne pourraient ainsi pas être reproduites.
Ces scripts ont été réalisés par Louis Laurian et Ronan Ysebaert (UAR RIATE, CNRS, Université Paris Cité). Ils sont commentés au mieux pour décrire la succession des traitements réalisés.
Réalisation
- Louis Laurian, Ronan Ysebaert (UAR RIATE, CNRS, Université Paris Cité) : Réalisation (consolidation des données, analyses, visualisations, site Web)
- Ronan Ysebaert (UAR RIATE, Université Paris Cité) : Coordination technique et méthodologique
- Marianne Guérois (UAR RIATE, UMR Géographie-Cités, Université Paris Cité) : Coordination scientifique
- Malika Madelin (UMR PRODIG, Université Paris Cité) : Coordination scientifique.
Citer ce site Web
Laurian, Ysebaert, Guérois et Madelin. 2023. « Airbnb en Île-de-France.Géovisualisation multi-échelles des locations Airbnb en région parisienne (2016-2022) ». Accessible ici.
BibTex
@Misc{,
title = {Airbnb en Île-de-France},
subtitle = {Géovisualisation multi-échelles des locations Airbnb en région parisienne (2016-2022)},
author = {{Louis Laurian, Ronan Ysebaert, Marianne Guérois, Malika Madelin}},
url = {https://llaurian.gitpages.huma-num.fr/airbnb},
language = {fr},
publisher = {UAR RIATE},
year = {2023},
copyright = {Creative Commons Attribution Share Alike 4.0 International},
}
Données et méthodes
La base AirDNA
Objectifs et principales caractéristiques
AirDNA est une entreprise spécialisée dans la vente de données Airbnb et d’analyses sur l’activité de la plateforme, les deux entreprises étant a priori juridiquement indépendantes (même si le site d’AirDNA fait état de « relations fortes et mutuelles »). L’objectif pour AirDNA est de mettre la « veille commerciale directement entre les mains des petits entrepreneurs, leur permettant ainsi de prendre des décisions mieux informées orientées données sur un marché de plus en plus concurrentiel » (S. Shatford, PDG d’AirDNA, 2017). Secondairement, les publics ciblés sont des collectivités territoriales et des communautés de chercheurs intéressés par l’accès à des données coûteuses mais proposant une vaste couverture territoriale de l’information.
Depuis 2014, AirDNA a mis en ligne un site web qui accompagne la professionnalisation des hôtes Airbnb, en commercialisant les données et en les analysant pour alimenter les stratégies d’investissement des hôtes Airbnb et améliorer leurs performances commerciales. Sur ce site « vitrine », une requête à la commune affiche la carte des hébergements localisés à l’adresse ainsi qu’un ensemble de chiffres-clés et graphiques mettant l’accent sur la performance de l’activité à la commune (part des nuitées disponibles ayant été réservées, revenus générés, etc.).

Les données commercialisées (à hauteur d’environ 1000 euros par commune, pour obtenir l’historique des fichiers mensuels) permettent quant à elles de disposer dans le temps (agrégation mensuelle) et dans l’espace (localisation géographique) des offres de location décrites par de nombreux attributs qui renseignent non seulement sur les caractéristiques des hébergements (logement entier ou chambre individuelle, capacité d’accueil, prix d’une nuitée, identifiants de l’hôte…) mais aussi sur l’activité de la location (disponibilité, nombre et durée des réservations, revenus générés…). AirDNA est la plateforme dominante sur ce créneau mais d’autres initiatives se développent afin de capter une part de la valeur des données Airbnb, en proposant d’autres interfaces d’accès à l’information.
Un des apports notables d’AirDNA est son relevé continu des données à l’échelle mondiale, à partir d’un protocole de collecte harmonisé. Ces données offrent ainsi une couverture spatiale relativement complète, avec un historique de plusieurs années (depuis 2014), de manière a priori comparable d’un lieu à l’autre et dans le temps. D’autre part, elles se prêtent à des analyses spatio-temporelles fines (suivi à un pas de temps mensuel, à un niveau d’observation spatiale quasiment à l’adresse), tout en étant assez riches d’un point de vue thématique : activité des locations (revenus engendrés, nuitées réservées, disponibles, etc.) et de leurs caractéristiques (prix, équipements, durée minimale des séjours, etc.).
La méthode AirDNA
AirDNA Data: How it Works présente la méthodologie implémentée par AirDNA. Le processus général d’acquisition et de consolidation de la donnée est globalement décrit. Mais ce protocole comprend aussi de nombreuses zones d’ombre :
La collecte des données relatives à l’ensemble des biens immobiliers répertoriés sur Airbnb et Vrbo/HomeAway s’effectue via webscraping sur plus de 10 millions d’annonces (avril 2023).
Dans un second temps, des « algorithmes » (non documentés) permettent d’une part de distinguer les doublons entre les deux sites, d’autre part de détecter les réservations en se basant sur le calendrier des logements.
Validation : l’équivalent de 10% du total des données serait collecté auprès de partenaires (professionnels immobiliers ou propriétaires individuels) pour vérifier les concordances entre les estimations de AirDNA et les observations de terrain sur les logements. Peu d’informations sur la localisation et les caractéristiques de ces partenaires sont connues.
Limites méthodologiques
Outre le processus de collecte de données peu documenté, les données AirDNA sont imprécises sur plusieurs aspects. Cela peut contribuer à altérer la qualité et la précision des résultats proposés. Ces limitations sont connues et identifiées dans la littérature :
Localisation des logements : Airbnb déforme légèrement les données de localisation en longitude/latitude pour protéger la confidentialité des utilisateurs (hôtes). On observera en conséquence sur plusieurs représentations proposées dans ce site Web que certaines annonces sont situées dans des espaces incongrus (parcs, voies ferrées, etc.). L’observation des attributs associés aux annonces (commune d’appartenance, zones de concentration d’annonces) suggère néanmoins que cette imprécision ne doit pas excéder quelques dizaines de mètres.
Contexte administratif local : dans notre cas d’étude, la création de communes nouvelles fait suite à la loi n. 2015-292 du 16 mars 2015. Entre 2015 et 2019, ce sont 12 communes nouvelles inaugurées en Île-de-France, regroupant 25 anciennes communes. Dans les données, les annonces Airbnb localisées dans ces communes apparaissent donc en doublon, une fois pour chaque ancienne commune d’appartenance.
Des indicateurs sujets à caution : du fait des techniques de scraping utilisées, des spécificités du logement (modification de la capacité d’accueil par l’hôte), de leur activité (distinction des réservations réelles et des annulations), plusieurs indicateurs proposés par AirDNA doivent être maniés avec précaution. Cela concerne notamment les mesures de l’activité (Briquet-Laugier et al. 2021), qui tendent à minimiser l’offre disponible et gonfler les taux d’occupation et les capacités d’accueil.
Une méthodologie évolutive peu documentée : il n’y a pas d’assurance que les données archivées soient mises à jour au fur et à mesure des améliorations des algorithmes de traitement. AirDNA précise que leurs équipes travaillent quotidiennement à l’amélioration de leurs données. On peut donc s’interroger sur la cohérence de la comparaison des données de 2014 à celles de 2020, compte tenu du fait qu’en 6 ans, il est plus que probable que plusieurs changements d’algorithme aient été opérés (Perilleux, Retout, et Decroly 2021). Le codage des variables, leurs modalités peuvent notamment varier dans le temps, sans qu’il soit possible de savoir si cette évolution est liée à l’évolution du site Airbnb ou de la méthodologie d’AirDNA. L’exemple ci-dessous nous montre le calendrier des créations de logements sur la plateforme Airbnb à Paris entre 2011 et 2022. On observe sur les premières années un schéma redondant : aucun logement n’est enregistré le dernier jour du mois. Il semble y avoir un rattrapage lors du premier jour du mois suivant. En 2019, il semble que ce rattrapage a lieu tous les lundis, et au mois de décembre.


Préparation des données AirDNA : analyses de qualité, nettoyage et enrichissement
Les données utilisées dans ce site Web ont été acquises auprès d’AirDNA pour la période 2014-2022 et couvrent l’ensemble de l’Île-de-France.
Structure de la base
La base AirDNA se compose de deux tableaux de données : le premier décrit les caractéristiques de chaque annonce enregistrée sur le site depuis 2008, sur les 12 derniers mois. Parmi ces annonces, certaines (la majorité) ne sont plus actives en 2022. Il est possible de retracer leur période de disponibilité via les colonnes indiquant la date de création et le dernier mois scrapé. Les dimensions de ce tableau sont de 443 690 lignes pour 70 colonnes.
Tableaux descriptifs des variables
Tableau individuel
Variable | Type | Valeurs uniques | Valeurs non attribuées | Valeurs non attribuées (%) | pct_na |
|---|---|---|---|---|---|
Airbnb Accuracy Rating | numeric | Note sur 10 attribuée par le visiteur à l’exactitude de l’annonce | 10 | 165,703 | 37.3 |
Airbnb Checkin Rating | numeric | Note sur 10 attribuée par le visiteur à l’accueil de l’hôte | 10 | 165,861 | 37.4 |
Airbnb Cleanliness Rating | numeric | Note sur 10 attribuée par le visiteur à la propreté du logement | 10 | 165,567 | 37.3 |
Airbnb Communication Rating | numeric | Note sur 10 attribuée par le visiteur à la communication de l’hôte | 10 | 165,631 | 37.3 |
Airbnb Home Collection | logical | TRUE : le logement fait partie d’un ensemble de logements sélectionnés par Airbnb pour un type spécifique de voyage | 1 | 443,690 | 100.0 |
Airbnb Host ID | numeric | Identifiant unique de chaque hôte Airbnb | 281,648 | 24,507 | 5.5 |
Airbnb Location Rating | numeric | Note sur 10 attribuée par le visiteur à la localisation du logement | 10 | 165,870 | 37.4 |
Airbnb Property ID | numeric | Identifiant unique de chaque propriété Airbnb | 419,623 | 24,068 | 5.4 |
Airbnb Property Plus | logical | TRUE : le logement est considéré par Airbnb comme étant « exceptionnel » et vérifié par un contrôle qualité | 3 | 0 | 0.0 |
Airbnb Response Time (Text) | character | Temps de réponse de l’hôte | 5 | 0 | 0.0 |
Airbnb Superhost | logical | TRUE si l’hôte est Superhost | 3 | 0 | 0.0 |
Airbnb Value Rating | numeric | Note sur 10 attribuée par le visiteur au rapport qualité/prix | 10 | 165,904 | 37.4 |
Amenities | character | Aménités présentes au sein du logement | 256,928 | 0 | 0.0 |
Annual Revenue LTM (Native) | numeric | Revenus totaux engendrés par l’hôte sur l’année passée | 31,892 | 26,018 | 5.9 |
Annual Revenue LTM (USD) | numeric | Revenus totaux engendrés par l’hôte sur l’année passée | 34,252 | 2,148 | 0.5 |
Average Daily Rate (Native) | numeric | Revenus engendré par l’hôte pour une réservation | 30,632 | 349,757 | 78.8 |
Average Daily Rate (USD) | numeric | Revenus engendré par l’hôte pour une réservation | 32,812 | 344,798 | 77.7 |
Bathrooms | numeric | Nombre de salles de bain | 37 | 1,982 | 0.4 |
Bedrooms | numeric | Nombre de chambres | 31 | 690 | 0.2 |
Calendar Last Updated | Date | Dernier jour durant lequel l’hôte a mis à jour son calendrier | 2,528 | 0 | 0.0 |
Cancellation Policy | character | Mesures d’annulation | 94 | 0 | 0.0 |
Check-in-Time | character | Heure du check-in | 485 | 0 | 0.0 |
Checkout Time | character | Heure du checkout | 63 | 0 | 0.0 |
City | character | Ville dans laquelle se situe le logement | 1,202 | 0 | 0.0 |
Cleaning Fee (Native) | numeric | Frais de ménage par réservation dans la devise choisie par l’hôte | 260 | 309,827 | 69.8 |
Cleaning Fee (USD) | numeric | Frais de ménage par réservation en dollars | 586 | 187,710 | 42.3 |
Count Available Days LTM | numeric | Nombre de jours classifiés comme disponibles et non réservés durant les 12 derniers mois | 301 | 344,739 | 77.7 |
Count Blocked Days LTM | numeric | Nombre de jours classés comme bloqués durant les 12 derniers mois | 255 | 344,739 | 77.7 |
Count Reservation Days LTM | numeric | Nombre de jours classés comme réservés durant les 12 derniers mois | 366 | 344,739 | 77.7 |
Country | character | Pays dans lequel se situe le logement | 2 | 0 | 0.0 |
Created Date | Date | Date durant laquelle a été mis en ligne le logement | 4,360 | 0 | 0.0 |
Currency Native | character | Devise choisie par l’hôte | 33 | 0 | 0.0 |
Exact Location | logical | TRUE : l’annonce se situe à l’endroit précis où elle est localisée | 3 | 0 | 0.0 |
Extra People Fee (Native) | numeric | Frais pour un voyageur supplémentaire dans la devise choisie par l’hôte | 149 | 391,079 | 88.1 |
Extra People Fee (USD) | numeric | Frais pour un voyageur supplémentaire en dollars | 239 | 370,077 | 83.4 |
HomeAway Location Type | logical | Type de logement HomeAway | 412 | 0 | 0.0 |
HomeAway Premier Partner | logical | TRUE si l’hôte est Premier Partner chez HomeAway | 3 | 0 | 0.0 |
HomeAway Property ID | logical | Identifiant unique de chaque propriété Homeaway | 36,800 | 0 | 0.0 |
HomeAway Property Manager ID | logical | Identifiant unique de chaque hôte Homeaway | 53 | 0 | 0.0 |
Instantbook Enabled | logical | TRUE : l’annonce peut être réservée sans devoir communiquer avec l’hôte | 4 | 0 | 0.0 |
Integrated Property Manager | logical | TRUE : l’hôte vit dans le logement qu’il loue | 3 | 0 | 0.0 |
Last Scraped Date | Date | Dernier jour où le logement a été scrapé. Chaque logement est scrapé tous les 3 jours | 2,597 | 0 | 0.0 |
Latitude | numeric | Latitude du logement | 240,338 | 0 | 0.0 |
License | character | Numéro de licence de l’hôte | 66,954 | 5 | 0.0 |
Listing Images | character | Photos de l’annonce | 393,442 | 0 | 0.0 |
Listing Main Image URL | character | Lien URL vers la photo principale de l’annonce | 431,160 | 0 | 0.0 |
Listing Title | character | Titre de l’annonce | 397,553 | 1 | 0.0 |
Listing Type | character | Type de logement (selon modalités Airbnb) | 5 | 0 | 0.0 |
Listing URL | character | Lien URL vers l’annonce | 443,690 | 0 | 0.0 |
Longitude | numeric | Longitude du logement | 255,831 | 0 | 0.0 |
Max Guests | numeric | Capacité d’accueil en nombre de voyageurs | 44 | 708 | 0.2 |
Metropolitan Statistical Area | logical | Aire statistique métropolitaine dans laquelle se trouve le logement (seulement aux USA) | 1 | 443,690 | 100.0 |
Minimum Stay | numeric | Durée minimale du séjour | 192 | 2,774 | 0.6 |
Neighborhood | logical | Quartier où se situe le logement | 23 | 0 | 0.0 |
Number of Bookings LTM | numeric | Nombre de réservations lors des 12 derniers mois | 250 | 2,148 | 0.5 |
Number of Photos | numeric | Nombre de photos présentes sur l’annonce | 175 | 4,158 | 0.9 |
Number of Reviews | numeric | Nombre total de commentaires sur l’annonce | 601 | 28,651 | 6.5 |
Occupancy Rate LTM | numeric | Taux de fréquentation : Nombre de jours réservés / (nombre de nuitées réservés + nombre de nuitées disponibles) Les calculs ne prennent pas en compte les jours bloqués et les mois sans réservation | 968 | 344,739 | 77.7 |
Overall Rating | numeric | Note du visiteur sur une échelle de 0 à 100 | 71 | 156,266 | 35.2 |
Pets Allowed | logical | TRUE : les animaux sont autorisés au sein du logement | 3 | 0 | 0.0 |
Property ID | character | Identifiant unique de chaque propriété | 443,690 | 0 | 0.0 |
Property Type | character | Type de logement (choisi par l’hôte) | 195 | 0 | 0.0 |
Published Monthly Rate (USD) | numeric | Prix mensuel choisi par l’hôte | 13,394 | 168,421 | 38.0 |
Published Nightly Rate (USD) | numeric | Prix choisi par l’hôte pour une nuitée | 2,479 | 42,131 | 9.5 |
Published Weekly Rate (USD) | numeric | Prix hebdomadaire choisi par l’hôte | 5,673 | 168,364 | 37.9 |
Response Rate | numeric | Pourcentage de réponse de l’hôte dans les 24h | 102 | 93,039 | 21.0 |
Security Deposit (Native) | numeric | Caution choisie par l'hôte dans sa devise | 1,014 | 329,105 | 74.2 |
Security Deposit (USD) | numeric | Caution choisie par l’hôte en dollars | 3,149 | 299,667 | 67.5 |
State | character | Région dans laquelle se situe le logement | 1 | 0 | 0.0 |
Zipcode | logical | Code postal de la ville du logement | 1 | 443,690 | 100.0 |
Dans le tableau individuel, les variables sont recensées sur les 12 derniers mois (LTM : Last Twelve Months). Ainsi, nous retrouvons près de 78% de valeurs non attribuées pour la variable correspondant au revenu engendré par l’hôte pour une réservation. Ce pourcentage est calculé sur l’ensemble des annonces ayant été mises en ligne sur le site Airbnb depuis 2014. Une annonce disponible mais non réservée affichera un revenu non disponible (et non nul). Les 22% restants correspondent donc aux 90 000 annonces ayant été réservées au moins une fois en 2022.
Tableau mensuel
Le second tableau de données est celui qui est le plus utilisé pour les analyses. Il comporte un résumé mensuel de chacun des logements présents sur la plateforme depuis 2014, avec entre autres le revenu engendré par une annonce pour un mois donné, le nombre de nuitées réservées, disponibles et bloquées durant ce mois, et le prix de la nuitée. Plus lourd que le premier, ce tableau est composé de plus de 13 millions de lignes pour 29 colonnes. Il s’agit de tableaux de données assez lourds (760MB pour le premier, > 3GB pour le second).
Variable | Type | Valeurs uniques | Valeurs non attribuées | Valeurs non attribuées (%) | pct_na |
|---|---|---|---|---|---|
Active | logical | TRUE si le logement a été proposé ou réservé au moins un jour durant la période de récolte | 2 | 0 | 0.0 |
ADR (Native) | numeric | Revenus engendré par l’hôte pour une réservation | 81,206 | 9,401,098 | 71.7 |
ADR (USD) | numeric | Revenus engendré par l’hôte pour une réservation | 85,876 | 9,276,519 | 70.7 |
Airbnb Host ID | numeric | Identifiant unique de chaque hôte Airbnb | 280,175 | 752,040 | 5.7 |
Airbnb Property ID | numeric | Identifiant unique de chaque propriété Airbnb | 416,735 | 748,188 | 5.7 |
Available Days | numeric | Nombre de jours classifiés comme disponibles et non réservés | 33 | 38,067 | 0.3 |
Bedrooms | numeric | Nombre de chambres | 31 | 9,732 | 0.1 |
Blocked Days | numeric | Nombre de jours classifiés comme bloqués à la réservation. | 33 | 38,067 | 0.3 |
City | character | Ville dans laquelle se situe le logement | 1,202 | 0 | 0.0 |
Country | character | Pays dans lequel se situe le logement | 1 | 0 | 0.0 |
Currency Native | character | Devise choisie par l’hôte | 36 | 0 | 0.0 |
HomeAway Property ID | logical | Identifiant unique de chaque propriété Homeaway | 36,337 | 0 | 0.0 |
HomeAway Property Manager | logical | Identifiant unique de chaque hôte Homeaway | 53 | 0 | 0.0 |
Latitude | numeric | Latitude du logement | 238,003 | 0 | 0.0 |
Listing Type | character | Type de logement (selon modalités Airbnb) | 5 | 0 | 0.0 |
Longitude | numeric | Longitude du logement | 253,452 | 0 | 0.0 |
Metropolitan Statistical Area | logical | Aire statistique métropolitaine dans laquelle se trouve le logement (seulement aux USA) | 1 | 13,112,097 | 100.0 |
Neighborhood | logical | Quartier où se situe le logement | 23 | 0 | 0.0 |
Number of Reservations | numeric | Nombre de réservations durant le mois | 33 | 38,067 | 0.3 |
Occupancy Rate | numeric | Taux de fréquentation : Nombre de jours réservés / (nombre de nuitées réservés + nombre de nuitées disponibles) pendant le mois | 310 | 818,563 | 6.2 |
Property ID | character | Identifiant unique de chaque propriété | 440,538 | 0 | 0.0 |
Property Type | character | Type de logement (choisi par l’hôte) | 195 | 0 | 0.0 |
Reporting Month | Date | Mois pendant lequel les données ont été récoltées | 99 | 0 | 0.0 |
Reservation Days | numeric | Nombre de nuitées réservées durant le mois | 33 | 38,067 | 0.3 |
Revenue (Native) | numeric | Revenus totaux engendrés pendant la période de récolte dans la devise choisie par l’hôte | 560,242 | 769,995 | 5.9 |
Revenue (USD) | numeric | Revenus totaux engendrés pendant la période de récolte en dollars | 363,515 | 1,789,571 | 13.6 |
Scraped During Month | logical | TRUE si le logement a été scrapé pendant le mois | 2 | 0 | 0.0 |
State | character | Région dans laquelle se situe le logement | 1 | 0 | 0.0 |
Zipcode | logical | Code postal de la ville du logement | 1 | 13,112,097 | 100.0 |
Prétraitements
Le travail de consolidation de la base de données initiale se décline en différentes étapes :
- Concordance sous deux aspects : les deux bases de données décrivent-elles les mêmes annonces ? Y’a-t-il des doublons ? Du point de vue géographique, leur localisation coïncide-t-elle avec la commune indiquée ?
- Nettoyage des données passe par la suppression des annonces autres que Airbnb, des hôtels & campings, des valeurs aberrantes, puis par une sélection des variables d’intérêt.
- Création de nouvelles variables à partir des variables existantes. On peut citer le prix par nuitée et par personne ou bien la distinction entre multiloueurs.
Toutes ces opérations sont regroupées et documentées dans un script R dédié. Suite aux étapes de prétraitement des données, environ 7% des lignes seront supprimées des tableaux, et la sélection sur les annonces actives permet de réduire de moitié les dimensions des tableaux. Dans les faits, le tableau individuel sera utilisé pour un nombre réduit de variables (par exemple la création d’annonces). La plupart des autres traitements et représentations sont effectués à partir du tableau mensuel.
Tableau | Nombre d'observation | Étape 1 : concordance | Étape 1 (%) | Étape 2 : suppression Hôtels & Camping | Étape 2 (%) | Étape 3 : suppression logements HomeAway | Étape 3 (%) | Étape 4 : suppression de valeurs aberrantes | Étape 4 (%) | Total (%) | Sélection logements actifs | Suppression logements actifs (%) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tableau individuel | 443,690 | 440,538 | 0.7 | 432,503 | 1.8 | 410,416 | 5.1 | 410,021 | 0.1 | 7.6 | ||
Tableau mensuel | 13,112,097 | 13,112,097 | 0.0 | 12,935,951 | 1.3 | 12,185,965 | 5.8 | 12,181,494 | 0.0 | 7.1 | 6,339,499 | 51.7 |
Enrichissement avec les données de l’INSEE
Afin d’étudier la concentration des logements Airbnb au regard du parc de résidences principales, des données INSEE sont mobilisées. Il s’agit du parc de résidences principales sur la période 2015-2019 pour les communes/ IRIS et en 2017 pour les données au carreau de 200 mètres et 1000 mètres (pas de séries annuelles pour ces données).
L’apport de la multireprésentation
Les cartographies contenues dans ce site Web prennent le parti de la multireprésentation en faisant varier 3 paramètres, en plus des évolutions temporelles également introduites :
- Deux espaces d’étude en vis-à-vis : l’Île-de-France et la Métropole du Grand Paris ;
- Deux niveaux de résolution de maille territoriale : IRIS - Communes et grille de 200 mètres - grille d’1 kilomètre ;
- Deux modes de représentation : des représentations discrètes, dans la maille (découpages territoriaux, grille régulière), et des représentations continues (lissages spatiaux).
Ces choix méthodologiques forts s’inscrivent dans la longue tradition de la multireprésentation cartographique et revêtent des intérêts conceptuels, politiques et plus généralement de communication visuelle en fonction des publics (Zanin et Lambert 2012).
En effet, la meilleure traduction géographique d’une structure spatiale n’est pas toujours la même selon les publics : certains auront besoin de situer « leur territoire » au regard d’un ensemble de références, d’autres auront besoin de voir se dégager des structures spatiales plus larges. Dès lors, la production de multireprésentations basées sur les variations des échelles, des fonds de cartes et maillages utilisés et sur les changements de modes de représentation produit des images différentes et cohérentes pour une compréhension et analyse plus fine d’un même territoire pour un même phénomène géographique.
L’objet consistant à ne pas imposer la représentation unique d’un phénomène, selon un point de vue unique qui ne peut, par essence, servir à plusieurs utilisateurs. Au contraire, il est question de proposer un panel cartographique où chaque carte permet d’enrichir la réflexion, l’analyse et la prise de décision. (Zanin et Lambert 2012).
Par ailleurs, le maillage territorial joue le rôle d’un filtre qui agrège des informations (en l’occurrence ici les annonces Airbnb localisées avec une précision d’une dizaine de mètres). Ces maillages qu’ils soient statistiques ou politiques, réguliers ou irréguliers jouent un rôle de filtre dans la communication de l’information. Chaque maille apporte une information nouvelle pour la compréhension et un résultat graphiquement totalement différent et rappelle la structure multiscalaire des phénomènes étudiés.
Enfin, comme le rappelle Nicolas Lambert dans sa démonstration Méfiez-vous des cartes, pas des migrants (2018), le choix de l’emprise géographique d’une carte n’est pas anodin. Il peut être comparé à l’emprise d’une vue photographique : l’attention est portée sur un endroit tout en décidant délibérément d’en omettre d’autres, les limites du cadre photographique. Pour surpasser ces biais introduits, nous proposons dans les analyses d’introduire plusieurs contextes géographiques de comparaison : l’Île-de-France, la Métropole du Grand Paris et la comparaison de briques territoriales élémentaires (communes et départements).
En définitive, par ces multireprésentations, nous souhaitons ici rappeler la nécessité d’opter pour une approche multiscalaire pour considérer le phénomène Airbnb dans toute sa finesse.
Les cartes de lissage par potentiels
Dès lors que les données sont géoréférencées, il est possible de s’affranchir de la maille territoriale en interpolant les attributs des offres locatives de courte durée (nombre de nuitées, revenus générés, etc.) dans la grille INSEE d’un kilomètre et dans un voisinage géographique donné. En effet, les agrégats géographiques plus larges sont peu adaptés lorsqu’il s’agit de décrire la structure locale des marchés immobiliers (Le Goix, Giraud, et al. 2019). De plus, les erreurs de géoréférencement peuvent être imputées de manière erronée une offre Airbnb à une maille, comme nous l’avons vu plus haut. Ce faisant, il peut être utile d’interpoler les résultats pour obtenir une autre lecture géographique du phénomène Airbnb.
La méthode employée, celle des potentiels de Stewart (1942), consiste en tout lieu de l’espace à estimer les attributs des offres et réservations Airbnb dans un voisinage géographique donné, suivant une fonction exponentielle inverse de la distance (Giraud et Commenges 2022). Chaque carreau de grille décrit alors les prix pratiqués dans son propre contexte géographique. Cette méthode permet de résoudre les effets de MAUP (ou de bruit statistique lié à un trop faible nombre d’observations) et d’observer les structures spatiales, tout en faisant varier les modalités d’agrégation (Grasland et al. 2006).
Les cartes lissées proposées ici s’affranchissent alors du maillage initial et donnent à voir l’intensité du phénomène de façon continue en représentant les valeurs potentielles d’une variable dans un voisinage géographique donné. Il s’agit d’un voisinage gaussien, c’est-à-dire que les points plus éloignés auront une masse moindre. Visuellement, cela nous permet de passer d’une information continue (des points) à une représentation lissée, et donc de « voir aussi bien les spécificités locales d’un phénomène que ses tendances générales » (Lambert et Zanin 2016).
Pour comprendre de façon plus détaillée la méthodologie sur laquelle ces lissages sont construits, prenons un exemple : le nombre de nuitées réservées par logement Airbnb dans un espace fictif. Cet exemple est grandement inspiré de la vignette du package R qui permet la réalisation de ces calculs de potentiel (Giraud 2022).

Par intersections géométriques, il est possible d’associer les attributs des points à leur commune / carreau de grille d’appartenance.


Si la première représentation permet de comparer les communes entre elles, elle ne dit rien de la distribution des logements Airbnb à une échelle infra-communale. La grille régulière offre une meilleure visualisation de cette distribution, mais le maillage en lui-même représente une limite à cette visualisation. Elle reste néanmoins l’outil nécessaire au calcul de potentiels. En effet, elle nous permet dans un premier temps de calculer la distance entre deux points (ou plus précisément le centroïde d’un carreau et un autre point).


La fonction d’interaction spatiale
Le potentiel d’accessibilité à un point va être calculé selon plusieurs paramètres : la portée (span), qui désigne la distance à laquelle l’attractivité mesurée d’un point sera divisée par 2, la limite, c’est-à-dire la distance maximale à laquelle le potentiel sera évalué, et la friction à la distance (beta), qui agit sur une prise en compte plus ou moins importante de la distance. Nous jouons principalement sur le paramètre de la portée, qui varie selon la taille de la maille. Une portée plus grande permettra de chercher le stock d’opportunités dans un voisinage plus lointain, et inversement. Ainsi, une portée de 1000 signifie qu’un individu situé à 1000m du point d’intérêt aura un « poids » de 0,5 dans le calcul de potentiel.
Le choix de ces paramètres ne relève rien du hasard. Les résultats qui en dérivent peuvent ainsi fortement différer et donner une image plus ou moins lissée des phénomènes observés (Le Goix, Ysebaert, et al. 2019). Le choix de la portée du lissage doit reposer sur une hypothèse de probabilité d’interaction entre les objets géographiques sujets au lissage par potentiel. Autrement dit et appliqué à Airbnb, nous émettons l’hypothèse qu’un client potentiel Airbnb sera intéressé pour réserver un logement dans un voisinage géographique donné (proche d’un métro, dans un certain quartier par exemple). Dans ce contexte, nous considérons que cette portée géographique est assez limitée et le marché Airbnb obéit à une organisation plutôt localisée. Sur l’ensemble des représentations lissées, une portée de 1000 mètres associée à une limite de 5000 mètres a été retenue.

Ces paramètres influent directement sur le calcul de potentiels. La probabilité d’interaction sera calculée à l’aide de la fonction d’interaction spatiale, attribuant à chaque point une valeur en fonction de leur distance à un point donné. Cette valeur sera par la suite multipliée par la masse des points (c’est-à-dire la variable en question), pour obtenir en sortie la valeur potentielle de cette même variable. Dans la figure ci-dessous, le calcul de potentiel est effectué avec nos données fictives pour le centroïde d’un des carreaux de grille, matérialisé par un losange rouge.



Répété pour l’ensemble des carreaux de grille de cet espace d’étude fictif, on obtient une représentation des potentiels de nuitées réservées dans ce voisinage gaussien de 1000 mètres.
Et finalement, ces résultats peuvent être représentés selon des lignes d’équipotentiel, qui visuellement rappellent la continuité spatiale de la méthode de calcul. Cette transformation est réalisée avec le package R mapiso (Giraud et Commenges 2023)

