Une aventure des données à Boston, 1929 : analyse historique d’un corpus de recensement

par Rory Foulger
Article original
Je suis en train d’écrire un roman. C’est une sorte de fiction historique. Apparemment, cela signifie que je dois faire beaucoup de recherches sur ce à quoi ressemblait la vie dans les années 1920.​Le problème que j’ai eu hier soir, c’était que mon personnage déménage à Boston depuis Chicago, et que, pour donner de la texture à la ville, nous devons introduire des personnages, des bâtiments, des rues, etc., d’une manière qui paraisse réelle. Le problème avec Boston, en particulier le West End où il se rend, c’est que le quartier a changé de façon spectaculaire au cours des 100 dernières années. Il y a eu un immense projet de rénovation urbaine dans les années 50 et 60 qui a essentiellement rasé toute la zone. Ainsi, aucune des rues ni aucun des bâtiments ne ressemble, même de loin, sur une carte aujourd’hui à ce que mon personnage verrait en se promenant.​De plus, le West End abritait un mélange très particulier de personnes, principalement des Italiens et des Juifs, donc, si je veux être exact, je dois choisir les noms et les professions des personnages secondaires ailleurs que dans la liste des 100 noms américains les plus courants de l’année.​Commençons toutefois par les cartes. Les rues sont amusantes, et il doit bien y avoir quelque chose d’utile quelque part.​.........​Et oui. Il y a beaucoup de cartes.
​
Plus précisément, celle-ci, tirée de l’édition imprimée de 1928 de l’Atlas de la ville de Boston, planche 3. C’est formidable !Mon personnage emménage dans l’une des pensions juste derrière la Synagogue, juste ici :
In[]:=
En guise de comparaison, voici à quoi ressemble maintenant la zone :
In[]:=
La rue Russell Street a disparu, la rue Blossom Street peut accueillir 6 voies de circulation, et il y a le magasin d’alimentation Whole Foods pratique là où se trouvaient autrefois la synagogue, une école et des logements pour environ 1000 personnes.
Ce qui est super avec ces vieilles cartes, c’est que le nom du propriétaire du bâtiment est écrit juste par-dessus. Cela m’a donné l’idée révolutionnaire de vérifier s’il existe un recensement ou une liste des résidents de cette époque, pour trouver des idées de noms de personnages.​C’est incroyable ! Non seulement il existe une liste détaillée de tous les résidents pour presque chaque année depuis 1868, mais avant les années 1980, ces publications étaient réparties par quartiers géographiques, ce qui signifie que je peux ouvrir celle qui concerne précisément les personnes qui vivaient sur la carte ci-dessus.
Out[]=
Un véritable trésor. Non seulement cette liste indique le nom, le sexe (les femmes indiquées par une dague !), et l’âge de chacun, mais elle indique aussi leur profession, leur adresse postale, et leur adresse précédente s’ils ont déménagé depuis le dernier recensement, un peu plus d’un an auparavant.
« Fantastique », me suis-je dit, en levant les yeux vers l’horloge et en remarquant qu’il est maintenant onze heures du soir, un vendredi. « Je peux maintenant aller me coucher, rassuré par l’idée que demain je pourrai choisir quelques noms et enfin me mettre à écrire réellement. »​« Mais », a dit la partie de mon cerveau qui avait étudié les statistiques à l’université, « tu ne peux pas simplement choisir au hasard. Et si tu choisissais le seul nom qui n’apparaît qu’une seule fois ? Ou si tu choisissais le nom le plus courant et le donnais à un personnage inhabituel ? Tu auras l’air d’un imbécile ! »​« Très bien », ai-je dit à mon cerveau, « je parie que nous pouvons calculer cela très facilement et rapidement, et ensuite j’irai me coucher. »​Et c’est ainsi que tout a commencé.

Vingt-trois heures trente : le premier obstacle

Alors, la liste des résidents est magnifiquement présentée par l’archive. Le PDF est même interrogeable, et possède cette chouette animation de pages qui se tournent. Ce sont les autres types de fichiers qui m’ont posé problème.​Le problème fondamental était que quelque soit l’OCR utilisé pour lire ce livre, il n’était pas très bon avec les tableaux. Sur certaines pages, il y avait tous les noms, suivis de toutes les adresses, puis des professions, puis des âges, puis des adresses précédentes. Sur certaines pages, ces éléments étaient en lignes. Sur certaines pages, il y avait la liste des noms, puis une sélection apparemment aléatoire d’informations provenant des autres colonnes, parfois dans l’ordre.

Noms

Occupations

Huit heures trente : bonne nuit

MODIFICATION : dimanche soir

◼
  • supprimer les codes de deux lettres au début
  • ◼
  • supprimer les codes d’une lettre au début
  • ◼
  • supprimer les codes de 2 lettres à la fin
  • ◼
  • supprimer les codes d’une lettre à la fin
  • ◼
  • Supprimer tout espace blanc initial ou final restant après les remplacements
  • CITER CE NOTEBOOK