Zweiter Teil der Case Study

Im zweiten Teil der Case Study werden Sie die eingelesenen und aufgearbeiten Daten aus Teil 1 deskriptiv untersuchen. Hierbei erhalten Sie einen Eindruck von den Daten und können mögliche Zusammenhänge entdecken, indem Sie unterschiedliche Informationen visualisieren und auch in Tabellenform auswerten. Ziele des zweiten Teils der Case Study:

  • Daten visualisieren und Zusämmenhänge grafisch veranschaulichen
  • Deskriptive Analysen mittels Korrelationstabellen und deskriptiven Tabellen anfertigen
  • Das Verständnis wie Sie ihre Informationen zu bestimmten Fragestellungen möglichst effektiv aufbereiten
  • Interaktive Grafiken erstellen

Sie erhalten durch deskriptive Analysen einen sehr guten Eindruck von den regionalen Unterschieden innerhalb Deutschlands. Das begleitende 3. RTutor Problem Set gibt ihnen einen sehr guten Eindruck davon, wie die Unterschiede zwischen den einzelnen Ländern auf europäischer Ebene aussehen.

Daten und Pakete laden

Nachdem wir uns im ersten Teil der Case Study alle Daten aus verschiedenen Datenquellen zusammengetragen und in R eingelesen haben, wollen wir in diesem zweiten Teil die darin enthaltenen Informationen analysieren, insbesondere visualisieren.

Hierzu laden wir uns die aus Teil 1 erstellten Datensätze:

library(tidyverse)
library(skimr)
library(sf)
library(viridis)
library(plotly)
library(kableExtra)
library(gt)
library(corrr)
# Daten einlesen
#einkommen <- readRDS("data/einkommen.rds")
bundesland <- readRDS("data/bundesland.rds")
landkreise <- readRDS("data/landkreise.rds")
bip_zeitreihe <- readRDS("data/bip_zeitreihe.rds")
gemeinden <- readRDS("data/gemeinden.rds")
gesamtdaten <- readRDS("data/gesamtdaten.rds")
schulden_bereinigt <- readRDS("data/schulden_bereinigt.rds")

Deskriptive Analysen

Univariate deskriptive Analysen

Wir wollen uns zu Beginn unserer Analysen einen Überblick über die Daten verschaffen. D.h. wie viele Landkreise haben wir in den Daten? Wie ist die Verteilung der Schulden, Arbeitslosigkeit und des BIP?

Hierfür wollen wir uns im ersten Schritt die Arbeitslosenquote berechnen. Die Schulden pro Kopf und das BIP pro Kopf hatten wir bereits in dem ersten Teil der Case-Study berechnet. Die Arbeitslosenquote wollen wir als \(Arbeitslosenquote = Erwerbslose / (Erwerbstätige + Erwerbslose)\) berechnen. Bei der Berechnung der Arbeitslosenquote beziehen wir also das komplette Potential an erwerbsfähigen Personen ein.

In den nächsten Abschnitten wollen wir uns die Parameter für die einzelnen Variablen dann genauer anschauen.

# Zuerst wollen wir uns noch die Arbeitslosenquote pro Landkreis berechnen
gesamtdaten <- gesamtdaten %>%
  mutate(alo_quote = (total_alo / (erw+total_alo))*100)

Anzahl an Beobachtungen

Wir wollen zuerst einen Blick auf die Anzahl an Erwerbstätigen und Einwohnern in Deutschland werfen. Hier haben wir 41,5 Mio. Erwerbstätige und 76,9 Mio. Einwohner in Deutschland. Dies sollte stimmen, da wir Hamburg (1,8 Mio.), Berlin (3,87 Mio.) und Bremen (0,6 Mio.), sowie Bremerhaven (0,1 Mio.) nicht in unserem Datensatz haben. Die Daten wollen wir uns als einfachen Tibble Datensatz anzeigen lassen:

# Wie viele Erwerbstätige und Einwohner (ohne Berlin, Hamburg, Bremen und Bremerhaven) hat Deutschland?
gesamtdaten %>% 
  summarise(total_erw = sum(erw, na.rm=TRUE), total_einwohner = sum(Einwohner, na.rm=TRUE))
## # A tibble: 1 × 2
##   total_erw total_einwohner
##       <dbl>           <dbl>
## 1  41572423        76939741

Nun wollen wir uns die Variablen im Datensatz genauer anschauen. Eine Tabelle nur als Tibble darzustellen ist nicht besonders ansprechend. Wir können uns für einen ersten kurzen Überblick des skimr-Pakets bedienen:

# Anschließend wollen wir eine Summary Statistic für alle Variablen ausgeben lassen
# Entfernen der Histogramme, damit alles auch schön in PDF gedruckt werden kann
gesamtdaten %>%
  select(alo_quote, Schulden_pro_kopf_lk, bip_pro_kopf, landkreis_name) %>%
  skim()
Data summary
Name Piped data
Number of rows 400
Number of columns 4
_______________________
Column type frequency:
character 1
numeric 3
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
landkreis_name 0 1 3 32 0 378 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
alo_quote 2 1.00 5.28 2.07 1.81 3.66 5.00 6.62 14.47 ▇▇▃▁▁
Schulden_pro_kopf_lk 4 0.99 2919.82 2272.31 218.94 1462.92 2255.53 3460.74 16678.07 ▇▂▁▁▁
bip_pro_kopf 2 1.00 40241.49 16714.37 17553.39 30303.58 36497.09 43846.03 158749.09 ▇▂▁▁▁

Wir haben 400 individuelle Beobachtungen in unserem Datensatz. Hierbei handelt es sich um alle Landkreise und kreisfreien Städte in Deutschland. Stimmen diese Angaben? Für einen kurzen Konsistenzcheck wollen wir uns Wikipedia bedienen.

In Deutschland gibt es 294 Landkreise. Die Anzahl der Landkreise pro Bundesland finden wir hier. Weiterhin gibt es in Deutschland 106 kreisfreie Städte, die genaue Auflistung finden wir hier. D.h. unsere 400 Landkreise und kreisfreien Städte sollten stimmen.

Jedoch gibt es nur 378 unterschiedliche Landkreis Namen in unserem Datensatz mit 400 unterschiedlichen Beobachtungen (Regionalschlüsseln). Dies kommt daher, dass z.B. die Stadt München eine Beobachtung ist und der Landkreis München eine weitere Beobachtung mit anderem Regionalschlüssel. D.h. der “landkreis_name” ist der Gleiche, jedoch ist der Regionalschlüssel ein anderer.

Für die Schulden und die Einwohnerzahlen fehlen uns leider Daten für vier Landkreise, für das BIP fehlen uns Daten für zwei Landkreise:

gesamtdaten %>%
  filter(is.na(Einwohner)) %>%
  select(landkreis_name)
## # A tibble: 4 × 1
##   landkreis_name
##   <chr>         
## 1 Hamburg       
## 2 Bremen        
## 3 Bremerhaven   
## 4 Berlin

Leider haben wir hier in den Originaldaten keine Informationen zu Schulden und BIP für diese Städte, daher können wir sie nicht mit in unsere Analysen einbeziehen.

Beschreibung der Tabelle

Arbeitslosenquote

Im Durchschnitt liegt die Arbeitslosenquote in 2021 bei 5,28 Prozent. Dies mag uns zuerst etwas hoch erscheinen, jedoch sollten wir bedenken, dass wir alle Arbeitslosen mit in unsere Analyse einbezogen haben, d.h. Bezieher von SGB II und SGB III. Ein kurzer Konsistenzcheck auf Statista zeigt uns die dort gemeldete Arbeitslosenquote von 5.7% für 2021. Unsere niedrigere Quote könnte insbesondere daran liegen, dass die Großstädte Berlin und Hamburg nicht in unserer Analyse enthalten sind. Die Standardabweichung beträgt 2,07 und zeigt damit, dass es in Deutschland deutliche regionale Unterschiede bzgl. der Arbeitslosenquote gibt. Ein Blick auf die Verteilung zeigt, dass der Landkreis mit der geringsten Arbeitslosenquote nur eine Arbeitslosenquote von 1,81% (p0 in der obigen Tabelle) aufweist und der Landkreis mit der höchsten Arbeitslosenquote von 14,5% (p100 in der obigen Tabelle). Zwar sind die Werte noch ein ganzes Stück von dem Durchschnitt der Arbeitslosenquote in Spanien entfernt (fast 15% im Jahr 2021), zeigen jedoch schon, dass es auch in Deutschland durchaus Regionen mit einer sehr hohen Arbeitslosenquote gibt.

Verschuldung pro Kopf

Bei der Verschuldung der Landkreise ergibt sich ein ähnliches Bild. Durchschnittlich beträgt die Verschuldung der Landkreise 2920€, mit einer Standardabweichung von 2272€. D.h. auch hier gibt es eine große Bandbreite bzgl. der Verschuldung einzelner Landkreise.

BIP pro Kopf

Wie schon bei der Arbeitslosenquote und der Verschuldung sehen wir auch bei dem BIP pro Kopf deutliche Unterschiede zwischen den einzelnen Landkreisen in Deutschland. Im Durchschnitt liegt das BIP pro Kopf in den Landkreisen bei 40241€, jedoch haben wir eine Standardabweichung von 16714€, was zuerst nach sehr viel aussieht. Dies könnte jedoch an einzelnen Landkreisen liegen (so hat ein Landkreis bspw. ein BIP pro Kopf von 158749€). Da der Median des BIP pro Kopf bei 36497€ liegt haben wir hier schon einen Hinweis, dass das BIP pro Kopf vermutlich nicht normalverteilt über alle Landkreise ist und es wohl einzelne Ausreißer in den Daten gibt.

Summary Statistics auf Bundeslandebene für die Arbeitslosigkeit

Nachdem wir im vorherigen Abschnitt bereits gesehen haben, dass es wohl deutliche regionale Unterschiede bei allen Variablen geben muss, wollen wir uns nun noch die Arbeitslosenquote auf Bundeslandebene anschauen. Erinnern wir uns daran das wir hier Querschnittsdaten für das Jahr 2021 für alle deutschen Landkreise betrachten. Weiterhin hat uns die vorherige Tabelle bereits gezeigt, dass wir mit “missing Values” rechnen müssen (n_missing bei der skimr-Tabelle). Um nun einen ersten Überblick über die regionale Verteilung der Arbeitsenquote in 2021 zu gewinnen schauen wir uns die Arbeitslosenquote auf Bundeslandebene an, aggregiert über die Landkreise eines Bundeslandes. Hierzu wollen wir uns des Pakets kableExtra bedienen um schönere Tabellen zu erstellen:

bula_data <- gesamtdaten %>% 
  group_by( bundesland_name ) %>%
  summarise(mean_alo = mean(alo_quote), sd_alo = sd(alo_quote), median_alo = median(alo_quote)) %>%
  ungroup()

bula_data %>%
  arrange( mean_alo ) %>%
  filter( !is.na(mean_alo) ) %>%
  kbl(col.names = c("Bundesland",
                    "Mittelwert",
                    "Std.",
                    "Median"), digits = 2) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive")) %>%
  kable_paper(full_width = F) %>%
  row_spec(c(5, 7,9, 10, 12,13), bold = T, color = "white", background = "#BBBBBB") %>%
  add_header_above(c(" " = 1, "Arbeitslosenquote" = 3), align = "c") %>%
  footnote(general = "Wir haben keine Informationen zu Berlin und Hamburg, weshalb sie nicht in der Tabelle aufgeführt wurden.", 
           general_title = "Bitte beachten: ",
           number = "Die ostdeutschen Bundesländer sind grau hinterlegt.")
Arbeitslosenquote
Bundesland Mittelwert Std. Median
Bayern 3.31 0.75 3.23
Baden-Württemberg 3.80 0.80 3.73
Hessen 5.11 1.38 5.18
Rheinland-Pfalz 5.53 1.53 5.39
Sachsen 5.80 0.89 5.58
Niedersachsen 5.86 1.73 5.90
Schleswig-Holstein 5.92 0.92 5.95
Saarland 6.08 1.82 5.75
Thüringen 6.10 1.36 5.57
Brandenburg 6.73 1.50 7.03
Nordrhein-Westfalen 7.14 2.46 6.85
Mecklenburg-Vorpommern 7.55 1.18 7.67
Sachsen-Anhalt 7.70 1.33 7.47
Bremen 9.43 2.32 9.43
Bitte beachten:
Wir haben keine Informationen zu Berlin und Hamburg, weshalb sie nicht in der Tabelle aufgeführt wurden.
1 Die ostdeutschen Bundesländer sind grau hinterlegt.

Hier sehen wir insbesondere für Landkreise in Bayern und Baden-Württemberg Arbeitslosenquoten von durchschnittlich unter 4% und für Landkreise in Sachsen-Anhalt, Bremen, Nordrhein-Westfalen und Mecklenburg-Vorpommern Arbeitslosenquoten von durchschnittlich über 7%. Es fällt weiterhin auf, dass die Landkreise in ehemaligen ostdeutschen Bundesländern alle eher hohe Arbeitslosenquoten aufweisen. Weiterhin ist die Standardabweichung, d.h. die Streuung um den Mittelwert, insgesamt für die Landkreise der einzelnen Bundesländer vergleichbar. Mit rund 1-2 Prozentpunkten ist die Standardabweichung auch nicht so hoch, d.h. die Landkreise pro Bundesland sind recht ähnlich zueinander. Der Median für die Arbeitslosenquote der Landkreise liegt recht nahe am Mittelwert, was auch darauf hindeutet, dass die Landkreise in den einzelnen Bundesländern sich nicht stark voneinander unterscheiden. Da wir hier sehr große Unterschiede zwischen Ost- und Westdeutschland festgestellt haben wollen wir uns eine Dummyvariable “ost” generieren, welche 0 für alle ehemaligen westdeutschen und 1 für alle ehemaligen ostdeutschen Bundesländer ist:

gesamtdaten <- gesamtdaten %>%
  mutate( ost = as.factor(ifelse(bundesland_name %in% c("Brandenburg", "Mecklenburg-Vorpommern", "Sachsen", "Sachsen-Anhalt", "Thüringen"), 1, 0)),
          ost_name = ifelse(ost == 1, "Ostdeutschland", "Westdeutschland"))

Durch diese Aufteilung treten die Unterschiede in der Arbeitslosenquote zwischen den ehemaligen ost- und westdeutschen Landkreisen besonders stark zutage. Insbesondere wenn wir uns die Quantile anschauen: Im 25% Quantil in Ostdeutschland ist die Arbeitslosenquote bei 5,44%, in Westdeutschland ist das 75% Quantil bei einer Arbeitslosenquote von 6,27%!

gesamtdaten %>%
  group_by(ost_name) %>%
  summarise(mean_alo = mean(alo_quote, na.rm = T), sd_alo = sd(alo_quote, na.rm = T), min_alo = min(alo_quote, na.rm = T), q25 = quantile(alo_quote, c(0.25), na.rm = T), median_alo = median(alo_quote, na.rm = T), q75 = quantile(alo_quote, 0.75, na.rm = T), max_alo = max(alo_quote, na.rm = T)) %>%
  ungroup() %>%
  kbl(col.names = c("Bundesland",
                    "Mittelwert",
                    "Std.",
                    "Minimum",
                    "P25",
                    "Median",
                    "P75",
                    "Maximum"), digits = 2) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive")) %>%
  kable_paper(full_width = F) %>%
  add_header_above(c(" " = 1, "Arbeitslosenquote" = 7), align = "c") %>%
  footnote(general = "Wir haben keine Informationen zu Berlin und Hamburg, weshalb sie nicht in der Berechnung enthalten sind.",
           general_title = "Bitte beachten: ")
Arbeitslosenquote
Bundesland Mittelwert Std. Minimum P25 Median P75 Maximum
Ostdeutschland 6.65 1.46 4.19 5.44 6.63 7.60 10.98
Westdeutschland 4.96 2.07 1.81 3.45 4.33 6.27 14.47
Bitte beachten:
Wir haben keine Informationen zu Berlin und Hamburg, weshalb sie nicht in der Berechnung enthalten sind.

Nun haben wir uns ein erstes Bild über die Daten, insbesondere die Arbeitslosigkeit in 2021 machen können. Natürlich sollten die von uns heruntergeladenen Informationen zum BIP und den Schulden der einzelnen Landkreise auch berücksichtigt werden und wir können diese unseren Tabellen hinzufügen:

bula_data_all <- gesamtdaten %>% 
  group_by( bundesland_name ) %>%
  summarise(mean_alo = mean(alo_quote), sd_alo = sd(alo_quote), mean_bip_kopf = mean(bip_pro_kopf), sd_bip_kopf = sd(bip_pro_kopf), mean_schulden_kopf = mean(Schulden_gesamt/Einwohner), sd_schulden = sd(Schulden_gesamt/Einwohner)) %>%
  ungroup()

bula_data_all %>%
  arrange( mean_alo ) %>%
  filter( !is.na(mean_schulden_kopf) ) %>%
  kbl(col.names = c("Bundesland", "Mittelwert","Std.","Mittelwert","Std.", "Mittelwert","Std."), digits = 2, format = "html", 
      caption = "Deskriptive Tabelle komplett") %>%
  #kbl(col.names = c("Mittelwert","Std.", "Mittelwert","Std."), digits = 0) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive")) %>%
  kable_paper(full_width = F) %>%
  row_spec(c(5, 7,9, 10, 12,13), bold = T, color = "white", background = "#BBBBBB") %>%
  add_header_above(c(" " = 1, "Arbeitslosenquote" = 2, "BIP pro Kopf" = 2, "Schulden pro Kopf" = 2), align = "c") %>%
  footnote(general = "Wir haben keine Informationen zu Berlin, Hamburg und Bremen bzgl. ihrer Schulden pro Kopf, weshalb sie nicht in der Tabelle aufgeführt wurden.", 
           general_title = "Bitte beachten: ",
           number = "Die ostdeutschen Bundesländer sind grau hinterlegt.") 
Deskriptive Tabelle komplett
Arbeitslosenquote
BIP pro Kopf
Schulden pro Kopf
Bundesland Mittelwert Std. Mittelwert Std. Mittelwert Std.
Bayern 3.31 0.75 46406.88 20301.64 2098.78 1524.02
Baden-Württemberg 3.80 0.80 47186.49 13467.27 2944.47 2287.43
Hessen 5.11 1.38 43132.29 17906.49 3708.42 3336.00
Rheinland-Pfalz 5.53 1.53 38134.60 17557.18 3166.35 3657.82
Sachsen 5.80 0.89 31943.24 5389.00 2278.76 734.65
Niedersachsen 5.86 1.73 38128.10 21920.77 2394.06 1873.50
Schleswig-Holstein 5.92 0.92 36412.39 8320.48 3003.42 1403.58
Saarland 6.08 1.82 34172.16 8197.88 5220.69 1246.74
Thüringen 6.10 1.36 30304.08 6108.02 2702.98 592.37
Brandenburg 6.73 1.50 32524.72 6472.87 2506.85 1333.10
Nordrhein-Westfalen 7.14 2.46 39209.31 11811.28 4287.31 2506.46
Mecklenburg-Vorpommern 7.55 1.18 31891.43 6650.10 3695.52 1634.25
Sachsen-Anhalt 7.70 1.33 30805.55 4641.38 2834.85 1448.58
Bitte beachten:
Wir haben keine Informationen zu Berlin, Hamburg und Bremen bzgl. ihrer Schulden pro Kopf, weshalb sie nicht in der Tabelle aufgeführt wurden.
1 Die ostdeutschen Bundesländer sind grau hinterlegt.

Was wir hier gut sehen können ist folgendes: Für alle Bundesländer in denen wir niedrige Arbeitslosenquoten pro Landkreis haben gibt es auch durchschnittlich ein hohes BIP pro Kopf über die Landkreise des Bundeslandes hinweg. D.h. speziell in unserem Datensatz von 2021 ist in den Bundesländern mit einer durchschnittlich hohen Wirtschaftsleistung in den Landkreisen die Arbeitslosenquote gering. Insbesondere für ostdeutsche Landkreise ist das BIP pro Kopf durchschnittliche nicht über 33 000€ (Ausnahme Schleswig-Holstein), bei den westdeutschen Landkreisen liegt das BIP pro Kopf hingegen durchschnittliche überall über 33 000€. Bei den Schulden ist dieser Sachverhalt weniger deutlich ausgeprägt. Es gibt westdeutsche Landkreise, wie z.B. in den Bundesländern Bayern und Niedersachsen, mit sehr geringen Schulden pro Kopf, doch dies trifft auch für Landkreise in Sachsen oder Brandenburg zu. Insbesondere Landkreise im Saarland haben durchschnittlich eine sehr hohe Verschuldung pro Kopf von über 5200€.

Allein durch den Mittelwert und die Standardabweichung konnten wir bereits sehr viel über unsere Daten lernen und haben hier schon einige deutliche Unterschiede zwischen ostdeutschen und westdeutschen Landkreisen feststellen können.

Wir können in deskriptiven Statistiken nun nicht nur Ouerschnittsdaten für ein bestimmtes Jahr betrachten, sondern auch Paneldaten analysieren. Hierbei können wir den Mittelwert und die Standardabweichung über den kompletten Datensatz bilden, wie in den Querschnittsdaten, oder wir können Trends in den Daten beschreiben. Eine solche Trendanalyse wollen wir mit der folgenden Tabelle unternehmen. Dieses mal nehmen wir für unsere Analyse das Paket gt.

bundesland_name <- gesamtdaten %>%
  select(bundesland_name, bundesland, ost_name) %>%
  distinct() %>%
  rename(Regionalschluessel = bundesland)

bip_daten <- bip_zeitreihe %>%
  left_join(., bundesland_name, by="Regionalschluessel") %>%
  filter( nchar(Regionalschluessel) == 2 ) %>%
  filter( Regionalschluessel != 17) %>% #17 = Deutschland
  filter( Jahr == 1992 | Jahr == 2007 | Jahr == 2021) %>%
  group_by(ost_name, bundesland_name, Jahr) %>%
  summarise( mean_bip = mean(bip_pro_kopf)) %>%
  ungroup()


bip_daten %>% 
  pivot_wider(names_from = "Jahr", values_from = "mean_bip") %>%
  gt(groupname_col = "ost_name") %>% 
  fmt_number(columns = c(`1992`, `2007`, `2021`), decimals = 0) %>%
  fmt_currency(columns = c(`1992`, `2007`, `2021`), rows = 1, currency = "EUR", decimals = 0) %>%
  cols_align(align = "left",
             columns = c(`bundesland_name`)) %>% 
  cols_label(bundesland_name = md("")) %>%
  tab_spanner(label = "BIP pro Kopf in den einzelnen Bundesländern", columns = c(`1992`, `2007`, `2021`)) %>% 
  tab_style(
    style = cell_text(color = "black", weight = "bold"),
    locations = list(
      cells_column_spanners(everything()),
      cells_column_labels(everything())
    )
  ) %>%  
  tab_options(
    row_group.border.top.width = px(3),
    row_group.border.top.color = "black",
    row_group.border.bottom.color = "black",
    table_body.hlines.color = "white",
    table.border.top.color = "white",
    table.border.top.width = px(3),
    table.border.bottom.color = "white",
    table.border.bottom.width = px(3),
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
  ) %>% 
  tab_source_note(md("**Daten**: Statistische Ämter Deutschlands<br>**Inspiration**: @thomas_mock"))
BIP pro Kopf in den einzelnen Bundesländern
1992 2007 2021
Ostdeutschland
Brandenburg €9,667 €21,074 €31,787
Mecklenburg-Vorpommern 9,397 19,863 30,957
Sachsen 9,785 22,243 33,330
Sachsen-Anhalt 9,124 20,807 31,381
Thüringen 8,896 20,529 31,413
Westdeutschland
Baden-Württemberg 25,458 35,860 48,493
Bayern 24,263 35,040 50,643
Berlin 21,848 29,001 45,074
Bremen 28,401 41,139 51,822
Hamburg 38,063 53,925 70,620
Hessen 27,050 37,731 48,190
Niedersachsen 20,383 27,478 39,390
Nordrhein-Westfalen 22,793 30,891 41,440
Rheinland-Pfalz 20,788 26,709 39,530
Saarland 20,626 30,323 36,730
Schleswig-Holstein 20,256 25,314 35,903
Daten: Statistische Ämter Deutschlands
Inspiration: @thomas_mock

Auch in dieser Tabelle treten die Unterschiede zwischen westdeutschen und ostdeutschen Landkreisen zutage. Während die westdeutschen Landkreise bereits im Jahr 1992 ein BIP pro Kopf von durchschnittlich über 20 000€ aufweisen konnten, hatten viele ostdeutsche Landkreise diese Schwelle gerade so im Jahr 2007 erreicht. Jedoch gibt es seit dem Jahr 1992 einen Aufholprozess der ostdeutschen Landkreise an die westdeutschen Landkreise. Dieser Prozess fand jedoch hauptsächlich in den Jahren direkt nach der Wende statt. Z.B. war das durchschnittliche BIP pro Kopf in den Landkreisen in Thüringen im Jahr 1992 nur 34,9% des durchschnittlichen BIP pro Kopf der Landkreise in Baden-Württemberg. In 2007 kletterte der Anteil bereits auf 57,2% und in 2021 liegt er bei 64,8%. Durch die Ergebnisse unserer Tabelle bestärkt, könnten wir vermuten das die Erneuerung der Infrastruktur und der Ansiedlung neuer Industriezweige in den ostdeutschen Landkreisen zu einem schnelleren Wachstum dieser Landkreise direkt nach der Wende und in den 1990er Jahren geführt hat. Dieses Wachstum hat sich jedoch in den letzten Jahren deutlich verlangsamt und es kommt nur noch zu einer sehr moderaten Anpassung des BIP pro Kopf.

Visualisierung der Unterschiede

Tabellen sind hilfreich um Informationen kompakt zu präsentieren. Jedoch ist es oft ebenso wichtig (und manchmal für ihre Argumentation umso wichtiger) Erkenntnisse visuell zu veranschaulichen. In diesem Abschnitt wollen wir mehr über die Zusammensetzung jeder Variablen erfahren und dafür Grafiken verwenden.

Arbeitslosenquote

Die Variable, welche uns besonders interessiert ist die Arbeitslosenquote, insbesondere da ihr Cousin gemeint hat, dass Deutschland kein Problem mit der Arbeitslosigkeit hat. Wir wollen hier alle Datenpunkte zeigen, d.h. die Arbeitslosenquote eines jeden Landkreises für das Jahr 2021, getrennt nach Ost- und Westdeutschland. Weiterhin wollen wir unsere Grafik um einen Boxplot erweitern um einen Vergleich des Medians der Arbeitslosenquote in Ost- und Westdeutschland zu ermöglichen.

alo_quote_jitter <- gesamtdaten %>%
  select(alo_quote, landkreis_name, bundesland_name, ost_name) %>%
  ggplot(aes(x = ost_name, y=alo_quote)) +
  geom_jitter(alpha=0.5) +
  geom_boxplot(alpha = 0.1) +
  theme_minimal() +
  labs(title = "Arbeitslosenquote in Deutschland",
       subtitle = "Eine Beobachtung repräsentiert einen Landkreis",
       x = "",
       y = "Arbeitslosenquote",
       caption = "Quelle: Daten der Agentur für Arbeit aus dem Jahr 2021")
  
alo_quote_jitter

# Hamburg und Berlin gibt es keine Informationen, daher gibt R die Warnmeldung aus das 2 rows missing sind

Das Schaubild zeigt uns zum Einen, dass es deutlich mehr westdeutsche, wie ostdeutsche Landkreise gibt (nicht verwunderlich), aber auch, dass diese westdeutschen Landkreise zu einem sehr großen Teil weniger als 5% Arbeitslosigkeit aufweisen, wohingegen der größte Teil aller ostdeutschen Landkreise mehr als 5% Arbeitslosigkeit aufweist. Selbst der ostdeutsche Landkreis mit der niedrigsten Arbeitslosenquote ist nur leicht unter dem Median in Westdeutschland. Jedoch können wir konstatieren, dass ihr Cousin recht hatte mit seiner Behauptung, denn es gibt sowohl in Ost als auch in Westdeutschland nur sehr wenige Landkreise welche eine Arbeitslosenquote von mehr als 10% haben. In Spanien gibt es fast keine Region mit einer Arbeitslosenquote unter 10%! Nichtsdestotrotz sind auch in Deutschland regionale Unterschiede erkennbar, welche wir insbesondere im dritten Teil der Case Study zu erklären versuchen. Als mögliche Faktoren, welche die Arbeitslosenquote erklären könnten, wollen wir hier das BIP pro Kopf und die Pro-Kopf-Verschuldung näher untersuchen.

Wir haben nun auch noch die Möglichkeit bestimmte Regionen in unterschiedlichen Farben zu markieren. Wollen wir beispielsweise alle Landkreise aus Baden-Württemberg hervorheben, so können wir diese beispielsweise rot einfärben und bekommen dadurch einen Eindruck wo Baden-Württemberg im deutschlandweiten Vergleich der Arbeitslosenquote pro Landkreis steht.

alo_quote_jitter_farbe <- gesamtdaten %>%
  select(alo_quote, landkreis_name, bundesland_name, ost_name) %>%
  mutate(baden_wuerttemberg = as.factor(ifelse(bundesland_name == "Baden-Württemberg", 1, 0))) %>%
  ggplot(aes(x = ost_name, y=alo_quote)) +
  geom_jitter(alpha=0.5, aes(color = ifelse(baden_wuerttemberg == 1, "darkred", "darkgrey"))) +
  scale_color_identity() +
  geom_boxplot(alpha = 0.1) +
  theme_minimal() +
  labs(title = "Arbeitslosenquote in Deutschland",
       subtitle = "Eine Beobachtung repräsentiert einen Landkreis",
       x = "",
       y = "Arbeitslosenquote",
       caption = "Quelle: Daten der Agentur für Arbeit aus dem Jahr 2021\nDie roten Datenpunkte sind Landkreise aus Baden-Württemberg") +
  theme(legend.position = "none")
  
alo_quote_jitter_farbe

Hinweis zur vorherigen Grafik: Falls wir dem Leser etwas mehr Freiheiten einräumen möchten und unsere Grafik als HTML Datei übergeben, so können wir auch eine interaktive Grafik nutzen. So kann der Leser mit unserer Ausarbeitung interagieren:

# Zusätzlich Info um welchen Landkreis es sich handelt
alo_quote_jitter_plotly <- gesamtdaten %>%
  select(alo_quote, landkreis_name, bundesland_name, ost_name) %>%
  ggplot(aes(x = ost_name, y=alo_quote, group = landkreis_name)) +
  geom_jitter(alpha=0.5) +
  geom_boxplot(alpha = 0.1) +
  theme_minimal() +
  labs(title = "Arbeitslosenquote in Deutschland",
       subtitle = "Eine Beobachtung repräsentiert einen Landkreis",
       x = "",
       y = "Arbeitslosenquote",
       caption = "Quelle: Daten der Bundesagentur Agentur für Arbeit aus dem Jahr 2021.")

ggplotly(alo_quote_jitter_plotly)