Recently Published
Analyse: Zusammenhang Ausgabe Schüler*innen und Schulabgänger*innen
Data Science Projekt
Zusammenhang Ausgabe Schüler*innen und Schulabgänger*innen
# Zusammenhang zwischen Bildungsausgaben und Schulabbrecher:innen in Deutschland (2022)
## Forschungsfrage
Besteht ein Zusammenhang zwischen den öffentlichen Bildungsausgaben je Schüler:in und der Zahl früher Schulabgänger:innen in den deutschen Bundesländern?
## Hypothese
Bundesländer mit höheren Pro-Kopf-Ausgaben im Bildungsbereich haben eine geringere Quote früher Schulabgänger:innen.
## Daten
Die Analyse basiert auf zwei offenen Datensätzen:
- **Ausgaben für öffentliche Schulen je Schüler:in nach Bundesländern (2022)**
- **Frühe Schulabgänger:innen nach Bundesländern (2022)**
Beide Datensätze stammen vom Statistischen Bundesamt und wurden über CSV-Dateien importiert und bereinigt.
## Methode
Die beiden Datensätze wurden in R bereinigt, zusammengeführt und anschließend analysiert. Für die Visualisierung wurde ein Scatterplot mit Regressionslinie erstellt. Der Zusammenhang wurde mittels Pearson-Korrelation quantifiziert.
```r
correlation <- cor(daten_final$Ausgaben, daten_final$Abbrecher2022)
Code:
# Pakete laden
library(dplyr)
library(readr)
# Daten einlesen
ausgaben <- read_csv2("C:/Users/carme/Desktop/ELMEB/SS 25/Data Science/Forschungsthema/Tabelle-2.1.14.csv", skip = 5)
abbrecher <- read_csv2("C:/Users/carme/Desktop/ELMEB/SS 25/Data Science/Forschungsthema/Tabelle-0.64.csv", skip = 5)
# Tatsächliche Namen herausfinden von Tabelle Ausgaben
names(ausgaben)
View(ausgaben)
# Namen anpassen in Tabelle Ausgaben
ausgaben_clean <- ausgaben %>%
select(Bundesland = Land, Jahr, Ausgaben = `Euro...3`) %>%
filter(Jahr == 2022)
# Tatsächliche Namen herausfinden von Tabelle Abbrecher
names(abbrecher)
# Passenden Wert aussuchen - frühere Schulabgänger:innen im Jahr 2022.
abbrecher_clean <- abbrecher %>%
select(Bundesland = `Regionale Aufteilung`, Abbrecher2022 = `Tsd....18`) %>%
mutate(
Abbrecher2022 = as.numeric(gsub(",", ".", Abbrecher2022))
) %>%
group_by(Bundesland) %>%
summarise(Abbrecher2022 = mean(Abbrecher2022, na.rm = TRUE))
# Daten zusammenführen
merged <- inner_join(ausgaben_clean, abbrecher_clean, by = "Bundesland")
# Ergebnis anzeigen
print(merged)
# Zeile Länder insgesamt entfernen, damit der Wert nicht verfälscht wird
daten_final <- ausgaben_clean %>%
left_join(abbrecher_clean, by = "Bundesland") %>%
filter(!is.na(Abbrecher2022), Bundesland != "Länder insgesamt")
# Korrelation berechnen
correlation <- cor(daten_final$Ausgaben, daten_final$Abbrecher2022)
# Scatterplot
library(ggplot2)
ggplot(daten_final, aes(x = Ausgaben, y = Abbrecher2022)) +
geom_point(color = "steelblue", size = 3) +
geom_smooth(method = "lm", se = FALSE, color = "darkred") +
labs(
title = "Zusammenhang zwischen Bildungsausgaben und Schulabbrecherquote (2022)",
subtitle = paste("Korrelationskoeffizient:", round(correlation, 2)),
x = "Ausgaben pro Schüler:in (€)",
y = "Frühe Schulabgänger:innen (in Tsd.)"
) +
theme_minimal()
# Ergebnis: Punkte: Jedes Bundesland als Punkt im Diagramm = unklar -
# deshalb nur für BW aussuchen,also BW in blau anzeigen lassen, alles andere grau
ggplot(daten_final, aes(x = Ausgaben, y = Abbrecher2022)) +
geom_point(aes(color = Bundesland == "Baden-Württemberg"), size = 3) +
scale_color_manual(values = c("FALSE" = "lightgray", "TRUE" = "steelblue")) +
geom_smooth(method = "lm", se = FALSE, color = "darkred") +
labs(
title = "Baden-Württemberg im Vergleich",
subtitle = paste("Korrelationskoeffizient:", round(correlation, 2)),
x = "Ausgaben pro Schüler:in (€)",
y = "Frühe Schulabgänger:innen (in Tsd.)",
color = "Baden-Württemberg"
) +
theme_minimal()